regression Archives - Page 2 of 112

우리는 로지스틱 회귀 분석을 진행하고 있으며 평균 추정 확률은 항상 표본의 확률과 같다는 것을 깨달았습니다. 즉, 적합치의 평균은 샘플의 평균과 같습니다.

아무도 나에게 이유를 설명 하거나이 데모를 찾을 수있는 참조를 줄 수 있습니까?

답변

관찰하는 동작은 로지스틱 회귀 분석의 “일반적인”사례이지만 항상 사실 은 아닙니다 . 또한 훨씬 더 일반적입니다 (아래 참조). 세 가지 개별 사실의 합류의 결과입니다.

로그 확률을 예측 변수의 선형 함수로 모델링하는 선택
로지스틱 회귀 모형에서 계수의 추정치를 얻을 수있는 최대 가능성의 사용
모형에 절편을 포함시킵니다.

상기 중 하나가 존재하지 않는 경우, 평균 추정 확률은 일반적으로 표본의 비율과 일치하지 않습니다.

그러나 (거의) 모든 통계 소프트웨어는 이러한 모델에 대해 최대 우도 추정을 사용하므로 실제로 항목 1과 2는 본질적으로 항상 존재하며 특별한 경우를 제외하고는 일반적으로 항목 3이 존재합니다.

일부 세부 사항

전형적인 로지스틱 회귀 프레임 워크에서 우리는 확률 갖는 독립 이항 실험의 결과를 관찰합니다 . 하자 관찰 응답합니다. 그러면 총 우도는
$p_{i}$

피_{나는}

$p_i$ $y_{i}$

{와이}_{나는}

$y_i$
로그 우도가되도록

엘 = \prod_{나는 = 1}^{엔} 피_{나는}^{{와이}_{나는}} (1 - 피_{나는})^{1 - {와이}_{나는}} = \prod_{나는 = 1}^{엔} 특급 ({와이}_{나는} 로그 (피_{나는} / (1 - 피_{나는})) + 로그 (1 - 피_{나는})),

$\mathcal L = \prod_{i=1}^n p_i^{y_i} (1-p_i)^{1 - y_i} = \prod_{i=1}^n \exp( y_i \log(p_i/(1-p_i)) + \log(1-p_i)) \>,$

ℓ = \sum_{나는 = 1}^{엔} {와이}_{나는} 로그 (피_{나는} / (1 - 피_{나는})) + \sum_{나는 = 1}^{엔} 로그 (1 - 피_{나는}) .

$\ell = \sum_{i=1}^n y_i \log(p_i / (1-p_i)) + \sum_{i=1}^n \log(1-p_i) \> .$

이제, 우리는 예측의 벡터가 각각 관찰과 사실 1에서 로지스틱 회귀 모델을 가정한다, 위의 그
$x_{i}$

{엑스}_{나는}

$\newcommand{\x}{\mathbf x}\x_i$
매개 변수의 알 수없는 벡터 . 참고:이를 재정렬하면 됩니다.

로그 \frac{피_{나는}}{1 - 피_{나는}} = β^{티} {엑스}_{나는},

$\log \frac{p_i}{1-p_i} = \beta^T \x_i \>,$ $β$

β

$\beta$ $p_{i} = 1 / (1 + e^{- β^{T} x_{i}})$

피_{나는} = 1 / (1 + {이자형}^{- β^{티} {엑스}_{나는}})

$p_i = 1/(1+e^{-\beta^T \x_i})$

모형에 맞는 최대 우도 (Fact 2)를 사용하면 을 고려하여 풀어야 할 일련의 방정식이 생성됩니다 . 관찰하십시오
$\partial ℓ / \partial β = 0$

\partial ℓ / \partial β = 0

$\partial \ell / \partial \beta = 0$

\frac{\partial ℓ}{\partial β} = \sum_{나는} {와이}_{나는} {엑스}_{나는} - \sum_{나는} \frac{{엑스}_{나는}}{1 + 특급 (- β^{티} {엑스}_{나는})} = \sum_{나는} {와이}_{나는} {엑스}_{나는} - \sum_{나는} 피_{나는} {엑스}_{나는},

$\frac{\partial \ell}{\partial \beta} = \sum_i y_i \x_i - \sum_i \frac{\x_i}{1+\exp(-\beta^T \x_i)} = \sum_i y_i \x_i - \sum_i p_i \x_i \>,$

\sum_{나는} {와이}_{나는} {엑스}_{나는} = \sum_{나는} {\hat{피}}_{나는} {엑스}_{나는},

$\sum_i y_i \x_i = \sum_i \hat{p}_i \x_i \>,$ ${\hat{p}}_{i} = (1 + \exp (- {\hat{β}}^{T} x_{i}))^{- 1}$

{\hat{피}}_{나는} = (1 + 특급 (- {\hat{β}}^{티} {엑스}_{나는}))^{- 1}

$\hat{p}_i = (1+\exp(-\hat{\beta}^T \x_i))^{-1}$

$x_{i}$

{엑스}_{나는}

$\x_i$ $j$

제이

$j$ $i$

나는

$i$ $\sum_{i} y_{i} x_{i j} = \sum_{i} y_{i} = \sum_{i} {\hat{p}}_{i}$

\sum_{나는} {와이}_{나는} {엑스}_{나는 제이} = \sum_{나는} {와이}_{나는} = \sum_{나는} {\hat{피}}_{나는}

$\sum_i y_i x_{ij} = \sum_i y_i = \sum_i \hat{p}_i$

시뮬레이션

$R$

아르 자형

$R$

x <- rnorm(100)
p <- 1/(1+exp(-3*x))
y <- runif(100) <= p
mean(y)
# Should be identical to mean(y)
mean( predict( glm(y~x, family="binomial"), type="response" ) )
# Won't be identical (usually) to mean(y)
mean( predict( glm(y~x+0, family="binomial"), type="response") )

일반적인 경우 : 위에서 언급 한 바와 같이, 평균 응답이 평균 예측 평균과 같다는 특성 은 표준 링크 함수를 사용하고 표준 링크 함수를 사용하여 최대 가능성에 맞는 일반화 된 선형 모델 의 클래스에 대해 훨씬 더 큰 일반성을 유지 합니다. 모델.

참고 문헌

관련 이론에 대한 좋은 참고 문헌은 다음과 같습니다.

A. Agresti (2002), Categorical Data Analysis , 2nd ed., Wiley.
P. McCullagh and JA Nelder (1989), Generalized Linear Models , 2nd ed., Chapman & Hall. (일반적인 방법의 원저자로부터의 텍스트)

How IT

언제든지 물어보세요.

태그 보관물: regression

로지스틱 회귀 특성 즉, 적합치의 평균은 샘플의 평균과 같습니다. 아무도 나에게

답변

답변