로지스틱 회귀 분석에서 생략 된 변수 바이어스와 일반 최소 제곱 회귀 분석에서 생략 된 변수 바이어스 분석에서 생략 된 변수 바이어스에 대한

로지스틱 및 선형 회귀 분석에서 생략 된 변수 바이어스에 대한 질문이 있습니다.

선형 회귀 모델에서 일부 변수를 생략했다고 가정 해보십시오. 생략 된 변수는 모델에 포함 된 변수와 관련이없는 것으로 가정하십시오. 생략 된 변수는 내 모델의 계수를 바이어스하지 않습니다.

그러나 로지스틱 회귀 분석에서 나는 이것이 사실이 아니라는 것을 알게되었습니다. 생략 된 변수가 포함 된 변수와 상관되지 않더라도 생략 된 변수는 포함 된 변수에 대한 계수를 바이어스합니다. 이 주제에 관한 논문을 찾았지만 머리 나 꼬리를 만들 수는 없습니다.

여기 종이파워 포인트 슬라이드가 있습니다.

분명히 바이어스는 항상 0을 향합니다. 아무도 이것이 어떻게 작동하는지 설명 할 수 있습니까?



답변

“프로 빗 (probit)”모델을 조사하면 “감쇠 편향 (attenuation bias)”의 경우가 더 명확하게 제시 될 수 있지만 결과는 로지스틱 회귀에도 적용됩니다.

조건부 확률 모델 (물류 (로짓), “프로 빗”및 “선형 확률”모델) 아래에서 잠재 (관찰 할 수 없는) 선형 회귀 모델을 가정 할 수 있습니다 .

y∗=Xβ+u

여기서 는 관측 할 수없는 연속 변수입니다 (그리고 X 는 회귀 행렬). 오차 항은 회귀 변수와 독립적 이며 밀도가 0대칭 분포를 따르는 것으로 가정 하고 표준 정규 분포 F U ( u ) = Φ ( u ) 입니다.

y∗

X

FU(u)=Φ(u)

우리가 관찰 한 것, 즉 이진 변수 는 관찰 할 수없는 y * 의 지표 함수 라고 가정합니다 .

y

y∗

y=1ify∗>0,y=0ify∗≤0

그런 다음 ” 가 값을 취할 확률은 얼마 입니까? 1

y

1

회귀자가 주어지면 얼마입니까?”(즉, 조건부 확률을보고 있습니다). 이것은

P(y=1∣X)=P(y∗>0∣X)=P(Xβ+u>0∣X)=P(u>−Xβ∣X)=1−Φ(−Χβ)=Φ(Xβ)

표준 누적 분포 함수의 “반사”특성으로 인한 마지막 동등성. 밀도 함수의 대칭은 0입니다. 우리가 가정하고 있지만 참고 것을 독립적 인 X 에 컨디셔닝 X는 양의 치료하기 위해 필요한 X를

u

X

X

비 등을 랜덤.

라고 가정 하면 이론적 모델을 얻습니다.

Xβ=b0+b1X1+b2X2

(1)P(y=1∣X)=Φ(b0+b1X1+b2X2)

이제 X 1 과 독립적이며 근본적인 회귀 사양에서 잘못 배제되었습니다. 그래서 우리는

X2

X1


것으로 가정 상기 X 2는 또한 정상 랜덤 변수 X 2 ~ N을 ( μ 2 , σ 2 2 ) . 그러나 이것은

y∗=b0+b1X1+ϵ

X2

X2∼N(μ2,σ22)

ϵ=u+b2X2∼N(b2μ2,1+b22σ22)

정규 분포 (및 독립 가정)가 추가됨에 따라 폐쇄 됨. 이전과 동일한 논리를 적용하면

P(y=1∣X1)=P(y∗>0∣X1)=P(b0+b1X1+ϵ>0∣X1)=P(ϵ>−b0−b1X1∣X1)

ϵ 표준화

ϵ

variable we have

P(y=1∣X1)=1−P(ϵ−b2μ21+b22σ22≤−(b0+b2μ2)1+b22σ22−b11+b22σ22X1∣X1)

(2)⇒P(y=1∣X1)=Φ((b0+b2μ2)1+b22σ22+b11+b22σ22X1)

and one can compare models

(1)

and

(2)

.

The above theoretical expression, tells us where our maximum likelihood estimator of

b1

is going to converge, since it remains a consistent estimator, in the sense that it will converge to the theoretical quantity that really exists in the model (and of course, not in the sense that it will find the “truth” in any case):

b^1→pb11+b22σ22⟹|b^1|<|b1|

which is the "bias towards zero" result.

We used the probit model, and not the logit (logistic regression), because only under normality can we derive the distribution of

ϵ

. The logistic distribution is not closed under addition. This means that if we omit a relevant variable in logistic regression, we also create distributional misspecification, because the error term (that now includes the omitted variable) no longer follows a logistic distribution. But this does not change the bias result (see footnote 6 in the paper linked to by the OP).