로지스틱 회귀의 반응 변수에 iid 가정이 있습니까?
예를 들어 데이터 포인트 가 있다고 가정 합니다. 응답 가 의 Bernoulli 분포에서 온 것 같습니다 . 따라서 매개 변수 가 다른 Bernoulli 분포 가 있어야합니다 .Y i p i = 로짓 ( β 0 + β 1 x i ) 1000 p
따라서 그것들은 “독립적”이지만 “동일한”것은 아닙니다.
내가 맞아?
추신. 나는 “기계 학습”문헌에서 로지스틱 회귀를 배웠다. 여기서 우리는 목적 함수를 최적화하고 가정에 대해 너무 많이 말하지 않고 데이터 테스트에 좋은지 점검한다.
내 질문은이 게시물로 시작했습니다 . 통계 선형 모델의 링크 함수 이해 통계 가정에 대해 더 배우려고합니다.
답변
이전 질문 에서 GLM이 확률 분포, 선형 예측 변수 및 링크 함수 g 와 관련하여 설명되어 있으며
여기서 는 로짓 연결 함수이고 Y 는 Bernoulli 분포를 따르는 것으로 가정합니다.
각 는 Bernoulli 분포를 따르며 X에 조건부 인 자체 평균 μ i 입니다 . 우리는 각각의 Y i 가 동일한 평균으로 동일한 분포에서 나온다고 가정 하지는 않지만 (이것은 절편 전용 모델 Y i = g – 1 ( μ ) 일 것입니다. ) 모두 서로 다른 평균을가집니다. 우리는 Y i 가 독립적 이라고 가정합니다 . 즉, 우리는 후속 Y i 값들 사이의 자기 상관과 같은 것들에 대해 걱정할 필요가 없습니다 .
IID 가정이 모델은 선형 회귀 (즉, 가우스 GLM), 오류 관련이있다
여기서 이므로 μ i 주위에 iid 노이즈 가 있습니다 . 에 관심이있는 이유입니다 잔차 진단 받는 사람과주의를 기울 장착 대 잔차 플롯 . 이제 로지스틱 회귀와 같은 GLM의 경우 가우시안 모델과 같은 가산 적 잡음 용어가 없기 때문에 그리 간단하지 않습니다 ( 여기 , 여기 및 여기 참조).
). 우리는 여전히 잔차가 0 근처에서 “무작위”가되기를 원하며 모델에서 설명되지 않은 일부 효과가 있음을 시사하기 때문에 그 추세를보고 싶지는 않습니다. 정상 및 / 또는 iid . 통계 학습 스레드 에서 iid 가정의 중요성에 대해서도 참조하십시오 .
각주로서, 우리는 각 가 같은 종류의 분포에서 나온다는 가정을 버릴 수도 있습니다 . 다른 Y i 가 다른 모수를 가진 다른 분포를 가질 수 있다고 가정하는 (GLM이 아닌) 모델이 있습니다. 즉, 데이터가 다른 분포 의 혼합 에서 나온 것 입니다. 이러한 경우, 우리는 또한 다른 값을 가진 다른 분포 (예 : 전형적인 실제 데이터)에서 나오는 종속 값이 대부분의 경우 모델링하기에 너무 복잡하기 때문에 (종종 불가능한) 종속 값은 Y i 값이 독립적 이라고 가정합니다. .
답변
언급 한 바와 같이, 선형 회귀 분석에서 iid 오류 의 경우를 종종 고려하지만 , 이것은 가장 일반적인 선형 모형 (로지스틱 회귀 포함)에서 직접적으로 동등한 것은 아닙니다. 로지스틱 회귀 분석에서 우리는 일반적으로 모두 매우 엄격한 관계 (즉, 로그 확률에 대한 선형 영향)를 갖는 결과의 독립성을 가정합니다. 그러나 이것들은 동일하지 않은 임의의 변수를 초래하거나 선형 회귀의 경우와 같이 상수 항에 iid 오류를 더해 분해 할 수 없습니다.
당신이 경우 정말 응답이 IID 관계의 일종을 가지고 있음을 보여주고 싶은, 그 다음 단락 날 따라와. 이 아이디어가 구타를 조금 벗어나는 것임을 아십시오. 교수님의 인내심이 부족한 경우 최종 답변에 대해이 답변에 대한 완전한 크레딧을 얻지 못할 수 있습니다.
임의 변수 생성을위한 inverse-cdf 방법에 익숙 할 것입니다. 그렇지 않을 경우, 여기에 원기가있다 : 경우 누적 분포 함수가 F X를 , 나는 무작위로 생성 할 수 있습니다에서 그립니다 X 립니다 첫 번째는 임의 복용하여 Q ~ 제복 (0,1) 다음 계산 X = F – 1 X ( Q )
. 이것은 로지스틱 회귀와 어떤 관련이 있습니까? 응답에 대한 생성 프로세스에는 두 부분이 있다고 생각할 수 있습니다. 공변량을 성공 확률과 관련시키는 고정 부분, 및 고정 부분상의 조건부 랜덤 변수의 값을 결정하는 임의 부분. 고정 부분은 로지스틱 회귀의 링크 함수, 즉 의해 정의됩니다 . 랜덤 부분에 대해 F y ( y | p ) 를 확률 p가 있는 Bernoulli 분포의 cdf로 정의합니다 . 그러면 반응 변수 Y를 생각할 수 있습니다
다음의 세 단계에 의해 생성되고 :
1.)
2.)
3.)
로지스틱 회귀 분석의 표준 가정은 가 iid라는 것입니다.