데이터가 누락 된 경우에 대해 단순히 다른 모델을 작성하는 것보다 누락 된 데이터에 대한 대치가 더 나은 이유에 대해 누군가가 통찰력을 제공 할 수 있는지 궁금합니다. 특히 [일반화 된] 선형 모델의 경우 (비선형의 경우 상황이 다를 수 있음)
기본 선형 모델이 있다고 가정하십시오.
그러나 데이터 세트에 누락 된 일부 레코드가 포함되어 있습니다 . 모델이 사용될 예측 데이터 세트에는 이 누락 된 경우도 있습니다 . 진행하는 두 가지 방법이 있습니다.X 3
여러 모델
데이터를 및 사례 로 분할하고 각각에 대해 별도의 모델을 구축 할 수 있습니다. 이 와 밀접한 관련이 있다고 가정 하면 누락 된 데이터 모델이 를 과체중 하여 최상의 2- 예측 예측을 얻을 수 있습니다 . 또한 누락 된 데이터 사례가 누락 된 데이터 메커니즘으로 인해 약간 다른 경우 해당 차이를 통합 할 수 있습니다. 단점은 두 모델이 각각 데이터의 일부에만 적합하고 서로 “도움이되지”않기 때문에 제한된 데이터 집합에서는 적합하지 않을 수 있습니다.X 3 X 3 X 2 X 2
돌리기
회귀 다중 regression multiple imputation)는 먼저 및 기반으로 모델을 구축 한 다음 무작위 샘플링하여 된 데이터의 노이즈를 유지 함으로써 을 채 웁니다 . 이것은 다시 두 가지 모델이므로 위의 다중 모델 방법과 동일하지 않습니까? 그것이 성과를 능가 할 수 있다면 – 이익은 어디에서 오는가? 에 대한 적합 이 전체 세트에서 완료 되었습니까?X 1 X 2 X 1
편집하다:
Steffan의 답변은 지금까지 전가 된 데이터에 대한 완전한 사례 모델을 적합시키는 것이 완전한 데이터에 대한 성능을 능가 할 것이라고 설명하지만, 그 반대의 경우는 분명하지만, 누락 된 데이터 예측에 대해서는 여전히 오해가 있습니다.
위의 모형이 있고 완벽하게 적합하더라도 예측할 때 0을 입력하면 일반적으로 끔찍한 예측 모형이됩니다. 것으로, 예를 들면, 상상 다음 (완전히 쓸모 ) 때 존재하지만 아직의 부재에 유용하다 .X 2 β 2 = 0 X 3 X 3
내가 이해하지 못하는 주요 질문은 : 사용하는 모델 과 를 사용하는 모델, 또는 하나의 (전체) 모델을 빌드하고 사용하는 것이 더 낫다는 것입니다 예측 데이터 세트에 대한 대치-또는 이것들이 같은 것입니까?
Steffan의 대답에 따르면, 전가 된 훈련 세트에서 완전한 사례 모델을 작성하는 것이 더 좋으며, 반대로 버린 전체 데이터 세트에서 누락 된 데이터 모델을 작성하는 것이 가장 좋습니다 . 이 두 번째 단계는 예측 데이터에서 대치 모델을 사용하는 것과 다른 점이 있습니까?
답변
여기서 핵심은 누락 된 데이터 메커니즘을 이해하는 것입니다. 또는 적어도 일부를 배제하십시오. 분리 된 모델을 구축하는 것은 누락 및 비결 측 그룹을 임의의 샘플로 처리하는 것과 유사합니다. X3에서 누락이 X1 또는 X2 또는 다른 관찰되지 않은 변수와 관련이 있으면 각 모형에서 추정치가 치우칠 수 있습니다. 왜 개발 데이터 세트에 다중 대치를 사용하고 곱셈 대치 예측 세트에 결합 계수를 사용하지 않습니까? 예측 전반에 걸쳐 평균을 내면 좋을 것입니다.
답변
나는 당신이 회귀 계수의 편견 추정치에 관심이 있다고 가정합니다. 전체 사례의 분석은 회귀 계수의 바이어스 추정치 산출 제공 X3는 Y. 이것은에 의존하지 않는 누락 될 확률이 missingness 확률 X1 또는 X2에 따라, 회귀 분석 모든 유형의 경우에도 보관 유지한다.
물론 전체 사례의 비율이 적 으면 추정치가 비효율적 일 수 있습니다. 이 경우 X2, X1 및 Y에 대해 X3의 다중 대치를 사용 하여 정밀도를 높일 수 있습니다. 자세한 내용은 White and Carlin (2010) Stat Med 를 참조하십시오.
답변
하버드에 대한 한 연구에 따르면 누락 된 데이터에 대한 5 가지 예측 (여기서 참조, http://m.circoutcomes.ahajournals.org/content/3/1/98.full )으로 여러 대치가 제안되었습니다 . 그럼에도 불구하고, 대치 모델이 실제 기본 값을 포함하지 않는 모델 매개 변수에 대한 커버 간격을 생성하지 않을 수 있다는 의견을 기억합니다!
이를 염두에두고, 값의 산포를 생성하는 결 측값 (현재 논의에서 무작위로 결측되지 않은 것으로 가정)에 대해 5 개의 간단한 순진 모형을 사용하는 것이 가장 좋습니다. .
샘플링 이론에 대한 나의 경험은 비 응답 인구 집단을 서브 샘플링하는 데 많은 자원이 소비되는 경우가 종종 있는데, 이는 때때로 응답 집단과는 매우 다른 것으로 보인다. 따라서, 나는 특정 적용 분야에서 적어도 한 번은 결 측값 회귀에 비슷한 운동을 권장합니다. 이러한 결측 데이터 탐색에서 회복되지 않은 관계는 미래에 대한 결측 데이터 예측 모델을 개선하는 데있어 역사적 가치가있을 수 있습니다.