태그 보관물: missing-data

missing-data

임의 누락 (MAR) 구별 완전 누락 (MCAR) 가지를 여러

나는이 두 가지를 여러 번 설명했다. 그들은 계속 내 두뇌를 요리합니다. ‘무작위로 누락’은 의미가 있으며 ‘완전히 누락으로’는 의미가 있습니다 … ‘무작위로 누락’입니다.

MAR이지만 MCAR이 아닌 데이터는 무엇입니까?



답변

임의로 결측 (MAR)은 결측을 전체 정보가있는 변수로 설명 할 수 있음을 의미합니다. 테스트 가능한 가정은 아니지만 합리적인 대 그렇지 않은 경우가 있습니다.

예를 들어, 정치 여론 조사를 실시하십시오. 많은 사람들이 대답을 거부합니다. 사람들이 답변을 거부하는 이유는 전적으로 인구 통계에 근거하고 있다고 가정 할 경우 각 인구 통계에 해당 인구 통계가있는 경우 데이터는 MAR입니다. 사람들이 답변을 거부하는 이유 중 일부 는 인구 통계를 기반으로 할 수있는 것으로 알려져 있습니다 (예 : 저소득층과 고소득층 모두 중간 응답자에 비해 답변 가능성이 낮음). 전체 설명입니다.

그래서 질문은 “충분히 가득합니까?”가됩니다. 종종, 여러 전가 작업보다 나은 긴 데이터가되지 않는 한 다른 방법과 같은 방법 이 매우 무작위로하지 누락.


답변

이것이 올바른지 확실하지 않지만 그것을 이해하려고 시도한 방식은 대칭이 아닌 2×2 행렬의 가능성이있는 것처럼 보입니다. 다음과 같은 것 :

Pattern  /   Data Explains Pattern

            Yes         No

Yes         MAR        MNAR

No          --         MCAR

즉, 변수의 누락에 대한 패턴이 있고 데이터에 대해 설명 할 수없는 경우 MNAR이 있지만 우리가 보유한 데이터 (예 : 데이터 세트의 다른 변수)에 설명 할 수있는 경우 MAR이 있습니다. 누락에 대한 패턴이 없으면 MCAR입니다.

나는 여기서 벗어날 수 있습니다. 또한 이것은 “패턴”과 “데이터 설명”의 정의를 열어 둡니다. “데이터 설명”은 데이터 세트의 다른 변수가 그것을 설명한다는 의미로 생각하지만 절차가 설명 할 수 있다고 생각합니다 (예 : 다른 스레드에서 좋은 예는 동일한 것을 측정하는 3 개의 측정 변수가있는 경우입니다. 절차는 처음 두 측정 값이 너무 많이 맞지 않을 경우 세 번째 측정을 수행하는 것입니다).

CV 직관에 충분히 정확합니까?


답변

나는 또한 차이점을 파악하기 위해 고심하고 있었으므로 일부 예가 도움이 될 수 있습니다.

MCAR : 무작위로 완전히 빠졌 습니다. 이는 무응답이 완전히 무작위임을 의미합니다. 따라서 귀하의 설문은 편견이 없습니다.

MAR : 무작위 로 더 나쁜 상황이 없습니다. IQ를 요청하고 남성보다 여성 참가자가 훨씬 많다고 상상해보십시오. 운 좋게도 IQ는 성별과 관련이 없으므로 성별을 적용하여 가중치를 적용하여 편향을 줄일 수 있습니다.

MNAR : 무작위로 빠지지 않고 나쁘다. 소득 수준에 대한 조사를 고려하십시오. 다시 말하지만, 남성 참가자보다 여성이 더 많습니다. 이 경우 소득 수준이 성별과 관련되어 있기 때문에 문제가됩니다. 따라서 결과가 바이어스됩니다. 쉽게 제거 할 수 없습니다.

대상 변수 (Y와 같은 Y), 보조 변수 (나이와 같은 X)와 응답 행동 (R, 응답 그룹) 사이의 “삼각형”관계입니다. X가 R에만 관련된 경우 좋은 (MAR)입니다. X와 R, X와 Y 사이에 관계가 있으면 불량 (MNAR)입니다.


답변