2500 개의 변수와 142 개의 관측치가있는이 거대한 데이터 세트가 있습니다.
변수 X와 나머지 변수 사이의 상관 관계를 실행하고 싶습니다. 그러나 많은 열의 경우 누락 된 항목이 있습니다.
“pairwise-complete”인수 ( use=pairwise.complete.obs
)를 사용하여 R 에서이 작업을 시도 하고 많은 상관 관계를 출력했습니다. 그러나 StackOverflow의 누군가 가이 기사 http://bwlewis.github.io/covar/missing.html 에 대한 링크를 게시 했으며 R의 “pairwise-complete”메소드를 사용할 수 없게 만듭니다.
내 질문 : “pairwise-complete”옵션을 사용하는 것이 적절한 지 어떻게 알 수 있습니까?
내 use = complete.obs
돌아 왔 no complete element pairs
으므로 그 의미를 설명 할 수 있다면 좋을 것입니다.
답변
한 쌍의 완전한 관측에 대한 상관 문제
설명하는 경우 주요 문제는 해석입니다. 페어 단위의 완전한 관측치를 사용하기 때문에 누락 된 관측치에 따라 실제로 각 상관 관계에 대해 약간 다른 데이터 세트를 분석하고 있습니다.
다음 예제를 고려하십시오.
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
데이터 세트의 세 변수, a
, b
,와 c
, 각각의 일부가 누락 값을 갖는다. 여기에서 변수 쌍에 대한 상관 관계를 계산하면 문제의 두 변수에 대해 결 측값이없는 경우 만 사용할 수 있습니다. 이 경우, a
와 사이의 상관 관계에 대한 마지막 3 b
가지 경우 b
와와 사이의 상관 관계에 대한 처음 세 가지 경우 만 분석한다는 의미입니다 c
.
각 상관 관계를 계산할 때 완전히 다른 경우를 분석한다는 사실은 결과로 나타나는 상관 관계 패턴이 의미가없는 것처럼 보일 수 있음을 의미합니다. 보다:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
논리적 모순 같은이 모습은 — a
및 b
강력 양의 상관 관계, 그리고 b
하고 c
도 강력하게 긍정적 인 상관 관계가, 당신이 기대 있도록 a
하고 c
긍정적 아니라 상관 관계가 될 수 있지만, 그 반대 방향으로 강한 협회는 실제로있다. 많은 분석가가 왜 싫어하는지 알 수 있습니다.
whuber의 유용한 설명을 포함하도록 편집하십시오.
인수의 일부는 “강한”상관 관계가 의미하는 바에 따라 다릅니다. 그것은 매우 용 가능 a
하고 b
물론 b
및 c
사이 “는 반대 방향의 강한 연관”존재 상태 “강한 양의 상관 관계”으로 a
하고 c
,이 예에서와 같이,하지만 확실히 극단적. 이 문제의 핵심은 추정 된 상관 (또는 공분산) 행렬이 양의 한정적이지 않을 수 있다는 것입니다. 이것이 “강한”을 정량화하는 방법입니다.
실종 유형의 문제
“각 상관 관계에 대해 사용할 수있는 사례의 하위 집합이 완전한 데이터가있을 때 얻을 수있는 것과 동일한 패턴을 따르는 것으로 가정하는 것이 좋지 않습니까?” 그리고 그렇습니다, 그것은 사실입니다 — 가용 한 데이터가 무작위 라면, 데이터의 서브셋에 대한 상관 관계를 계산하는 데 근본적으로 아무 문제가 없습니다 누락이없는 경우 있었던 모든 데이터의 샘플.
누락이 순전히 무작위 인 경우 이를 MCAR (임의의 결측)이라고합니다. 이 경우 누락이없는 데이터의 하위 집합을 분석해도 결과가 체계적으로 바이어스되지 않으며 위의 예에서 보여준 일종의 견과류 상관 관계 패턴을 얻는 것이 불가능하지는 않지만 불가능하지는 않습니다.
당신의 실종이 어떤 방식으로 체계적 일 때 (종종 두 가지 종류의 체계적 실종을 묘사하는 MAR 또는 NI로 약칭 됨) 계산에 편향을 유발할 수있는 가능성과 일반화 능력에있어서 훨씬 더 심각한 문제 관심있는 모집단에 대한 결과 (분석중인 샘플이 전체 데이터 세트가 되었더라도 모집단의 무작위 표본이 아니기 때문에).
누락 된 데이터 및 처리 방법에 대해 배울 수있는 유용한 자료가 많이 있지만 권장 사항은 Rubin :
classic ,
최신 기사입니다.
답변
큰 문제는 데이터가 체계적인 방식으로 누락되어 분석을 손상시킬 수 있는지 여부입니다. 데이터가 무작위로 누락되지 않았을 수 있습니다.
이것은 이전 답변에서 제기되었지만 모범을 보여 줄 것이라고 생각했습니다.
재무 예 : 누락 된 수익은 불량한 수익 일 수 있습니다
- 뮤추얼 펀드와 달리, 사모 펀드 (및 기타 프라이빗 펀드)는 법에 의해 수익을 일부 중앙 데이터베이스에보고 할 필요가 없습니다.
- 따라서 주요 관심사는보고가 내생 적이며, 특히 일부 회사는 나쁜 수익을보고하지 않을 것이라는 점입니다.
이러한 상황에서 모든 것을 잃어 버릴 필요는 없지만 (할 수있는 일이 있음), 결측되지 않은 데이터에 대해 회귀 (또는 계산 상관 관계)를 순진하게 실행하면 모집단의 실제 모수에 대해 심각하게 편향되고 일관되지 않은 추정치가 발생할 수 있습니다.
답변
결측 데이터가 임의의 결 측값 (MCAR) 인 경우 쌍별 상관이 적절합니다. Paul Allison ‘s Missing Data 책은 왜 시작하기에 좋은 장소입니다.
BaylorEdPsych
패키지 에있는 Little (1988) MCAR Test를 사용하여이를 테스트 할 수 있습니다 .