다중 회귀 분석에서 예측 변수 간의 높은 상관 관계를 처리하는 방법은 무엇입니까? 예측 된 중요한 분산이

다음과 같은 기사에서 참조를 찾았습니다.

Tabachnick & Fidell (1996)에 따르면 이변 량 상관 관계가 .70보다 큰 독립 변수는 다중 회귀 분석에 포함되지 않아야합니다.

문제 : 다중 회귀 설계에서 3 개의 변수 상관 관계인> .80, VIF와 약 .2-.3, 공차 ~ 4-5를 사용했습니다. (중요 예측 변수 및 결과) 이들 중 어느 것도 제외 할 수 없습니다. .80으로 상관 된 2 개의 예측 변수에 대한 결과를 회귀 할 때, 각각 예측 된 중요한 분산이 모두 유의하게 유지되었으며,이 두 변수는 포함 된 10 개의 변수 중 가장 큰 부분 및 반 부분 상관 계수를가집니다 (5 개 대조군).

질문 : 상관 관계가 높음에도 불구하고 모델이 유효합니까? 어떤 참조도 크게 환영합니다!


답변 주셔서 감사합니다!

나는 Tabachnick과 Fidell을 지침으로 사용하지 않았으며, 예측 자들 사이에서 높은 공선 성을 다루는 기사 에서이 참조를 발견했습니다.

따라서 기본적으로 모델의 예측 변수 수에 대한 사례가 너무 적습니다 (많은 범주 형, 더미 코드 제어 변수-연령, 임기, 성별 등)-72 건의 경우 13 개의 변수. 조건 지수는 ~ 29이고 모든 컨트롤이 있고 ~ 23 (5 개 변수)입니다.

이론적으로는 자체적으로 의미가 있기 때문에 변수를 삭제하거나 요인 분석을 사용하여 결합 할 수 없습니다. 더 많은 데이터를 얻기에는 너무 늦습니다. SPSS에서 분석을 수행하고 있기 때문에 능선 회귀 구문을 찾는 것이 가장 좋습니다.

중요한 경우, 단계적 회귀 분석을 수행 할 때 동일한 2 개의 높은 상관 변수가 결과의 단일 중요한 예측 변수로 남았습니다.

그리고이 변수들 각각에 대해 높은 부분 상관이 모델에서 왜 (리지 능형 회귀를 수행 할 수없는 경우) 유지했는지에 대한 설명으로 중요한지 여전히 이해하지 못합니다.

“회귀 진단 : 영향력있는 데이터와 공선 성의 원천 식별 / David A. Belsley, Edwin Kuh 및 Roy E. Welsch, 1980″이 다중 공선 성을 이해하는 데 도움이됩니까? 아니면 다른 참조가 유용 할 수 있습니까?



답변

주요 문제는 상관 관계가 아니라 공선 성입니다 (예 : Belsley의 작품 참조). 이것은 최상의 상태 인덱스 (로모 사용하여 테스트 R, SAS심한 30 이상, 중간 공선 () Belsley 당 10. 상관 관계가 필요하거나 공선위한 충분 조건도 아니다으로 잘. 아마 다른 프로그램을 조건 인덱스를 나타냅니다뿐만 아니라 따라 달라집니다 공선 성과 관련된 변수

공선 성이 높으면 모수 추정값이 불안정 함을 의미합니다. 즉, 데이터의 작은 변화 (때로는 4 번째 중요한 수치)는 모수 추정치에 큰 변화를 일으킬 수 있습니다 (때때로 부호를 뒤집는 경우도 있음). 이것은 나쁜 것입니다.

해결 방법은 1) 더 많은 데이터 가져 오기 2) 변수 하나 삭제 3) 변수 결합 (예 : 부분 최소 제곱과) 및 4) 능선 회귀를 수행하여 편향된 결과를 제공하지만 추정값의 편차를 줄입니다.


답변