나는이 R 일에 익숙하지 않지만 어떤 모델을 선택 해야할지 확실하지 않습니다.
-
가장 낮은 AIC를 기반으로 각 변수를 선택 하는 단계적 회귀 분석 을 수행했습니다. 나는 어느 것이 “최고”인지 확신 할 수없는 3 가지 모델을 생각 해냈다.
Model 1: Var1 (p=0.03) AIC=14.978 Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543 Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
AIC가 가장 낮고 (음수가 괜찮다고 들었습니다) p- 값이 여전히 낮기 때문에 Model # 3을 사용하는 경향이 있습니다.
Hatchling Mass의 예측 변수로 8 개의 변수를 실행했으며이 세 가지 변수가 최상의 예측 변수라는 것을 알았습니다.
-
다음 단계에서는 AIC가 약간 더 커도 p 값이 모두 작기 때문에 Model 2를 선택합니다. 이것이 최고라고 동의하십니까?
Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222) AIC = 25.63 Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056) AIC = 26.518 Model 3: Var1 (p=0.258) + Var2 (p=0.0254) AIC = 36.905
감사!
답변
AIC는 모형에서 더 작은 잔차 오차를 선호하지만 추가 예측 변수를 포함하는 데 불이익을주고 초과 적합을 피하는 데 도움이되는 적합도 측도입니다. 두 번째 모델 집합에서 모델 1 (AIC가 가장 낮은 모델)은 데이터 집합 외부의 예측에 사용될 때 가장 잘 수행 될 수 있습니다. Var4를 모델 2에 추가하는 이유에 대한 가능한 설명은 AIC가 더 낮지 만 p 값이 높을수록 Var4는 Var1, 2 및 3과 다소 상관 관계가 있다는 것입니다. 따라서 모델 2의 해석이 더 쉽습니다.
답변
개별 p- 값을 보면 오해의 소지가 있습니다. 공 선형 (상관성이 높은) 변수가있는 경우 큰 p- 값을 얻게됩니다. 그렇다고 변수가 쓸모 없다는 것은 아닙니다.
경험상 AIC 기준으로 모델을 선택하는 것이 p- 값을 보는 것보다 낫습니다.
변수 대 데이터 포인트 비율이 큰 경우 AIC가 가장 낮은 모델을 선택하지 못하는 이유가 있습니다.
모델 선택 및 예측 정확도는 다소 뚜렷한 문제입니다. 정확한 예측을 얻는 것이 목표라면 훈련 및 테스트 세트에서 데이터를 분리하여 모델을 교차 검증하는 것이 좋습니다.
변수 선택에 관한 논문 : 변수 선택을위한 확률 적 단계적 유사