AIC 또는 p- 값 : 모델 선택을 위해 어떤 것을 선택해야합니까? 할 수없는 3 가지 모델을

나는이 R 일에 익숙하지 않지만 어떤 모델을 선택 해야할지 확실하지 않습니다.

  1. 가장 낮은 AIC를 기반으로 각 변수를 선택 하는 단계적 회귀 분석 을 수행했습니다. 나는 어느 것이 “최고”인지 확신 할 수없는 3 가지 모델을 생각 해냈다.

    Model 1: Var1 (p=0.03) AIC=14.978
    Model 2: Var1 (p=0.09) + Var2 (p=0.199) AIC = 12.543
    Model 3: Var1 (p=0.04) + Var2 (p=0.04) + Var3 (p=0.06) AIC= -17.09
    

    AIC가 가장 낮고 (음수가 괜찮다고 들었습니다) p- 값이 여전히 낮기 때문에 Model # 3을 사용하는 경향이 있습니다.

    Hatchling Mass의 예측 변수로 8 개의 변수를 실행했으며이 세 가지 변수가 최상의 예측 변수라는 것을 알았습니다.

  2. 다음 단계에서는 AIC가 약간 더 커도 p 값이 모두 작기 때문에 Model 2를 선택합니다. 이것이 최고라고 동의하십니까?

    Model 1: Var1 (p=0.321) + Var2 (p=0.162) + Var3 (p=0.163) + Var4 (p=0.222)  AIC = 25.63
    Model 2: Var1 (p=0.131) + Var2 (p=0.009) + Var3 (p=0.0056)                  AIC = 26.518
    Model 3: Var1 (p=0.258) + Var2 (p=0.0254)                                   AIC = 36.905
    

감사!



답변

AIC는 모형에서 더 작은 잔차 오차를 선호하지만 추가 예측 변수를 포함하는 데 불이익을주고 초과 적합을 피하는 데 도움이되는 적합도 측도입니다. 두 번째 모델 집합에서 모델 1 (AIC가 가장 낮은 모델)은 데이터 집합 외부의 예측에 사용될 때 가장 잘 수행 될 수 있습니다. Var4를 모델 2에 추가하는 이유에 대한 가능한 설명은 AIC가 더 낮지 만 p 값이 높을수록 Var4는 Var1, 2 및 3과 다소 상관 관계가 있다는 것입니다. 따라서 모델 2의 해석이 더 쉽습니다.


답변

개별 p- 값을 보면 오해의 소지가 있습니다. 공 선형 (상관성이 높은) 변수가있는 경우 큰 p- 값을 얻게됩니다. 그렇다고 변수가 쓸모 없다는 것은 아닙니다.

경험상 AIC 기준으로 모델을 선택하는 것이 p- 값을 보는 것보다 낫습니다.

변수 대 데이터 포인트 비율이 큰 경우 AIC가 가장 낮은 모델을 선택하지 못하는 이유가 있습니다.

모델 선택 및 예측 정확도는 다소 뚜렷한 문제입니다. 정확한 예측을 얻는 것이 목표라면 훈련 및 테스트 세트에서 데이터를 분리하여 모델을 교차 검증하는 것이 좋습니다.

변수 선택에 관한 논문 : 변수 선택을위한 확률 적 단계적 유사


답변

AIC는 일반화 오차 (Mallow의 CP, BIC 등)의 추정에 의해 동기가 부여됩니다. 예측 모델을 원하면 다음 기준 중 하나를 사용하는 것이 좋습니다. 현상을 설명하기 위해 모델을 원하면 p- 값을 사용하십시오.

또한 여기를 참조 하십시오 .