물류 모델을 실행 중입니다. 실제 모델 데이터 세트에는 100 개 이상의 변수가 있지만 약 25 개의 변수가있는 테스트 데이터 세트를 선택하고 있습니다. 그 전에 8-9 변수가있는 데이터 세트를 만들었습니다. AIC 및 SC 값을 사용하여 모델을 비교할 수 있다고 들었습니다. 변수의 p 값이 낮더라도 (예 : 0053) 모델의 SC 값이 더 높다는 것을 관찰했습니다. 내 직감에 따라 유의 수준이 좋은 변수가있는 모델은 SC 및 AIC 값이 낮아야합니다. 그러나 그것은 일어나지 않습니다. 누군가가 이것을 명확히 할 수 있습니까? 요컨대 나는 다음과 같은 질문을하고 싶다 :
- 변수의 수는 SC AIC와 관련이 있습니까?
- p 값 또는 낮은 SC AIC 값에 집중해야합니까?
- SC AIC 값을 줄이는 일반적인 방법은 무엇입니까?
답변
정확한 방식으로 질문에 대답하는 것은 매우 어렵지만 동일한 정보를 제공하지 않는 두 가지 기준 (정보 기준 및 p- 값)을 비교하는 것 같습니다. 모든 정보 기준 (AIC 또는 Schwarz 기준)에서 모형의 적합도가 적을수록 (통계적 관점에서) 모형의 적합 부족과 모형의 매개 변수 수 간의 균형을 반영하므로 모형의 적합도가 더 좋습니다 ; 예를 들어 Akaike 기준은 읽습니다.
−2log(ℓ)+2kk
p
과도한 문제를 피하기 위해 변수 선택을 수행 할 수 있는 불완전 회귀 분석을 제안 합니다. 이것은 Frank Harrell의 회귀 모델링 전략 (p. 207 ff.) 또는 Moons et al., Penalized Maximum Likelihood Estimation에 대한 과대 낙관론에 대한 진단 및 예후 예측 모델을 직접 조정하기위한 Penalized Maximum Likelihood Estimation : 임상 예 , J Clin Epid (2004) 57 ( 12).
또한, 참조 디자인 ( lrm
)와 stepPlr ( step.plr
) R 패키지, 또는 범 패키지를. 이 SE 에서 변수 선택 에 대한 관련 질문을 찾아 볼 수 있습니다 .
답변
SC와 AIC를 함께 그룹화하는 것은 잘못되었습니다 입니다. 사람들이 많이 잘못 사용하더라도 그것들은 매우 다릅니다. AIC는 상황을 예측할 때 의미가 있습니다.이 시나리오에서 SC를 사용하면 (항상 그런 것은 아님) 잘못된 결과를 초래할 수 있습니다. 마찬가지로 parsimony (Occam ‘s Razor) SC의 원칙으로 모델 선택에 관심이 있다면 더 좋습니다. 이론적 인 세부 사항을 다루고 싶지는 않지만 간단히 말해서 SC : 데이터를 설명하는 가장 간단한 모델과 동등한 것을 원할 때 parsimonious 모델에 적합합니다 .AIC-예측하고 싶을 때. AIC는 실제 모델이 SC와 같은 모델 공간에 있다고 가정하지 않습니다.
둘째, phl 값과 정보 기준을 함께 사용하는 것도 chl에 설명 된대로 오도 될 수 있습니다 .