로지스틱 회귀 하위 집합 선택을 수행하는 방법은 무엇입니까? 조합을 반복하는 스크립트를 작성하고 최상의

나는 R에 이항 가족 glm을 피팅하고 있으며 설명 변수의 전체 그룹을 가지고 있으며 가장 좋은 것을 찾아야합니다 (측정 값이 R의 제곱이 좋습니다). 설명 변수의 임의의 다른 조합을 반복하는 스크립트를 작성하고 최상의 성능을 기록하는 기록이 부족하여 실제로 무엇을 해야할지 모르겠습니다. 그리고 leaps패키지 도약 의 기능 은 로지스틱 회귀를 수행하지 않는 것 같습니다.

어떤 도움이나 제안이라도 대단히 감사하겠습니다.



답변

단계적 방법과 “모든 부분 집합”방법은 일반적으로 나쁩니다. Stepwise 중지 방법 : Stepwise 방법이 나쁜 이유 및 David Cassell과 본인이 직접 사용해야하는 내용 (SAS를 사용했지만 교훈이 적용됨) 또는 Frank Harrell Regression Modeling Strategies를 참조하십시오. 자동 방법이 필요한 경우 LASSO 또는 LAR을 권장합니다. 로지스틱 회귀 분석을위한 LASSO 패키지가 여기에 있으며, 또 다른 흥미로운 기사는 로지스틱을위한 반복 된 LASSO에 있습니다.


답변

R2

AIC

BIC

로지스틱 회귀는 최대 우도 방법으로 추정되므로 leaps여기서 직접 사용되지는 않습니다. 의 확장 leaps으로 glm()기능이있다 bestglm의 (일반적으로 권고는 다음과 같이이 네트를 참조) 패키지로 제공된다.

David W. Hosmer, Borko Jovanovic 및 Stanley Lemeshow Best Subsets Logistic Regression // Biometrics Vol. 의 기사에 관심이있을 수도 있습니다 . 45, No. 4 (1989 년 12 월), pp. 1265-1270 (일반적으로 대학 네트워크를 통해 액세스 가능).


답변

한 가지 아이디어는 임의의 포리스트를 사용한 다음 출력되는 변수 중요도 측정을 사용하여 최상의 8 개의 변수를 선택하는 것입니다. 또 다른 아이디어는 “boruta”패키지를 사용하여이 과정을 몇 백 번 반복하여 모델에 가장 중요한 8 개의 변수를 찾는 것입니다.


답변

stats::step기능 또는 일반적인 MASS::stepAIC기능 지원 lm, glm(즉, 로지스틱 회귀 분석) 및 aov가족 모델.