태그 보관물: feature-selection

feature-selection

회귀 모형에서 변수를 어떻게 선택합니까? 최근에 나는 이것에

변수 선택에 대한 기존의 접근 방식은 새로운 반응을 예측하는 데 가장 크게 기여하는 변수를 찾는 것입니다. 최근에 나는 이것에 대한 대안을 배웠다. 예를 들어 제약의 임상 시험에서와 같이 치료 효과를 결정하는 모델링 변수에서 변수는 정 성적으로 상호 작용 한다고합니다.다른 것들을 고정시킨 채로 그 변수의 변화가 치료가 가장 효과적인 변화를 만들 수 있다면 치료를 통해. 이러한 변수는 항상 효과에 대한 강력한 예측 변수는 아니지만 개별 환자의 치료를 결정할 때 의사에게 중요 할 수 있습니다. 그녀의 PhD 논문에서 Lacey Gunter는 예측에 기반을 둔 알고리즘에 의해 놓칠 수있는 질적으로 상호 작용하는 변수를 선택하는 방법을 개발했습니다. 최근에 저는이 방법을 로지스틱 회귀 및 Cox 비례 위험 회귀 모델을 포함한 다른 모델로 확장하는 작업에 참여했습니다.

두 가지 질문이 있습니다.

  1. 이 새로운 방법의 가치에 대해 어떻게 생각하십니까?
  2. 전통적인 방법의 경우 어떤 접근 방식을 선호하십니까? AIC, BIC, Mallows Cp, F와 같은 기준은 단계적으로, 앞뒤로 변수를 입력하거나 삭제합니다 …

이에 대한 첫 번째 논문은 Gunter, L., Zhu, J 및 Murphy, SA (2009)에서 나왔습니다. 정 성적 상호 작용을위한 변수 선택 . 통계 방법론 doi : 10, 1016 / j.stamet.2009.05.003.

다음 논문은 Gunter, L., Zhu, J. 및 Murphy, SA (2011)에 게재되었습니다. 가족 별 오류율을 통제하면서 개인화 된 의약에서의 질적 상호 작용의 다양한 선택 . Biopharmaceutical 통계의 전표 21, 1063-1078.

다음은 변수 선택 Gunter, L., Chernick, MR 및 Sun, J. (2011)에 대한 특별한 문제에 나타났습니다. 치료 선택에 대한 회귀 변수 선택을위한 간단한 방법 . 파키스탄 통계 및 운영 연구 저널 7 : 363-380.

저널 웹 사이트에서 논문을 찾을 수 있습니다. 기사를 구매해야 할 수도 있습니다. 이 기사에 대한 pdf 파일이있을 수 있습니다. Lacey와 나는 방금이 주제에 대한 논문을 완성했으며, 올해 말 SpringerBrief로 출판 될 것입니다.



답변

  1. Gelman and Hill, 회귀 및 다중 레벨 / 계층 모델 pg 69를 사용한 데이터 분석을 참조하십시오. 모델 선택에 대한 섹션이 있습니다. 그녀는 완전히 괜찮은 질문 기반 접근법을 사용하고 있지만 논문에서 왜 자신이 모델에서 한 일을 포함했는지를 정당화해야합니다. “이러한 변수가 항상 효과를 예측하는 것은 아니지만 개별 환자의 치료를 결정할 때 의사에게 중요 할 수 있습니다.” 그녀가 왜 이러한 예측 변수가 포함되어야 하는지를 정당화하는 한 괜찮습니다. 개인적으로 저는이 방법을 선호합니다. 그래서 여기 2에 대한 대답 이옵니다.
  2. 단계적으로, 앞으로, 뒤로 나는 블랙 박스라고 생각합니다. 세 개 모두를 통해 모형을 실행하면 동일한 예측 변수에 도달하지 않습니다. 따라서 사용할 관점에서 명확한 대답이 없습니다. AIC 또는 BIC는 모델을 비교하는 데 사용할 수 있습니다.

답변