유한 한 인구에서 희귀 사건을 연구하고 싶습니다. 어떤 전략이 가장 적합한 지 잘 모르겠 기 때문에이 문제와 관련된 팁과 참고 자료를 높이 평가할 것입니다. 나는 어디서부터 시작 해야할지 정말로 모른다.
내 문제는 정치 과학 문제이며 515,843 개의 기록으로 구성된 유한 한 인구가 있습니다. 이 변수는 513,334 “0”및 2,509 “1”의 이진 종속 변수와 연관됩니다. 내 “1”을 인구의 0.49 % 만 차지하는 희귀 한 사건으로 만들 수 있습니다.
“1”의 존재를 설명하기 위해 모델을 만들고 싶은 약 10 개의 독립 변수 세트가 있습니다. 우리와 마찬가지로, 희귀 사건 수정에 관한 King & Zeng의 2001 기사를 읽었습니다 . 그들의 접근 방식은 케이스 제어 설계를 사용하여 “0”의 수를 줄이고 인터셉트에 수정을 적용하는 것입니다.
그러나이 게시물은 전체 인구에 대해 이미 데이터를 수집 한 경우 King & Zeng의 주장은 필요하지 않다고 말합니다 . 따라서 클래식 로짓 모델을 사용해야합니다. 불행히도, 나는 좋은 계수를 얻었지만 내 모델은 예측 측면에서 완전히 쓸모가 없습니다 ( “1”의 99.48 %를 예측하지 못합니다).
King & Zeng의 기사를 읽은 후 사례 제어 설계를 시도하고 모든 “1”과 함께 “0”의 10 % 만 선택했습니다. 거의 동일한 계수로 모델은 전체 모집단에 적용될 때 “1”의 거의 1/3을 예측할 수있었습니다. 물론, 많은 오 탐지가 있습니다.
따라서 세 가지 질문이 있습니다.
1) 인구에 대한 충분한 지식이있을 때 King & Zeng의 접근 방식이 편견이라면 왜 기사에서 인구를 아는 상황을 사용하여 요점을 증명합니까?
2) 로짓 회귀 분석에서 양호하고 불충분 한 계수를 가지지 만 예측력이 매우 나쁜 경우 이러한 변수가 설명하는 변동이 의미가 없음을 의미합니까?
3) 드문 이벤트를 처리하는 가장 좋은 방법은 무엇입니까? 나는 King ‘s relogit 모델, Firth의 접근 방식, 정확한 logit 등에 대해 읽었습니다. 나는이 모든 솔루션 중에서 잃어버린 자백해야합니다.
답변
(1) “인구에 대한 완전한 지식”을 가지고 있다면 왜 예측을하기위한 모델이 필요한가? 나는 당신이 그것들을 그것들이 가상의 초 인구 표본으로 암묵적으로 고려하고 있다고 생각합니다 . 여기 와 여기를보십시오 . 샘플에서 관측 값을 버려야합니까? 아닙니다. King & Zeng은 이것을 옹호하지 않습니다 :
[…] 국제 관계와 같은 분야에서 관찰 가능한 1의 수 (예 : 전쟁)는 엄격하게 제한되어 있으므로 대부분의 응용 프로그램에서 사용 가능한 모든 1 또는 큰 샘플을 수집하는 것이 가장 좋습니다. 그런 다음 유일한 결정은 몇 개의 0도 수집해야 하는가입니다. 0을 수집하는 것이 비용이 들지 않으면 더 많은 데이터가 항상 더 좋으므로 최대한 많은 수를 수집해야합니다.
(2) 여기서 가장 큰 문제는 모델의 예측 성능을 평가하기 위해 부적절한 점수 규칙 을 사용하는 것입니다. 모델이었다 가정 진정한 개인을 위해 당신이 그렇게 것을 알고 다음 달에 뱀에 물린 드문 이벤트 말의 확률을. 임의 확률 컷오프를 규정하고 위의 것들이 물릴 것이고 아래의 것들이 그렇지 않을 것이라고 예측함으로써 무엇을 더 배울 수 있습니까? 컷오프를 50 %로하면 아무도 물리지 않을 것으로 예상됩니다. 충분히 낮게하면 모든 사람이 물릴 것이라고 예측할 수 있습니다. 그래서 무엇? 모델을 적절하게 적용하려면 차별이 필요합니다. 누가 독약에 대한 비용을 감안할 때 누가 부츠를 구입할 가치가 있습니까?
답변
한 단계에서, 모델의 부정확성 중 얼마나 많은 부분이 단순히 프로세스를 예측하기 어렵고 변수가 충분하지 않다는 것이 궁금합니다. 더 설명 할 수있는 다른 변수가 있습니까?
반면에 종속 변수를 카운트 / 초기 문제 (충돌로 인한 사상자 또는 충돌 지속 시간)로 캐스트 할 수 있으면 0으로 팽창 된 카운트 회귀 또는 장애물 모델을 시도 할 수 있습니다. 이것들은 0과 1 사이의 정의가 좋지 않은 문제가있을 수 있지만 변수가 서로 관련되어있는 일부 충돌은 0에서 벗어날 수 있습니다.
답변
대다수 인구를 다운 샘플링하는 것 외에도 드문 이벤트를 오버 샘플링 할 수 있지만 소수 클래스의 오버 샘플링으로 인해 과적 합이 발생할 수 있으므로주의해서 확인하십시오.
이 문서는 이에 대한 자세한 정보를 제공 할 수 있습니다 : Yap, Bee Wah, et al. “불균형 데이터 세트를 처리 할 때 오버 샘플링, 언더 샘플링, 배깅 및 부스트 적용.” pdf
답변
귀하의 질문은 어떻게 더 나은 솔루션을 찾기 위해 로짓 회귀를 동축시킬 수 있는지에 달려 있습니다. 그러나 더 나은 솔루션이 존재한다고 확신합니까? 10 개의 매개 변수만으로 더 나은 솔루션을 찾을 수 있었습니까?
예를 들어 입력에 제품 용어를 추가하거나 대상 측에 max-out 레이어를 추가하여보다 복잡한 모델을 시도합니다 (따라서 대상 1의 다양하게 적응 적으로 발견 된 하위 집합에 대해 여러 개의 로지스틱 회귀자가 있음).
답변
좋은 질문입니다.
내 생각에, 문제는 당신이 추론을 시도하고 있는지 (계수가 말하는 것에 관심이 있습니까?) 또는 예측입니다. 후자의 경우 기계 학습 (BART, randomForest, boosted tree 등)에서 로짓보다 예측에서 더 나은 작업을 수행하는 모델을 빌릴 수 있습니다. 추론을하고 있고 데이터 포인트가 너무 많은 경우 현명한 상호 작용 항, 다항식 등을 포함 시키십시오. 또는이 백서에서와 같이 BART로부터 추론 할 수 있습니다.
http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf
최근에 희귀 사건에 대한 연구를 해왔으며, 분석에 영향을 줄 수있는 희귀 사례가 얼마나 될지 미리 알지 못했습니다. 0 사례를 다운 샘플링하는 것은 필수입니다. 이상적인 다운 샘플 비율을 찾는 전략은 다음과 같습니다.
- 1을 모두 가져 가면 n1이 있다고 가정 해 봅시다.
- 일부 값 z = 그릴 n1의 배수를 설정하십시오. 아마도 5에서 시작하여 1로 줄입니다.
- z * n1 0 관측 값 그리기
- 서브 세트 데이터 샘플에서 모델을 추정하여 전체 데이터 세트에 대해 교차 검증해야합니다.
- 관심 계수, 관심 계수, ROC 곡선의 AUC, 혼동 행렬의 관련 값 등을 저장하십시오.
- 연속적으로 더 작은 z를 위해 단계 2 : 5를 반복하십시오. 다운 샘플링 할 때 테스트 세트에서 위음성 대 오 탐지 비율이 감소한다는 것을 알 수있을 것입니다. 즉, 더 많은 1을 예측하기 시작합니다. 희망적으로는 1이지만 실제로는 0입니다. 이 오 분류에 새들 포인트가 있으면 다운 샘플 비율이 좋습니다.
이것이 도움이되기를 바랍니다. JS