이벤트 속도가 매우 낮은 데이터 세트가 있습니다 ( 중 40,000 ). 로지스틱 회귀를 적용하고 있습니다. 나는 로지스틱 회귀가 그러한 낮은 이벤트 레이트 데이터에 대해 좋은 혼란 매트릭스를 제공하지 않는다는 사실을 알게 된 사람과 토론을했습니다. 그러나 비즈니스 문제와 정의 방법으로 인해 이벤트 수를 40,000에서 더 큰 수로 늘릴 수는 없지만 일부 비 이벤트 인구를 삭제할 수 있다는 데 동의합니다.
이에 대한 귀하의 의견을 구체적으로 알려주십시오.
- 로지스틱 회귀의 정확도는 이벤트 비율에 따라 결정됩니까 아니면 권장되는 최소 이벤트 비율이 있습니까?
- 낮은 이벤트 속도 데이터를위한 특별한 기술이 있습니까?
- 비 이벤트 모집단을 삭제하면 모델의 정확도가 좋습니까?
나는 통계 모델링을 처음 사용하므로 무지를 용서하고 생각할 수있는 모든 관련 문제를 해결하십시오.
감사,
답변
나는 당신의 질문에 순서대로 대답하지 않을 것입니다 :
3 비 이벤트 모집단을 삭제하면 모델의 정확도가 좋습니까?
각 관측치는 가능성 함수를 통해 모수에 대한 추가 정보를 제공합니다. 따라서 정보를 잃어 버릴 수 있으므로 데이터를 삭제할 필요가 없습니다.
1 로지스틱 회귀의 정확도는 이벤트 비율에 따라 결정됩니까 아니면 권장되는 최소 이벤트 비율이 있습니까?
기술적으로 그렇습니다. 드문 관찰은 훨씬 유익합니다 (즉, 가능성 함수가 가파를 것입니다). 이벤트 비율이 50:50 인 경우 동일한 양의 데이터에 대해 훨씬 더 엄격한 신뢰 구간 (또는 베이지안 인 경우 신뢰할 수있는 간격)을 얻게 됩니다 . 그러나 (사례 관리 연구를 수행하지 않는 한) 이벤트 속도를 선택할 수 없으므로 자신이 가진 것을 처리해야합니다.
2 낮은 이벤트 속도 데이터를위한 특별한 기술이 있습니까?
발생할 수있는 가장 큰 문제는 완벽한 분리입니다 . 변수의 일부 조합이 모든 비 이벤트 (또는 모든 이벤트)를 제공 할 때 발생합니다.이 경우 최대 우도 모수 추정값 (및 표준 오류)이 무한대에 도달합니다 (보통 알고리즘이 미리 중지됩니다). 가능한 두 가지 해결책이 있습니다.
a) 모델에서 예측 변수 제거 : 알고리즘이 수렴하게되지만 가장 강력한 설명력으로 변수를 제거하므로 모델이 너무 적합하지 않은 경우 (예 : 너무 복잡한 상호 작용에 적합) .
b) 사전 분배와 같은 일종의 벌칙을 사용하면 추정치를보다 합리적인 값으로 축소 할 수 있습니다.
답변
시간적 또는 공간적 데이터에 대한 비 이벤트를 삭제하는 것보다 나은 대안이 있습니다. 시간 / 공간에 걸쳐 데이터를 집계하고 계수를 포아송으로 모델링 할 수 있습니다. 예를 들어, 이벤트가 “X 일에 화산 폭발이 발생 함”인 경우, 며칠 동안 화산 폭발이 발생하지 않습니다. 그러나 일을 주 또는 월로 그룹화하면 (예 : “월 X의 화산 폭발 횟수”) 이벤트 수가 줄어들고 더 많은 이벤트가 0이 아닌 값을 갖습니다.