Enterprise miner를 사용하여 이벤트 속도가 약 1 % 인 데이터 세트에서 그라디언트 향상을 시도하고 있지만 출력을 생성하지 못했습니다. 내 질문은 의사 결정 트리 기반의 접근 방식이므로 그러한 낮은 이벤트에서 그라디언트 부스팅을 사용하는 것이 옳습니까?
답변
(이것에 대한 짧은 대답을 제공하려면 🙂
불균형 데이터 세트를 처리 할 때는 그래디언트 부스팅 머신 알고리즘을 사용하는 것이 좋습니다. 불균형이 심한 데이터 세트를 처리 할 때 사용 된 메트릭의 적합성에 대한 의문이 훨씬 더 중요합니다. 우리는 잠재적으로 임의의 임계 값을 기반으로하는 정확도 또는 회수와 같은 메트릭을 피하고보다 정확한 그림을 제공하는 AUCPR 또는 Brier 스코어링과 같은 메트릭을 선택해야 합니다. 분류 모델을 평가하기위한 최선의 방법? 이상). 마찬가지로, 다른 오 분류 비용을 지정하여 비용에 민감한 접근 방식을 잠재적으로 사용할 수 있습니다 (예 : Masnadi-Shirazi & Vasconcelos (2011) 비용 민감성 부스팅 참조)알려진 부스팅 알고리즘에 대한 일반적인 견해와 제안 된 변경 사항 또는 간단한 접근 방식을 가진 특히 흥미로운 응용 프로그램의 경우 XGBoost 알고리즘에 대한 Higgs Boson 시도 보고서를 확인하십시오. Chen & He (2015) Boosted Trees를 사용한 Higgs Boson Discovery 는 자세한 내용을 제공합니다).
GBM과 같은 확률 적 분류기를 사용하는 경우 반환 된 확률을 적극적으로 검토 할 수 있어야합니다 (예 : Zadrozny & Elkan (2002) 참조 분류기 점수를 정확한 멀티 클래스 확률 추정치 또는 Kull et al. 로 변환 ) 2017) 베타 캘리브레이션 : 이진 분류기의 로지스틱 캘리브레이션에서 잘 정립되고 쉽게 구현되어 학습자의 성능을 향상시킬 수 있습니다. 특히 불균형 데이터로 작업 할 때 경향 변화를 적절히 포착하는 것은 단순히 데이터에 레이블을 지정하는 것보다 더 유익 할 수 있습니다. 그 정도까지, 일부 사람들은 비용에 민감한 접근법이 결국 그다지 유익하지 않다고 주장 할 수 있습니다 (예 : Nikolaou et al. (2016) 참조)비용에 민감한 부스팅 알고리즘 : 실제로 필요한가? ). 그래도 원래의 요점을 되풀이하기 위해 부스팅 알고리즘은 본질적으로 불균형 데이터에 나쁘지 않으며 어떤 경우에는 매우 경쟁적인 옵션을 제공 할 수 있습니다.