소수의 반 사실 사건으로 인해 희귀 성이 발생하는 경우 “희귀 한”이벤트를 통한지도 학습 시장의 양쪽에 대한

시장에서 구매자와 판매자 사이의 “일치”를 관찰한다고 가정하십시오. 또한 미래의 경기를 예측하고 시장의 양쪽에 대한 추천을하는 데 사용하려는 구매자와 판매자 모두의 특성을 관찰하게됩니다.

간단히하기 위해, N 명의 구매자와 N 개의 판매자가 있고 각각이 일치하는 것을 찾는다고 가정하십시오. N 개의 일치 항목과 (N-1) (N-1)의 일치하지 않는 항목이 있습니다. 모든 것을 포함한 훈련 데이터 세트에는 N + (N-1) * (N-1) 관측치가 있으며 엄청나게 클 수 있습니다. (N-1) (N-1) 비 일치에서 무작위로 샘플링하고 감소 된 데이터에 대한 알고리즘을 교육하는 것이 더 효율적일 수 있습니다. 내 질문은 :

(1) 훈련 데이터 세트를 구축하기 위해 비 일치 항목에서 샘플링하여이 문제를 처리 할 수있는 합리적인 방법입니까?

(2) 만약 (1)이 참이라면, (N-1) (N-1)의 덩어리가 얼마나 큰지를 결정하는 엄격한 방법이 있습니까?



답변

내가 올바르게 이해하면 긍정적 인 클래스 (일치)가 거의없는 두 가지 클래스 분류 문제가 있습니다. 많은 분류자가 이러한 클래스 불균형으로 어려움을 겪고 있으며 더 나은 성능을 얻기 위해 대다수 클래스를 하위 샘플링하는 것이 일반적이므로 첫 번째 질문에 대한 대답은 “예”입니다. 그러나 하위 표본을 너무 많이 샘플링하면 소수 양성 클래스를 과대 평가하는 분류기를 사용하게되므로 가장 좋은 방법은 교차 샘플링을 최소화하여 하위 샘플링 배급을 선택하여 성능을 최대화하는 것입니다. 테스트 데이터가 서브 샘플링되지 않은 유효성 검사 오류 이므로 운영 성능을 잘 알 수 있습니다.

클래스 멤버쉽의 확률을 추정하는 확률 적 분류 기가있는 경우 훈련 세트와 작업 중 클래스 주파수의 차이를 보상하기 위해 출력을 더 잘 처리하고 후 처리 할 수 ​​있습니다. 일부 분류기의 경우 최적의 접근 방식은 교차 검증 오류를 최적화하여 서브 샘플링 비율과 출력 보정을 모두 최적화하는 것입니다.

서브 샘플링 대신 일부 분류기 (예 : SVM)의 경우 포지티브 및 네거티브 패턴에 서로 다른 가중치를 부여 할 수 있습니다. 서브 샘플링을 선호합니다. 사용 된 특정 서브 샘플로 인해 결과에 변동성이 없음을 의미합니다. 이것이 불가능한 경우 부트 스트랩 핑을 사용하여 bagged classifier를 작성하십시오. 여기서 반복되는 대다수 클래스의 다른 서브 샘플이 사용됩니다.

내가 말할 한 가지 다른 점은 일반적으로 큰 클래스 불균형이있는 곳에서 거짓 부정 오류와 거짓 긍정적 오류가 똑같이 나쁘지 않다는 것입니다.이를 분류 자 ​​디자인에 구축하는 것이 좋습니다 -각 클래스에 속하는 샘플링 또는 가중치 패턴).


답변

우려 (1). 의미있는 결과를 얻으려면 긍정적이고 부정적인 관찰을 유지해야합니다.
(2) 데이터에 우선 순위가 없다면 균일 분포보다 더 현명한 서브 샘플링 방법이 없습니다.


답변