태그 보관물: categorical-data

categorical-data

멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까? 해 보겠습니다. 15-way 분류 기가

URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다.

15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다.

또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).



답변

우선, 문제가 다중 레이블인지 (즉, 단일 URL이 여러 클래스에 속할 수 있는지) 또는 아닌지 (즉, 단일 URL이 하나의 클래스에만 속할 수 있는지) 스스로에게 물어봐야합니다.

전자의 경우 다중 분류 문제를 수행하는 기본 방법이기 때문에 이진 분류기 배터리를 사용하십시오.

후자의 경우 대답은 데이터의 모양, 분석의 목표 및 사용중인 방법의 조합에 따라 달라집니다. 아마도 두 가지를 모두 시도하고 최선을 선택해야합니다.
SVM과 같은 일부 메소드는 실제로 정의 된 방식으로 인해 멀티 클래스 분류를 수행 할 수 없으므로 내부적으로 이진 분류기의 배터리를 사용합니다.


답변

이것은 데이터가 어떻게 분산되어 있는지에 달려 있습니다. OP가 단일 선형 판별 함수가 모집단 A 대 B 또는 C를 결정하는 데 더 나은 분류기인지 또는 A를 분리하는 여러 선형 판별 함수를 기반으로하는 것이 더 나은지 알고 싶어하는 비슷한 질문에 최근에 주어진 아름다운 예가 있습니다. B와 C. 어떤 사람은 두 가지 판별법을 사용하는 것이 그 경우에 비해 두 가지 판별법을 사용하는 것이 더 좋은 방법을 보여주기 위해 아주 멋진 색상의 산점도를 제공했습니다. 나는 그것을 연결하려고합니다.


답변

예를 들어, 일부 메소드는 멀티 클래스 인 랜덤 포레스트 MLP를 잘 처리합니다.

당신이 그런 식으로 가고 싶지 않다면, ECOC가 문제에 대해 1 대 1을 모두 잘 수행 할 수 있으며 테스트 만 할 것입니다.


답변