선형 판별 학습자에서 클래스 분리 성을 측정하는 좋은 예는 Fisher의 선형 판별 비율입니다. 기능 세트가 대상 변수 사이에 클래스를 잘 분리 할 수 있는지 판별하기위한 다른 유용한 지표가 있습니까? 특히, 대상 클래스 분리를 최대화하기위한 우수한 다변량 입력 속성을 찾는 데 관심이 있으며, 비선형 / 비모수 적 측정을 통해 분리 성이 좋은지 신속하게 확인할 수 있습니다.
답변
임의 포리스트의 가변 중요도 측정 (VIM)이 원하는 것일 수 있습니다. 이 중 두 가지에 대한 간략한 개요는 Boulesteix et al.의 전산 생물학 및 생물 정보학 에 중점을 둔 무작위 산림 방법론 및 실용 지침 개요 에 나와 있습니다.
Gini VIM 의 아이디어 는 임의의 포리스트가 분할 기준으로 특정 특성을 얼마나 자주 사용했는지에 대한 통계를 얻는 것입니다. 유익한 기능이 여기에서 더 자주 선택됩니다.
순열 VIM는 상기 RF-분류기 에러 추정치 사이에 비교된다는 아이디어에 기초
- 원래 데이터 세트
- ONE 속성의 값이 치환 된 인공 데이터 세트
중요한 기능의 경우 오차 추정 차이가 커집니다.
내가 기억하는 한 VIM을 사용하여 기능 간의 종속성을 발견 할 수도 있습니다.
답변
최적의 기능 세트를 찾는 것은 계산 비용이 많이 듭니다. 사용 가능한 솔루션의 주요 범주는 두 가지 세트로 분류 할 수 있습니다. 특정 분류 자 (래퍼)에 바인딩하거나 일부 기준 (필터 방법)을 기반으로하는 간단한 기능 순위입니다.
요구 사항 (빠른 / 비모수 / 비선형)을 기반으로 필터 방법의 후보가 필요할 수 있습니다. 문헌에 기술 된 것들의 예가 꽤 있다 . 예를 들어 정보 게인-클래스에 대한 정보 게인을 측정하여 속성의 가치를 평가합니다. 또는 속성과 클래스 간의 상관 관계를 기반으로 속성의 가치를 평가하는 상관 관계.
랩퍼 메소드는 분류 자에 바인드되며 관심있는 분류 자에 대해 더 나은 기능 세트를 제공 할 수 있습니다. 특성 (각 반복에서 전체 교육 / 테스트)으로 인해 빠르거나 비모수로 간주 할 수 없지만 비선형 기능 관계 (제 3 요구 사항)를 처리 할 수 있습니다. 예를 들어 SVM을 기반으로하는 재귀 적 기능 제거 (Recursive Feature Elimination)가 클래스 간의 마진을 최대화하는 것을 목표로하며 비선형 커널을 사용하여 기능의 비선형 관계를 처리 할 수 있습니다.