로지스틱 회귀 컨텍스트에서 기능 선택에 대한 순열 분석에 대해 혼란스러워합니다.
랜덤 순열 테스트에 대한 명확한 설명을 제공하고이 기능이 기능 선택에 어떻게 적용됩니까? 정확한 알고리즘과 예제가있을 수 있습니다.
마지막으로 올가미 또는 LAR과 같은 다른 수축 방법과 어떻게 비교됩니까?
답변
(지금은 시간이 많지 않으므로 간단히 대답 한 다음 나중에 확장하겠습니다)
이진 분류 문제를 고려하고 있고 훈련 세트가 있다고 가정 해 봅시다.
클래스 1 샘플 및
클래스 2 샘플. 기능 선택에 대한 순열 테스트는 각 기능을 개별적으로 확인합니다. 테스트 통계
정보 이득 또는 평균들 사이의 정규화 된 차이와 같은 정보는 특징에 대해 계산된다. 그런 다음 지형지 물에 대한 데이터는 임의로 순열되고 크기가 하나 인 두 세트로 분할됩니다.
그리고 하나의 크기
. 테스트 통계
그런 다음이 새 파티션을 기반으로 계산됩니다.
. 문제의 계산 복잡도에 따라 기능의 가능한 모든 파티션에서 두 세트의 순서로 반복됩니다.
과
또는 이들 중 임의의 하위 집합입니다.
이제 우리는 배포를 설정했습니다
관측 된 검정 통계량의 p- 값을 계산합니다.
기능의 임의 파티션에서 발생했습니다. 귀무 가설은 각 클래스의 표본이 동일한 기본 분포에서 나온다는 것입니다 (기능은 관련이 없음).
이 프로세스는 모든 기능에 대해 반복되며 분류에 사용되는 기능의 하위 집합은 두 가지 방법으로 선택할 수 있습니다.
- 그만큼
p- 값이 가장 낮은 피처 - p- 값이있는 모든 기능