기능 선택을위한 랜덤 순열 테스트 기능 선택에 대한 순열 분석에 대해

로지스틱 회귀 컨텍스트에서 기능 선택에 대한 순열 분석에 대해 혼란스러워합니다.
랜덤 순열 테스트에 대한 명확한 설명을 제공하고이 기능이 기능 선택에 어떻게 적용됩니까? 정확한 알고리즘과 예제가있을 수 있습니다.

마지막으로 올가미 또는 LAR과 같은 다른 수축 방법과 어떻게 비교됩니까?



답변

(지금은 시간이 많지 않으므로 간단히 대답 한 다음 나중에 확장하겠습니다)

이진 분류 문제를 고려하고 있고 훈련 세트가 있다고 가정 해 봅시다.

미디엄

클래스 1 샘플 및

클래스 2 샘플. 기능 선택에 대한 순열 테스트는 각 기능을 개별적으로 확인합니다. 테스트 통계

θ

정보 이득 또는 평균들 사이의 정규화 된 차이와 같은 정보는 특징에 대해 계산된다. 그런 다음 지형지 물에 대한 데이터는 임의로 순열되고 크기가 하나 인 두 세트로 분할됩니다.

미디엄

그리고 하나의 크기

. 테스트 통계

θ

그런 다음이 새 파티션을 기반으로 계산됩니다.

. 문제의 계산 복잡도에 따라 기능의 가능한 모든 파티션에서 두 세트의 순서로 반복됩니다.

미디엄

또는 이들 중 임의의 하위 집합입니다.

이제 우리는 배포를 설정했습니다

θ

관측 된 검정 통계량의 p- 값을 계산합니다.

θ

기능의 임의 파티션에서 발생했습니다. 귀무 가설은 각 클래스의 표본이 동일한 기본 분포에서 나온다는 것입니다 (기능은 관련이 없음).

이 프로세스는 모든 기능에 대해 반복되며 분류에 사용되는 기능의 하위 집합은 두 가지 방법으로 선택할 수 있습니다.

  • 그만큼

    p- 값이 가장 낮은 피처

  • p- 값이있는 모든 기능
    <ϵ


답변