중복 기능을 수량화하는 방법은 무엇입니까? 문제를 해결하는 데 사용하는 세 가지

분류 문제를 해결하는 데 사용하는 세 가지 기능이 있습니다. 원래 이러한 기능은 부울 값을 생성하므로 포지티브 및 네거티브 분류 세트가 얼마나 겹치는 지 살펴보고 중복성을 평가할 수있었습니다. 이제 실제 값 (점수)을 생성하는 기능을 확장했으며 중복성을 다시 분석하고 싶지만 그렇게하는 방법에 대한 완전한 손실이 있습니다. 누구든지 그것에 대해하는 방법에 대한 포인터 나 아이디어를 제공 할 수 있습니까?

나는이 질문이 매우 모호하다는 것을 알고있다. 왜냐하면 나는 통계에 대한 이해력이 없기 때문이다. 따라서 나에게 답이 없다면 나 자신을 더 잘 이해하는 데 도움이되는 몇 가지 질문이있을 수 있습니다.

편집 : 나는 현재 주제에 대해 Wikipedia를 탐색하고 있는데, 내가 원하는 것이 상관 계수라는 느낌이 들지만 이것이 올바른 접근법인지, 사용 가능한 많은 계수 중 어느 것이 적합한 지 여전히 확실하지 않습니다.

편집 2 : 부울 경우 먼저 각 기능에 대해 사실 인 샘플 세트를 작성했습니다. 그런 다음 두 피처 간의 상관 관계는 이러한 집합의 합집합 크기에 대한 이러한 집합의 교집 크기입니다. 이 값이 1이면 항상 동일하기 때문에 완전히 중복됩니다. 0이면 결코 동일하지 않습니다.



답변

이것은 기능 선택의 문제처럼 들립니다.이 경우 모든 기능 하위 집합과 분류 출력 간의 상호 정보 를 계산하고 싶습니다 . 상호 정보가 가장 높은 서브 세트는 레코드의 결과 분류에 대한 ‘정보’가 가장 많은 기능 세트입니다.

기능이 3 개 뿐인 경우, 가능한 시간 내에 모든 가능한 부분 집합을 계산할 수 있으며, 기능 세트가 커지면 대략적으로 계산해야합니다 (일반적으로 욕심 많은 접근 방식 : 각 단계에서 MI가 가장 높은 기능 사용) ).


답변