통계 및 기계 학습에서 두 그룹 간 구별 : 가설 검정 vs. 분류 대 군집 싶습니다. 나는 할 수 있었다

A와 B라는 레이블이 붙은 두 개의 데이터 그룹 (예 : 200 개의 샘플과 1 개의 기능을 포함)이 있고 서로 다른지 알고 싶습니다. 나는 할 수 있었다 :

  • a) 통계 테스트 (예 : t- 테스트)를 수행하여 통계적으로 다른지 확인하십시오.

  • b) 감독 머신 러닝 (예 : 지원 벡터 분류기 또는 임의 포리스트 분류기)을 사용합니다. 내 데이터의 일부에서 이것을 훈련시키고 나머지에서 확인할 수 있습니다. 기계 학습 알고리즘이 나머지를 올바르게 분류하면 샘플이 차별화되는지 확인할 수 있습니다.

  • c) 감독되지 않은 알고리즘 (예 : K-Means)을 사용하고 모든 데이터를 두 샘플로 나눕니다. 그런 다음이 두 개의 발견 된 샘플이 레이블 A 및 B와 일치하는지 확인할 수 있습니다.

내 질문은 :

  1. 이 세 가지 방법이 어떻게 중복 / 배타적입니까?
  2. b)와 c)는 과학적 주장에 유용합니까?
  3. 방법 b)와 c)에서 샘플 A와 B의 차이에 대해 어떻게“의의”를 얻을 수 있습니까?
  4. 데이터에 하나의 기능이 아닌 여러 기능이있는 경우 어떻게 변경됩니까?
  5. 100과 300과 같이 다른 수의 샘플이 포함 된 경우 어떻게됩니까?


답변

좋은 질문입니다. 목표가 무엇인지 (그리고 아마도 상황의 본질에 따라) 무엇이든지 좋고 나쁘거나 유용하거나 그렇지 않을 수 있습니다. 대부분의 경우 이러한 방법은 서로 다른 목표를 만족 시키도록 설계되었습니다.

  • 검정 과 같은 통계 검정 을 통해 과학적 가설을 검정 할 수 있습니다. 사람들이 다른 도구에 익숙하지 않기 때문에 종종 다른 목적으로 사용되지만 일반적으로 사용해서는 안됩니다. 두 그룹이 정규 분포 변수에 대해 다른 평균을 가짐에 대한 사전 가설이있는 경우 t- 검정을 통해 해당 가설을 테스트하고 장기 유형 I 오류율을 제어 할 수 있습니다 (여러분은 알 수 없지만 이 특정 경우에 제 1 종 오류율을 만들었습니다.

  • SVM과 같은 기계 학습의 분류기 는 패턴을 알려진 클래스 세트 중 하나에 속하는 것으로 분류하도록 설계되었습니다. 일반적인 상황은 일부 알려진 인스턴스가 있고 나중에 실제 클래스를 알 수없는 다른 패턴이있을 때 가장 정확한 분류를 제공 할 수 있도록이를 사용하여 분류기를 학습하려는 경우입니다. 여기서 강조 는 샘플 정확도 를 벗어난 것입니다 . 가설을 테스트하지 않습니다. 확실히 미래의 분류 도움이 불가능할 것이기 때문에 예측 변수 / 특성의 분포가 클래스마다 다르기를 희망하지만 Y의 평균이 X에 따라 다르다는 믿음을 평가하려고하지는 않습니다. Y가 알려진 미래의 X.
  • 클러스터링 과 같은 비지도 학습 알고리즘 은 데이터 세트에서 구조를 감지하거나 부과하도록 설계되었습니다. 이 작업을 수행 할 수있는 많은 이유가 있습니다. 때로는 데이터 세트에 잠재 된 잠재 그룹이있을 것으로 예상하고 클러스터링 결과가 사용자의 목적에 따라 합리적이고 유용하게 보이는지 확인하고자 할 수 있습니다. 다른 경우에는 데이터 축소를 가능하게하기 위해 데이터 세트에 구조를 적용 할 수 있습니다. 어느 쪽이든, 당신은 어떤 것에 대한 가설을 테스트하려고 시도하지 않으며, 미래에 무엇이든지 정확하게 예측할 수 있기를 희망하지 않습니다.

이를 염두에두고 질문을 해결하십시오.

  1. 세 가지 방법은 목표에 따라 근본적으로 다릅니다.
  2. b와 c는 과학적 논증에 유용 할 수 있으며, 논증의 본질에 달려 있습니다. 과학에서 가장 일반적인 유형의 연구는 가설 검정에 중점을두고 있습니다. 그러나 합법적 인 목표 인 예측 모델을 형성하거나 잠재적 패턴을 감지하는 것도 가능합니다.
  3. 일반적으로 방법 b 또는 c에서 ‘의미’를 얻으려고 시도하지 않습니다.
  4. 기능이 사실상 범주 형이라고 가정하면 (여기서 수집 한 것이 마음에 드는 것임) 계승 분산 분석을 사용하여 가설을 테스트 할 수 있습니다. 기계 학습에는 다중 레이블 분류에 대한 하위 주제가 있습니다. 여러 멤버쉽 / 겹치는 클러스터에 대한 방법도 있지만, 덜 일반적이며 다루기 어려운 문제를 구성합니다. 이 주제에 대한 개요는 Krumpleman, CS (2010) 겹치는 클러스터링을 참조하십시오. 논문, UT Austin, 전기 및 컴퓨터 공학 ( pdf ).
  5. 일반적으로 말해서, 세 가지 유형의 방법 모두 범주에 걸쳐 사례 수가 다양할수록 더 큰 어려움이 있습니다.

답변

다른 답변으로 해결되었으므로 클러스터링을 해결하지는 않지만 다음을 수행하십시오.

일반적으로 두 샘플의 의미가 다른지 테스트하는 문제를 2- 샘플 테스트라고 합니다.

예를 들어 Lopez-Paz and Oquab (2017)에서 최근 제안한 것처럼 분류기에서 2 샘플 테스트를 구성하는 경우 이러한 문제 중 일부에 대해 더 쉽게 생각할 수 있습니다 . 절차는 다음과 같습니다.


  • 엑스

    와이

    엑스기차

    엑스테스트

    와이기차

    와이테스트


  • 엑스기차

    와이기차


  • 엑스테스트

    와이테스트


  • 피^

    피=12

    피≠12

    피≠12

학습 된 분류기를 검사하여 분포 간의 차이를 반 의미 한 방식으로 해석 할 수도 있습니다. 고려하는 분류 기준 군을 변경하면 특정 종류의 차이점을 찾도록 테스트를 안내 할 수 있습니다.

train-test split을 수행하는 것이 중요합니다. 그렇지 않으면 입력을 암기 한 분류 기가 항상 완벽한 판별력을 갖습니다. 훈련 세트의 점수 부분을 늘리면 좋은 분류기를 배울 수있는 더 많은 데이터가 제공되지만 분류 정확도가 실제로 확률과 다른지 확인할 수있는 기회는 줄어 듭니다. 이 장단점은 문제와 분류 자 ​​가족에 따라 달라 지지만 아직 잘 이해되지 않은 것입니다.

Lopez-Paz와 Oquab는 몇 가지 문제에서이 접근 방식의 실증적 성능을 보여주었습니다. Ramdas et al. (2016) 은 이론적으로 밀접하게 관련된 접근법이 하나의 특정 간단한 문제에 대해 속도 최적화적임을 보여 주었다. 이 설정에서 수행해야 할 “올바른”작업은 활발한 연구 분야이지만이 방법은 상용 표준 테스트를 적용하는 것보다 약간 더 유연하고 해석하기를 원할 경우 많은 설정에서 적어도 합리적입니다.


답변

접근법 (a)만이 가설 검정의 목적으로 사용됩니다.

감독 된 머신 러닝 알고리즘 (b)을 사용하는 경우 그룹의 분산에 대한 가설을 입증하거나 반증 할 수 없습니다. 기계 학습 알고리즘이 그룹을 올바르게 분류하지 않으면 문제에 대해 “잘못된”알고리즘을 사용했거나 충분히 조정하지 않았기 때문에 발생할 수 있습니다. 반면에, “랜덤”데이터를 오래 “고문”할 수 있습니다. 좋은 예측을하는 과적 합 모델을 생성하기에 충분합니다. 또 다른 문제는 알고리즘이 “좋은”예측을한다는 것을 언제 그리고 어떻게 알 수 있을까요? 분류 정확도가 100 %를 목표로하는 경우는 거의 없습니다. 따라서 분류 결과가 무언가를 증명한다는 것을 언제 알 수 있습니까?

군집 알고리즘 (c)은지도 학습을 위해 설계되지 않았습니다. 레이블을 다시 만드는 것이 아니라 데이터를 유사성으로 그룹화하는 것입니다. 이제 결과는 사용하는 알고리즘과 찾고있는 유사성에 따라 다릅니다. 데이터는 서로 다른 종류의 유사점을 가질 수 있으며, 남학생과 여학생 간의 차이점을 찾고 싶을 수도 있지만 알고리즘은 대신 가난하고 부유 한 어린이 그룹 또는 지능적이지 않은 지적, 오른쪽 및 왼손잡이 등을 찾을 수 있습니다. 의도 한 그룹화는 그룹화가 의미가 없다는 것을 증명하는 것이 아니라 다른 “의미있는”그룹화를 찾았다는 것만 증명합니다. 이전의 경우와 같이 결과는 사용 된 알고리즘과 매개 변수에 따라 달라질 수 있습니다. 알고리즘 / 설정 10 개 중 하나가 “귀하의”를 발견 한 경우 라벨? 그것이 백에서 하나라면 어떨까요? 중지하기 전에 얼마나 오래 검색 하시겠습니까? 대부분의 경우 기계 학습을 사용할 때 기본 설정으로 하나의 알고리즘을 사용한 후에는 중단되지 않으며 결과는 사용한 절차에 따라 달라질 수 있습니다.


답변

  1. a) 분포가 다른지 여부에 대한 질문에만 대답하지만 구별하는 방법은 아닙니다. b) 또한 두 분포를 구별하기위한 최상의 가치를 찾을 것입니다. c) 두 분포에 특정 특성이있는 경우 작동합니다. 예를 들어, 정규 분포에서는 작동하지만 두 개의 모달 분포에서는 작동하지 않습니다.이 방법은 두 개의 다른 그룹 대신 동일한 그룹의 두 가지 모드를 구별 할 수 있기 때문입니다.

  2. c) 두 개의 모달 분포 때문에 과학적 주장에는 유용하지 않다. b) 유의성을 계산할 수 있기 때문에 두 분포를 구별하는 데 사용할 수 있습니다 (3 참조).

  3. 부트 스트랩 랜덤 서브 샘플을 기준으로 1000 번 모델을 계산합니다. 예를 들어 알파 및 베타 오류의 최소 합과 같은 점수를 얻습니다. 점수를 오름차순으로 정렬합니다. 5 % 신뢰를 위해서는 950 번째 값을 선택하십시오. 이 값이 50 %보다 낮 으면 (그룹 A 및 B의 동일한 수의 포인트에 대해) 95 % 신뢰도로 분포가 동일하다는 귀무 가설을 무시할 수 있습니다. 문제는 분포가 모두 정규이고 평균이 같지만 변형이 다르면 ML 기술에 따라 다르다는 것을 이해할 수 없다는 것입니다. 반면에 두 분포를 구별 할 수있는 변형 검정을 찾을 수 있습니다. ML이 통계 테스트보다 강력하고 분포를 구별 할 수있는 다른 방법이 될 수 있습니다.

  4. ML에 기능이 하나만 있으면 분포를 구별하기 위해 하나의 값만 찾으면됩니다. 두 가지 특징으로 경계는 부비동이 될 수 있고 다차원 공간에서는 정말 이상 할 수 있습니다. 따라서 올바른 경계를 찾는 것이 훨씬 어려울 것입니다. 반면에 추가 기능은 추가 정보를 제공합니다. 따라서 일반적으로 두 분포를 더 쉽게 구별 할 수 있습니다. 두 변수가 모두 정규 분포이면 경계는 선입니다.

  5. 중앙 한계 정리를 적용 할 수 없으므로 더 작은 샘플은 비정규 적으로 작동 할 수 있습니다. 중앙 한계 정리 (Central Limit Theorem)가 작동하기 때문에 더 큰 샘플이 더 정상적으로 작동하기 시작합니다. 예를 들어 표본이 충분히 크면 두 그룹의 평균이 거의 정규 분포를 따릅니다. 그러나 일반적으로 100 대 300이 아니라 1000 개의 관측치에 대한 10 개의 관측치입니다. 따라서이 사이트 에 따르면 관측치 수가 40보다 크고 특이 치가없는 경우 분포에 관계없이 평균 차이에 대한 t- 검정이 작동합니다.


답변

통계 테스트 는 데이터를 추론하기위한 것이며 사물이 어떻게 관련되어 있는지 알려줍니다. 결과는 실제 의미를 갖는 것입니다. 예를 들어 흡연이 방향과 규모면에서 폐암과 어떤 관련이 있는지. 여전히 왜 일이 일어 났는지는 알려주지 않습니다. 왜 일이 일어 났는지에 답하기 위해, 다른 변수들과의 상호 관계를 고려하고 적절히 조정해야합니다 (Pearl, J. (2003) 원인 : 모델, 이유 및 추론 참조).

지도 학습 은 예측을하기위한 것이며, 어떻게 될지 알려줍니다. 예를 들어 사람의 흡연 상태를 고려하면 폐암에 걸릴지 여부를 예측할 수 있습니다. 간단한 경우에도, 예를 들어 알고리즘으로 식별 된 흡연 상태의 컷오프를보고 “방법”을 알려줍니다. 그러나 더 복잡한 모델은 해석하기 어렵거나 불가능합니다 (많은 기능으로 딥 러닝 / 증폭).

비지도 학습 은 종종 위의 두 가지를 촉진하는 데 사용됩니다.

  • 통계 테스트의 경우 데이터의 일부 알려지지 않은 하위 그룹을 발견하여 (클러스터링) 변수 간의 연관에서 이질성을 유추 할 수 있습니다. 예를 들어 흡연은 B 군이 아닌 A 군의 폐암에 걸릴 확률을 높입니다.
  • 지도 학습을 위해 예측 정확도와 견고성을 향상시키는 새로운 기능을 만들 수 있습니다. 예를 들어 폐암에 걸릴 확률과 관련된 하위 군 (클러스터링) 또는 특징의 조합 (치수 감소)을 식별합니다.

기능 / 변수 수가 더 많아지면 통계 테스트와지도 학습의 차이가 더 커집니다. 통계 테스트는 반드시 이것으로부터 이익을 얻지 못할 수도 있습니다. 예를 들어 위에서 언급 한 것처럼 다른 요소를 제어하거나 연관에서 이질성을 식별하여 인과 추론을 할 것인지에 따라 다릅니다. 기능이 관련되어 있으면 학습 학습이 더 잘 수행되며 블랙 박스처럼 될 것입니다.

표본 수가 많아지면 통계 테스트에 대한보다 정확한 결과,지도 학습에 대한보다 정확한 결과,지도되지 않은 학습에 대한보다 강력한 결과를 얻을 수 있습니다. 그러나 이것은 데이터의 품질에 달려 있습니다. 품질이 좋지 않은 데이터는 결과에 치우침이나 노이즈가 발생할 수 있습니다.

때때로 우리는 흡연이 폐암을 유발한다는 것을 식별함으로써 개입 조치에 정보를 제공하는“어떻게”와“왜”를 알고 싶어합니다. 때로 폐암에 걸릴 가능성이있는 사람을 찾아 조기 치료를하는 등 의사 결정에 도움이되는“무엇”을 알고 싶을 수도 있습니다. 과학에 대한 예측과 그 한계에 관한 특별한 문제가 있습니다 ( http://science.sciencemag.org/content/355/6324/468). “테라 바이트의 데이터를 처리 할 수있는 알고리즘 능력으로 컨텍스트에 대한 인간의 이해를 결합시키는 여러 분야의 노력을 통해 문제가 해결 될 때 성공은 가장 일관된 것으로 보입니다.” 처음에 수집해야 할 데이터 / 기능 반면에지도 학습은 어떤 변수를 알려 가설을 생성하는 데 도움이 될 수 있습니다