SVM을 직관적으로 이해하는 데는 몇 가지 의심이 있습니다. SVMLight 또는 LibSVM과 같은 일부 표준 도구를 사용하여 분류를 위해 SVM 모델을 학습했다고 가정합니다.
-
테스트 데이터 예측에이 모델을 사용하면 모델은 각 테스트 포인트에 대해 “알파”값을 가진 파일을 생성합니다. 알파 값이 양수이면 테스트 포인트가 클래스 1에 속하고 그렇지 않으면 클래스 2에 속합니다. 이제 더 큰 “알파”값을 가진 테스트 포인트가 “높은”확률을 가진 해당 클래스에 속한다고 말할 수 있습니까?
-
SVM 교육을받은 첫 번째 질문과 유사합니다. SV는 초평면에 매우 가깝습니다. SV가 확률이 높은 해당 클래스에 속한다는 의미입니까? 클래스에 속하는 포인트의 확률을 “하이퍼 플레인”으로부터의 거리와 연관시킬 수 있습니까? “알파”값이 “하이퍼 플레인”으로부터의 거리를 나타 냅니까?
입력 해 주셔서 감사합니다.
답변
먼저 일반적인 질문에 대답하겠습니다. SVM은 확률 모델이 아닙니다. 한 가지 이유는 정규화 가능성과 일치하지 않기 때문입니다. 정규화 최소 자승 예를 들어, 당신이 감소 기능을 갖는 및 regularizer ‖ w ‖ 2 2 . 가중치 벡터는 둘의 합을 최소화하여 얻습니다. 그러나 이는 데이터 p ( w | ( y)가 주어지면 w 의 로그 대수를 최대화하는 것과 같습니다.
가 제조 될 볼 수있는 w에 앞서 가우시안 가능성과 가우시안( Z
정상화되는지 확인하십시오). 부호를 뒤집고 지수화하여 손실 함수에서 가우시안 가능성에 도달합니다. 그러나 SVM의 손실 함수로이를 수행하는 경우 로그 가능성은 정규화 가능한 확률 모델이 아닙니다.
SVM을 하나로 바꾸려는 시도가 있습니다. 가장 눈에 띄는 것은 libsvm에서도 구현됩니다.
John Platt : 서포트 벡터 머신의 확률 론적 출력 및 정규 가능성 분석법과의 비교 (NIPS 1999) : http://www.cs.colorado.edu/~mozer/Teaching/syllabi/6622/papers/Platt1999.pdf