ROC 곡선 아래의 영역이 분류자가 무작위로 선택된 “긍정적 인”인스턴스 (검색된 예측에서)를 무작위로 선택한 “긍정적 인”인스턴스 (원래의 긍정적 인 클래스에서)보다 높은 순위로 순위를 매기는 이유는 무엇입니까? 적분을 사용하여 수학적으로이 진술을 어떻게 증명하고 CDF와 PDF에 진정한 양수 분포와 음수 분포를 제공합니까?
답변
먼저 ROC 곡선 아래 영역을 공식적으로 정의 해 봅시다. 몇 가지 가정과 정의 :
-
우리는 “점수”s (x)를 출력하는 확률 론적 분류기를가집니다. 여기서 x는 특징이며, s는 추정 확률 p (class = 1 | x)의 일반적인 증가하는 단조 함수입니다.
-
, : = CDF 사용한 k 클래스 점수의 pdf
-
점수 s 를 임계 값 t 와 비교하여 새로운 관측치의 분류가 얻어진다.
또한 수학적 편의를 위해 양의 클래스 (이벤트 감지) k = 0 및 음의 k = 1을 고려해 보겠습니다.이 설정에서 다음을 정의 할 수 있습니다.
- 리콜 (일명 감도, 일명 TPR) : (긍정 사례의 비율이 긍정적으로 분류 됨)
- 특이성 (일명 TNR) : (음수로 분류 된 음성 사례의 비율)
- FPR (일명 폴 아웃) : 1- TNR =
ROC 곡선은 에 대한 의 플롯입니다 . 설정 하면 ROC 곡선 아래의 영역을 공식적으로 다음과 같이 정의 할 수 있습니다.
변수 변경 ( ) :
이 공식은 클래스 0의 임의로 추첨 된 멤버가 클래스 1의 무작위로 추첨 된 멤버의 점수보다 낮은 점수를 생성 할 확률 인 것으로 쉽게 알 수 있습니다.
이 증명은 https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf 에서 가져 왔습니다.
답변
@alebu의 대답은 훌륭합니다. 그러나 그 표기법은 비표준이며 양수 클래스에는 0을, 음수 클래스에는 1을 사용합니다. 다음은 표준 표기법의 결과입니다 (음수 클래스의 경우 0, 양수 클래스의 경우 1).
음성 클래스에 대한 점수의 PDF 및 : 및
포지티브 클래스 점수 및 cdf : 및
FPR =
TPR =
여기서 는 임계 값을 나타냅니다. @ alebu ‘s answer의 해석을 마지막 표현에 적용 할 수 있습니다.
답변
AUC-ROC를 계산하는 방법은 TPR과 FPR을 임계 값으로 플로팅하고 를 변경 한 후 해당 곡선 아래 면적을 계산하는 것입니다. 그러나 왜 곡선 아래의이 영역이이 확률과 같은가? 다음을 가정 해 봅시다.
는 실제로 양의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다.
는 실제로 음의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다 (이는 왼쪽에 있음 ).
는 컷오프 임계 값입니다. 데이터 포인트가 이보다 큰 점수를 얻는 경우 양의 클래스에 속하는 것으로 예측됩니다. 그렇지 않으면, 그것은 부정적인 클래스에있을 것으로 예상됩니다.
TPR (호출)은 로, FPR (fallout)은 됩니다.
이제 y 축에 TPR을, x 축에 FPR을 플로팅하고 다양한 대한 곡선을 그리고이 곡선 아래 면적 ( )을 계산합니다 .
우리는 얻는다 :
여기서 는 FPR입니다. 이제이 적분을 계산하는 한 가지 방법은 를 균일 분포에 속하는 것으로 간주 하는 것입니다. 이 경우 단순히 의 기대가됩니다 .
고려하면 입니다.
이제 는 일뿐입니다.
는 균일 분포에서 나온
것으로 간주
그러나 역변환 법칙에 따르면 임의의 변수 에 대해 이면 라는 것을 알고 있습니다 . 이것은 임의의 변수를 취하고 자체 CDF를 적용하여 유니폼을 만들기 때문에 발생합니다.
이것은 균일 한 것만 유지합니다.
식 (2)에서이 사실을 사용하면 다음과 같이됩니다 :
이것을 방정식 (1)로 대체하면 다음과 같은 결과를 얻습니다.
다시 말해서, 곡선 아래의 영역은 랜덤 포지티브 샘플이 랜덤 네거티브 샘플보다 점수가 높을 확률입니다.