AUC의 확률 론적 해석을 도출하는 방법은 무엇입니까? 높은 순위로

ROC 곡선 아래의 영역이 분류자가 무작위로 선택된 “긍정적 인”인스턴스 (검색된 예측에서)를 무작위로 선택한 “긍정적 인”인스턴스 (원래의 긍정적 인 클래스에서)보다 높은 순위로 순위를 매기는 이유는 무엇입니까? 적분을 사용하여 수학적으로이 진술을 어떻게 증명하고 CDF와 PDF에 진정한 양수 분포와 음수 분포를 제공합니까?



답변

먼저 ROC 곡선 아래 영역을 공식적으로 정의 해 봅시다. 몇 가지 가정과 정의 :

  • 우리는 “점수”s (x)를 출력하는 확률 론적 분류기를가집니다. 여기서 x는 특징이며, s는 추정 확률 p (class = 1 | x)의 일반적인 증가하는 단조 함수입니다.

  • fk(s)

    , : = CDF 사용한 k 클래스 점수의 pdf

    k={0,1}

    Fk(s)

  • 점수 s 를 임계 값 t 와 비교하여 새로운 관측치의 분류가 얻어진다.

또한 수학적 편의를 위해 양의 클래스 (이벤트 감지) k = 0 및 음의 k = 1을 고려해 보겠습니다.이 설정에서 다음을 정의 할 수 있습니다.

  • 리콜 (일명 감도, 일명 TPR) : (긍정 사례의 비율이 긍정적으로 분류 됨)
    F0(t)

  • 특이성 (일명 TNR) : (음수로 분류 된 음성 사례의 비율)
    1F1(t)

  • FPR (일명 폴 아웃) : 1- TNR =
    F1(t)

ROC 곡선은 에 대한 의 플롯입니다 . 설정 하면 ROC 곡선 아래의 영역을 공식적으로 다음과 같이 정의 할 수 있습니다.

변수 변경 ( ) :

F0(t)

F1(t)

v=F1(s)

AUC=01F0(F11(v))dv

dv=f1(s)ds

AUC=F0(s)f1(s)ds

이 공식은 클래스 0의 임의로 추첨 된 멤버가 클래스 1의 무작위로 추첨 된 멤버의 점수보다 낮은 점수를 생성 할 확률 인 것으로 쉽게 알 수 있습니다.

이 증명은 https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf 에서 가져 왔습니다.


답변

@alebu의 대답은 훌륭합니다. 그러나 그 표기법은 비표준이며 양수 클래스에는 0을, 음수 클래스에는 1을 사용합니다. 다음은 표준 표기법의 결과입니다 (음수 클래스의 경우 0, 양수 클래스의 경우 1).

음성 클래스에 대한 점수의 PDF 및 : 및

f0(s)

F0(s)

포지티브 클래스 점수 및 cdf : 및

f1(s)

F1(s)

FPR =

x(s)=1F0(s)

TPR =

y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

여기서 는 임계 값을 나타냅니다. @ alebu ‘s answer의 해석을 마지막 표현에 적용 할 수 있습니다.

τ


답변

AUC-ROC를 계산하는 방법은 TPR과 FPR을 임계 값으로 플로팅하고 를 변경 한 후 해당 곡선 아래 면적을 계산하는 것입니다. 그러나 왜 곡선 아래의이 영역이이 확률과 같은가? 다음을 가정 해 봅시다.

τ


  1. A

    는 실제로 양의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다.


  2. B

    는 실제로 음의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다 (이는 왼쪽에 있음 ).

    A


  3. τ

    는 컷오프 임계 값입니다. 데이터 포인트가 이보다 큰 점수를 얻는 경우 양의 클래스에 속하는 것으로 예측됩니다. 그렇지 않으면, 그것은 부정적인 클래스에있을 것으로 예상됩니다.

TPR (호출)은 로, FPR (fallout)은 됩니다.

P(A>τ)

P(B>τ)

이제 y 축에 TPR을, x 축에 FPR을 플로팅하고 다양한 대한 곡선을 그리고이 곡선 아래 면적 ( )을 계산합니다 .

τ

AUC

우리는 얻는다 :

AUC=01TPR(x)dx=01P(A>τ(x))dx


여기서 는 FPR입니다. 이제이 적분을 계산하는 한 가지 방법은 를 균일 분포에 속하는 것으로 간주 하는 것입니다. 이 경우 단순히 의 기대가됩니다 .

x

x

TPR

(1)AUC=Ex[P(A>τ(x))]


고려하면 입니다.

xU[0,1)

이제 는 일뿐입니다.

x

FPR

x=FPR=P(B>τ(x))

는 균일 분포에서 나온
것으로 간주

x

P(B>τ(x))U


=>P(B<τ(x))(1U)U


(2)=>FB(τ(x))U

그러나 역변환 법칙에 따르면 임의의 변수 에 대해 이면 라는 것을 알고 있습니다 . 이것은 임의의 변수를 취하고 자체 CDF를 적용하여 유니폼을 만들기 때문에 발생합니다.

X

FX(Y)U

YX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X


이것은 균일 한 것만 유지합니다.

식 (2)에서이 사실을 사용하면 다음과 같이됩니다 :

τ(x)B

이것을 방정식 (1)로 대체하면 다음과 같은 결과를 얻습니다.

AUC=Ex(P(A>B))=P(A>B)

다시 말해서, 곡선 아래의 영역은 랜덤 포지티브 샘플이 랜덤 네거티브 샘플보다 점수가 높을 확률입니다.


답변