auc Archives - Page 3 of 3

ROC 곡선 아래의 영역이 분류자가 무작위로 선택된 “긍정적 인”인스턴스 (검색된 예측에서)를 무작위로 선택한 “긍정적 인”인스턴스 (원래의 긍정적 인 클래스에서)보다 높은 순위로 순위를 매기는 이유는 무엇입니까? 적분을 사용하여 수학적으로이 진술을 어떻게 증명하고 CDF와 PDF에 진정한 양수 분포와 음수 분포를 제공합니까?

답변

먼저 ROC 곡선 아래 영역을 공식적으로 정의 해 봅시다. 몇 가지 가정과 정의 :

우리는 “점수”s (x)를 출력하는 확률 론적 분류기를가집니다. 여기서 x는 특징이며, s는 추정 확률 p (class = 1 | x)의 일반적인 증가하는 단조 함수입니다.
$f_{k} (s)$
$f_{k} (s)$
$f_{k}(s)$ , : = CDF 사용한 k 클래스 점수의 pdf $k = {0, 1}$
$k = {0, 1}$
$k = \{0, 1\}$ $F_{k} (s)$
$F_{k} (s)$
$F_{k}(s)$
점수 s 를 임계 값 t 와 비교하여 새로운 관측치의 분류가 얻어진다.

또한 수학적 편의를 위해 양의 클래스 (이벤트 감지) k = 0 및 음의 k = 1을 고려해 보겠습니다.이 설정에서 다음을 정의 할 수 있습니다.

리콜 (일명 감도, 일명 TPR) : (긍정 사례의 비율이 긍정적으로 분류 됨) $F_{0} (t)$
특이성 (일명 TNR) : (음수로 분류 된 음성 사례의 비율) $1 - F_{1} (t)$
FPR (일명 폴 아웃) : 1- TNR = $F_{1} (t)$

ROC 곡선은 에 대한 의 플롯입니다 . 설정 하면 ROC 곡선 아래의 영역을 공식적으로 다음과 같이 정의 할 수 있습니다.

변수 변경 ( ) :
$F_{0} (t)$

F_{0} (t)

$F_{0}(t)$ $F_{1} (t)$

F_{1} (t)

$F_{1}(t)$ $v = F_{1} (s)$

v = F_{1} (s)

$v = F_1(s)$

A U C = \int_{0}^{1} F_{0} (F_{1}^{- 1} (v)) d v

$AUC =\int_{0}^{1} F_{0}(F_{1}^{-1}(v)) dv$ $d v = f_{1} (s) d s$

d v = f_{1} (s) d s

$dv = f_{1}(s)ds$

A U C = \int_{- \infty}^{\infty} F_{0} (s) f_{1} (s) d s

$AUC =\int_{ - \infty}^{\infty} F_{0}(s) f_{1}(s)ds$

이 공식은 클래스 0의 임의로 추첨 된 멤버가 클래스 1의 무작위로 추첨 된 멤버의 점수보다 낮은 점수를 생성 할 확률 인 것으로 쉽게 알 수 있습니다.

이 증명은 https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf 에서 가져 왔습니다.

답변

@alebu의 대답은 훌륭합니다. 그러나 그 표기법은 비표준이며 양수 클래스에는 0을, 음수 클래스에는 1을 사용합니다. 다음은 표준 표기법의 결과입니다 (음수 클래스의 경우 0, 양수 클래스의 경우 1).

음성 클래스에 대한 점수의 PDF 및 : 및 $f_{0} (s)$

f_{0} (s)

$f_0(s)$ $F_{0} (s)$

F_{0} (s)

$F_0(s)$

포지티브 클래스 점수 및 cdf : 및 $f_{1} (s)$

f_{1} (s)

$f_1(s)$ $F_{1} (s)$

F_{1} (s)

$F_1(s)$

FPR = $x (s) = 1 - F_{0} (s)$

x (s) = 1 - F_{0} (s)

$x(s) = 1-F_0(s)$

TPR = $y (s) = 1 - F_{1} (s)$

y (s) = 1 - F_{1} (s)

$y(s) = 1-F_1(s)$

\begin{aligned} AUC & = \int_{0}^{1} y (x) d x \\ = \int_{0}^{1} y (x (τ)) d x (τ) \\ = \int_{+ \infty}^{- \infty} y (τ) x^{'} (τ) d τ \\ = \int_{+ \infty}^{- \infty} (1 - F_{1} (τ)) (- f_{0} (τ)) d τ \\ = \int_{- \infty}^{+ \infty} (1 - F_{1} (τ)) f_{0} (τ) d τ \end{aligned}

$\begin{align} \text{AUC} &= \int_0^1 y(x) dx\\ &= \int_0^1 y(x(\tau)) dx(\tau) \\ &= \int_{+\infty}^{-\infty} y(\tau) x'(\tau) d\tau \\ &= \int_{+\infty}^{-\infty} \big( 1-F_1(\tau) \big) \big( -f_0(\tau) \big) d\tau \\ &= \int_{-\infty}^{+\infty} \big( 1-F_1(\tau) \big) f_0(\tau) d\tau \end{align}$

여기서 는 임계 값을 나타냅니다. @ alebu ‘s answer의 해석을 마지막 표현에 적용 할 수 있습니다. $τ$

τ

$\tau$

답변

AUC-ROC를 계산하는 방법은 TPR과 FPR을 임계 값으로 플로팅하고 를 변경 한 후 해당 곡선 아래 면적을 계산하는 것입니다. 그러나 왜 곡선 아래의이 영역이이 확률과 같은가? 다음을 가정 해 봅시다. $τ$

τ

$\tau$

$A$
$B$
$τ$

TPR (호출)은 로, FPR (fallout)은 됩니다. $P (A > τ)$

P (A > τ)

$P(A>\tau)$ $P (B > τ)$

P (B > τ)

$P(B>\tau)$

이제 y 축에 TPR을, x 축에 FPR을 플로팅하고 다양한 대한 곡선을 그리고이 곡선 아래 면적 ( )을 계산합니다 . $τ$

τ

$\tau$ $A U C$

A U C

$AUC$

우리는 얻는다 :

A U C = \int_{0}^{1} T P R (x) d x = \int_{0}^{1} P (A > τ (x)) d x

$AUC = \int_0^1 TPR(x)dx = \int_0^1 P(A>\tau(x))dx$
여기서 는 FPR입니다. 이제이 적분을 계산하는 한 가지 방법은 를 균일 분포에 속하는 것으로 간주 하는 것입니다. 이 경우 단순히 의 기대가됩니다 . $x$

x

$x$ $x$

x

$x$ $T P R$

T P R

$TPR$

\begin{matrix} (1) & A U C = E_{x} [P (A > τ (x))] \end{matrix}

$AUC = E_x[P(A>\tau(x))] \tag{1}$
고려하면 입니다. $x \sim U [0, 1)$

x \sim U [0, 1)

$x \sim U[0,1)$

이제 는 일뿐입니다. $x$

x

$x$ $F P R$

F P R

$FPR$

x = F P R = P (B > τ (x))

$x=FPR = P(B>\tau(x))$ 는 균일 분포에서 나온
것으로 간주 $x$

x

$x$

P (B > τ (x)) \sim U

$P(B>\tau(x)) \sim U$

=> P (B < τ (x)) \sim (1 - U) \sim U

$=> P(B<\tau(x)) \sim (1-U) \sim U$

\begin{matrix} (2) & => F_{B} (τ (x)) \sim U \end{matrix}

$\begin{equation}=> F_B(\tau(x)) \sim U \tag{2}\end{equation}$

그러나 역변환 법칙에 따르면 임의의 변수 에 대해 이면 라는 것을 알고 있습니다 . 이것은 임의의 변수를 취하고 자체 CDF를 적용하여 유니폼을 만들기 때문에 발생합니다. $X$

X

$X$ $F_{X} (Y) \sim U$

F_{X} (Y) \sim U

$F_X(Y) \sim U$ $Y \sim X$

Y \sim X

$Y \sim X$

F_{X} (X) = P (F_{X} (x) < X) = P (X < F_{X}^{- 1} (X)) = F_{X} F_{X}^{- 1} (X) = X

$F_X(X) = P(F_X(x)<X) =P(X<F_X^{-1}(X))=F_XF_X^{-1}(X)=X$
이것은 균일 한 것만 유지합니다.

식 (2)에서이 사실을 사용하면 다음과 같이됩니다 :

τ (x) \sim B

$\tau(x) \sim B$

이것을 방정식 (1)로 대체하면 다음과 같은 결과를 얻습니다.

A U C = E_{x} (P (A > B)) = P (A > B)

$AUC=E_x(P(A>B))=P(A>B)$

다시 말해서, 곡선 아래의 영역은 랜덤 포지티브 샘플이 랜덤 네거티브 샘플보다 점수가 높을 확률입니다.

How IT

언제든지 물어보세요.

태그 보관물: auc

AUC의 확률 론적 해석을 도출하는 방법은 무엇입니까? 높은 순위로

답변

답변

답변

답변