probability Archives - Page 26 of 31

ROC 곡선 아래의 영역이 분류자가 무작위로 선택된 “긍정적 인”인스턴스 (검색된 예측에서)를 무작위로 선택한 “긍정적 인”인스턴스 (원래의 긍정적 인 클래스에서)보다 높은 순위로 순위를 매기는 이유는 무엇입니까? 적분을 사용하여 수학적으로이 진술을 어떻게 증명하고 CDF와 PDF에 진정한 양수 분포와 음수 분포를 제공합니까?

답변

먼저 ROC 곡선 아래 영역을 공식적으로 정의 해 봅시다. 몇 가지 가정과 정의 :

우리는 “점수”s (x)를 출력하는 확률 론적 분류기를가집니다. 여기서 x는 특징이며, s는 추정 확률 p (class = 1 | x)의 일반적인 증가하는 단조 함수입니다.
$f_{k} (s)$
fk(s)
, : = CDF 사용한 k 클래스 점수의 pdf $k = {0, 1}$
k={0,1}
$F_{k} (s)$
Fk(s)
점수 s 를 임계 값 t 와 비교하여 새로운 관측치의 분류가 얻어진다.

또한 수학적 편의를 위해 양의 클래스 (이벤트 감지) k = 0 및 음의 k = 1을 고려해 보겠습니다.이 설정에서 다음을 정의 할 수 있습니다.

리콜 (일명 감도, 일명 TPR) : (긍정 사례의 비율이 긍정적으로 분류 됨) $F_{0} (t)$
특이성 (일명 TNR) : (음수로 분류 된 음성 사례의 비율) $1 - F_{1} (t)$
FPR (일명 폴 아웃) : 1- TNR = $F_{1} (t)$

ROC 곡선은 에 대한 의 플롯입니다 . 설정 하면 ROC 곡선 아래의 영역을 공식적으로 다음과 같이 정의 할 수 있습니다.

변수 변경 ( ) :
$F_{0} (t)$

F0(t)

$F_{1} (t)$

F1(t)

$v = F_{1} (s)$

v=F1(s)

A U C = \int 10 F 0 (F - 1 1 (v)) d v

$d v = f_{1} (s) d s$

dv=f1(s)ds

A U C = \int \infty - \infty F 0 (s) f 1 (s) d s

이 공식은 클래스 0의 임의로 추첨 된 멤버가 클래스 1의 무작위로 추첨 된 멤버의 점수보다 낮은 점수를 생성 할 확률 인 것으로 쉽게 알 수 있습니다.

이 증명은 https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf 에서 가져 왔습니다.

답변

@alebu의 대답은 훌륭합니다. 그러나 그 표기법은 비표준이며 양수 클래스에는 0을, 음수 클래스에는 1을 사용합니다. 다음은 표준 표기법의 결과입니다 (음수 클래스의 경우 0, 양수 클래스의 경우 1).

음성 클래스에 대한 점수의 PDF 및 : 및 $f_{0} (s)$

f0(s)

$F_{0} (s)$

F0(s)

포지티브 클래스 점수 및 cdf : 및 $f_{1} (s)$

f1(s)

$F_{1} (s)$

F1(s)

FPR = $x (s) = 1 - F_{0} (s)$

x(s)=1−F0(s)

TPR = $y (s) = 1 - F_{1} (s)$

y(s)=1−F1(s)

AUC = \int 10 y (x) d x = \int 10 y (x (τ)) d x (τ) = \int - \infty + \infty y (τ) x' (τ) d τ = \int - \infty + \infty (1 - F 1 (τ)) (- f 0 (τ)) d τ = \int + \infty - \infty (1 - F 1 (τ)) f 0 (τ) d τ

여기서 는 임계 값을 나타냅니다. @ alebu ‘s answer의 해석을 마지막 표현에 적용 할 수 있습니다. $τ$

답변

AUC-ROC를 계산하는 방법은 TPR과 FPR을 임계 값으로 플로팅하고 를 변경 한 후 해당 곡선 아래 면적을 계산하는 것입니다. 그러나 왜 곡선 아래의이 영역이이 확률과 같은가? 다음을 가정 해 봅시다. $τ$

$A$ 는 실제로 양의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다.
$B$ 는 실제로 음의 클래스에있는 데이터 포인트에 대해 모델이 생성하는 점수의 분포입니다 (이는 왼쪽에 있음 ). $A$
$τ$ 는 컷오프 임계 값입니다. 데이터 포인트가 이보다 큰 점수를 얻는 경우 양의 클래스에 속하는 것으로 예측됩니다. 그렇지 않으면, 그것은 부정적인 클래스에있을 것으로 예상됩니다.

TPR (호출)은 로, FPR (fallout)은 됩니다. $P (A > τ)$

P(A>τ)

$P (B > τ)$

P(B>τ)

이제 y 축에 TPR을, x 축에 FPR을 플로팅하고 다양한 대한 곡선을 그리고이 곡선 아래 면적 ( )을 계산합니다 . $τ$

$A U C$

AUC

우리는 얻는다 :

A U C = \int 10 T P R (x) d x = \int 10 P (A > τ (x)) d x

여기서 는 FPR입니다. 이제이 적분을 계산하는 한 가지 방법은 를 균일 분포에 속하는 것으로 간주 하는 것입니다. 이 경우 단순히 의 기대가됩니다 . $x$

$x$

$T P R$

TPR

A U C = E x [P (A > τ (x))] (1)

고려하면 입니다. $x \sim U [0, 1)$

x∼U[0,1)

이제 는 일뿐입니다. $x$

$F P R$

FPR

x = F P R = P (B > τ (x))

는 균일 분포에서 나온
것으로 간주 $x$

P (B > τ (x)) \sim U

= > P (B < τ (x)) \sim (1 - U) \sim U

= > F B (τ (x)) \sim U (2)

그러나 역변환 법칙에 따르면 임의의 변수 에 대해 이면 라는 것을 알고 있습니다 . 이것은 임의의 변수를 취하고 자체 CDF를 적용하여 유니폼을 만들기 때문에 발생합니다. $X$

$F_{X} (Y) \sim U$

FX(Y)∼U

$Y \sim X$

Y∼X

F X (X) = P (F X (x) < X) = P (X < F - 1 X (X)) = F X F - 1 X (X) = X

이것은 균일 한 것만 유지합니다.

식 (2)에서이 사실을 사용하면 다음과 같이됩니다 :

τ (x) \sim B

이것을 방정식 (1)로 대체하면 다음과 같은 결과를 얻습니다.

A U C = E x (P (A > B)) = P (A > B)

다시 말해서, 곡선 아래의 영역은 랜덤 포지티브 샘플이 랜덤 네거티브 샘플보다 점수가 높을 확률입니다.

답변

Exit mobile version

How IT

언제든지 물어보세요.

태그 보관물: probability

AUC의 확률 론적 해석을 도출하는 방법은 무엇입니까? 높은 순위로

답변

답변

답변

답변