notation Archives - Page 3 of 4

나는 두 가지 유형의 물류 손실 공식을 보았다. 우리는 그것들이 동일하다는 것을 쉽게 보여줄 수 있습니다. 유일한 차이점은 레이블 의 정의입니다 . $y$

y

$y$

공식화 / 표기법 1, : $y \in {0, + 1}$

y \in {0, + 1}

$y \in \{0, +1\}$

L (y, β^{T} x) = - y \log (p) - (1 - y) \log (1 - p)

$L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p)$

여기서 에서 로지스틱 함수는 실수 를 0.1 간격으로 매핑 합니다. $p = \frac{1}{1 + \exp (- β^{T} x)}$

p = \frac{1}{1 + \exp (- β^{T} x)}

$p=\frac 1 {1+\exp(-\beta^Tx)}$ $β^{T} x$

β^{T} x

$\beta^T x$

공식화 / 표기법 2, $y \in {- 1, + 1}$

y \in {- 1, + 1}

$y \in \{-1, +1\}$ :

L (y, β^{T} x) = \log (1 + \exp (- y \cdot β^{T} x))

$L(y,\beta^Tx)=\log(1+\exp{(-y\cdot \beta^Tx}))$

표기법을 선택하는 것은 언어를 선택하는 것과 같으며, 서로를 사용하는 장단점이 있습니다. 이 두 가지 표기법의 장단점은 무엇입니까?

이 질문에 대한 나의 시도는 통계 커뮤니티가 첫 번째 표기법을 좋아하고 컴퓨터 과학 커뮤니티가 두 번째 표기법을 좋아하는 것 같습니다.

로지스틱 함수가 실수 $β^{T} x$
두 번째 표기법은 더 간결하며 힌지 손실 또는 0-1 손실과 비교하기가 더 쉽습니다.

내가 맞아? 다른 통찰력이 있습니까?

답변

짧은 버전

긴 버전

수학적 모델링의 장점은 융통성이 있다는 것입니다. 이들은 실제로 동등한 손실 함수이지만 데이터의 매우 다른 기본 모델에서 파생됩니다.

공식 1

첫 번째 표기법은 에 대한 Bernoulli 확률 모델 에서 파생되며 일반적으로 에 정의됩니다 . 이 모델에서 결과 / 라벨 / 클래스 / 예측은 분포 를 따르는 임의의 변수 표시됩니다 . 따라서 그 가능성은 다음과 같습니다.
$y$

y

$y$ ${0, 1}$

{0, 1}

$\{0, 1\}$ $Y$

Y

$Y$ $B e r n o u l l i (p)$

B e r n o u l l i (p)

$\mathrm{Bernoulli}(p)$

P (Y = y | p) = L (p; y) = p^{y} (1 - p)^{1 - y} = {\begin{cases} 1 - p & y = 0 \\ p & y = 1 \end{cases}

$P(Y = y\ |\ p) = \mathcal L(p; y) = p^y\ (1-p)^{1-y} = \begin{cases}1-p &y=0 \\ p &y=1 \end{cases}$

대 . 지표 값으로 0과 1을 사용하면 가장 오른쪽에있는 조각 별 함수를 간결한 표현으로 줄일 수 있습니다. $p \in [0, 1]$

p \in [0, 1]

$p\in[0, 1]$

만약 지적한 바와 같이, 그 다음에 연결할 수 입력 데이터의 행렬을 시켜서 . 여기에서 간단한 대수 조작은 가 질문 의 첫 번째 와 같다는 것을 나타냅니다 (힌트 : ). 따라서 대한 로그 손실을 최소화 하는 것은 Bernoulli 모델의 최대 가능성 추정과 같습니다. $Y$

Y

$Y$ $x$

x

$x$ $logit p = β^{T} x$

logit p = β^{T} x

$\operatorname{logit} p = \beta^T x$ $\log L (p; y)$

\log L (p; y)

$\log \mathcal L(p;y)$ $L (y, β^{T} x)$

L (y, β^{T} x)

$L(y, \beta^Tx)$ $(y - 1) = - (1 - y)$

(y - 1) = - (1 - y)

$(y - 1) = - (1 - y)$ ${0, 1}$

{0, 1}

$\{0, 1\}$

이 공식은 또한 일반화 된 선형 모형 의 특별한 경우이며 , 이는 가역적이고 구별 할 수있는 함수 와 분포 에 대해 로 공식화됩니다 . 지수 가족 . $Y \sim D (θ), g (Y) = β^{T} x$

Y \sim D (θ), g (Y) = β^{T} x

$Y \sim D(\theta),\ g(Y) = \beta^T x$ $g$

g

$g$ $D$

D

$D$

공식 2

사실 .. Formula 2에 익숙하지 않습니다. 그러나 에서 를 정의하는 것은 지지 벡터 머신 의 공식에서 표준 입니다 . SVM 피팅은 최대화에 해당합니다
$y$

y

$y$ ${- 1, 1}$

{- 1, 1}

$\{-1, 1\}$

max ({0, 1 - y β^{T} x}) + λ ‖ β ‖^{2} .

$\max \left(\{0, 1 - y \beta^T x \}\right) + \lambda \|\beta\|^2.$

이것은 제한적인 최적화 문제 의 Lagrangian 형식 입니다. 그것은 인 도 (A)의 예 정규화 목적 함수 최적화 문제

일부 손실 함수 스칼라 hyperparameter 그 제어 정규화 양 ( “수축률”이라고도 함) 적용되었습니다 . 힌지 손실은 대한 여러 가지 드롭 인 가능성 중 하나이며 질문에 두 번째 도 포함됩니다 .

ℓ (y, β) + λ ‖ β ‖^{2}

$\ell(y, \beta) + \lambda \|\beta\|^2$ $ℓ$

ℓ

$\ell$ $λ$

λ

$\lambda$ $β$

β

$\beta$ $ℓ$

ℓ

$\ell$ $L (y, β^{T} x)$

L (y, β^{T} x)

$L(y, \beta^Tx)$

답변

@ ssdecontrol이 매우 좋은 대답이라고 생각합니다. 내 질문에 대한 공식 2에 대한 의견을 추가하고 싶습니다.

L (y, \hat{y}) = \log (1 + \exp (- y \cdot \hat{y}))

$L(y,\hat y)=\log(1+\exp{(-y\cdot \hat y}))$

사람들이이 공식을 좋아하는 이유는 그것이 매우 간결하고 “확률 해석 세부 사항”을 제거하기 때문입니다.

$\hat{y}$

\hat{y}

$\hat y$ $y$

y

$y$ $\hat{y}$

\hat{y}

$\hat y$

L_{01} (y, \hat{y}) = I [y \cdot \hat{y} > 0] L_{hinge} (y, \hat{y}) = (1 - y \cdot \hat{y})_{+} L_{logistic} (y, \hat{y}) = \log (1 + \exp (- y \cdot \hat{y}))

$L_{01}(y,\hat y)=I[y \cdot \hat y >0]\\ L_{\text{hinge}}(y,\hat y)=(1-y \cdot \hat y)_+\\ L_{\text{logistic}}(y,\hat y)=\log(1+\exp(-y \cdot \hat y))$

$y \cdot \hat{y}$

y \cdot \hat{y}

$y \cdot \hat y$ $\hat{y}$

\hat{y}

$\hat y$ $β^{T} x$

β^{T} x

$\beta^Tx$

How IT

언제든지 물어보세요.

태그 보관물: notation

왜 두 가지 로지스틱 손실 공식 / 표기가 있습니까? / 표기법 1, :y∈{0,+1}y∈{0,+1}y \in \{0, +1\} L(y,βTx)=−ylog(p)−(1−y)log(1−p)L(y,βTx)=−ylog⁡(p)−(1−y)log⁡(1−p) L(y,\beta^Tx)=-y\log(p)-(1-y)\log(1-p) 여기서

답변

짧은 버전

긴 버전

공식 1

공식 2

답변

답변