로지스틱 회귀의 직관 함수에는 형식의

최근 기계 학습을 시작했지만 로지스틱 회귀 의 직관을 파악하지 못했습니다 .

다음은 내가 이해하는 로지스틱 회귀에 대한 사실입니다.

가설의 기초로 우리는 시그 모이 드 함수를 사용 합니다 . 그것이 왜 나는 이해한다 올바른 선택 그것은이다 그러나 왜, 단지 이해가 안 선택. 가설은 적절한 출력이 일 확률을 나타내 므로 함수 영역이 이어야합니다 . 이것이 유용하고 적절한 S 자형 함수의 유일한 속성이지만 많은 함수가이 속성을 만족시킵니다. 또한 sigmoid 함수에는 형식의 미분이 있지만 로지스틱 회귀 분석 에서이 특수 형식의 유틸리티를 볼 수는 없습니다. $1$
$1$
$1$ $[0, 1]$
$[0, 1]$
$[0,1]$ $f (x) (1 - f (x))$
$에프 (엑스) (1 - 에프 (엑스))$
$f(x)(1-f(x))$

질문 : S 자형 함수의 특별한 점은 무엇이며 도메인 다른 함수를 사용할 수없는 이유는 무엇입니까? $[0, 1]$
$[0, 1]$
$[0,1]$
비용 함수는 경우 의 두 매개 변수로 구성됩니다 경우, . 위와 동일하게 왜 그것이 올바른지 이해하지만 왜 유일한 형식입니까? 예를 들어, 왜비용 함수를위한 좋은 선택이 되십시오? $C o s t (h_{θ} (x), y) = - \log (h_{θ} (x))$
$기음 영형 에스 티 (h_{θ} (엑스), 와이) = - 로그 (h_{θ} (엑스))$
${\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))$ $y = 1, C o s t (h_{θ} (x), y) = - \log (1 - h_{θ} (x))$
$와이 = 1, 기음 영형 에스 티 (h_{θ} (엑스), 와이) = - 로그 (1 - h_{θ} (엑스))$
$y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))$ $y = 0$
$와이 = 0$
$y=0$ $| h_{θ (x)} - y |$
$| h_{θ (엑스)} - 와이 |$
$|h_{\theta(x)}-y|$

질문 : 위의 비용 함수 형태에서 특별한 점은 무엇입니까 ? 왜 다른 양식을 사용할 수 없습니까?

로지스틱 회귀에 대한 이해를 공유 할 수 있다면 감사하겠습니다.

답변

로지스틱 회귀 모형은 예측 변수의 단위 차이 당 결과 위험의 상대적인 변화를 대조하기 위해 자연 모수 (로그-홀수 비율)를 사용하는 최대 가능성입니다. 이것은 물론 결과에 대한 이항 확률 모델을 가정합니다. 이는 로지스틱 회귀 분석의 일관성 및 견고성 속성이 최대 가능성에서 직접 확장됨을 의미합니다. 즉, 무작위 데이터에서 결손, 루트 n 일관성 및 방정식 추정에 대한 솔루션의 존재 및 고유성입니다. 이는 솔루션이 매개 변수 공간의 경계에 있지 않다고 가정합니다 (로그 확률 비율이 임). 로지스틱 회귀가 최대 가능성이기 때문에 손실 함수는 동등한 최적화 문제이므로 가능성과 관련이 있습니다. $\pm \infty$

\pm \infty

$\pm \infty$

준우도 또는 추정 방정식 (반모 수 추론)을 통해 존재, 고유성 속성은 여전히 유지되지만 평균 모델이 보유하고 있다는 가정은 적합하지 않으며 추정치 및 표준 오류는 모형의 잘못된 사양과 상관없이 일관됩니다. 따라서이 경우 S 자형이 올바른 함수인지 여부가 아니라 확장 가능한 해석이 가능한 매개 변수로 신뢰할 수있는 추세를 제공합니다.

그러나 S 자형이 유일한 이진 모델링 기능은 아닙니다. 가장 일반적으로 대조되는 프로 빗 기능은 비슷한 특성을 가지고 있습니다. log-odds 비율을 추정하지는 않지만 기능적으로는 매우 유사하게 보이며 정확히 같은 것과 매우 유사한 근사치를 제공하는 경향이 있습니다. 평균 모델 함수에서도 경계 속성을 사용할 필요가 없습니다. 이항 분산 함수와 함께 로그 곡선을 사용하면 상대적 위험 회귀가 발생하고 이항 분산과의 ID 링크는 추가 위험 모델을 제공합니다. 이 모든 것은 사용자에 의해 결정됩니다. 로지스틱 회귀의 인기는 슬프게도 왜 그렇게 많이 사용 되는가입니다. 그러나 나는 그것이 대부분의 이진 결과 모델링 환경에서 사용하기에 정당하다고 생각하는 이유 (내가 언급 한 이유)가 있습니다.

추론 세계에서, 희귀 한 결과에 대해, 승산 비는 대략 “상대적 위험”, 즉 “X + 1 대 X를 비교 한 결과의 위험의 상대적 변화 백분율”로 대략 해석 될 수있다. 항상 그런 것은 아니며 일반적으로 승산 비는 그렇게 해석 할 수 없으며 해석해서는 안됩니다. 그러나 매개 변수는 해석이 가능하고 다른 연구자들에게 쉽게 전달할 수 있다는 것은 기계 학습자의 교훈 자료에서 슬프게도 누락 된 중요한 포인트입니다.

로지스틱 회귀 모형은 또한 계층 적 모델링과 같은보다 정교한 접근 방식뿐만 아니라 기하 급수적으로 증가하는 수많은 방해 요인에 일관되고 강력한 혼합 모델링 및 조건부 우도 접근 방식에 대한 개념적 기초를 제공합니다. GLMM과 조건부 로지스틱 회귀는 고차원 통계에서 매우 중요한 개념입니다.

답변

$Y$

와이

$Y$ $X$

엑스

$X$ $Y$

와이

$Y$ $Y$

와이

$Y$ $X$

엑스

$X$ $Y_{i} = X_{i} β + ϵ_{i}$

{와이}_{나는} = {엑스}_{나는} β + ϵ_{나는}

$Y_i=X_i\beta+\epsilon_i$

이 상황을 모델링하기 위해, 우리는 관측, 잠재 변수 소개 , 우리는 말할 1이 동등 해에 0을 같게에서 이동 임계 값을 초과 :
$Y^{*}$

{와이}^{※}

$Y^*$ $Y$

와이

$Y$ $Y^{*}$

{와이}^{※}

$Y^*$
쓰면서 임계 값은 0입니다. 그러나 이것은 환상입니다. 일반적으로 모델은 절편을 포함합니다 (즉,의 열 중 하나는 1의 열입니다). 이를 통해 임계 값을 지정할 수 있습니다.

\begin{aligned} {와이}_{나는}^{※} & = {엑스}_{나는} β + ϵ_{나는} \\ {와이}_{나는} & = 0 만약 {와이}_{나는}^{※} < 0 \\ {와이}_{나는} & = 1 만약 {와이}_{나는}^{※} > 0 \end{aligned}

$\begin{align} Y^*_i &= X_i \beta + \epsilon_i\\ &\\ Y_i &= 0 \;\textrm{if}\; Y_i^*<0\\ Y_i &= 1 \; \textrm{if} \; Y_i^*>0 \end{align}$ $X$

엑스

$X$

이 모델에 동기를 부여하기 위해 신경 독소 살충제로 벌레를 죽이는 것을 생각하십시오. 는 얼마나 많은 신경 세포가 죽었는지, 는 약간의 벌레에 전달되는 살충제 용량을 포함합니다. 곤충이 죽으면 는 1이고, 살 경우 0입니다. 즉, 충분한 신경 세포가 죽으면 (그리고 가 임계 값을 넘으면) 벌레가 죽습니다. 이것은 실제로 신경 독성 살충제가 어떻게 작동 하는가는 아니지만, 척하는 것은 재미 있습니다. $Y^{*}$

{와이}^{※}

$Y^*$ $X$

엑스

$X$ $Y$

와이

$Y$ $Y^{*}$

{와이}^{※}

$Y^*$

따라서 볼 수없는 선형 회귀 방정식과 볼 수있는 이진 결과를 얻을 수 있습니다. 모수 는 일반적으로 최대 가능성을 통해 추정됩니다. 하면 대칭 분포 함수 분포 , 다음 . 말한 것처럼 원하는 대칭 분포 함수를 사용할 수 있습니다. $β$

β

$\beta$ $ϵ$

ϵ

$\epsilon$ $F$

에프

$F$ $P {Y_{i} = 1} = F (X_{i} β)$

피 {{와이}_{나는} = 1} = 에프 ({엑스}_{나는} β)

$P\{Y_i=1\}=F(X_i\beta)$

$P {Y_{i} = 1} = 1 - F (- X_{i} β)$

피 {{와이}_{나는} = 1} = 1 - 에프 (- {엑스}_{나는} β)

$P\{Y_i=1\}=1-F(-X_i\beta)$

$ϵ$

ϵ

$\epsilon$ $F$

에프

$F$

에프

$F$

How IT

언제든지 물어보세요.

로지스틱 회귀의 직관 함수에는 형식의

답변

답변

답변