올가미가 변수 선택을 제공하는 이유는 무엇입니까? 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1

나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다.

두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다. $β$

β

$\beta$ $| | β | |_{1} \leq t$

| | β | |_{1} \leq t

$||\beta||_1 \le t$ $| | β | |_{2} \leq t$

| | β | |_{2} \leq t

$||\beta||_2 \le t$ $t$

t

$t$

나는 책에서 다이아몬드 대 타원 그림을 보았고 왜 올가미가 제한된 영역의 모서리를 칠 수 있는지에 대한 직관이 있습니다. 이는 계수 중 하나가 0으로 설정되어 있음을 의미합니다. 그러나 내 직감이 다소 약해서 확신이 없습니다. 보기 쉬워야하지만 이것이 왜 사실인지 모르겠습니다.

따라서 수학적 칭의를 찾고 있거나 잔차 제곱합의 윤곽이 제한 영역 의 모서리에 닿는 이유에 대한 직관적 인 설명을 찾고있는 것 같습니다 (이 상황은 제약 조건은 ). $| | β | |_{1}$

| | β | |_{1}

$||\beta||_1$ $| | β | |_{2}$

| | β | |_{2}

$||\beta||_2$

답변

매우 간단한 모델 인 고려해 봅시다 . 에 L1 페널티가 있고 에 최소 제곱 손실 함수가 있습니다. 표현식을 확장하여 다음과 같이 최소화 할 수 있습니다. $y = β x + e$

y = β x + e

$y = \beta x + e$ $\hat{β}$

\hat{β}

$\hat{\beta}$ $\hat{e}$

\hat{e}

$\hat{e}$

$min y^{T} y - 2 y^{T} x \hat{β} + \hat{β} x^{T} x \hat{β} + 2 λ | \hat{β} |$

min y^{T} y - 2 y^{T} x \hat{β} + \hat{β} x^{T} x \hat{β} + 2 λ | \hat{β} |

$\min y^Ty -2 y^Tx\hat{\beta} + \hat{\beta} x^Tx\hat{\beta} + 2\lambda|\hat{\beta}|$

최소 제곱 솔루션이 일부 이라고 가정하고 이라고 가정 하고 L1 페널티를 추가하면 어떻게되는지 봅시다. 로 , 이므로 페널티 항은 . 목적 함수 wrt 의 파생어 는 다음과 같습니다. $\hat{β} > 0$

\hat{β} > 0

$\hat{\beta} > 0$ $y^{T} x > 0$

y^{T} x > 0

$y^Tx > 0$ $\hat{β} > 0$

\hat{β} > 0

$\hat{\beta}>0$ $| \hat{β} | = \hat{β}$

| \hat{β} | = \hat{β}

$|\hat{\beta}| = \hat{\beta}$ $2 λ β$

2 λ β

$2\lambda\beta$ $\hat{β}$

\hat{β}

$\hat{\beta}$

$- 2 y^{T} x + 2 x^{T} x \hat{β} + 2 λ$

- 2 y^{T} x + 2 x^{T} x \hat{β} + 2 λ

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda$

분명히 솔루션이 있습니다 . $\hat{β} = (y^{T} x - λ) / (x^{T} x)$

\hat{β} = (y^{T} x - λ) / (x^{T} x)

$\hat{\beta} = (y^Tx - \lambda)/(x^Tx)$

분명히 증가시킴으로써 우리 운전할 수 (0으로 ). 그러나 일단 이면 를 늘리면 음수로 이지 않습니다. 느슨하게 쓰면 가 음수가되어 목적 함수의 파생어가 다음과 같이 변경되기 때문입니다. $λ$

λ

$\lambda$ $\hat{β}$

\hat{β}

$\hat{\beta}$ $λ = y^{T} x$

λ = y^{T} x

$\lambda = y^Tx$ $\hat{β} = 0$

\hat{β} = 0

$\hat{\beta} = 0$ $λ$

λ

$\lambda$ $\hat{β}$

\hat{β}

$\hat{\beta}$

$- 2 y^{T} x + 2 x^{T} x \hat{β} - 2 λ$

- 2 y^{T} x + 2 x^{T} x \hat{β} - 2 λ

$-2y^Tx +2x^Tx\hat{\beta} - 2\lambda$

여기서 의 부호가 것은 페널티 용어의 절대적인 가치 특성 때문입니다. 경우 마이너스가 패널티 기간은 동일하게 및 유도체 WRT 복용 의 결과 . 이는 솔루션으로 연결 되며 과 명백하게 일치하지 않습니다 (최소 제곱 솔루션 ) 이는 및 $λ$

λ

$\lambda$ $β$

β

$\beta$ $- 2 λ β$

- 2 λ β

$-2\lambda\beta$ $β$

β

$\beta$ $- 2 λ$

- 2 λ

$-2\lambda$ $\hat{β} = (y^{T} x + λ) / (x^{T} x)$

\hat{β} = (y^{T} x + λ) / (x^{T} x)

$\hat{\beta} = (y^Tx + \lambda)/(x^Tx)$ $\hat{β} < 0$

\hat{β} < 0

$\hat{\beta} < 0$ $> 0$

> 0

$> 0$ $y^{T} x > 0$

y^{T} x > 0

$y^Tx > 0$ $λ > 0$

λ > 0

$\lambda > 0$ ). 을 에서 이동할 때 L1 페널티가 증가하고 제곱 오차 항이 증가합니다 (최소 제곱 솔루션에서 멀어짐에 따라) . 따라서 우리는 그렇지 않습니다. 에 스틱 . $\hat{β}$

\hat{β}

$\hat{\beta}$ $0$

0

$0$ $< 0$

< 0

$< 0$ $\hat{β} = 0$

\hat{β} = 0

$\hat{\beta}=0$

최소 제곱 솔루션에 대해 적절한 부호 변경을 통해 동일한 논리가 적용됨을 직관적으로 분명히해야합니다 . $\hat{β} < 0$

\hat{β} < 0

$\hat{\beta} < 0$

그러나 최소 제곱 페널티 미분은 다음과 같습니다. $λ {\hat{β}}^{2}$

λ {\hat{β}}^{2}

$\lambda\hat{\beta}^2$

$- 2 y^{T} x + 2 x^{T} x \hat{β} + 2 λ \hat{β}$

- 2 y^{T} x + 2 x^{T} x \hat{β} + 2 λ \hat{β}

$-2y^Tx +2x^Tx\hat{\beta} + 2\lambda\hat{\beta}$

분명히 솔루션이 있습니다 . 분명히 증가는 이것을 0으로 만들지 것입니다. 따라서 L2 페널티는 " 보다 작은 경우 모수 추정값을 0으로 설정"과 같은 약간의 광고가 없으면 변수 선택 도구로 사용할 수 없습니다 . $\hat{β} = y^{T} x / (x^{T} x + λ)$

\hat{β} = y^{T} x / (x^{T} x + λ)

$\hat{\beta} = y^Tx/(x^Tx + \lambda)$ $λ$

λ

$\lambda$ $ϵ$

ϵ

$\epsilon$

다변량 모델로 이동할 때 상황이 바뀔 수 있습니다. 예를 들어, 하나의 모수 추정값을 이동하면 다른 모수 추정값이 부호를 변경시킬 수 있지만 일반적인 원리는 동일합니다. 매우 지능적으로 작성하면 실제로는 에 대한 표현식의 "분모"에 추가 되지만 L1 페널티 함수는 실제로 "분자"에 추가되기 때문에 가능합니다. $\hat{β}$

\hat{β}

$\hat{\beta}$

답변

y = 1이고 x = [1/10 1/10] (하나의 데이터 포인트, 두 개의 피쳐)로 설정된 데이터가 있다고 가정합니다. 한 가지 해결책은 기능 중 하나를 선택하는 것이고 다른 기능은 두 기능 모두에 가중치를 부여하는 것입니다. 즉, w = [5 5] 또는 w = [10 0]을 선택할 수 있습니다.

L1 규범의 경우 둘 다 동일한 페널티가 있지만, 더 넓게 퍼져 나가는 무게는 L2 규범에 대한 페널티가 더 낮습니다.

답변

나는 이미 훌륭한 대답이 있다고 생각하지만 기하학적 해석에 관한 직관을 추가하기 만하면됩니다.

"올가미는 수축을 수행 하여 구속 조건에"모퉁이 "가 있고 2 차원에서 다이아몬드에 해당합니다. 사각형의 합이이 모서리 중 하나를"적중 "하면 축에 해당하는 계수가 줄어 듭니다. 0으로 $L 1$

L 1

$L1$

마찬가지로 증가 다차원 다이아몬드 모서리의 증가를 가지며, 그래서 어떤 계수를 0과 동일하게 설정 될 가능성이 크다. 따라서 올가미는 수축 및 (효과적으로) 서브 세트 선택을 수행합니다. $p$

p

$p$

서브 세트 선택과 달리 릿지는 부드러운 임계 값을 수행합니다. 평활화 매개 변수가 변경되면 추정값의 샘플 경로가 계속 0으로 이동합니다. "

출처 : https://onlinecourses.science.psu.edu/stat857/book/export/html/137

컬러 선이 0으로 축소되는 회귀 계수의 경로 인 경우 효과를 멋지게 시각화 할 수 있습니다.

"릿지 회귀는 모든 회귀 계수를 0으로 축소합니다. 올가미는 0의 회귀 계수를 제공하는 경향이 있으며 희소 한 솔루션으로 이어집니다."

출처 : https://onlinecourses.science.psu.edu/stat857/node/158

How IT

언제든지 물어보세요.

올가미가 변수 선택을 제공하는 이유는 무엇입니까? 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1

답변

답변

답변

답변