태그 보관물: feature-selection

feature-selection

올가미가 변수 선택을 제공하는 이유는 무엇입니까? 조건은 이며, 능선의 경우 일부 입니다.ββ\beta||β||1≤t||β||1≤t||\beta||_1

나는 통계 학습의 요소를 읽고 있었고 , 올가미가 변수 선택을 제공하고 능선 회귀가 그렇지 않은 이유를 알고 싶습니다.

두 방법 모두 잔차 제곱합을 최소화하고 매개 변수 의 가능한 값을 제한합니다 . 올가미의 경우 제약 조건은 이며, 능선의 경우 일부 입니다.

β

||β||1≤t

||β||2≤t

t

나는 책에서 다이아몬드 대 타원 그림을 보았고 왜 올가미가 제한된 영역의 모서리를 칠 수 있는지에 대한 직관이 있습니다. 이는 계수 중 하나가 0으로 설정되어 있음을 의미합니다. 그러나 내 직감이 다소 약해서 확신이 없습니다. 보기 쉬워야하지만 이것이 왜 사실인지 모르겠습니다.

따라서 수학적 칭의를 찾고 있거나 잔차 제곱합의 윤곽이 제한 영역 의 모서리에 닿는 이유에 대한 직관적 인 설명을 찾고있는 것 같습니다 (이 상황은 제약 조건은 ).

||β||1

||β||2


답변

매우 간단한 모델 인 고려해 봅시다 . 에 L1 페널티가 있고 에 최소 제곱 손실 함수가 있습니다. 표현식을 확장하여 다음과 같이 최소화 할 수 있습니다.

y=βx+e

β^

e^

minyTy−2yTxβ^+β^xTxβ^+2λ|β^|

최소 제곱 솔루션이 일부 이라고 가정하고 이라고 가정 하고 L1 페널티를 추가하면 어떻게되는지 봅시다. 로 , 이므로 페널티 항은 . 목적 함수 wrt 의 파생어 는 다음과 같습니다.

β^>0

yTx>0

β^>0

|β^|=β^

2λβ

β^

−2yTx+2xTxβ^+2λ

분명히 솔루션이 있습니다 .

β^=(yTx−λ)/(xTx)

분명히 증가시킴으로써 우리 운전할 수 (0으로 ). 그러나 일단 이면 를 늘리면 음수로 이지 않습니다. 느슨하게 쓰면 가 음수가되어 목적 함수의 파생어가 다음과 같이 변경되기 때문입니다.

λ

β^

λ=yTx

β^=0

λ

β^

−2yTx+2xTxβ^−2λ

여기서 의 부호가 것은 페널티 용어의 절대적인 가치 특성 때문입니다. 경우 마이너스가 패널티 기간은 동일하게 및 유도체 WRT 복용 의 결과 . 이는 솔루션으로 연결 되며 과 명백하게 일치하지 않습니다 (최소 제곱 솔루션 ) 이는 및

λ

β

−2λβ

β

−2λ

β^=(yTx+λ)/(xTx)

β^<0

>0

yTx>0

λ>0

). 을 에서 이동할 때 L1 페널티가 증가하고 제곱 오차 항이 증가합니다 (최소 제곱 솔루션에서 멀어짐에 따라) . 따라서 우리는 그렇지 않습니다. 에 스틱 .

β^

0

<0

β^=0

최소 제곱 솔루션에 대해 적절한 부호 변경을 통해 동일한 논리가 적용됨을 직관적으로 분명히해야합니다 .

β^<0

그러나 최소 제곱 페널티 미분은 다음과 같습니다.

λβ^2

−2yTx+2xTxβ^+2λβ^

분명히 솔루션이 있습니다 . 분명히 증가는 이것을 0으로 만들지 것입니다. 따라서 L2 페널티는 " 보다 작은 경우 모수 추정값을 0으로 설정"과 같은 약간의 광고가 없으면 변수 선택 도구로 사용할 수 없습니다 .

β^=yTx/(xTx+λ)

λ

ϵ

다변량 모델로 이동할 때 상황이 바뀔 수 있습니다. 예를 들어, 하나의 모수 추정값을 이동하면 다른 모수 추정값이 부호를 변경시킬 수 있지만 일반적인 원리는 동일합니다. 매우 지능적으로 작성하면 실제로는 에 대한 표현식의 "분모"에 추가 되지만 L1 페널티 함수는 실제로 "분자"에 추가되기 때문에 가능합니다.

β^

답변

y = 1이고 x = [1/10 1/10] (하나의 데이터 포인트, 두 개의 피쳐)로 설정된 데이터가 있다고 가정합니다. 한 가지 해결책은 기능 중 하나를 선택하는 것이고 다른 기능은 두 기능 모두에 가중치를 부여하는 것입니다. 즉, w = [5 5] 또는 w = [10 0]을 선택할 수 있습니다.

L1 규범의 경우 둘 다 동일한 페널티가 있지만, 더 넓게 퍼져 나가는 무게는 L2 규범에 대한 페널티가 더 낮습니다.


답변

나는 이미 훌륭한 대답이 있다고 생각하지만 기하학적 해석에 관한 직관을 추가하기 만하면됩니다.

"올가미는 수축을 수행 하여 구속 조건에"모퉁이 "가 있고 2 차원에서 다이아몬드에 해당합니다. 사각형의 합이이 모서리 중 하나를"적중 "하면 축에 해당하는 계수가 줄어 듭니다. 0으로

L1

마찬가지로 증가 다차원 다이아몬드 모서리의 증가를 가지며, 그래서 어떤 계수를 0과 동일하게 설정 될 가능성이 크다. 따라서 올가미는 수축 및 (효과적으로) 서브 세트 선택을 수행합니다.

p

서브 세트 선택과 달리 릿지는 부드러운 임계 값을 수행합니다. 평활화 매개 변수가 변경되면 추정값의 샘플 경로가 계속 0으로 이동합니다. "

출처 : https://onlinecourses.science.psu.edu/stat857/book/export/html/137

컬러 선이 0으로 축소되는 회귀 계수의 경로 인 경우 효과를 멋지게 시각화 할 수 있습니다.

"릿지 회귀는 모든 회귀 계수를 0으로 축소합니다. 올가미는 0의 회귀 계수를 제공하는 경향이 있으며 희소 한 솔루션으로 이어집니다."

출처 : https://onlinecourses.science.psu.edu/stat857/node/158


답변