“더블 올가미”를하거나 올가미를 두 번 수행 할 때의 이점은 무엇입니까? S2라는 스파 스 세트를 얻은

한 번은 올가미를 두 번 사용하는 방법을 들었습니다 (이중 올가미와 같이). 여기서 S1과 같은 원래 변수 세트에서 올가미를 수행하고 S2라는 스파 스 세트를 얻은 다음 세트 S2에서 올가미를 다시 수행하여 세트 S3을 얻습니다. . 이에 대한 방법 론적 용어가 있습니까? 또한 올가미를 두 번 사용하면 어떤 이점이 있습니까?



답변

그렇습니다. 요청하거나 생각하는 절차를 편안한 올가미 라고합니다 .

일반적인 아이디어는 LASSO를 처음 수행하는 과정에서 아마도 “노이즈 변수”를 포함하고 있다는 것입니다. (첫 번째 LASSO 이후) 두 번째 변수 세트에서 LASSO를 수행하면 “노이즈”변수뿐만 아니라 “실제 경쟁자”인 변수 간의 경쟁이 줄어 듭니다. 기술적으로이 방법의 목표는 많은 변수가있는 데이터 세트에서 LASSO의 (알려진) 느린 수렴을 극복하는 것입니다.

Meinshausen (2007) 의 원본 논문에서 자세한 내용을 읽을 수 있습니다 .

또한 LASSO를 사용하여 변수 선택을 수행하는 다른 흥미로운 방법에 대한 개요를 제공하는 통계 학습 요소 (Hastie, Tibshirani & Friedman, 2008) 에 대해 섹션 3.8.5를 권장합니다 .


답변

아이디어는 올가미의 두 가지 효과를 분리하는 것입니다.

  1. 변수 선택 (즉, 많은, 심지어 가장 많은 는 0 임)
    β

  2. 계수 축소 (즉, 0이 아닌 조차도 무정형 회귀보다 절대 값이 작습니다). 과도한 피팅을 피하기 때문에 선택하지 않아도 좋은 경우가 많습니다.
    β

변수 가 많고 ( ) 올가미를 실행중인 경우 적은 수의 변수를 선택하려면 큰 페널티가 필요합니다. 그러나이 페널티는 선택한 변수를 너무 많이 축소 할 수 있습니다 (부적합합니다).

p>>n

편안한 올가미의 아이디어는 두 가지 효과를 분리한다는 것입니다. 첫 번째 패스에서 높은 페널티를 사용하여 변수를 선택합니다. 그리고 두 번째 패스에서 더 적은 페널티를 사용하여 더 적은 금액으로 축소합니다.

Néstor가 링크 한 원본 용지에 자세한 내용이 있습니다.