태그 보관물: ridge-regression

ridge-regression

능선 회귀가 LASSO보다 더 나은 해석 성을 제공 할 수없는 이유는 무엇입니까? 관측치 및

능선 회귀와 LASSO의 장단점에 대해 이미 알고 있습니다.

LASSO의 경우, L1 페널티 항은 희소 계수 벡터를 생성하며, 이는 특징 선택 방법으로 볼 수 있습니다. 그러나 LASSO에는 몇 가지 제한 사항이 있습니다. 기능의 상관 관계가 높은 경우 LASSO는 그 중 하나만 선택합니다. 또한 > 인 문제의 경우 LASSO는 최대 매개 변수를 선택합니다 ( 및 는 각각 관측치 및 매개 변수의 수입니다). 이로 인해 LASSO는 능선 회귀에 비해 예측 가능성 측면에서 경험적으로 차선책이됩니다.n n n p

p

n

n

n

p

능선 회귀 분석의 경우 일반적으로 더 나은 예측 가능성을 제공합니다. 그러나 그 해석 성은 LASSO만큼 좋지 않습니다.

위의 설명은 종종 기계 학습 / 데이터 마이닝의 교과서에서 찾을 수 있습니다. 그러나 나는 여전히 두 가지에 대해 혼란스러워합니다.

  1. 특징 범위 (0과 1 사이 또는 평균과 단위 분산이 0 인)를 정규화하고 능선 회귀를 실행하는 경우 계수의 절대 값을 정렬하여 특징의 중요성에 대한 아이디어를 얻을 수 있습니다 (가장 중요한 특징은 계수의 최고 절대 값). 피처를 명시 적으로 선택하지는 않지만 능선 회귀를 사용하면 해석 성이 손실되지 않습니다. 동시에 우리는 여전히 높은 예측력을 달성 할 수 있습니다. 그렇다면 왜 LASSO가 필요합니까? 여기에 뭔가 빠졌습니까?

  2. 기능 선택 특성으로 인해 LASSO가 선호됩니까? 이해하기 위해 기능 선택이 필요한 이유는 일반화 및 계산 용이성입니다.

    계산의 편의를 위해 NLP 작업을 수행하는 경우 모델에 백만 개의 기능을 모두 제공하지 않기 때문에 계산 비용을 줄이기 위해 분명히 쓸모없는 기능을 먼저 삭제합니다. 그러나 LASSO의 경우 모든 데이터를 모델에 공급 한 후에 만 ​​기능 선택 결과 (스파 스 벡터)를 알 수 있으므로 계산 비용 절감 측면에서 LASSO의 이점을 얻지 못합니다. 예측 결과를 생성하기 위해 기능의 일부 (예 : 1 백만 개 중 500 개) 만 모델에 제공하기 때문에 예측을 조금 더 빠르게 할 수 있습니다.

    LASSO가 일반화 능력을 선호하는 경우 능선 회귀 (또는 다른 종류의 정규화)를 사용하여 동일한 목표를 달성 할 수도 있습니다. 왜 우리는 다시 LASSO (또는 탄성 그물)가 필요합니까? 왜 능선 회귀를 고수 할 수 없습니까?

누군가 이것에 약간의 빛을 비출 수 있습니까? 감사!



답변

  1. 1 백만 개의 능선 축소 형이지만 크기는 0이 아닌 기능을 주문하는 경우 일종의 결정을 내려야합니다. n 개의 최상의 예측 변수를 살펴 보지만 n 은 무엇 입니까? LASSO는이 문제를 원칙적이고 객관적인 방식으로 해결합니다. 경로의 모든 단계마다 (예를 들어 교차 검증을 통해 한 지점에 정착하는 경우) 0이 아닌 m 개의 계수 만 있기 때문 입니다.

  2. 종종 일부 데이터에서 모델을 학습 한 다음 나중에 아직 수집되지 않은 일부 데이터에 적용합니다. 예를 들어, 50.000.000 개의 이메일에 모델을 적용한 다음 모든 새 이메일에 해당 모델을 사용할 수 있습니다. 사실, 처음 50.000.000 개의 메일에 대한 전체 기능 세트에 적합하지만, 이후의 모든 이메일에 대해 훨씬 더 성 가시고 빠르며 메모리 효율성이 높은 모델을 다루게됩니다. 또한 삭제 된 기능에 대한 정보를 수집 할 필요도 없습니다. 기능을 추출하는 데 비용이 많이 드는 경우 (예 : 유전자형 분석) 매우 유용 할 수 있습니다.

Andrew Gelman에 의해 노출 된 L1 / L2 문제에 대한 또 다른 관점은 문제가 어떤 것인지 직관 할 수 있다는 것입니다. 어떤 상황에서는 현실이 정말로 희박 할 수 있습니다. 아마도 당신은 수백만 개의 유전자를 측정했을 것입니다. 그러나 단지 30.000만이 실제로 도파민 대사를 결정한다는 것은 그럴듯합니다. 이러한 상황에서 L1은 문제에 더 잘 맞을 것입니다.
다른 경우에는 현실이 조밀 할 수 있습니다. 예를 들어, 심리학에서 “모든 것은 모든 것과 어느 정도 상관이 있습니다”(Paul Meehl). 오렌지 대 사과에 대한 기본 설정은 아마 않습니다 어떻게 든 정치적 성향과 상관 관계를 – 심지어 IQ와 함께. 정규화는 여전히 여기에서 의미가 있지만, 진정한 제로 효과는 드 물어야하므로 L2가 더 적합 할 수 있습니다.


답변

대상이 많은 기능에 의존하는 경우 해석 성이 떨어집니다. 기능 수를 줄이고 정확도를 유지할 수 있으면 증가합니다. 릿지 정규화에는 기능 수를 줄일 수있는 기능이 없습니다. 그러나 올가미는 능력이 있습니다. 이런 일이 발생하는 방식은 다음 링크에서 시각적으로 설명됩니다.

데이터 과학에 관한 기사를 클릭하십시오


답변