태그 보관물: elastic-net

elastic-net

탄력적 순 정규화 란 무엇이며 Ridge ( ) 및 Lasso ( ) 의 단점을 어떻게 해결 합니까? 이러한 방법의 단점을

탄성 그물 정규화는 항상 이러한 방법의 단점을 해결하기 때문에 Lasso & Ridge보다 선호됩니까? 직감은 무엇이며 탄성 그물의 수학은 무엇입니까?



답변

1. 어떤 방법이 선호됩니까?

그렇습니다. 탄성 그물은 올가미 및 릿지 회귀보다 항상 선호됩니다. 왜냐하면 두 가지 방법의 한계를 해결하는 동시에 각각 특별한 경우를 포함하기 때문입니다. 따라서 릿지 또는 올가미 솔루션이 실제로 가장 좋은 경우, 올바른 모델 선택 루틴은이를 모델링 프로세스의 일부로 식별합니다.

내 게시물에 대한 의견은 탄성 그물의 장점이 자격이 없다는 것을 지적했습니다. 탄성 그물 회귀의 일반성이 여전히 또는 정규화 보다 선호된다고 생각합니다 . 특히, 본인과 타인 간의 경합 지점은 모델링 프로세스에 대해 어떤 가정을 기꺼이 할 것인지에 직접적으로 연관되어 있다고 생각합니다. 기본 데이터에 대한 강력한 지식이있는 경우 일부 방법이 다른 방법보다 선호됩니다. 그러나 탄성 그물에 대한 선호는 또는 가 진정한 모델 이라는 것을 자신있게 알 것이라는 회의론에 뿌리를두고 있습니다.

L1

L2

L1

L2
  1. 주장 : 사전 지식은 탄력적 그물 회귀를 사용해야 할 필요성을 없애줄 수 있습니다.

이것은 다소 원형입니다. 이것이 다소 번거 롭다면 용서하십시오. 그러나 LASSO (리지)가 최선의 해결책이라는 것을 알고 있다면 그것을 적절하게 모델링하는 방법을 스스로에게 묻지 않을 것입니다. LASSO (ridge) 모델에 적합합니다. 당신이 경우 절대적으로 확신 정답은 LASSO (능선) 회귀 것을, 당신은 명확하게 탄성 그물을 맞는 시간을 낭비 할 이유가 없을 것이라고 확신하고 있습니다. 그러나 LASSO (릿지)가 올바른 진행 방법인지 확실하지 않은 경우 좀 더 유연한 모델을 추정하고 데이터가 이전의 믿음을 얼마나 강력하게 지원하는지 평가하는 것이 합리적이라고 생각합니다.

  1. 주장 : 적당히 큰 데이터는 또는 솔루션이 실제 모델 인 경우에도 또는 솔루션의 검색을 허용하지 않습니다 .
    L1

    L2

    L1

    L2

이것은 사실이지만 비슷한 이유로 원형이라고 생각합니다. 최적의 솔루션을 추정하고 찾으면 데이터가 지원하는 모델입니다. 한편으로, 추정 모델은 실제 모델이 아니지만 모델 추정 전에 실제 모델이 (또는 ) 인지 어떻게 알 수 있는지 궁금합니다 . 이런 종류의 사전 지식이있는 영역이있을 수 있지만 내 전문적인 업무는 그 중 하나가 아닙니다.

α∉{0,1},

α=1

α=0
  1. 주장 : 추가 하이퍼 파라미터를 도입하면 모델 추정의 계산 비용이 증가합니다.

시간 / 컴퓨터 제한이 엄격한 경우에만 해당됩니다. 그렇지 않으면 그것은 단지 성가신 일입니다. GLMNET은 탄력적 순 솔루션을 추정하기위한 표준 알고리즘입니다. 사용자는 일부 알파 값을 제공하고 정규화 솔루션의 경로 속성을 사용하여 다양한 벌칙 크기 값에 대한 모델 군을 신속하게 추정하며 종종 추정 보다이 솔루션 계열을 더 빨리 추정 할 수 있습니다. 특정 값 대한 하나의 솔루션 . 예, GLMNET을 사용하면 그리드 스타일 메소드를 사용하는 도메인에 위탁 할 수 있습니다 (일부 값을 반복 하고 GLMNET이 다양한 시도 ). 그러나 매우 빠릅니다.

λ

λ

α

λ
  1. 주장 : LASSO 또는 능선 회귀에 대한 탄성 그물의 성능 향상은 보장되지 않습니다.

이것은 사실이지만 어떤 방법을 사용할 것인지 고민하는 단계에서 탄성 그물, 릿지 또는 LASSO 중 어느 것이 가장 좋은지 알 수 없습니다. 최상의 솔루션이 LASSO 또는 릿지 회귀 여야하는 이유 중 하나는 클레임 ​​영역입니다 (1). 어느 것이 가장 적합한 지 여전히 확실하지 않으면 LASSO, 능선 및 탄성 그물 솔루션을 테스트하고 그 시점에서 최종 모델을 선택할 수 있습니다 (또는 학계의 경우 세 가지 모두에 대한 논문을 작성하십시오) ). 사전 불확실성에 대한 이러한 상황은 실제 모델이 LASSO / ridge이지만 사전에 알지 못했던 하이퍼 파라미터로 인해 실수로 잘못된 모델을 선택하는 주장 (2)의 영역에있게됩니다. 탄성 그물은 실제로 가장 좋은 솔루션입니다.

  1. 주장 : 교차 검증이없는 하이퍼 파라미터 선택은 치우 치며 오류가 발생하기 쉽습니다 .

적절한 모델 검증은 모든 기계 학습 기업의 필수 요소입니다. 모델 유효성 검사도 일반적으로 비용이 많이 드는 단계이므로 여기서 비 효율성을 최소화하려고합니다. 이러한 비효율 중 하나 가 쓸데없는 것으로 알려진 값을 불필요하게 시도하는 경우 한 가지 제안이 필요할 수 있습니다. 그렇습니다. 데이터 배열 방식에 대한 강력한 성명서에 익숙하다면 클레임 (1) 및 클레임 (2)의 영역으로 돌아갑니다.

α

2. 탄성 망의 직관과 수학은 무엇입니까?

나는 탄성 그물에 원본 종이부터 시작하여 이러한 방법에 대한 문헌을 읽는 것이 좋습니다. 이 논문은 직관과 수학을 발전 시키며 읽기 쉽습니다. 여기서 그것을 재현하는 것은 저자의 설명을 해칠뿐입니다. 그러나 높은 수준의 요약은 탄성 그물이 융기 및 올가미 페널티의 볼록한 합이므로 가우시안 오차 모델의 목적 함수는

Residual Mean Square Error+α⋅Ridge Penalty+(1−α)⋅LASSO Penalty

위한

α∈[0,1].

Hui Zou와 Trevor Hastie. ” 탄력 망을 통한 정규화 및 변수 선택 ” JR 통계. Soc., vol 67 (2005), Part 2., pp. 301-320.

Richard Hardy는 이것이 Hastie et al. “통계 학습의 요소”3 장과 18 장.

3. 규범 을 더 추가하면 어떻게 됩니까? Lq

이것은 의견에서 나에게 제기 된 질문입니다.

탄성 그물이 올가미 또는 릿지 단독보다 균일하게 우수하다는 견해에 대해 한 가지 추가 주장을 제안하겠습니다. 하이퍼 파라미터 를 사용하여 탄력적 순 비용 함수 (예 : 비용) 에 또 다른 페널티를 추가한다고 상상해보십시오 . 나는 그것에 대해 많은 연구가 없다고 생각하지만 3d 매개 변수 그리드에서 교차 유효성 검사를 수행하면 이 최적의 값으로 표시됩니다. 그렇다면 비용도 포함시키는 것이 항상 좋은 생각이라고 주장하십니까 ?

L3

γ

γ≠0

L3

이 질문의 정신은 “만약 당신이 주장한대로 두 개의 벌칙이 좋다면 왜 다른 것을 추가하지 않겠습니까?”입니다. 그러나 나는 왜 우리가 처음부터 정규화하는지에 대한 답이 있다고 생각합니다.

L1

정규화는 희소 솔루션을 생성하는 경향이 있지만 결과와 가장 밀접하게 관련된 기능을 선택하고 나머지는 제로화하는 경향이 있습니다. 또한 관측치 가있는 데이터 세트 에서는 최대 피처를 선택할 수 있습니다. 정규화는 고도로 (또는 완벽하게) 상관 된 기능으로 인한 잘못된 문제를 처리하는 데 적합합니다. 피처가 있는 데이터 세트 에서 정규화를 사용하여 경우 모델을 고유하게 식별 할 수 있습니다 .

n

n

L2

p

L2

p>n

이러한 문제 중 하나를 제외하고, 정규화 된 모델은 추정기의 수축 특성이 “비관적”이고 계수를 0으로 끌어 당기기 때문에 ML 모델보다 여전히 성능이 뛰어납니다.

그러나 정규화에 대한 통계적 속성을 알지 못합니다 . 내가 작업 한 문제에서, 우리는 일반적으로 상관 관계가 좋지 않은 피처 (데이터에 의해 도출되지 않은 가설)와 공선 피처의 포함과 같은 두 가지 문제에 직면합니다.

L3

실제로, 매개 변수에 대한 및 페널티가 일반적으로 사용되는 유일한 이유가 있습니다.

L1

L2

에서 왜 우리는 볼 수 있습니까 및 정규화하지만 다른 규범을? L 2

L1

L2

@whuber는이 의견을 제공합니다.

나는이 질문을 구체적으로 조사하지는 않았지만 비슷한 상황에서의 경험은 좋은 질적 답변이있을 수 있음을 시사합니다 : 원점에서 두 번째로 차별화 할 수있는 모든 규범은 서로 로컬로 동등하며 규범이 표준입니다 . 다른 모든 규범은 기원에서 차별화 할 수 없으며 그들의 행동을 질적으로 재현합니다. 그것은 영역을 다룹니다. 실제로, 과 노름 의 선형 조합은 원점에서 임의의 노름과 2 차의 근사치를 근사하며, 이는 잔차가없는 회귀 분석에서 가장 중요한 문제입니다.

L2

L1

L1

L2

따라서 추가적인 하이퍼 파라미터 튜닝없이 규범이 과 규범의 조합 으로 제공 할 수있는 다양한 옵션을 효과적으로 다룰 수 있습니다 .

Lq

L1

L2

답변

나는 일반적으로 @Sycorax 답변에 동의하지만 자격을 추가하고 싶습니다.

“올가미 및 릿지 회귀보다 탄력적 인 그물이 항상 선호된다”고 말하는 것은 너무 강할 수 있습니다. 중소 샘플에서 탄성 그물은 전자 또는 후자가 실제로 관련이더라도 순수한 LASSO 또는 순수한 융기 용액을 선택하지 않을 수 있습니다. 강력한 사전 지식이 주어지면 탄성 그물 대신 LASSO 또는 릿지를 선택하는 것이 좋습니다. 그러나 사전 지식이 없으면 탄성 망이 선호되는 솔루션이어야합니다.

또한, 탄성 그물은 LASSO 또는 릿지보다 계산적으로 더 비싸고, 릿지 대 릿지의 상대 중량은 교차 검증을 사용하여 선택되어야하기 때문이다. 알파 값의 합리적인 그리드가 단계 크기가 0.1 인 [0,1] 인 경우 탄성 그물은 LASSO 또는 릿지보다 계산 비용이 약 11 배라는 것을 의미합니다. LASSO와 릿지의 계산 복잡성은 동일하지 않으므로 결과는 대략적인 것입니다.


답변