베이지안 대 MLE, 과적 합 문제 , 1 ]f(x)=sin(x),x∈[0,1]f(x)=sin(x),\;x\in[0,1]H나는HiH_iH1H1H_1H2H2H_2H삼H3H_3 이제 데이터 를 3 개의

주교의 PRML 서적에서, 초과 적합은 MLE (Maximum Likelihood Estimation)의 문제이며 Bayesian은이를 피할 수 있다고 말합니다.

그러나 과적 합은 모수 추정에 사용 된 방법이 아니라 모형 선택에 대한 문제라고 생각합니다. 즉, 통해 생성되는 데이터 세트 가 있다고 가정 하면 이제 데이터에 맞게 다른 모델 를 선택 하고 알아낼 수 있습니다. 어느 것이 최고입니다. 고려중인 모형은 차수가 다른 다항식이며 은 차수 1, 는 차수 2, 은 차수 9입니다.f ( x ) = s i n ( x ) ,

D

H i H 1 H 2 H 3

f(x)=sin(x),x[0,1]

Hi

H1

H2

H3

이제 데이터 를 3 개의 모델 각각에 맞추려고 시도합니다 . 각 모델에는 대해 로 표시된 매개 변수가 있습니다.w i H i

D

wi

Hi

ML을 사용하면 모델 매개 변수 의 점 추정치가 있으며 은 너무 단순하고 항상 데이터에 적합하지 않지만 은 너무 복잡하고 데이터에 너무 적합하며 만 데이터에 잘 맞습니다.H 1 H 3 H 2

w

H1

H3

H2

내 질문은

1) 모델 은 데이터에 적합하지만 ML의 문제는 아니지만 모델 자체의 문제라고 생각합니다. ML을 사용 인해 과적 합이 발생하지 않습니다. 내가 맞아?H 1 , H 2

H3

H1,H2

2) ML은 Bayesian과 비교할 때 모델 매개 변수 의 점 추정치를 제공하기 때문에 약간의 단점이 있으며 과도합니다. Bayesian은 매개 변수의 가장 가능한 값에 의존하지 않지만 관측 된 데이터 주어지면 가능한 모든 매개 변수 값에 의존합니다 .D

w

D

3) 베이지안이 왜 과적 합을 피하거나 줄일 수 있습니까? 내가 알기로, 모델 비교를 위해 베이지안을 사용할 수 있습니다. 즉, 데이터 가 주어지면 고려중인 각 모델 의 한계 우도 (또는 모델 증거) 를 찾은 다음 가장 높은 한계 우도를 가진 모델을 선택할 수 있습니다 ? 그렇다면 왜 그렇습니까?

D



답변

최적화는 통계에서 모든 악의 근원입니다. 한정된 데이터 샘플에서 평가 된 적절한 기준을 최적화 하여 모델 을 선택할 때마다 기준을 과적 합할 위험이 있습니다. 대신 데이터 샘플의 특성 (예 : 노이즈)을 활용하여 얻을 수 있습니다. 베이지안 방법이 더 잘 작동하는 이유는 아무것도 최적화하지 않고 가능한 모든 선택에 대해 주 변화 (통합)하기 때문입니다. 문제는 모델에 대한 사전 신념의 선택에 달려 있으므로 한 문제는 사라졌지 만 다른 문제는 그 자리에 나타납니다.

1


1

여기에는 베이지안 설정에서 증거 (한계 가능성)를 최대화하는 것이 포함됩니다. 이에 대한 예를 보려면 필자의 논문에서 가우시안 프로세스 분류기의 결과를 참조하십시오. 여기서 가능성을 최적화하면 하이퍼 매개 변수가 너무 많으면 모델이 악화됩니다 (마진 가능성에 따라 선택하면 하이퍼가 많은 모델을 선호하는 경향이 있음) -이 형태의 과적 합 결과 매개 변수).

GC Cawley 및 NLC Talbot, 성능 평가에서 모델 선택 및 후속 선택 바이어스에 과적 합, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, 2010 년 7 월. ( pdf )


답변

일반적인 응답으로, “최소 제곱”유형 회귀 모델을 사용하는 경우 회귀 매개 변수에 사전 정보를 사용하지 않으면 베이와 ML 사이에 큰 차이가 없습니다. 세부 사항에 대한 답변 :

1) 는 9 개에 가까운 관측치가있는 경우에만 데이터를 과적 시킬 필요는 없습니다. 100 개의 관측치가있는 경우 추정 된 “과적 합 된”계수의 대부분은 0에 가깝습니다. 또한 은 거의 항상 “부적합”을 초래합니다. 명확한 곡률이 누락 되었기 때문입니다.H 1

H9

H1

2) 이것은 다항식 확장과 같은 “선형”에 해당되지 않습니다 ( “선형”은 아니라 매개 변수에 대해 선형을 의미 함 ). 최소 제곱에 대한 ML 추정치는 유익하지 않은 사전 또는 큰 표본 크기에서 사후 평균과 동일합니다. 실제로 ML 추정값이 다양한 모델에서 “점근 법”후방 수단으로 생각 될 수 있음을 보여줄 수 있습니다.

x

3) 베이지안 접근법은 적절한 사전에만 과적 합을 피할 수 있습니다. 이것은 일부 피팅 알고리즘에서 볼 수있는 페널티 용어와 유사한 방식으로 작동합니다. 예를 들어, L2 페널티 = 보통 이전, L1 페널티 = 라플라스 이전입니다.


답변

기본적으로 다항식의 차수를 늘려서 수행하는 작업은 모형 공간 의 매개 변수 수 또는 자유도를 증가시키는 것 입니다. 그 차원. 더 많은 매개 변수를 추가할수록 모델이 학습 데이터에 더 쉽게 적합 할 수 있습니다. 그러나 이것은 또한 관측 횟수에 크게 의존합니다. 훈련 인스턴스 수가 충분히 많으면 이 전혀 적합하지 않을 수 있는 것처럼 관측치 수가 적은 경우 모델 및 가 훈련 데이터에 할 수 있습니다.H 2 H 3

H1

H2

H3

예를 들어, 과장하여 과장하여 훈련 예제 만 제공한다고 가정하겠습니다. 조차도 항상 데이터에 과도하게 적합하지 않습니다.H 1

2

H1

예를 들어 정규화를 통해 우선 순위를 부과하는 이점은 매개 변수가 0 또는 다른 사전 정의 된 값으로 축소되고 (원하는 경우 계수를 “결합”하기 위해 매개 변수를 추가 할 수도 있음) 매개 변수를 암시 적으로 제한한다는 것입니다. 모델의 “자유”를 과도하게 줄입니다. 예를 들어, 올가미 (즉, 정규화 또는 이와 동등한 Laplace 사전)를 사용하고 해당 매개 변수를 조정하면 (예 : 10x 교차 검증 사용) 잉여 매개 변수가 자동으로 제거됩니다. 베이지안 해석은 유사합니다. 사전을 부과함으로써 전체 데이터에서 추론 할 수있는 더 많은 값으로 매개 변수를 제한합니다.

l1


답변