태그 보관물: regression

regression

바이어스-분산 트레이드 오프에 대한 직관적 인 설명? 구체적으로 선형 회귀와

나는 일반적으로 그리고 구체적으로 선형 회귀와 관련하여 바이어스-분산 트레이드 오프에 대한 직관적 인 설명을 찾고 있습니다.



답변

고등학교에서 학생들의 키와 몸무게를 비교해 보면, 2D 데이터가 한 쌍의 축에 표시되어 있다고 상상해보십시오.

이제 그것을 통해 직선을 맞추고 있다고 가정하십시오. 물론 예측 된 값 세트를 나타내는이 행은 통계 분산이 없습니다. 그러나 편향이 높을 수도 있습니다. 즉 데이터에 잘 맞지 않습니다.

다음으로, 고도 다항식 스플라인으로 데이터를 모델링한다고 가정합니다. 적합치에 만족하지 않으므로 적합도가 향상 될 때까지 (그리고 실제로 임의의 정밀도로 다항식 정도) 증가합니다. 이제 편향이 0 인 상황이 있지만 분산이 매우 높습니다.

치우침-분산 트레이드 오프는 비례 관계를 나타내지 않습니다. 즉, 치우침-분산을 플로팅하면 기울기가 -1 인 원점을 통과하는 직선을 반드시 볼 필요는 없습니다. 위의 다항식 스플라인 예제에서 차수를 줄이면 편차가 바이어스를 줄이는 것보다 훨씬 적게 증가합니다.

바이어스-분산 트레이드 오프도 제곱합 오류 함수에 포함됩니다. 아래에서 나는 이것을 강조하기 위해이 방정식의 일반적인 형태를 다시 작성했지만 변경하지는 않았습니다.

대체 텍스트

오른쪽에는 세 가지 용어가 있습니다. 첫 번째 용어는 되돌릴 수없는 오류 (데이터 자체의 편차)입니다. 이것은 우리가 통제 할 수 없으므로 무시하십시오. 두 번째 항은 치우침제곱입니다 . 그리고 세번째 는 IS 분산 . 하나가 올라가면 다른 하나가 내려가는 것을 쉽게 알 수 있습니다. 둘 다 같은 방향으로 서로 다를 수는 없습니다. 다시 말해 최소 제곱 회귀 분석은 후보 모델 중에서 편향과 분산의 최적 조합을 (암시 적으로) 찾는 것으로 생각할 수 있습니다.


답변

치명적인 건강 보험을 고려 중이고 병이 날 확률이 1 % 인 1 백만 달러가 있다고 가정 해 봅시다. 따라서 병에 걸리는 예상 비용은 10,000 달러입니다. 이익을 내고자하는 보험 회사는 보험료 15,000을 청구 할 것입니다.

정책을 구입하면 15,000의 예상 비용이 발생합니다.이 차이는 0이지만 실제 예상 병가보다 5,000이 많으므로 편향된 것으로 생각할 수 있습니다.

정책을 구매하지 않으면 예상 비용이 10,000이되는데 이는 병에 걸리는 실제 예상 비용과 동일하지만 편차가 매우 크기 때문에 편향되지 않습니다. 여기서의 상충 관계는 일관되게 잘못되었지만 결코 많지 않은 접근법과 평균적으로 정확하지만 더 가변적 인 접근법 사이에 있습니다.


답변

Yaser Abu-Mostafa, Lecture 8 (Bias-Variance Tradeoff)의 Caltech ML 과정을 살펴 보는 것이 좋습니다 . 개요는 다음과 같습니다.

사인 함수를 배우려고한다고 가정 해보십시오.

대체 텍스트

우리의 훈련 세트는 2 개의 데이터 포인트로 구성됩니다.

와 두 가지 모델로 시도해 봅시다 .h 1 ( x ) = a x + b

h0(x)=b

h1(x)=ax+b

들어 우리가 (즉, 우리가 반복적으로 2 데이터 포인트를 선택하고 그들에게 학습을 수행) 많은 다른 훈련 세트하려고 할 때, 우리는 얻기가 (왼쪽 그래프는 모든 학습 모델을 나타내며 오른쪽 그래프는 자신의 평균 g을 대표하고 차이 (회색 영역) :

h0(x)=b

여기에 이미지 설명을 입력하십시오

대한 우리는 많은 다른 훈련 세트하려고 할 때, 우리가 얻을 :

h1(x)=ax+b

여기에 이미지 설명을 입력하십시오

우리가 학습 된 모델 비교하면 및 , 우리는 볼 수 있습니다 비해 수익률보다 간단한 모델 , 따라서 낮은 분산을 우리가 배운 모델 고려할 때 (그래프에 빨간색으로)하지만, 최고의 모델 g을 배웠다 와 더 나은 최고의 모델보다와 g 배운 , 따라서 낮은 바이어스 와 :시간 1 시간 0 시간 1 시간 0 시간 1 시간 0 시간 1

h0

h1

h0

h1

h0

h1

h0

h1

여기에 이미지 설명을 입력하십시오


훈련 세트의 크기와 관련하여 비용 함수의 진화를 살펴보면 ( Andrew Ng의 Coursera-Machine Learning의 그림 ) :

높은 편견 :

여기에 이미지 설명을 입력하십시오

높은 분산 :

여기에 이미지 설명을 입력하십시오


답변

나는 보통이 두 사진을 생각합니다.

첫째, 편견과 분산의 의미 :

편견과 분산 이해

레드 불스 눈 영역의 중심이 우리가 예측하려고하는 목표 랜덤 변수의 실제 평균값이고 레드 영역이이 변수의 분산 확산을 나타냅니다. 샘플 관측 값을 취하고이 변수의 값을 예측할 때마다 파란색 점을 표시합니다. 파란색 점이 빨간색 영역 안에 들어간 경우 올바르게 예측했습니다. 다시 말해, 바이어스는 실제 적색 영역에서 예측 된 청색 점이 얼마나 멀리 떨어져 있는지를 측정 한 것으로 직관적으로 오류입니다. 분산은 예측이 얼마나 흩어져 있는지입니다.

이제 여기서의 단점은 다음과 같습니다.

바이어스와 분산의 절충

이 매개 변수 중 하나 (바이어스 또는 분산)를 줄이려고하면 다른 매개 변수가 증가합니다. 그러나 장기적으로 예측 오류가 가장 적은 비 편향 바이어스와 비 편차 분산 사이에 적절한 지점이 있습니다.

이 사진은 http://scott.fortmann-roe.com/docs/BiasVariance.html 에서 가져옵니다 . 자세한 내용은 선형 회귀 및 K- 최근 접 이웃에 대한 설명을 확인하십시오.


답변

다음은 매우 간단한 설명입니다. 일부 분포에서 샘플링 된 점 {x_i, y_i}의 산점도를 상상해보십시오. 당신은 그것에 어떤 모델을 맞추고 싶습니다. 선형 커브 또는 고차 다항식 커브 또는 다른 것을 선택할 수 있습니다. 선택한 것은 무엇이든 {x_i} 포인트 집합에 대한 새로운 y 값을 예측하는 데 적용됩니다. 이것을 유효성 검사 세트라고합시다. 실제 {y_i} 값도 알고 있으며 모델을 테스트하기 위해이 값을 사용한다고 가정합니다.

예측 된 값은 실제 값과 다를 것입니다. 차이점의 특성을 측정 할 수 있습니다. 단일 유효성 검사 지점을 고려해 봅시다. x_v라고 부르고 모델을 선택하십시오. 모델 학습을 위해 100 개의 서로 다른 임의의 샘플을 사용하여 하나의 검증 포인트에 대한 예측 세트를 만들어 봅시다. 그래서 우리는 100 y 값을 얻을 것입니다. 이러한 값의 평균과 실제 값의 차이를 바이어스라고합니다. 분포의 분산은 분산입니다.

우리가 어떤 모델을 사용 하느냐에 따라이 두 가지를 교환 할 수 있습니다. 두 가지 극단을 고려해 봅시다. 가장 작은 분산 모델은 데이터를 완전히 무시하는 모델입니다. x마다 42를 단순히 예측한다고 가정 해 봅시다. 이 모델은 모든 시점에서 서로 다른 트레이닝 샘플에서 차이가 없습니다. 그러나 그것은 분명히 편향되어 있습니다. 편향은 단순히 42-y_v입니다.

다른 하나는 가능한 한 많이 초과하는 모델을 선택할 수 있습니다. 예를 들어 100도 다항식을 100 개의 데이터 포인트에 맞 춥니 다. 또는 가장 가까운 이웃간에 선형 보간합니다. 이것은 바이어스가 낮습니다. 왜? 임의의 샘플의 경우 x_v에 대한 주변 포인트가 크게 변동하지만 낮은 보간만큼 자주 보간됩니다. 따라서 전체 샘플에서 평균적으로 샘플이 취소되고 실제 곡선에 고주파수 변동이 많지 않으면 바이어스가 매우 낮아집니다.

그러나 이러한 과적 합 모델은 데이터를 부드럽게하지 않기 때문에 임의의 표본에 큰 차이가 있습니다. 보간 모델은 두 개의 데이터 포인트를 사용하여 중간 포인트를 예측하므로 많은 노이즈가 발생합니다.

바이어스는 단일 지점에서 측정됩니다. 그것이 양수인지 음수인지는 중요하지 않습니다. 주어진 x에서 여전히 편향입니다. 모든 x 값에 대한 평균 바이어스는 아마도 작을 것입니다. 그러나 그것은 편향되지 않습니다.

하나 더 예. 미국의 특정 지역에서 온도를 예측하려고한다고 가정 해 봅시다. 10,000 개의 훈련 포인트가 있다고 가정 해 봅시다. 다시 말하지만, 평균을 반환함으로써 간단한 것을 수행함으로써 저 분산 모델을 얻을 수 있습니다. 그러나 이것은 플로리다 주에서는 낮게 편향되고 알래스카 주에서는 높게 편향 될 것입니다. 각 주에 평균을 사용하면 더 좋습니다. 그러나 그때도 겨울에는 높고 여름에는 낮습니다. 이제 모델에 월을 포함시킵니다. 그러나 데스 밸리에서는 낮고 샤스타 산에서는 여전히 치우칠 것입니다. 이제 우편 번호 수준의 입도로 이동합니다. 그러나 결국 편향을 줄이기 위해이 작업을 계속하면 데이터 포인트가 부족합니다. 주어진 우편 번호 및 월에 대해 하나의 데이터 포인트 만 있습니다. 분명히 이것은 많은 분산을 만들 것입니다. 따라서 더 복잡한 모델을 사용하면 분산을 희생하면서 편향이 줄어 듭니다.

그래서 당신은 거래가 있음을 알 수 있습니다. 더 부드러운 모델은 훈련 샘플에서 분산이 적지 만 곡선의 실제 모양을 포착하지는 않습니다. 덜 부드러운 모델은 곡선을 더 잘 포착 할 수 있지만 소음이 심합니다. 가운데 어딘가에 Goldilocks 모델이 있으며이 둘 사이에 적절한 균형을 유지합니다.


답변

다른 훈련 데이터 세트에 대해 모델 구축 작업을 반복 할 수 있다고 상상해보십시오. 즉, 매번 다른 데이터 세트에 대해 새 모델을 훈련합니다 (아래 그림 참조). 테스트 데이터 포인트를 수정하고이 포인트에서 모델 예측을 평가하면 모델 생성 프로세스의 임의성으로 인해 예측이 달라집니다. 이 상황에 대한 아래 그림에서 P_1, P_2,…, P_n은 다른 예측이며 임의적입니다.
여기에 이미지 설명을 입력하십시오

예측의 평균을-

여기에 이미지 설명을 입력하십시오

바이어스 오차는 이러한 예측의 평균과 정확한 값의 차이로 인한 것입니다.
여기에 이미지 설명을 입력하십시오

분산 오차는 이러한 예측에서의 분산에 지나지 않습니다.
여기에 이미지 설명을 입력하십시오

이것이 편향과 분산 오차의 직관입니다.

자세한 설명은 바이어스 편차 트레이드 오프 뒤에있는 직관을 방문하십시오


답변