KNN이“모델 기반”이 아닌 이유는 무엇입니까? 유사한 근사가 언급되지 않는다. 그러나 두

ESL 2.4 장에서는 선형 회귀를 “모델 기반”으로 분류하는 것 같습니다.

f(x)≈x⋅β

k- 최근 접 이웃에 대해서는 유사한 근사가 언급되지 않는다. 그러나 두 방법이 모두 가정하지는 않습니다.

f(x)

?

나중에 2.4에서는 다음과 같이 말합니다.

  • 최소 제곱은
    f(x)

    전역 선형 함수에 의해 근사됩니다.
  • k- 최근 접 이웃 가정
    f(x)

    로컬로 일정한 함수로 근사합니다.

KNN 가정은 공식화 될 수있는 것처럼 보입니다 (그렇지 않으면 KNN 알고리즘이 가정하는 방식으로 이어질지 확실하지는 않습니다)

f

선형은 선형 회귀로 이어집니다).

KNN이 실제로 모델 기반이 아니라면 왜 그럴까요? 아니면 ESL을 잘못 읽고 있습니까?



답변

kNN과 선형 회귀를 서로 매우 다른 것으로 직접 비교하는 것은 매우 어렵지만 여기서 중요한 것은 “모델링의 차이점”이라고 생각합니다.

f(x)

“및”에 대한 가정

f(x)

“.

선형 회귀 분석을 수행 할 때

f(x)

종종

f(x)=wx+ϵ

어디

ϵ

가우스 잡음 항입니다. 최대 우도 모델이 최소 제곱합 오류 모델과 동일하다는 것을 알 수 있습니다.

반면 KNN은 두 번째 요점에서 알 수 있듯이 로컬로 일정한 함수 를 사용하여 해당 함수를 근사 할 수 있다고 가정합니다 .

x

전체 분포를 구체적으로 모델링하지 않고 -ses.

다시 말해서, 선형 회귀는 종종 다음의 가치에 대한 좋은 아이디어를 가질 것입니다

f(x)

보이지 않는 사람들을 위해

x

단지의 가치에서

x

kNN은 다른 정보 (예 : k 이웃)를 예측해야하지만

f(x)

의 가치 때문에

x

에 대한 모델이 없으므로 값 자체만으로 정보를 제공하지 않습니다.

f(x)

.

편집 :이 명확성을 다시 표현하기 위해 아래를 반복하십시오 (주석 참조)

선형 회귀 분석과 가장 가까운 이웃 방법 모두의 가치 예측을 목표로한다는 것이 분명합니다.

y=f(x)

새로운

x

. 이제 두 가지 접근 방식이 있습니다. 선형 회귀는 데이터가 직선 (플러스에서 약간의 노이즈를 뺀 값)에 있다고 가정하여 y의 값이

f(x)

곱하기 선의 기울기. 즉, 선형 표현식 은 데이터를 직선으로 모델링 합니다.

이제 가장 가까운 이웃 방법은 데이터가 어떻게 보이는지 (데이터를 모델링하지는 않음) 상관하지 않습니다. 즉, 데이터가 선, 포물선, 원 등인지 상관하지 않습니다.

f(x1)

f(x2)

비슷한 경우

x1

x2

비슷합니다. 이 가정은 위에서 언급 한 모든 모델을 포함하여 거의 모든 모델에 적용됩니다. 그러나 NN 방법은

f(x)

~와 연관되어있는

x

(선, 포물선 등이든),이 관계의 모델이 없기 때문에 가까운 지점을 살펴보면 근사치가 될 수 있다고 가정합니다.


답변

선형 회귀는 모델을 생성하기 위해 데이터 구조에 대해 가정하기 때문에 모델 기반입니다. 데이터 세트를 통계 프로그램에로드하고 선형 회귀 분석을 실행하는 데 사용하면 출력은 실제로 모델입니다.

f^(X)=β^X

. 출력 변수가 실제로 생성되는 방식에 대한 가정을 했으므로이 모델에 새 데이터를 공급하고 예측 된 출력을 얻을 수 있습니다.

KNN에는 실제로 모델이 없습니다. 서로 가까이있는 관측치가

X

-space는 아마도 출력 변수 측면에서 비슷하게 작동합니다. ‘KNN 모델’에 새 관측치를 제공하지 않고 기존 관측치가 새 관측치와 가장 유사한 것을 결정하고 훈련 데이터에서 새 관측치의 출력 변수를 예측하기 만하면됩니다.


답변

모델 기반이라는 용어는 클러스터링 방법을 논의 할 때 “배포 기반”과 동의어입니다. 선형 회귀는 분포 가정 (오류가 가우시안 임)을 가정합니다. KNN은 어떠한 배포 가정도하지 않습니다. 그것이 구별입니다.


답변

kNN은 인스턴스 기반입니다

새로운 관측치를 예측 하려면 데이터 집합에 대한 모델 이 없기 때문에 모든 교육 데이터 집합을 유지해야합니다 .

kNN의 작동 방식은 다음과 같습니다. 새로운 관측치가 주어지면이 새로운 관측치와 훈련 데이터 세트의 다른 모든 관측치 간의 거리를 계산합니다. 그런 다음 이웃 (새로운 관찰에 가장 가까운 이웃)을 얻습니다.

만약

k=5

그런 다음 5 개의 가장 가까운 관측 값을 봅니다. “로컬 상수 함수”는이 5 개의 관측 값을 선택한 후 거리에 신경 쓰지 않음을 의미합니다. 그것들은 동일하며 예측에 대해 동일한 중요성을 가지고 있습니다.

모델을 어떻게 찾을 수 있습니까?

이제 “로컬 상수”가 아닌 함수를 찾으려면 정규 분포가됩니다. 이 경우 선형 가정 분석 또는 Naive Bayes (다른 가정에 따라)라는 알고리즘 호출이 제공됩니다.