대학에서 기계 학습 과정을 수강했습니다. 퀴즈 중 하나 에서이 질문을 받았습니다.
모델 1 :
모델 2 :위의 모델 중 어느 것이 데이터에 더 적합합니까? (선형 회귀를 사용하여 데이터를 모델링 할 수 있다고 가정)
정답은 (교수에 따르면) 두 모델 모두 똑같이 잘 작동한다는 것입니다. 그러나 첫 번째 모델이 더 적합 할 것이라고 생각합니다.
이것이 내 대답의 이유입니다. , α = θ + θ 2 로 다시 쓸 수있는 두 번째 모델 은 첫 번째 모델과 동일하지 않습니다. α는 사실 포물선이며, 따라서 최소 값 갖는 ( – 0.25 이 경우에는). 이 때문에 첫 번째 모델에서 θ 의 범위는 α 의 범위보다 큽니다.
는 두 번째 모델 . 데이터가 가장 적합한보다 경사 덜했다하도록했다 따라서 경우 , 두 번째 모델은 매우 저조한 첫 번째에 비해 수행 할 것입니다. 그러나 가장 적합한 기울기가보다 큰 경우
이면 두 모델 모두 동일하게 작동합니다.
첫 번째 것이 더 좋습니까, 아니면 둘 다 동일합니까?
답변
모델 2는 로 쓸 수 있습니다
.
이것은 하이퍼 파라미터 ( θ , β )에 대해 다른 표기법 만 사용하여 모델 1과 유사 해 보입니다 . 그러나, 모델 1 우리가 쓸 수 θ = ( X
모델 2에서 우리가 갖고 있기 때문에 그러나
당신이 실제로 언급 한 바와 같이 다음의 범위 β는 에 속해야 [ – 0.25 , + ∞ ] 에 대한 θ ∈ R . 이 두 모델의 차이로 이어질 것입니다.
따라서 모델 2는 모델 1과는 달리 당신의 계수 추정치를 제약하는 것은이 모델 주목해야한다,이보다 명확하게하기 θ는 제곱 손실 함수 최소화를 통해 얻을 수있다
θ = 인수 분 θ ∈ R ( Y를 – X θ )
그러나 모델 2 추정치를 통해 얻어진
β =ARG 분 β ≥ – 0.25 (Y–X의β)
다른 결과를 초래할 수있는 ” (y–Xβ).
답변
당신의 추론을 이해하지 못합니다. 당신이 복용하는 경우 :
과
그리고 추정
과
간단한 선형 회귀를 사용하면
=
. 더욱이, 방법론이 정확히 동일하기 때문에
어느 방정식에서나 얻을 수있는 가치. 기본 가치
첫 번째 방정식에서 당연히 다를 것입니다.
그러나 이것은 적합과 관련이 없습니다.