k- 폴드 CV를 사용한 오리지널 (?) 모델 선택 그러나 최근 에이 방법으로 변동성을 과대

k- 폴드 CV를 사용하여 회귀 모델 중에서 선택하는 경우 일반적으로 표준 오류 SE와 함께 각 모델에 대해 개별적으로 CV 오류를 계산하고 CV 오류가 가장 낮은 모델의 1 SE 내에서 가장 간단한 모델을 선택합니다 (1 표준 오류 규칙 (예 : 여기 참조 ). 그러나 최근 에이 방법으로 변동성을 과대 평가하고 있으며 두 모델 A와 B 중 하나를 선택하는 특정 경우에는 다른 방식으로 진행해야한다고 들었습니다.

  • 길이 의 각 폴드 에 대해 두 모델 예측 간의 점별 차이를 계산 한 다음 폴드
    K

    NK

    MSDK=∑i=1NK(y^Ai−y^Bi)2NK

  • 평소와 같이 평균 를 접고,이 CV 차이 오차 (표준 오차와 함께)를 일반화 오차 추정기로 사용합니다.
    MSDK

질문 :

  1. 이것이 당신에게 의미가 있습니까? CV 오류를 일반화 오류의 추정 자로 사용하는 데는 이론적 인 이유가 있습니다 (이러한 이유는 모르지만 그 이유는 알고 있습니다!). 이 “차이”CV 오류를 사용하는 데 이론적 인 이유가 있는지 전혀 모르겠습니다.
  2. 이것이 둘 이상의 모델 비교로 일반화 될 수 있는지 모르겠습니다. 모든 모델 쌍에 대한 차이를 계산하는 것은 위험 해 보입니다 (복수 비교?) : 둘 이상의 모델이있는 경우 어떻게 하시겠습니까?

편집 : 내 수식이 완전히 잘못되었고 올바른 메트릭이 여기 에 설명 되어 있으며 훨씬 더 복잡합니다. 글쎄, 나는 맹목적으로 공식을 적용하기 전에 여기에 물었습니다. @Bay의 답변으로 이해해 주셔서 감사합니다. 설명 된 올바른 측정법은 매우 실험적이므로 신뢰할 수있는 일꾼 인 CV 오류를 고수하겠습니다.



답변

홀드 아웃 설정도 그림으로 오지 않기 때문에, 일반화 오류의 홀수 척도이다. 이 모든 것은 모델의 예측이 서로 상관 관계가 있지만 실제로 테스트 데이터 포인트를 얼마나 잘 예측하는지에 대해서는 아무것도 알 수 없습니다.

MSDK

예를 들어, 멍청한 예측 변수 쌍을 생각해 낼 수 있습니다.

y^A(x,θ)=1+⟨x,1⟩θ

y^B(x,θ):=1+⟨x,1⟩θ2

이 경우 교차 유효성 검사를 조정하면 가 때문에 가능한 크게 설정해야한다고 말할 수 있지만 이러한 모델이 좋은 예측 변수가 의문입니다.

θ

MSDK

링크를 살펴 측정 값이 표시되지 않았습니다 . Andrew Gelman은 존경받는 통계 학자이므로 위와 같은 내용을 보증했을 것으로 의심되며, 이는 일반화 오류의 추정값으로 분명히 실패합니다. 그의 논문과 링크는 LOO (Leave One Out) 교차 검증에 대해 설명하며 벤치 마크로 테스트 데이터 포인트 (즉, 교육에서 보류)와 비교해야합니다. 당신에게 예상 시험 오류에 대해 아무것도 (두 모델이 … 유사한 오류가있을 수 있음을 아마도 제외시켰다)를 말하지 않을 것이다 순전히 “내부”보고 통계입니다.

MSDK

미디엄에스디케이

OP 의견에 대한 답변

귀하의 의견에 제시된 공식에는 약간의 맥락이 필요합니다.

  1. elpd예상 로그 포인트 단위의 예측 밀도라는 점 에서 베이지안 정확도 측정법 입니다. 하지만 상당히 입소문 이지만 기본적으로 이는 일부 사전 예측 하에서 각 데이터 포인트에서 평가 된 사후 예측 밀도 로그의 예상 값의 합입니다. 교차 검증을 사용하여 추정되는 밀도.
  2. 상기 측정치 (elpd)는 1 회 교차 검증을 사용하여 계산되며, 예측 밀도는 생략 된 지점에서 취해진 다.
  3. 그들의 공식 (19)이 수행하는 것은 두 모델 간의 예측 정확도 차이 (elpd를 사용하여 측정)의 표준 오차를 계산하는 것입니다. 아이디어는 elpd의 차이가 무의식적으로 정상이므로 표준 오류에 추론 적 의미가 있고 (기본 차이가 0인지 테스트하는 데 사용할 수 있음) 모델 A가 모델 B보다 예측 오류가 더 작다는 것입니다.

따라서이 측정에는 많은 부분이 있습니다. 사후 파라미터 밀도에서 점을 얻으려면 MCMC 샘플링 알고리즘을 실행해야합니다. 그런 다음 예측 밀도를 얻기 위해 통합해야합니다. 그런 다음 각각의 예상 값을 가져와야합니다 (많은 추첨). 상당히 과정이지만 결국에는 유용한 표준 오류가 발생합니다.

참고 : 방정식 (19) 아래의 세 번째 전체 단락에서 저자는이 방법이 모델 비교에 잘 수행되는지 결정하기 위해 더 많은 연구가 필요하다고 말합니다. 따라서 후속 연구에서 더 나은 모델을 확실하게 식별 할 때까지 ( elpd 측면에서 ) 이 방법의 유용성을 기본적으로 신뢰합니다 .


답변