가방 부족 오류로 인해 임의 포리스트에서 CV가 필요하지 않습니까? 임의의 숲에 상당히 익숙합니다. 과거에는, 나는

나는 임의의 숲에 상당히 익숙합니다. 과거에는, 나는 항상의 정확성을 비교 한 시험 대에 맞게 에 대한 열차 대에 맞는 어떤 overfitting을 감지 할 수 있습니다. 그러나 나는 여기서 그것을 읽었 습니다 .

“임의의 포리스트에서는 교차 검증 또는 별도의 테스트 세트가 필요하지 않으므로 테스트 세트 오류를 편견없이 추정 할 수 있습니다. 실행 중 내부적으로 추정됩니다 …”

위의 작은 단락 은 가방 외부 (oob) 오류 추정 섹션 에서 찾을 수 있습니다 . 이 Out of Bag Error 개념은 완전히 새로운 개념이며 약간 혼란스러운 점은 모델의 OOB 오류가 35 % (또는 65 % 정확도) 인 방법이지만 데이터에 교차 검증을 적용하는 경우 (단순한 보류) 방법)과 맞는 대 테스트 대 맞는 대 기차를 비교하십시오 . 각각 65 %의 정확도와 96 %의 정확도를 얻습니다. 내 경험상 이것은 과적 합으로 간주되지만 OOB는 내 적합 대 테스트 오류 와 마찬가지로 35 % 오류를 보유합니다 . 과적 합입니까? 임의 포리스트에서 과적 합을 확인하기 위해 교차 유효성 검사를 사용해야합니까?

요컨대, 내가 맞는 vs 기차 가 내가 너무 적합 하다는 것을 나타낼 때 테스트 세트 오류의 편견없는 오류를 얻기 위해 OOB를 신뢰해야하는지 확실하지 않습니다 !

답변

과 같은 훈련 오류 predict(model, data=train)는 일반적으로 쓸모가 없습니다. 트리를 (비표준으로) 잘라 내지 않는 한, 알고리즘 설계에 의해 0보다 훨씬 클 수 없습니다 . 임의 포리스트는 의사 결정 트리의 부트 스트랩 집계를 사용하며 이는 과도하게 적합하지 않은 것으로 알려져 있습니다. 이것은 1 인접 이웃 분류기의 훈련 오류와 같습니다.
그러나이 알고리즘은 기본적으로 전체 모델 오류의 부트 스트랩 추정치 인 백 오차 오류 추정치 를 계산하는 매우 우아한 방법을 제공합니다 . 백 오차 오차는 의 예측을 집계하기위한 추정 오차입니다. $\approx \frac{1}{e}$
≈1이자형
따라서 가방 외부 오류는 교차 유효성 검사 오류와 정확히 동일하지는 않지만 (집계를위한 트리가 적고 교육 사례 사본이 많음) 실제적인 목적으로는 충분히 가깝습니다.
과적 합을 탐지하기 위해 살펴 봐야 할 것은 가방 외부 오류와 외부 검증을 비교하는 것입니다. 그러나 데이터의 클러스터링에 대해 알지 않는 한 “간단한”교차 유효성 검사 오류는 봉지 부족 오류와 동일한 낙관적 경향이 있습니다. 분할은 매우 유사한 원리에 따라 수행됩니다.
제대로 설계된 테스트 실험을 위해이 기능을 제대로 수행 할 수 있도록 가방 밖 또는 교차 검증을 오류와 비교해야합니다.

답변

백 오픈 오류는 유용하며 다른 성능 추정 프로토콜 (교차 검증과 같은)을 대체 할 수 있지만주의해서 사용해야합니다.

교차 검증과 마찬가지로, 비 가방 샘플을 사용한 성능 추정은 학습에 사용되지 않은 데이터를 사용하여 계산됩니다. 데이터가 샘플을 통해 정보를 전송하는 방식으로 처리 된 경우 추정값이 바이어스됩니다. 기억해야 할 간단한 예는 기능 선택 또는 결 측값 대치입니다. 두 경우 모두 (특히 피처 선택의 경우) 데이터는 전체 데이터 세트의 정보를 사용하여 변환되어 추정값을 바이어스합니다.

How IT

언제든지 물어보세요.

가방 부족 오류로 인해 임의 포리스트에서 CV가 필요하지 않습니까? 임의의 숲에 상당히 익숙합니다. 과거에는, 나는

답변

답변

답변