caret
다양한 모델링 절차를 테스트하기 위해 R 의 라이브러리 를 사용하고 있습니다 .
trainControl
목적 하나는 리샘플링 방법을 지정할 수있다. 방법이 설명되어 문서의 섹션 2.3을 포함한다 : boot
, boot632
, cv
, LOOCV
, LGOCV
, repeatedcv
와 oob
. 이들 중 일부는 추론하기 쉽지만 이러한 방법 중 일부가 명확하게 정의되어 있지는 않습니다.
이러한 리샘플링 방법에 해당하는 절차는 무엇입니까?
답변
좋아, 여기 내 시도가있다 :
- 부팅-부트 스트랩
- boot632-0.632 부트 스트랩
- cv-교차 검증, 아마도 이것은 K- 폴드 교차 검증을 의미 합니다.
- LOOCV-jacknife라고도하는 일대일 교차 검증.
- LGOCV-계층 데이터에 대한 LOOCV의 변형 인 그룹 외부 교차 검증.
- repeatcv-아마도 무작위 서브 샘플링 유효성 검사가 반복 될 것입니다 . 즉, 데이터를 훈련시키고 테스트하기위한 분할은 무작위 방식으로 수행됩니다.
- oob – Breiman이 제안한 가방 밖 추정을 말하며 부트 스트랩 집계 와 관련이 있습니다. (링크의 파일은 ps 파일이 아니라 ps.Z 파일이므로 이름을 바꾼 다음 열어보십시오.)
답변
는 repeatedcv
최대 쿤의 발표에 따르면, 확실히 10 배 교차 유효성 검사를 반복한다. 기본 리샘플링 체계는 부트 스트랩입니다.
리샘플링 방법에 대해 살펴볼 수있는 좋은 파일은 R 및 캐럿 패키지 ( pdf )를 사용한 예측 모델링입니다 . Max는 이것을 “useR! 2013″에서 발표했습니다.