랜덤 포레스트는 매우 작은 데이터 세트에 적합합니까? 특징은 GDP,

24 행의 월간 데이터로 구성된 데이터 세트가 있습니다. 특징은 GDP, 공항 도착, 월 및 기타 몇 가지입니다. 종속 변수는 인기있는 관광 목적지를 찾는 방문자 수입니다. 랜덤 포레스트가 그러한 문제에 적합할까요?

데이터가 공개되지 않아 샘플을 게시 할 수 없습니다.



답변

랜덤 포레스트 는 기본적으로 샘플에 대한 부트 스트랩 리샘플링 및 교육 결정 트리이므로 질문에 대한 답은이 두 가지를 해결해야합니다.

부트 스트랩 리샘플링작은 샘플의 치료법아닙니다 . 데이터 집합에 24 개의 관측치가있는 경우이 데이터를 대체하여 얻은 각 표본은 24 개의 고유 값으로 구성되지 않습니다. 사례를 섞고 일부를 그리지 않으면 기본 분포에 대해 새로운 것을 배우는 능력에 대해서는 크게 변하지 않을 것입니다. 따라서 작은 샘플 부트 스트랩의 문제입니다.

의사 결정 트리는 예측 변수에 대해 데이터를 조건부로 한 번에 한 변수 씩 분할하여 가장 큰 식별력을 갖는 서브 샘플을 찾아서 학습합니다. 24 개의 사례 만있는 경우 운이 좋고 모든 스플릿의 크기가 짝수 인 경우 2 개의 스플릿을 사용하면 트리 스플릿, 8 개 그룹 3 개로 구성된 6 개 케이스 4 개 그룹으로 끝납니다. 표본에 대해 조건부 평균을 계산 한 경우 (회귀 트리의 연속 값 또는 결정 트리의 조건부 확률을 예측하기 위해) 소수의 경우에만 결론을 내립니다! 따라서 결정을 내리는 데 사용할 하위 샘플은 원래 데이터보다 훨씬 작습니다.

작은 샘플의 경우 일반적으로 간단한 방법사용하는 것이 좋습니다 . 또한 베이지안 설정에서 유익한 사전 정보를 사용하여 (문제에 대한 합리적인 데이터 외부 지식이있는 경우) 작은 표본을 포착 할 수 있으므로 맞춤형 베이지안 모델 사용을 고려할 수 있습니다.


답변

한편으로 이것은 작은 데이터 세트이며 임의의 포리스트는 데이터가 부족합니다.

반면에, 아무것도 아닌 것보다 낫습니다. “시도하고 봐라”보다 더 할 말이 없습니다. 특정 모델이 “좋은지”여부를 결정하게됩니다. 또한, 우리는 어떤 모델이 특정 목적에 적합한 지 여부를 알 수 없습니다 (우리가 틀리면 비용이 들지 않습니다!)


답변