24 행의 월간 데이터로 구성된 데이터 세트가 있습니다. 특징은 GDP, 공항 도착, 월 및 기타 몇 가지입니다. 종속 변수는 인기있는 관광 목적지를 찾는 방문자 수입니다. 랜덤 포레스트가 그러한 문제에 적합할까요?
데이터가 공개되지 않아 샘플을 게시 할 수 없습니다.
답변
랜덤 포레스트 는 기본적으로 샘플에 대한 부트 스트랩 리샘플링 및 교육 결정 트리이므로 질문에 대한 답은이 두 가지를 해결해야합니다.
부트 스트랩 리샘플링 은 작은 샘플의 치료법 이 아닙니다 . 데이터 집합에 24 개의 관측치가있는 경우이 데이터를 대체하여 얻은 각 표본은 24 개의 고유 값으로 구성되지 않습니다. 사례를 섞고 일부를 그리지 않으면 기본 분포에 대해 새로운 것을 배우는 능력에 대해서는 크게 변하지 않을 것입니다. 따라서 작은 샘플 은 부트 스트랩의 문제입니다.
의사 결정 트리는 예측 변수에 대해 데이터를 조건부로 한 번에 한 변수 씩 분할하여 가장 큰 식별력을 갖는 서브 샘플을 찾아서 학습합니다. 24 개의 사례 만있는 경우 운이 좋고 모든 스플릿의 크기가 짝수 인 경우 2 개의 스플릿을 사용하면 트리 스플릿, 8 개 그룹 3 개로 구성된 6 개 케이스 4 개 그룹으로 끝납니다. 표본에 대해 조건부 평균을 계산 한 경우 (회귀 트리의 연속 값 또는 결정 트리의 조건부 확률을 예측하기 위해) 소수의 경우에만 결론을 내립니다! 따라서 결정을 내리는 데 사용할 하위 샘플은 원래 데이터보다 훨씬 작습니다.
작은 샘플의 경우 일반적으로 간단한 방법 을 사용하는 것이 좋습니다 . 또한 베이지안 설정에서 유익한 사전 정보를 사용하여 (문제에 대한 합리적인 데이터 외부 지식이있는 경우) 작은 표본을 포착 할 수 있으므로 맞춤형 베이지안 모델 사용을 고려할 수 있습니다.
답변
한편으로 이것은 작은 데이터 세트이며 임의의 포리스트는 데이터가 부족합니다.
반면에, 아무것도 아닌 것보다 낫습니다. “시도하고 봐라”보다 더 할 말이 없습니다. 특정 모델이 “좋은지”여부를 결정하게됩니다. 또한, 우리는 어떤 모델이 특정 목적에 적합한 지 여부를 알 수 없습니다 (우리가 틀리면 비용이 들지 않습니다!)