태그 보관물: random-forest

random-forest

매우 드문 데이터로 잘 작동하는 랜덤 포레스트 구현이 있습니까? 있지만 주어진 예에서 수백 개 정도만

매우 드문 데이터로 잘 작동하는 R 임의 포리스트 구현이 있습니까? 나는 수천 또는 수백만의 부울 입력 변수를 가지고 있지만 주어진 예에서 수백 개 정도만 참입니다.

R을 처음 접했고 스파 스 데이터를 처리하기위한 ‘매트릭스’패키지가 있지만 표준 ‘randomForest’패키지는이 데이터 유형을 인식하지 못하는 것 같습니다. 중요한 경우 입력 데이터는 R 외부에서 생성되어 가져옵니다.

어떤 충고? Weka, Mahout 또는 다른 패키지를 사용할 수도 있습니다.



답변

R에는 희소 데이터에 대한 RF 구현이 없습니다. 부분적으로 RF는 이러한 유형의 문제에 매우 적합하지 않기 때문에 배깅 및 최적이 아닌 분할 선택은 제로 전용 영역에서 대부분의 모델 통찰력을 낭비 할 수 있습니다.

일부 커널 방법을 사용하거나 일부 설명자를 사용하여 데이터를 좀 더 무성한 표현으로 변환하는 것이 좋습니다 (또는 일부 차원 축소 방법 사용).


답변

실제로 그렇습니다 .

그건 xgboost극단적 인 기울기가 강화를 위해 만들어지는. 이것은 현재 많은 사람들을 위해 R에 희소 행렬이있는 모델을 실행하기 위해 선택되는 패키지이며, 위의 링크에서 설명 하는 것처럼 매개 변수를 조정하여 Random Forest에 사용할 수 있습니다 !


답변

R 패키지 “Ranger”가해야합니다.

https://cran.r-project.org/web/packages/ranger/ranger.pdf

특히 고차원 데이터에 적합한 랜덤 포레스트의 빠른 구현.

randomForest와 비교했을 때이 패키지는 아마도 내가 본 것 중 가장 빠른 RF 구현 일 것입니다. 범주 형 변수를 기본 방식으로 처리합니다.


답변

R의 기본 사항을 알려주는 Quick-R이라는 블로그가 있습니다.

R은 패키지와 함께 작동합니다. 각 패키지는 다른 것을 할 수 있습니다. “randomForests”라고하는이 패키지가 있습니다.

스파 스 데이터는 어떤 방법을 적용하든 문제가 발생할 수 있습니다. 내 지식으로는 그것은 매우 개방적인 문제이며 일반적으로 데이터 마이닝은 과학보다 예술입니다. 임의 포리스트는 전체적으로 매우 잘 수행되지만 항상 최선의 방법은 아닙니다. 많은 레이어가있는 신경망을 사용해보십시오. 도움이 될 수 있습니다.


답변