의사 결정 트리 공간과 임의 포리스트의 MCMC 샘플링 포기할)와 각 트리를 구축하는 특정 기능을 선택하여

임의 숲 의 모음입니다 의사 결정 트리 무작위로 (때로는 훈련 데이터를 포기할)와 각 트리를 구축하는 특정 기능을 선택하여 형성했다. 분명히 그들은 잘 배우고 일반화합니다. 의사 결정 트리 공간에 대한 MCMC 샘플링을 수행하거나 임의 포리스트와 비교 한 사람이 있습니까? MCMC를 실행하고 샘플링 된 모든 트리를 저장하는 데 계산 비용이 더 많이들 수 있지만 계산 비용이 아니라이 모델의 이론적 기능에 관심이 있습니다. 내가 의미하는 것은 다음과 같습니다.

  1. 무작위 의사 결정 트리를 구성하십시오 (아마도 끔찍하게 수행 할 것입니다)
  2. 와 같은 나무의 가능성을 계산 하거나 항을 추가하십시오.P P R I O R ( T R E E )
    P(Tree|Data)∝P(Data|Tree)

    Pprior(Tree)

  3. 임의의 단계를 선택하여 트리를 변경하고 가능성 에 따라 선택하십시오 .
    P(Tree|Data)

  4. 모든 N 단계마다 현재 트리의 사본을 저장하십시오.
  5. N * M 시간이 큰 경우 3으로 돌아갑니다.
  6. M 개의 저장된 트리 모음을 사용하여 예측

랜덤 포리스트와 비슷한 성능을 제공합니까? 여기서는 임의 포리스트와는 달리 어떤 단계에서도 좋은 데이터 나 기능을 버리지 않습니다.



답변

이것은 약 13 년 전에 Chapman, George and McCulloch (1998, JASA)에 의해 수행되었습니다 . 물론이 아이디어에서 자란 베이지안 회귀 트리에 대한 거대한 문헌이 있습니다.


답변

불행하게도, Chipman et al. Bayesian CART 방식에서는 가장 가능성이 높은 나무 만 추출합니다. 그들은 나무를 평균화하려고 시도하지 않았으며 성능을 랜덤 포레스트 및 엑스트라 트리와 비교했습니다.

방금 Chipman의 BART 논문을 읽었습니다. 내가 올바르게 이해한다면, 그것은 m 트리 모음에 대한 K 샘플의 베이지안 평균입니다. 그것은 여러면에서 흥미롭고 정말 좋은 성능을 보입니다. m = ‘1’인 경우, 후부에서 나오는 1 개의 나무의 K 개 샘플에 대한 간단한 베이지안입니다. 그러나 특정 측면에서 많은 테스트가 수행되지 않았습니다. 그리고 난 여전히 랜덤 포레스트 또는 엑스트라 트리가 실제 베이 즈 모델과 어떻게 비교되는지 알고 싶습니다.