나무 분할을 살펴본 후 오랜 시간이 지났습니다. 지난번에 이런 일을했을 때, 나는 R의 파티 (핫혼이 만든)를 좋아합니다. 샘플링을 통한 조건부 추론에 대한 아이디어는 나에게 의미가 있습니다. 그러나 rpart도 호소했습니다.
현재 응용 프로그램에서 (세부 사항을 말할 수는 없지만 많은 피구금자 중 누가 감옥에 갈 것인지 결정하려고합니다) 임의의 숲, 가방, 부스팅 등의 고급 방법을 사용할 수 없습니다-쉽게 설명 할 수 있어야합니다. 규칙.
Zhang & Singer (2010) 재귀 분할 및 응용 프로그램 에서 권장하는대로 노드가 분할되는 것을 수동으로 제어하고 싶습니다 . 이 책과 함께 제공되는 프리웨어는이를 허용하지만 사용자 입력에서 다소 원시적입니다.
추천이나 제안?
답변
나는 방법론이 rpart에 대해 설명하기 쉽다는 @Iterator에 동의합니다. 그러나 쉽게 설명 할 수있는 규칙을 찾고 있다면 파티 (포장 된 나무가없는)는 예측 설명과 관련하여 아무것도 잃지 않습니다. 여전히 하나의 나무가 있습니다. 결과 변수 (순수한 예측력뿐만 아니라)의 동인을 보는 데 관심이 있다면 나는 여전히 당사자가 갈 길이라고 생각할 것입니다-의사 결정 트리 (예 : rpart)가 변수는 중요하며 어떻게 분할을 만드는가. 당사자는 순열 테스트를 사용하고 가장 중요한 변수와 분할 방법을 통계적으로 결정합니다. 따라서 rpart와 같이 많은 수준의 범주 형 변수에 편향되는 편견 대신 party는 통계 테스트를 사용하여 최상의 구조를 찾습니다.
답변
[NB : 아래 업데이트 1을 참조하십시오.] 방법론 rpart
이 설명하는 것보다 훨씬 쉽다는 것을 알게되었습니다 party
. 그러나 후자는 훨씬 더 정교하며 더 나은 모델을 제공 할 가능성이 있습니다. 때때로 설명하는 방법 party
은 로컬 선형 (또는 GLM) 모델을 생성하기위한 기초로 설명하는 것 입니다. rpart
리프 노드에 속하는 모든 요소 (예 : 스플릿으로 둘러싸인 상자 / 영역)에 대한 결과 가 일정 하다는 점을 지적함으로써이를 달성했습니다 . 로컬 모델을 통해 개선 사항이 있더라도 일정한 예측 외에는 아무것도 얻지 못합니다.
반대로, party
분할을 개발하여 지역에 대한 모델을 잠재적으로 최적화합니다. 실제로 모델 최적 성과는 다른 기준을 사용하지만 차이를 설명하기 위해 자신의 능력을 측정하여 설명 할 수 있는지 여부를 결정해야합니다. 그것에 대한 논문은 연구원이 접근하기 쉽지만 임의의 숲, 부스팅 등과 같은 간단한 방법을 고려하지 않으려는 사람에게는 상당히 어려울 수 있습니다. 수학적으로 party
는 더 정교 하다고 생각합니다 … 그럼에도 불구하고 CART 모델은 더 쉽습니다 방법론과 결과 측면에서 설명하고보다 정교한 트리 기반 모델을 도입하기위한 적절한 디딤돌을 제공합니다.
요컨대, rpart
명확성 을 위해해야한다고 말하고 party
정확성 / 성능에 사용할 수 는 있지만 소개 party
하지 않고 소개 하지는 않겠습니다 rpart
.
업데이트 1. 나는 1 party
년 또는 2 년 전의 이해를 바탕으로 대답했습니다 . 상당히 성장했지만 rpart
“비 공상”이 고객 / 공동 작업자에게 중요한 기준이되어야한다는 점을 간결하고 유산으로 추천한다고 대답하기 위해 답변을 수정하겠습니다 . 그러나 party
누군가를 소개 한 후 에서 더 많은 기능을 사용하도록 마이그레이션하려고 합니다 rpart
. 훨씬 더 복잡한 개념을 포함하는 패키지 및 방법론을 도입하기 전에 간단한 컨텍스트에서 손실 함수, 분할 기준 등으로 소규모로 시작하는 것이 좋습니다.