다음과 같은 문제가 있다고 가정 해 봅시다.
다음 3 개월 동안 상점에서 구매를 중단 할 가능성이 가장 높은 고객을 예측하십시오.
각 고객에 대해 우리는 고객이 상점에서 구매하기 시작한 달을 알고 있으며 추가로 월별 집계에 많은 행동 기능이 있습니다. ‘가장 오래된’고객은 50 개월 동안 구매했습니다. 클라이언트가 ( ) 까지 구매를 시작한 이후의 시간을 표시해 봅시다 . 클라이언트 수가 매우 많다고 가정 할 수 있습니다. 고객이 3 개월 동안 구매를 중단 한 후 다시 돌아 오면 새 고객으로 취급되므로 이벤트 구매 중지가 한 번만 발생할 수 있습니다.
두 가지 해결책이 떠 오릅니다.
로지스틱 회귀 -각 고객과 매월 (최신 3 개월 제외)에 대해 고객의 구매 중단 여부를 알 수 있으므로 고객과 월별로 한 번의 관찰로 샘플을 롤링 할 수 있습니다. 기초 위험 함수와 동등한 일부를 얻기 위해 범주 변수로 시작한 이후 몇 개월을 사용할 수 있습니다.
확장 콕스 모델 -이 문제는 확장 콕스 모델을 사용하여 모델링 할 수도 있습니다. 이 문제는 생존 분석에 더 적합한 것으로 보입니다.
질문 : 비슷한 문제에서 생존 분석의 장점은 무엇입니까? 생존 분석은 어떤 이유로 개발되었으므로 심각한 이점이 있어야합니다.
생존 분석에 대한 나의 지식은 그리 깊지 않으며 Cox 모델의 가장 큰 장점은 로지스틱 회귀를 사용하여 얻을 수 있다고 생각합니다.
- 층화 콕스 모델과 동등한 것은 와 층화 변수 의 상호 작용을 사용하여 얻을 수 있습니다 .
- 교집합 콕스 모델은 모집단을 여러 하위 모집단으로 다이빙하고 모든 하위 모집단에 대해 LR을 추정하여 얻을 수 있습니다.
내가 볼 수있는 유일한 장점은 Cox 모델이 더 유연하다는 것입니다. 예를 들어 고객이 6 개월 안에 구매를 중단 할 확률을 쉽게 계산할 수 있습니다.
답변
Cox 모델의 문제점은 아무것도 예측하지 못한다는 것입니다. Cox 모델의 “절편”(기준 위험 함수)은 실제로 추정되지 않습니다. 로지스틱 회귀 분석을 사용하여 특정 사건의 위험 또는 확률을 예측할 수 있습니다.
일반 로지스틱 회귀 분석에 대한 가정의 문제점은 동일한 사람인지 또는 같은 달인 지에 관계없이 각 사람의 월별 관측치를 독립적으로 취급한다는 것입니다. 일부 품목은 2 개월 간격으로 구매하기 때문에 위험 할 수 있으므로 월 단위로 연속 관찰하는 사람은 음의 상관 관계가 있습니다. 또는, 고객이 유지되거나 개월의 관찰에 의해 연속 사람을 선도하는 좋은 또는 나쁜 경험에 의해 손실 될 수 있습니다 긍정적 인 상관 관계.
이 예측 문제의 좋은 출발점은 이전 정보를 사용하여 다음 달 사업에 대한 예측을 알려주는 예측 방법을 사용하는 것입니다. 이 문제에 대한 간단한 시작이 지연된 효과, 또는 피사체가 도착했는지의 지표에 대한 조정되어 마지막 이 도착 할 수 있는지 여부의 예측 인자로, 월 이 달.
답변
생존 분석은 각 고객이 자신의 연구 시간을 가지고 있다는 사실을 고려합니다. 후속 기간은 클라이언트마다 다르므로 문제가되지 않습니다.
비고 : 다음은 일부 제약 조건에서 로지스틱과 Cox 모델이 모두 연결되어 있음을 보여주는 논문 입니다.
답변
마케팅 문헌은 여기 또는 이와 유사한 Pareto / NBD를 제안합니다. 기본적으로 구매는 구매하는 동안 마이너스 이항 분포를 따른다고 가정합니다. 그러나 고객이 중지하는 시간을 모델링해야합니다. 그것은 다른 부분입니다.
Pete Fader와 Bruce Hardie는 Abe와 함께 이것에 관한 논문을 가지고 있습니다.
파레토 / NBD에 대한 몇 가지 더 간단한 접근법이 있으며, 심지어 페이더와 하디의 다양한 논문을 세는 것까지도 포함됩니다. 중지 할 확률이 각 시점에서 일정하다고 가정하는 더 간단한 접근 방식을 사용하지 마십시오. 즉, 많은 고객이 더 빨리 탈락 할 가능성이 높아집니다. 맞는 간단한 모델이지만 잘못되었습니다.
나는이 중 하나에 한동안 맞지 않았다. 조금 구체적이지 않아서 죄송합니다.
다음은이 문제를 계층 적 베이로 재구성 한 Abe 논문에 대한 참조입니다. . 이 분야에서 다시 일하고 있다면이 접근법을 시험해 볼 것이라고 생각합니다.