내 데이터 세트의 각 레코드에 대해 다음 정보가 있습니다.
여기서 는 기능이고 는 대상 이벤트가 발생하면 1이고 그렇지 않으면 0이며 는 발생 이벤트의 타임 스탬프입니다. 특히, 이벤트가 없거나 후속 조치 시간을 설정하면 가 누락 될 수 있습니다.
내 데이터 세트의 각 레코드에 대한 위험 지수를 계산하고 싶습니다.
내가 사용하는 특징있는 분류 모델에 갈 생각 클래스 예측하는 . 그러나 가 중요합니다. 이벤트 가 곧 발생할 가능성이 높으면 위험이 높아져야합니다.
이것이 생존 분석 이이 문제에 적합해야하는 이유 입니다. 대한 전체 평가가 필요하지 않지만 단일 레코드의 위험을 나타내는 단일 인덱스 만 필요합니다.
각 레코드에 대해 계산할 수있는 평균 생존 시간은 좋은 위험 지수 인 것처럼 보입니다. 위험이 낮을수록 위험이 높습니다.
내 질문은 :
- 생존 분석이 나의 목적에 적합합니까?
- 모델의 성능을 어떻게 평가할 수 있습니까?
질문 (2)에 대해 : 예를 들어 Harrell의 index 를 사용하고 싶지만 어떤 예측 결과가 계산에 사용되는지 확실하지 않습니다. Harrell의 저서 회귀 모델링 전략 페이지 247에서 :
인덱스 […]는 하나의 피사체에 대응하고 다른 하나는 그렇지 않다고하도록 주제의 모든 가능한 쌍을 고려하여 계산된다. 지수는 비 응답자보다 응답 확률이 더 높은 응답자가있는 그러한 쌍의 비율이다.
생존 분석이 올바른 선택으로 판명되면 시변 공변량 을 도입하기 위해 표준 방법을 사용하는 것이 쉬워야한다고 생각합니다 .
답변
생존 분석이 나의 목적에 적합합니까?
생존 분석에 적합하지 않은 것으로 보이는 유일한 것은 :
… 이벤트가 없거나 후속 조치 시간을 설정하면 가 누락 될 수 있습니다.
대부분의 모델에서 개인이 마지막으로 생존 한 것으로 확인 된 기간을 알아야합니다. 그렇지 않으면 간단하고 생존 분석을 사용할 수 있어야합니다. 예를 들어 survival::coxph
R 에서을 가진 Cox 비례 위험 또는을 가진 파라 메트릭 모델 survival::survreg
.
각 레코드에 대해 계산할 수있는 평균 생존 시간은 좋은 위험 지수 인 것처럼 보입니다. 위험이 낮을수록 위험이 높습니다.
예, 앞서 언급 한 두 가지 (클래스) 모델에 평균 생존 시간 또는 선형 예측 변수를 사용할 수 있습니다.
모델의 성능을 어떻게 평가할 수 있습니까?
인덱스는 AUC의 “자연”일반화로 나에게 현명한 선택처럼 보인다. 예를 들어 R로 구현됩니다 .
Hmisc::rcorr.cens