강력한 클러스터링이 존재하는 데이터에 사용할 적절한 부트 스트랩 기술에 대한 질문이 있습니다.
모델이 가장 높은 세션 빈도를 포함하는 치료 에피소드를 얼마나 잘 예측하는지 결정하기 위해 최신 클레임 데이터에서 현재 기준선 모델을 평가하여 보험 청구 데이터에 대한 다변량 혼합 효과 예측 모델을 평가하는 작업을 수행했습니다. 95 번째 백분위 수). 감도, 특이성 및 PPV (positive predictive value)를 사용하여 모델 효과를 평가합니다.
부트 스트랩은 민감도, 특이성 및 PPV 백분율에 대한 신뢰 구간을 구축하는 올바른 방법으로 보입니다. 불행하게도, 청구 데이터가 1) 진료 제공자에 의해 상관되어 있고, 2) 진료 에피소드의 초기 몇 개월 동안 더 자주 방문하는 진료 에피소드로 그룹화되어 (일부 자기 상관이 존재하는 경우) 순진한 부트 스트랩은 적절하지 않다. 움직이는 블록 부트 스트랩 기술의 변형이 여기에 적절합니까?
또는 3 단계 부트 스트랩 절차가 작동합니다. 선택된 에피소드.
어떤 제안에 감사드립니다!
답변
제안하는 두 번째 방법은 합리적으로 보이지만 계층 데이터를 부트 스트랩 할 때는 최상위 수준에서 교체 만하고 나머지 하위 수준에서는 교체하지 않고 샘플링하는 것이 좋습니다. 이것은 Ren et al (2010)의 시뮬레이션에서 볼 수 있습니다 :
http://www.tandfonline.com/doi/abs/10.1080/02664760903046102
Field & Welsh (2007)는 이론적으로 2 단계 데이터 세트에 대한 서로 다른 접근 방식을 조사했으며 두 수준에서 모두 교체하여 샘플링하는 것은 훌륭한 아이디어가 아니라는 것을 발견했습니다.
http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2007.00593.x/full
언급 한 자기 상관은 심각한 문제입니다. 반면에, 치료의 에피소드에서 대체하지 않고 선택하면 자기 상관 구조가 보존되므로 그렇게 큰 문제는 아닙니다.