보험 환경에서 클레임 수 데이터를 모델링 할 때 Poisson으로 시작했지만 과대 산포가 나타났습니다. Quasi-Poisson은 기본 Poisson보다 더 큰 평균-분산 관계를 더 잘 모델링했지만 계수가 Poisson과 Quasi-Poisson 모델에서 동일하다는 것을 알았습니다.
이것이 오류가 아닌 경우 왜 이런 일이 발생합니까? Poisson보다 Quasi-Poisson을 사용하면 어떤 이점이 있습니까?
참고 사항 :
- 근본적인 손실은 초과 기준이며, 이는 Tweedie가 작동하지 못하게했지만 처음 시도한 배포판이었습니다. 또한 NB, ZIP, ZINB 및 Hurdle 모델을 검사했지만 여전히 Quasi-Poisson이 가장 적합하다는 것을 알았습니다.
- AER 패키지의 분산 테스트를 통해과 분산을 테스트했습니다. 내 분산 변수는 대략 8.4였으며, p- 값은 10 ^ -16 크기입니다.
- family = poisson 또는 quasipoisson과 함께 glm ()을 사용하고 코드에 대한 로그 링크를 사용하고 있습니다.
- Poisson 코드를 실행할 때 “In dpois (y, mu, log = TRUE) : non-integer x = …”라는 경고 메시지가 나타납니다.
Ben의 지침에 따라 유용한 SE 스레드 :
답변
이것은 거의 중복입니다 . 연결된 질문에 따르면 계수 추정치, 잔차 편차 또는 자유도 변경을 기 대해서는 안됩니다. 포아송에서 준-포아송으로 이동할 때 변하는 유일한 것은 이전에 1로 고정 된 척도 모수는 잔차 변동 / 적합도 추정치 (보통 피어슨 잔차의 제곱의 합을 통해 추정 됨)로부터 계산된다는 것입니다. ( )를 잔차 df로 나눈 값은 잔차 이탈을 무의식적으로 사용하더라도 동일한 결과를 제공합니다. 결과적으로 표준 오차는이 척도 모수의 제곱근에 따라 척도 화되며 신뢰 구간 및 의 수반되는 변경이 발생합니다 . p
유사 가능성의 이점은 데이터가 포아송이라고 가정 할 때의 기본 오류를 수정한다는 것입니다 (= 동종, 독립 카운트). 그러나 이런 방식으로 문제를 해결하면 잠재적으로 데이터의 다른 문제를 숨길 수 있습니다. 유사 가능성은 과대 산포를 처리하는 한 가지 방법입니다. 과대 산포를 어떤 방식으로 해결하지 않으면 계수는 합리적이지만 추론 (CI, 등)은 쓰레기가됩니다.
- 위에서 언급했듯이과 분산에 대한 다양한 접근 방식이 있습니다 (Tweedie, 다른 음 이항 모수화, 유사 가능성, 제로 인플레이션 / 변경).
- > 5 (8.4)의 과대 산포 계수를 사용하면 일종의 모델 미스 핏 (이상치, 제로 인플레이션 [이미 시도한 것으로 보임], 비선형 성)에 의해 구동되는지에 대해 약간 걱정할 것입니다. 전반적으로 이종성을 나타내는 것보다 이것에 대한 나의 일반적인 접근 방식은 원시 데이터 및 회귀 진단의 그래픽 탐색입니다 …