카운트 데이터 분산의 파라 메트릭 모델링 아니라 분산에 영향을 미치는지 확인하고 싶습니다. 분산이

일부 데이터를 모델링하려고하는데 어떤 유형의 모델을 사용할 수 있는지 잘 모르겠습니다. 카운트 데이터가 있고 데이터의 평균과 분산 모두에 대한 모수 추정치를 제공하는 모델을 원합니다. 즉, 다양한 예측 요소가 있으며 그룹 평균뿐만 아니라 분산에 영향을 미치는지 확인하고 싶습니다.

분산이 평균과 같기 때문에 포아송 회귀가 작동하지 않는다는 것을 알고 있습니다. 이 가정은 내 경우에는 유효하지 않으므로 과대 산포가 있음을 알고 있습니다. 그러나 음 이항 모델은 모형의 예측 변수가 아닌 단일과 분산 모수 만 생성합니다. 어떤 모델이 가능합니까?

또한, 모델 및 / 또는 모델을 구현하는 R 패키지를 논의하는 서적 또는 논문에 대한 참조가 인정 될 것이다.



답변

R의 gamlss 패키지를 사용하여 음의 이항 분산 매개 변수 자체를 변수 및 매개 변수의 함수로 모델링 할 수 있습니다. 소개에서 발췌 한 내용을 제공합니다.

GAMLSS를 사용해야하는 이유

반응 변수가 개수 (개별) 데이터 인 경우 포아송 분포가 적합하지 않을 가능성이 큽니다. GAMLSS는 시도 할 수있는 다양한 이산 분포 (음수 이항 포함)를 제공합니다. 분산 변수는 설명 변수의 함수로 모델링 할 수도 있습니다.

www.gamlss.org 웹 사이트에는 패키지에 사용 된 접근 방식에 대한 문서 및 여러 문서에 대한 링크가 있습니다.


답변

Stata는 -gnbreg- 명령을 제공하여 분산 매개 변수를 모델링 할 수 있습니다. http://www.stata.com/help.cgi?nbreg 에서 명령에 대한 Stata 도움말을 볼 수 있습니다 .

Stata는 이것을 일반화 된 음 이항 모델이라고 부릅니다. 조셉 힐베 (Joseph Hilbe)는 그의 책 “음수 이항 회귀”, 10.4 절에서 “NB-H : 이종 음성 이항 회귀”라고 설명합니다.