나는이 데이터를 가지고있다 :
set.seed(1)
predictor <- rnorm(20)
set.seed(1)
counts <- c(sample(1:1000, 20))
df <- data.frame(counts, predictor)
포아송 회귀 분석을 실행했습니다
poisson_counts <- glm(counts ~ predictor, data = df, family = "poisson")
부정적인 이항 회귀
require(MASS)
nb_counts <- glm.nb(counts ~ predictor, data = df)
그런 다음 포아송 회귀에 대한 분산 통계를 계산했습니다.
sum(residuals(poisson_counts, type="pearson")^2)/df.residual(poisson_counts)
# [1] 145.4905
그리고 부정적인 이항 회귀 :
sum(residuals(nb_counts, type="pearson")^2)/df.residual(nb_counts)
# [1] 0.7650289
음의 이항 회귀에 대한 분산 통계가 포아송 회귀에 대한 분산 통계보다 상당히 작은 이유는 무엇입니까?
답변
이것은 다소 간단하지만 “방정식을 사용하지 않고”는 실질적인 장애입니다. 나는 그것을 단어로 설명 할 수 있지만, 그 단어들은 반드시 방정식을 반영 할 것입니다. 나는 그것이 당신에게 받아 들일만한 가치가 있기를 바랍니다. (관련 방정식은 어렵지 않습니다.)
잔차에는 여러 유형이 있습니다. 원시 잔차 는 단순히 관측 된 반응 값 (귀하의 경우 counts
)과 모형의 예측 된 반응 값의 차이입니다. Pearson 잔차 는 표준 편차 (사용중인 일반화 된 선형 모형의 특정 버전에 대한 분산 함수의 제곱근)로 이들을 나눕니다.
포아송 분포 와 관련된 표준 편차 는 음 이항 의 표준 편차 보다 작습니다 . 따라서 더 큰 분모로 나누면 몫이 더 작습니다.
또한 음수 이항식이 counts
모집단에 균일하게 분포 되므로 음수 이항식이 더 적합합니다 . 즉, 분산이 평균과 같지 않습니다.
답변
포아송 모델의 경우, 용 expection 경우 번째 관찰 된다 그 차이는 따라서 피어슨 잔류,
여기서 는 평균의 추정치입니다. MASS에 사용 된 음성 이항 모델의 매개 변수화는 여기 에 설명되어 있습니다 . 만약 대한 expection 번째 관찰 있다 의 분산이다 , 피어슨 잔류 따라서
여기서 는 평균의 추정치입니다. 의 값이 작을수록 ( 즉, 추가 포아송 분산), 포아송 동등 량에 비해 잔차가 작아집니다. 그러나 @whuber가 지적했듯이 추정 절차는 추정 분산에 따라 관측치에 가중치를 부여하기 때문에 평균 추정치가 와 동일하지 않습니다 . 번째 예측 변수 패턴에 대한 반복 측정을 수행하는 경우 더 가깝게 접근 할 수 있으며 일반적으로 모수를 추가하면 모든 관측치에 더 잘 맞아야하지만,이를 엄격하게 설명하는 방법을 모르겠습니다. 포아송 모델이 보유하고 있다면 추정하는 모집단 수량이 더 많으므로 놀랄 일이 아닙니다.]