간단한 ANOVA와 같은 선형 모델을 만들어 봅시다.
# data generation
set.seed(1.234)
Ng <- c(41, 37, 42)
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)
fact <- as.factor(rep(LETTERS[1:3], Ng))
m1 = lm(data ~ 0 + fact)
summary(m1)
결과는 다음과 같습니다.
Call:
lm(formula = data ~ 0 + fact)
Residuals:
Min 1Q Median 3Q Max
-2.30047 -0.60414 -0.04078 0.54316 2.25323
Coefficients:
Estimate Std. Error t value Pr(>|t|)
factA -0.9142 0.1388 -6.588 1.34e-09 ***
factB 0.1484 0.1461 1.016 0.312
factC 1.0990 0.1371 8.015 9.25e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816, Adjusted R-squared: 0.4683
F-statistic: 36.23 on 3 and 117 DF, p-value: < 2.2e-16
이제이 매개 변수의 신뢰 구간을 추정하기 위해 두 가지 방법을 시도합니다
c = coef(summary(m1))
# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2],
high = c[,1] + qnorm(p = 0.975) * c[,2])
# 2nd method
confint(m1)
질문 :
- 추정 된 선형 회귀 계수의 분포는 무엇입니까? 정상 또는 ?
t - 두 방법 모두 다른 결과를 생성하는 이유는 무엇입니까? 정규 분포와 올바른 SE를 가정하면 두 방법 모두 동일한 결과를 기대합니다.
대단히 감사합니다!
데이터 ~ 0 + 사실
답변 후 수정 :
대답은 정확합니다. 이것은 정확히 같은 결과를 줄 것입니다 confint(m1)
!
# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2],
high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
답변
(1) 에러가 정규 분포와 그 편차가되어 있지 후 공지 β – β 0
β^−β0se(β^)
갖는다 것을 귀무 가설하에 – 분포 β 0 진정한 회귀 계수이다. 의 기본은 테스트하는 것입니다 β 0 = 0 소위, t의 통계량보고 만있다 β는
tβ0
R
t
β^se(β^)
참고 일부 규칙 조건에서, 위의 통계는 항상, 즉 점근 적 정규 분포에 관계없이 오류가 정상인지 또는 오류 분산을 알고 있는지.
(2) 다른 결과를 얻는 이유는 정규 분포의 백분위 수가 분포의 백분위 수와 다르기 때문입니다 . 따라서 표준 오차 앞에서 사용하는 승수가 다르므로 신뢰 구간이 달라집니다.
t구체적으로, 정규 분포를 사용한 신뢰 구간은
β^±zα/2⋅se(β^)
여기서 는 정규 분포 의 α / 2 분위수입니다. 95 의 표준 경우
zα/2α/2
신뢰 구간 α = .05 및 z α / 2 ≈ 1.96 . t- 분포에 따른 신뢰 구간은
95%α=.05
zα/2≈1.96
t
β^±tα/2,n−p⋅se(β^)
여기서 승수 는 n – p 자유도를 갖는 t- 분포 의 Quantile을 기반으로합니다. 여기서 n 은 표본 크기이고 p 는 예측 변수의 수입니다. 언제
tα/2,n−pt
n−p
n
p
크면, t α / 2 , N – P 와 Z α / 2는 거의 동일하다.
ntα/2,n−p
zα/2
다음은 샘플 크기에 대한 곱셈기 의 플롯입니다.
t5
300
p=1
t
z