단순 선형 회귀 분석에서 ANOVA F- 검정의 논리를 이해하려고합니다. 내가 가진 질문은 다음과 같습니다. F 값, 즉 MSR/MSE
큰 값이면
모델을 중요하게 받아들입니다. 이것의 논리는 무엇입니까?
답변
당신은 하나 개의 예측 (단순 회귀)에있을 때 가장 단순한 경우, 말
X1의
F포함 여부를 알려줍니다 -test
X1에서 관찰 된 변화의 큰 부분을 설명 않습니다
Y널 모델에 비해을 (절편 만 해당) . 아이디어는 추가 된 설명 된 분산 (총 분산, TSS, 마이너스 잔차 분산, RSS)이 “유의 수량”으로 간주 될만큼 충분히 큰지 테스트하는 것입니다. 여기서는 모형을 하나의 예측 변수 또는 설명 변수와 비교하여 “노이즈”(대형 평균을 제외하고) 인 기준선과 비교합니다.
마찬가지로, 다중 회귀 설정에서 통계량을 계산할 수 있습니다 .이 경우 모형에 포함 된 모든 예측 변수 에 대한 검정에 해당합니다. HT 프레임 워크에서는 반응 예측에 유용한 예측 변수가 있는지 궁금합니다. 변하기 쉬운. 이것이 전체 모형에 대한 F- 검정 이 유의미하지만 각 회귀 계수와 관련된 일부 t 또는 z- 검정이 아닌 상황이 발생할 수있는 이유 입니다.
FF
t
z
통계 모습처럼
F
여기서 는 모형 모수 의 개수 이고 n 은 관측치의 개수입니다. 이 수량은 임계 값 또는 p- 값 에 대한 F p – 1 , n – p 분포를 참조해야 합니다. 단순 회귀 모델에도 적용되며, 기존 ANOVA 프레임 워크와 일부 유사합니다.
pn
Fp−1,n−p
p
각주.
예측 변수가 둘 이상인 경우 해당 예측 변수의 하위 집합 만 고려하여 모형 적합의 품질을 “감소시키는”지 궁금 할 수 있습니다. 이것은 우리가 중첩 된 모델 을 고려하는 상황에 해당합니다 . 이것은 주어진 회귀 모델과 널 모델 (예측 변수는 포함되지 않음) 을 비교하는 위의 상황과 정확히 동일한 상황 입니다. 설명 된 분산의 감소를 평가하기 위해 두 모형의 잔차 제곱합 (RSS)을 비교할 수 있습니다 (즉 모형에 존재하는 예측 변수의 효과를 설명하면 설명 할 수 없음). 하자 과 M 1 과 (기본 모델 나타내는 P
M1
p
매개 변수)와 추가 예측 변수가있는 모델 ( 매개 변수), RSS M
q=p+1이 작 으면 더 작은 모델이 더 큰 모델만큼 성능이 좋은 것으로 간주합니다. 사용하기에 좋은 통계량은 이러한자유도 (분자에 대한p–q,n–p)에 따라 가중치를 둔SS(RSS M 1 –RSS M 0 )/RSS M 0 의 비율입니다.
RSSM1−RSSM0(RSSM1−RSSM0)/RSSM0
p−q
n−p
분모). 이미 언급했듯이,이 양은 p – q 및 n – p 자유도를 갖는 (또는 Fisher-Snedecor) 분포를 따른다는 것을 알 수 있습니다 . 관측 된 F 가 주어진 α (대개 α = 0.05 ) 에서 해당 F Quantile 보다 큰 경우 , 더 큰 모델이 “더 나은 작업”을한다는 결론을 내릴 수 있습니다. (실제적인 관점에서 모델이 올바른 것은 아닙니다.)
Fp−q
n−p
F
F
α
α=0.05
위 아이디어의 일반화는 우도 비 테스트 입니다.
R을 사용하는 경우 다음과 같은 개념을 사용할 수 있습니다.
df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df)) # "ANOVA view"
summary(lm(y ~ V1, df)) # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0) # test of V2