간단한 선형 회귀 분석에서 ANOVA F- 검정의 논리 이해하려고합니다. 내가

단순 선형 회귀 분석에서 ANOVA F- 검정의 논리를 이해하려고합니다. 내가 가진 질문은 다음과 같습니다. F 값, 즉 MSR/MSE큰 값이면
모델을 중요하게 받아들입니다. 이것의 논리는 무엇입니까?

답변

당신은 하나 개의 예측 (단순 회귀)에있을 때 가장 단순한 경우, 말 $X_{1}$

X_{1}

$X_1$ 의 $F$

F

$F$ 포함 여부를 알려줍니다 -test $X_{1}$

X_{1}

$X_1$ 에서 관찰 된 변화의 큰 부분을 설명 않습니다 $Y$

Y

$Y$ 널 모델에 비해을 (절편 만 해당) . 아이디어는 추가 된 설명 된 분산 (총 분산, TSS, 마이너스 잔차 분산, RSS)이 “유의 수량”으로 간주 될만큼 충분히 큰지 테스트하는 것입니다. 여기서는 모형을 하나의 예측 변수 또는 설명 변수와 비교하여 “노이즈”(대형 평균을 제외하고) 인 기준선과 비교합니다.

마찬가지로, 다중 회귀 설정에서 통계량을 계산할 수 있습니다 .이 경우 모형에 포함 된 모든 예측 변수 에 대한 검정에 해당합니다. HT 프레임 워크에서는 반응 예측에 유용한 예측 변수가 있는지 궁금합니다. 변하기 쉬운. 이것이 전체 모형에 대한 이 유의미하지만 각 회귀 계수와 관련된 일부 또는 검정이 아닌 상황이 발생할 수있는 이유 입니다. $F$

F

$F$ $F$

F

$F$ $t$

t

$t$ $z$

z

$z$

통계 모습처럼 $F$

F

$F$

F = \frac{(TSS - RSS) / (p - 1)}{RSS / (n - p)},

$F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)},$

여기서 는 모형 모수 의 개수 이고 은 관측치의 개수입니다. 이 수량은 임계 값 또는 값 에 대한 분포를 합니다. 단순 회귀 모델에도 적용되며, 기존 ANOVA 프레임 워크와 일부 유사합니다. $p$

p

$p$ $n$

n

$n$ $F_{p - 1, n - p}$

F_{p - 1, n - p}

$F_{p-1,n-p}$ $p$

p

$p$

각주.
예측 변수가 둘 이상인 경우 해당 예측 변수의 하위 집합 만 고려하여 모형 적합의 품질을 “감소시키는”지 궁금 할 수 있습니다. 이것은 우리가 중첩 된 모델 을 고려하는 상황에 해당합니다 . 이것은 주어진 회귀 모델과 널 모델 (예측 변수는 포함되지 않음) 을 비교하는 위의 상황과 정확히 동일한 상황 입니다. 설명 된 분산의 감소를 평가하기 위해 두 모형의 잔차 제곱합 (RSS)을 비교할 수 있습니다 (즉 모형에 존재하는 예측 변수의 효과를 설명하면 설명 할 수 없음). 하자 과 과 (기본 모델 나타내는 $M_{0}$

M_{0}

$\mathcal{M}_0$ $M_{1}$

M_{1}

$\mathcal{M}_1$ $p$

p

$p$ 매개 변수)와 추가 예측 변수가있는 모델 ( 매개 변수), $q = p + 1$

q = p + 1

$q=p+1$ 이 작 으면 더 작은 모델이 더 큰 모델만큼 성능이 좋은 것으로 간주합니다. 사용하기에 좋은 통계량은 이러한자유도 (분자에 대한,에 따라 가중치를 둔SS 의 비율입니다. ${RSS}_{M_{1}} - {RSS}_{M_{0}}$

{RSS}_{M_{1}} - {RSS}_{M_{0}}

$\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0}$ $({RSS}_{M_{1}} - {RSS}_{M_{0}}) / {RSS}_{M_{0}}$

({RSS}_{M_{1}} - {RSS}_{M_{0}}) / {RSS}_{M_{0}}

$(\text{RSS}_{\mathcal{M}_1}-\text{RSS}_{\mathcal{M}_0})/\text{RSS}_{\mathcal{M}_0}$ $p - q$

p - q

$p-q$ $n - p$

n - p

$n-p$ 분모). 이미 언급했듯이,이 양은 및 자유도를 갖는 (또는 Fisher-Snedecor) 분포를 따른다는 것을 알 수 있습니다 . 관측 된 가 주어진 (대개 ) 에서 해당 Quantile 보다 큰 경우 , 더 큰 모델이 “더 나은 작업”을한다는 결론을 내릴 수 있습니다. (실제적인 관점에서 모델이 올바른 것은 아닙니다.) $F$

F

$F$ $p - q$

p - q

$p-q$ $n - p$

n - p

$n-p$ $F$

F

$F$ $F$

F

$F$ $α$

α

$\alpha$ $α = 0.05$

α = 0.05

$\alpha=0.05$

위 아이디어의 일반화는 우도 비 테스트 입니다.

R을 사용하는 경우 다음과 같은 개념을 사용할 수 있습니다.

df <- transform(X <- as.data.frame(replicate(2, rnorm(100))),
                                   y = V1+V2+rnorm(100))
## simple regression
anova(lm(y ~ V1, df))         # "ANOVA view"
summary(lm(y ~ V1, df))       # "Regression view"
## multiple regression
summary(lm0 <- lm(y ~ ., df))
lm1 <- update(lm0, . ~ . -V2) # reduced model
anova(lm1, lm0)               # test of V2

How IT

언제든지 물어보세요.

간단한 선형 회귀 분석에서 ANOVA F- 검정의 논리 이해하려고합니다. 내가

답변

답변