이 회귀 분석 분산 분석표가 동일한 이유는 무엇입니까? 번째 회귀는 X를 범주

같은 Y와 3 단계 X의 두 회귀가 있습니다. 각 그룹 또는 X 수준에서 n = 5 인 전체 n = 15입니다. 첫 번째 회귀는 X를 범주 형으로 취급하여 지표 변수를 수준이있는 수준 2와 3에 할당합니다. 하나는 참조입니다. 표시기 / 인형은 다음과 같습니다. 레벨 = 2 인 경우 X1 = 1, 그렇지 않은 경우 0, 레벨 = 3 인 경우 X2 = 1, 그렇지 않은 경우 0

결과적으로 내 적합 모델은 다음과 같습니다 .y = b0 + b1 (x1) + b2 (x2)

회귀 분석을 실행하면 출력에 다음 분산 분석표가 포함됩니다.

나머지 출력은 여기와 관련이 없습니다.

이제 동일한 데이터에 대해 다른 회귀 분석을 실행합니다. 범주 형 분석을 버리고 X를 연속으로 취급하지만 방정식에 변수를 추가합니다. X ^ 2, X의 제곱. 이제 다음 모델이 있습니다. y = b0 + b1 (X) + b2 (X) ^ 2

내가 그것을 실행하면, 위에서 보여준 것과 동일한 정확한 분산 분석표를 뱉어냅니다. 이 두 회귀 분석이 동일한 테이블을 생성하는 이유는 무엇입니까?

[이 작은 수수께끼에 대한 학점은 로스 앤젤레스 캘리포니아 대학의 생물 통계학과의 Thomas Belin에게갑니다.]

답변

행렬 용어로 모델은 일반적인 형식 입니다. $E [Y] = X β$

E [Y] = X β

$E[Y]=X\beta$

첫 번째 모델은 절편, 범주 2에 대한 지표 및 범주 3에 대한 지표에 해당하는 의 행 으로 첫 번째 그룹 의 요소를 나타냅니다. 행 과에 의해 제 3 그룹의 원소 . $(1, 0, 0)$

(1, 0, 0)

$(1,0,0)$ $X$

X

$X$ $(1, 1, 0)$

(1, 1, 0)

$(1,1,0)$ $(1, 0, 1)$

(1, 0, 1)

$(1,0,1)$

두 번째 모델은 대신 행 , 및 . $(1, 1, 1^{2}) = (1, 1, 1)$

(1, 1, 1^{2}) = (1, 1, 1)

$(1,1,1^2)=(1,1,1)$ $(1, 2, 2^{2}) = (1, 2, 4)$

(1, 2, 2^{2}) = (1, 2, 4)

$(1,2,2^2)=(1,2,4)$ $(1, 3, 3^{2}) = (1, 3, 9)$

(1, 3, 3^{2}) = (1, 3, 9)

$(1,3,3^2)=(1,3,9)$

결과 모델 행렬 및 호출합니다 . 그것들은 단순히 관련이 있습니다 : 하나의 열은 다른 열의 선형 조합입니다. 예를 들어 $X_{1}$

X_{1}

$X_1$ $X_{2}$

X_{2}

$X_2$

V = (\begin{matrix} 1 & 1 & 1 \\ 0 & 1 & 3 \\ 0 & 2 & 8 \end{matrix}) .

$V = \pmatrix{1&1&1 \\ 0&1&3 \\ 0&2&8}.$

그때부터

(\begin{matrix} 1 & 0 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \end{matrix}) V = (\begin{matrix} 1 & 1 & 1 \\ 1 & 2 & 4 \\ 1 & 3 & 9 \end{matrix}),

$\pmatrix{1&0&0 \\ 1&1&0 \\ 1&0&1} V = \pmatrix{1&1&1 \\ 1&2&4 \\ 1&3&9},$

그것은 다음과 같습니다

X_{1} V = X_{2} .

$X_1 V = X_2.$

따라서 모델 자체는

X_{1} β_{1} = E [Y] = X_{2} β_{2} = (X_{1} V) β_{2} = X_{1} (V β_{2}) .

$X_1\beta_1 = E[Y] = X_2\beta_2 = (X_1V)\beta_2 = X_1(V\beta_2).$

즉, 두 번째 모델 의 계수 는 첫 번째 모델 의 계수 와 관련이 있어야합니다. $β_{2}$

β_{2}

$\beta_2$

β_{1} = V β_{2} .

$\beta_1 = V\beta_2.$

따라서 최소 제곱 추정치에도 동일한 관계가 유지됩니다. 이것은 모델이 동일한 피팅을 가지고 있음을 보여줍니다 . 그들은 단지 다르게 표현합니다.

두 모델 행렬의 첫 번째 열이 동일하기 때문에 첫 번째 열과 나머지 열 사이의 분산을 분해하는 모든 분산 분석표는 변경되지 않습니다. 그러나 두 번째 열과 세 번째 열을 구분하는 분산 분석 테이블은 데이터 인코딩 방식에 따라 다릅니다.

의 열에 의해 생성 된 의 3 차원 부분 공간은 기하학적으로 (그리고 다소 추상적으로) 의 열에 의해 생성 된 부분 공간과 일치합니다 . 따라서 모델의 피팅이 동일합니다. 공간은 두 개의 서로 다른베이스로 설명되므로 적합은 다르게 표현됩니다. $R^{15}$

R^{15}

$\mathbb{R}^{15}$ $X_{1}$

X_{1}

$X_1$ $X_{2}$

X_{2}

$X_2$

예를 들어 다음은 귀하와 같은 데이터이지만 응답이 다른 데이터 및에서 생성 된 해당 분석입니다 R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

두 모델을 맞추십시오.

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

ANOVA 테이블을 표시하십시오.

anova(fit.1)
anova(fit.2)

첫 번째 모델의 출력은

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791

두 번째 모델의 경우

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791

잔차 제곱합이 같다는 것을 알 수 있습니다. 두 번째 모델에서 처음 두 행을 추가하면 동일한 평균 제곱, F 값 및 p- 값을 계산할 수있는 동일한 DF 및 제곱합을 얻을 수 있습니다.

마지막으로 계수 추정치를 비교해 봅시다.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

출력은

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225

인터셉트도 완전히 다릅니다. 다중 회귀 분석에서 변수의 추정치는 다른 모든 변수의 추정치에 의존하기 때문입니다 (모두 서로 직교하지 않는 한 두 모델 모두 해당되지 않음). 그러나 곱셈이 무엇을 수행 하는지 살펴보십시오 . $V$

V

$V$

(\begin{matrix} 1 & 1 & 1 \\ 0 & 1 & 3 \\ 0 & 2 & 8 \end{matrix}) (\begin{matrix} - 3.4627385 \\ 4.4667371 \\ - 0.5531225 \end{matrix}) = (\begin{matrix} 0.4508762 \\ 2.8073697 \\ 4.5084944 \end{matrix}) .

$\pmatrix{1&1&1 \\ 0&1&3 \\ 0&2&8}\pmatrix{-3.4627385 \\ 4.4667371 \\-0.5531225} = \pmatrix{ 0.4508762 \\ 2.8073697 \\ 4.5084944 }.$

착용감은 실제로 주장한 것과 동일합니다.

답변

간단히 말해서, 두 모델 모두 X의 3 가지 레벨 모두에서 반응에 대한 고유 한 경험적 예측을 제공한다는 점에서 포화 상태입니다. 모델 1의 요인 변수 코딩의 경우 분명 할 수 있습니다. 2 차 추세의 경우, 2 차 공식은 3 개의 점을 보간 할 수 있습니다. 대비는 다르지만 두 모델 모두 인터셉트 전용 모델의 null에 대한 전역 테스트는 동일한 추론을 제공합니다.

How IT

언제든지 물어보세요.

이 회귀 분석 분산 분석표가 동일한 이유는 무엇입니까? 번째 회귀는 X를 범주

답변

답변

답변