이 회귀 분석 분산 분석표가 동일한 이유는 무엇입니까? 번째 회귀는 X를 범주

같은 Y와 3 단계 X의 두 회귀가 있습니다. 각 그룹 또는 X 수준에서 n = 5 인 전체 n = 15입니다. 첫 번째 회귀는 X를 범주 형으로 취급하여 지표 변수를 수준이있는 수준 2와 3에 할당합니다. 하나는 참조입니다. 표시기 / 인형은 다음과 같습니다. 레벨 = 2 인 경우 X1 = 1, 그렇지 않은 경우 0, 레벨 = 3 인 경우 X2 = 1, 그렇지 않은 경우 0

결과적으로 내 적합 모델은 다음과 같습니다 .y = b0 + b1 (x1) + b2 (x2)

회귀 분석을 실행하면 출력에 다음 분산 분석표가 포함됩니다.

표

나머지 출력은 여기와 관련이 없습니다.

이제 동일한 데이터에 대해 다른 회귀 분석을 실행합니다. 범주 형 분석을 버리고 X를 연속으로 취급하지만 방정식에 변수를 추가합니다. X ^ 2, X의 제곱. 이제 다음 모델이 있습니다. y = b0 + b1 (X) + b2 (X) ^ 2

내가 그것을 실행하면, 위에서 보여준 것과 동일한 정확한 분산 분석표를 뱉어냅니다. 이 두 회귀 분석이 동일한 테이블을 생성하는 이유는 무엇입니까?

[이 작은 수수께끼에 대한 학점은 로스 앤젤레스 캘리포니아 대학의 생물 통계학과의 Thomas Belin에게갑니다.]



답변

행렬 용어로 모델은 일반적인 형식 입니다.

E[Y]=Xβ

첫 번째 모델은 절편, 범주 2에 대한 지표 및 범주 3에 대한 지표에 해당하는 의 행 으로 첫 번째 그룹 의 요소를 나타냅니다. 행 과에 의해 제 3 그룹의 원소 .

(1,0,0)

X

(1,1,0)

(1,0,1)

두 번째 모델은 대신 행 , 및 .

(1,1,12)=(1,1,1)

(1,2,22)=(1,2,4)

(1,3,32)=(1,3,9)

결과 모델 행렬 및 호출합니다 . 그것들은 단순히 관련이 있습니다 : 하나의 열은 다른 열의 선형 조합입니다. 예를 들어

X1

X2

V=(111013028).

그때부터

(100110101)V=(111124139),

그것은 다음과 같습니다

X1V=X2.

따라서 모델 자체는

X1β1=E[Y]=X2β2=(X1V)β2=X1(Vβ2).

즉, 두 번째 모델 의 계수 는 첫 번째 모델 의 계수 와 관련이 있어야합니다.

β2

β1=Vβ2.

따라서 최소 제곱 추정치에도 동일한 관계가 유지됩니다. 이것은 모델이 동일한 피팅을 가지고 있음을 보여줍니다 . 그들은 단지 다르게 표현합니다.

두 모델 행렬의 첫 번째 열이 동일하기 때문에 첫 번째 열과 나머지 열 사이의 분산을 분해하는 모든 분산 분석표는 변경되지 않습니다. 그러나 두 번째 열과 세 번째 열을 구분하는 분산 분석 테이블은 데이터 인코딩 방식에 따라 다릅니다.

의 열에 의해 생성 된 의 3 차원 부분 공간은 기하학적으로 (그리고 다소 추상적으로) 의 열에 의해 생성 된 부분 공간과 일치합니다 . 따라서 모델의 피팅이 동일합니다. 공간은 두 개의 서로 다른베이스로 설명되므로 적합은 다르게 표현됩니다. X 1 X 2

R15

X1

X2


예를 들어 다음은 귀하와 같은 데이터이지만 응답이 다른 데이터 및에서 생성 된 해당 분석입니다 R.

set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))

두 모델을 맞추십시오.

fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)

ANOVA 테이블을 표시하십시오.

anova(fit.1)
anova(fit.2)

첫 번째 모델의 출력은

              Df Sum Sq Mean Sq F value   Pr(>F)    
factor(group)  2 51.836  25.918  14.471 0.000634 ***
Residuals     12 21.492   1.791 

두 번째 모델의 경우

           Df Sum Sq Mean Sq F value    Pr(>F)    
group       1 50.816  50.816 28.3726 0.0001803 ***
I(group^2)  1  1.020   1.020  0.5694 0.4650488    
Residuals  12 21.492   1.791  

잔차 제곱합이 같다는 것을 알 수 있습니다. 두 번째 모델에서 처음 두 행을 추가하면 동일한 평균 제곱, F 값 및 p- 값을 계산할 수있는 동일한 DF 및 제곱합을 얻을 수 있습니다.

마지막으로 계수 추정치를 비교해 봅시다.

beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)

출력은

(Intercept) factor(group)2 factor(group)3 
  0.4508762      2.8073697      4.5084944 

(Intercept)       group  I(group^2) 
 -3.4627385   4.4667371  -0.5531225 

인터셉트도 완전히 다릅니다. 다중 회귀 분석에서 변수의 추정치는 다른 모든 변수의 추정치에 의존하기 때문입니다 (모두 서로 직교하지 않는 한 두 모델 모두 해당되지 않음). 그러나 곱셈이 무엇을 수행 하는지 살펴보십시오 .

V

(111013028)(3.46273854.46673710.5531225)=(0.45087622.80736974.5084944).

착용감은 실제로 주장한 것과 동일합니다.


답변

간단히 말해서, 두 모델 모두 X의 3 가지 레벨 모두에서 반응에 대한 고유 한 경험적 예측을 제공한다는 점에서 포화 상태입니다. 모델 1의 요인 변수 코딩의 경우 분명 할 수 있습니다. 2 차 추세의 경우, 2 차 공식은 3 개의 점을 보간 할 수 있습니다. 대비는 다르지만 두 모델 모두 인터셉트 전용 모델의 null에 대한 전역 테스트는 동일한 추론을 제공합니다.


답변