같은 Y와 3 단계 X의 두 회귀가 있습니다. 각 그룹 또는 X 수준에서 n = 5 인 전체 n = 15입니다. 첫 번째 회귀는 X를 범주 형으로 취급하여 지표 변수를 수준이있는 수준 2와 3에 할당합니다. 하나는 참조입니다. 표시기 / 인형은 다음과 같습니다. 레벨 = 2 인 경우 X1 = 1, 그렇지 않은 경우 0, 레벨 = 3 인 경우 X2 = 1, 그렇지 않은 경우 0
결과적으로 내 적합 모델은 다음과 같습니다 .y = b0 + b1 (x1) + b2 (x2)
회귀 분석을 실행하면 출력에 다음 분산 분석표가 포함됩니다.
나머지 출력은 여기와 관련이 없습니다.
이제 동일한 데이터에 대해 다른 회귀 분석을 실행합니다. 범주 형 분석을 버리고 X를 연속으로 취급하지만 방정식에 변수를 추가합니다. X ^ 2, X의 제곱. 이제 다음 모델이 있습니다. y = b0 + b1 (X) + b2 (X) ^ 2
내가 그것을 실행하면, 위에서 보여준 것과 동일한 정확한 분산 분석표를 뱉어냅니다. 이 두 회귀 분석이 동일한 테이블을 생성하는 이유는 무엇입니까?
[이 작은 수수께끼에 대한 학점은 로스 앤젤레스 캘리포니아 대학의 생물 통계학과의 Thomas Belin에게갑니다.]
답변
행렬 용어로 모델은 일반적인 형식 입니다.
E[Y]=Xβ첫 번째 모델은 절편, 범주 2에 대한 지표 및 범주 3에 대한 지표에 해당하는 의 행 으로 첫 번째 그룹 의 요소를 나타냅니다. 행 과에 의해 제 3 그룹의 원소 .
(1,0,0)X
(1,1,0)
(1,0,1)
두 번째 모델은 대신 행 , 및 .
(1,1,12)=(1,1,1)(1,2,22)=(1,2,4)
(1,3,32)=(1,3,9)
결과 모델 행렬 및 호출합니다 . 그것들은 단순히 관련이 있습니다 : 하나의 열은 다른 열의 선형 조합입니다. 예를 들어
X1X2
그때부터
그것은 다음과 같습니다
따라서 모델 자체는
즉, 두 번째 모델 의 계수 는 첫 번째 모델 의 계수 와 관련이 있어야합니다.
β2
따라서 최소 제곱 추정치에도 동일한 관계가 유지됩니다. 이것은 모델이 동일한 피팅을 가지고 있음을 보여줍니다 . 그들은 단지 다르게 표현합니다.
두 모델 행렬의 첫 번째 열이 동일하기 때문에 첫 번째 열과 나머지 열 사이의 분산을 분해하는 모든 분산 분석표는 변경되지 않습니다. 그러나 두 번째 열과 세 번째 열을 구분하는 분산 분석 테이블은 데이터 인코딩 방식에 따라 다릅니다.
의 열에 의해 생성 된 의 3 차원 부분 공간은 기하학적으로 (그리고 다소 추상적으로) 의 열에 의해 생성 된 부분 공간과 일치합니다 . 따라서 모델의 피팅이 동일합니다. 공간은 두 개의 서로 다른베이스로 설명되므로 적합은 다르게 표현됩니다. X 1 X 2
R15X1
X2
예를 들어 다음은 귀하와 같은 데이터이지만 응답이 다른 데이터 및에서 생성 된 해당 분석입니다 R
.
set.seed(17)
D <- data.frame(group=rep(1:3, each=5), y=rnorm(3*5, rep(1:3, each=5), sd=2))
두 모델을 맞추십시오.
fit.1 <- lm(y ~ factor(group), D)
fit.2 <- lm(y ~ group + I(group^2), D)
ANOVA 테이블을 표시하십시오.
anova(fit.1)
anova(fit.2)
첫 번째 모델의 출력은
Df Sum Sq Mean Sq F value Pr(>F)
factor(group) 2 51.836 25.918 14.471 0.000634 ***
Residuals 12 21.492 1.791
두 번째 모델의 경우
Df Sum Sq Mean Sq F value Pr(>F)
group 1 50.816 50.816 28.3726 0.0001803 ***
I(group^2) 1 1.020 1.020 0.5694 0.4650488
Residuals 12 21.492 1.791
잔차 제곱합이 같다는 것을 알 수 있습니다. 두 번째 모델에서 처음 두 행을 추가하면 동일한 평균 제곱, F 값 및 p- 값을 계산할 수있는 동일한 DF 및 제곱합을 얻을 수 있습니다.
마지막으로 계수 추정치를 비교해 봅시다.
beta.1.hat <- coef(fit.1)
beta.2.hat <- coef(fit.2)
출력은
(Intercept) factor(group)2 factor(group)3
0.4508762 2.8073697 4.5084944
(Intercept) group I(group^2)
-3.4627385 4.4667371 -0.5531225
인터셉트도 완전히 다릅니다. 다중 회귀 분석에서 변수의 추정치는 다른 모든 변수의 추정치에 의존하기 때문입니다 (모두 서로 직교하지 않는 한 두 모델 모두 해당되지 않음). 그러나 곱셈이 무엇을 수행 하는지 살펴보십시오 .
V
착용감은 실제로 주장한 것과 동일합니다.
답변
간단히 말해서, 두 모델 모두 X의 3 가지 레벨 모두에서 반응에 대한 고유 한 경험적 예측을 제공한다는 점에서 포화 상태입니다. 모델 1의 요인 변수 코딩의 경우 분명 할 수 있습니다. 2 차 추세의 경우, 2 차 공식은 3 개의 점을 보간 할 수 있습니다. 대비는 다르지만 두 모델 모두 인터셉트 전용 모델의 null에 대한 전역 테스트는 동일한 추론을 제공합니다.