일부 모델 매개 변수가 일부 그룹화 요인에 따라 무작위로 변한다고 생각할 때 임의 효과 (또는 혼합 효과) 모델을 사용한다는 것을 알고 있습니다. 응답이 정규화되고 그룹화 요소 전체에서 중심이 (완벽하지는 않지만 꽤 가깝습니다) 모델을 맞추고 싶지만 독립 변수 x
는 어떤 식으로도 조정되지 않았습니다. 이로 인해 다음과 같은 테스트 ( 제조 된 데이터 사용)를 통해 실제로 원하는 경우 내가 찾은 효과를 찾을 수 있는지 확인했습니다. 랜덤 인터셉트 (로 정의 된 그룹 간)가있는 혼합 효과 모델 하나 와 요인 f를 고정 효과 예측 변수로 사용 f
하는 두 번째 고정 효과 모델을 실행했습니다. lmer
혼합 효과 모델과 기본 기능에 R 패키지 를 사용했습니다.lm()
고정 효과 모델의 경우 다음은 데이터와 결과입니다.
공지 사항 y
에 관계없이 그룹의 주위 0 다릅니다 그리고 그것은, x
함께 지속적으로 변화 y
보다 그룹에서 더 많은 그룹 내에서, 그러나 변화y
> data
y x f
1 -0.5 2 1
2 0.0 3 1
3 0.5 4 1
4 -0.6 -4 2
5 0.0 -3 2
6 0.6 -2 2
7 -0.2 13 3
8 0.1 14 3
9 0.4 15 3
10 -0.5 -15 4
11 -0.1 -14 4
12 0.4 -13 4
데이터 작업에 관심이 있다면 다음과 같이 dput()
출력됩니다.
data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4,
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15,
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L,
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")),
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")
혼합 효과 모델 맞추기 :
> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML
Formula: y ~ x + (1 | f)
Data: data
AIC BIC logLik deviance REMLdev
28.59 30.53 -10.3 11 20.59
Random effects:
Groups Name Variance Std.Dev.
f (Intercept) 0.00000 0.00000
Residual 0.17567 0.41913
Number of obs: 12, groups: f, 4
Fixed effects:
Estimate Std. Error t value
(Intercept) 0.008333 0.120992 0.069
x 0.008643 0.011912 0.726
Correlation of Fixed Effects:
(Intr)
x 0.000
절편 분산 성분은 0으로 추정되며, 중요한 것은 나에게 x
중요한 예측 변수가 아니라는 점에 유의하십시오 y
.
다음 f
으로 임의의 절편에 대한 그룹화 요소 대신 예측 효과로 고정 효과 모델을 맞 춥니 다 .
> summary(lm(y~ x + f,data=data))
Call:
lm(formula = y ~ x + f, data = data)
Residuals:
Min 1Q Median 3Q Max
-0.16250 -0.03438 0.00000 0.03125 0.16250
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.38750 0.14099 -9.841 2.38e-05 ***
x 0.46250 0.04128 11.205 1.01e-05 ***
f2 2.77500 0.26538 10.457 1.59e-05 ***
f3 -4.98750 0.46396 -10.750 1.33e-05 ***
f4 7.79583 0.70817 11.008 1.13e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189
F-statistic: 32.16 on 4 and 7 DF, p-value: 0.0001348
이제 예상 한대로 x
의 중요한 예측 변수라는 것을 알았습니다 y
.
내가 찾고있는 것은이 차이점에 관한 직관입니다. 내 생각이 어떻게 잘못 되었나요? 왜이 x
두 모델에서 중요한 매개 변수를 찾을 것으로 예상 하지만 실제로 고정 효과 모델에서만 볼 수 있습니까?
답변
여기에는 몇 가지 일이 있습니다. 이들은 흥미로운 문제이지만이를 모두 설명하려면 상당한 시간 / 공간이 필요합니다.
우선, 우리 가 데이터를 플롯하면 이 모든 것을 이해하기가 훨씬 쉬워집니다 . 다음은 데이터 포인트가 그룹별로 색상이 지정된 산점도입니다. 또한 각 그룹마다 별도의 그룹 별 회귀선과 그룹을 무시하는 간단한 회귀선이 굵은 체로 표시됩니다.
plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))
고정 효과 모델
엑스
엑스
엑스
엑스
엑스
엑스
엑스
와이
티
엑스
엑스
엑스
lm()
혼합 모델
엑스
엑스
엑스
엑스
엑스
다음은 단순 회귀 모형에 대한 계수입니다 (플롯에서 굵은 선으로 표시).
> lm(y ~ x, data=dat)
Call:
lm(formula = y ~ x, data = dat)
Coefficients:
(Intercept) x
0.008333 0.008643
보시다시피, 여기의 계수는 혼합 모델에서 얻은 것과 동일합니다. 이미 언급했듯이 랜덤 인터셉트에 대한 분산이 0으로 추정되어 앞에서 언급 한 비율 / 클래스 내 상관 관계를 0으로 만듭니다.이 경우 혼합 모형 추정치는 간단한 선형 회귀 추정치이며, 플롯에서 볼 수 있듯이 여기의 기울기는 클러스터 내 기울기보다 훨씬 덜 두드러집니다.
이것은 우리에게 하나의 마지막 개념 문제를 가져옵니다 …
랜덤 절편의 분산이 0으로 추정되는 이유는 무엇입니까?
이 질문에 대한 답은 약간 기술적이고 어려워 질 가능성이 있지만, 가능한 한 단순하고 비 기술적으로 유지하려고 노력할 것입니다 (두 가지 모두를 위해!). 그러나 그것은 여전히 약간 긴 바람 일 것입니다.
클래스 내 상관 관계의 개념을 앞서 언급했습니다. 이것은 의 의존성에 대해 생각하는 또 다른 방법입니다.
와이클러스터링 구조에 의해 유도 된 (또는보다 정확하게는 모델의 오류) 클래스 내 상관 관계는 데이터 집합의 어느 곳에서든 두 개의 오류의 평균 유사성 (즉, 동일한 클러스터에 있거나 없을 수 있음)과 비교하여 동일한 클러스터에서 가져온 두 개의 오류가 평균적으로 얼마나 비슷한 지 알려줍니다. 클래스 내부의 양의 상관 관계는 동일한 군집의 오류가 상대적으로 더 유사한 경향이 있음을 나타냅니다. 클러스터에서 하나의 오류를 발생시키고 값이 높으면 동일한 클러스터에서 다음에 발생하는 오류도 높은 값을 가질 가능성이 높습니다. 다소 덜 일반적이지만 클래스 내 상관도 음수 일 수 있습니다. 동일한 클러스터에서 발생하는 두 가지 오류는 일반적으로 데이터 집합 전체에서 예상되는 것보다 덜 유사합니다 (즉, 값이 더 떨어져 있음).
우리가 고려하고있는 혼합 모델은 데이터의 의존성을 나타내는 클래스 내 상관 방법을 사용하지 않습니다. 대신 분산 성분 에 대한 의존성을 설명합니다 . 클래스 내 상관 관계가 긍정적 인 한이 모든 것이 좋습니다. 이러한 경우, 클래스 내 상관 관계는 분산 성분의 관점에서 쉽게 작성할 수 있습니다. 구체적으로 앞에서 언급 한 랜덤 인터셉트 분산과 총 분산의 비율입니다. ( 클래스 내 상관 관계에 대한 위키 페이지 참조그러나 불행히도 분산 성분 모델은 클래스 내에서 음의 상관 관계가있는 상황을 처리하는 데 어려움을 겪습니다. 결국, 분산 성분 측면에서 클래스 내 상관 관계를 작성하려면이를 분산의 비율로 작성해야하며, 비율은 음수가 될 수 없습니다.
와이
와이
와이
그러나 다른 군집에서 발생하는 오류는 더 중간 정도의 차이가있는 경향이 있습니다. 따라서 혼합 모형은 실제로이 경우 종종 혼합 모형이 수행하는 작업을 수행합니다. 이는 클래스 내 음의 상관 관계와 일치하는 추정치를 제공합니다. 소집 할 수는 있지만 하한 0에서 멈 춥니 다 (이 구속 조건은 일반적으로 모델 피팅 알고리즘에 프로그래밍됩니다). 그래서 우리는 0으로 추정 된 랜덤 인터셉트 분산 (random intercept variance)으로 끝납니다. 이것은 여전히 좋은 추정치가 아니지만,이 분산 성분 유형의 모델로 얻을 수있는만큼 가깝습니다.
그래서 우리가 뭘 할 수 있지?
엑스
엑스
엑스
엑스비
엑스
엑스승
엑스
> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
y x f x_b x_w
1 -0.5 2 1 3 -1
2 0.0 3 1 3 0
3 0.5 4 1 3 1
4 -0.6 -4 2 -3 -1
5 0.0 -3 2 -3 0
6 0.6 -2 2 -3 1
7 -0.2 13 3 14 -1
8 0.1 14 3 14 0
9 0.4 15 3 14 1
10 -0.5 -15 4 -14 -1
11 -0.1 -14 4 -14 0
12 0.4 -13 4 -14 1
>
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML
Formula: y ~ x_b + x_w + (1 | f)
Data: dat
AIC BIC logLik deviance REMLdev
6.547 8.972 1.726 -23.63 -3.453
Random effects:
Groups Name Variance Std.Dev.
f (Intercept) 0.000000 0.00000
Residual 0.010898 0.10439
Number of obs: 12, groups: f, 4
Fixed effects:
Estimate Std. Error t value
(Intercept) 0.008333 0.030135 0.277
x_b 0.005691 0.002977 1.912
x_w 0.462500 0.036908 12.531
Correlation of Fixed Effects:
(Intr) x_b
x_b 0.000
x_w 0.000 0.000
엑스승
엑스비
와이
엑스
엑스
엑스비
티
통계가 더 큽니다. 단순 혼합 회귀 모형이 처리해야하는 분산을 많이 차지하는 랜덤 그룹 효과로 인해이 혼합 모형에서 잔차 분산이 훨씬 더 작기 때문에 이는 놀라운 일이 아닙니다.
마지막으로, 이전 절에서 자세히 설명한 이유로 인해 임의 절편의 분산에 대한 추정치는 여전히 0입니다. 나는 다른 소프트웨어로 바꾸지 않고 적어도 하나에 대해 우리가 무엇을 할 수 lmer()
있는지 잘 모르겠으며,이 최종 혼합 모델의 추정치에 여전히 악영향을 미칠 정도가 확실하지 않습니다. 어쩌면 다른 사용자 가이 문제에 대한 몇 가지 생각을 할 수 있습니다.
참고 문헌
답변
상당한 숙고 끝에, 나는 내 자신의 답을 찾았다 고 믿는다. 나는 계량 경제학자가 내 독립 변수를 내인성으로 정의하여 독립 변수 와 종속 변수 모두와 상관 관계가 있다고 생각 합니다. 이 경우 해당 변수는 생략 되거나 관찰되지 않습니다 . 그러나 생략 된 변수가 달라야하는 그룹화를 관찰합니다.
나는 계량 경제학자가 고정 효과 모델을 제안 할 것이라고 믿는다 . 즉,이 경우 모든 그룹화 레벨에 대한 더미 (또는 많은 그룹화 인형이 필요하지 않도록 모델을 조정하는 동등한 사양)가 포함 된 모델입니다. 고정 효과 모델을 사용하면 그룹 전체 (또는 개별) 변동을 조정하여 관찰되지 않고 시간이 변하지 않는 모든 변수를 제어 할 수 있습니다. 실제로, 제 질문의 두 번째 모델은 정확히 고정 효과 모델이며, 따라서 내가 기대하는 추정치를 제공합니다.
이 상황을 더욱 밝게 해줄 의견을 환영합니다.