카테고리 보관물: stats

stats

그룹이 혼합 모형에서 랜덤 대 고정으로 취급 될 때 기울기 추정치에 큰 불일치 2L, 2L, 2L,

일부 모델 매개 변수가 일부 그룹화 요인에 따라 무작위로 변한다고 생각할 때 임의 효과 (또는 혼합 효과) 모델을 사용한다는 것을 알고 있습니다. 응답이 정규화되고 그룹화 요소 전체에서 중심이 (완벽하지는 않지만 꽤 가깝습니다) 모델을 맞추고 싶지만 독립 변수 x는 어떤 식으로도 조정되지 않았습니다. 이로 인해 다음과 같은 테스트 ( 제조 된 데이터 사용)를 통해 실제로 원하는 경우 내가 찾은 효과를 찾을 수 있는지 확인했습니다. 랜덤 인터셉트 (로 정의 된 그룹 간)가있는 혼합 효과 모델 하나 와 요인 f를 고정 효과 예측 변수로 사용 f하는 두 번째 고정 효과 모델을 실행했습니다. lmer혼합 효과 모델과 기본 기능에 R 패키지 를 사용했습니다.lm()고정 효과 모델의 경우 다음은 데이터와 결과입니다.

공지 사항 y에 관계없이 그룹의 주위 0 다릅니다 그리고 그것은, x함께 지속적으로 변화 y보다 그룹에서 더 많은 그룹 내에서, 그러나 변화y

> data
      y   x f
1  -0.5   2 1
2   0.0   3 1
3   0.5   4 1
4  -0.6  -4 2
5   0.0  -3 2
6   0.6  -2 2
7  -0.2  13 3
8   0.1  14 3
9   0.4  15 3
10 -0.5 -15 4
11 -0.1 -14 4
12  0.4 -13 4

데이터 작업에 관심이 있다면 다음과 같이 dput()출력됩니다.

data<-structure(list(y = c(-0.5, 0, 0.5, -0.6, 0, 0.6, -0.2, 0.1, 0.4,
-0.5, -0.1, 0.4), x = c(2, 3, 4, -4, -3, -2, 13, 14, 15, -15,
-14, -13), f = structure(c(1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L,
4L, 4L, 4L), .Label = c("1", "2", "3", "4"), class = "factor")),
.Names = c("y","x","f"), row.names = c(NA, -12L), class = "data.frame")

혼합 효과 모델 맞추기 :

> summary(lmer(y~ x + (1|f),data=data))
Linear mixed model fit by REML
Formula: y ~ x + (1 | f)
   Data: data
   AIC   BIC logLik deviance REMLdev
 28.59 30.53  -10.3       11   20.59
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.00000  0.00000
 Residual             0.17567  0.41913
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.120992   0.069
x           0.008643   0.011912   0.726

Correlation of Fixed Effects:
  (Intr)
x 0.000 

절편 분산 성분은 0으로 추정되며, 중요한 것은 나에게 x중요한 예측 변수가 아니라는 점에 유의하십시오 y.

다음 f으로 임의의 절편에 대한 그룹화 요소 대신 예측 효과로 고정 효과 모델을 맞 춥니 다 .

> summary(lm(y~ x + f,data=data))

Call:
lm(formula = y ~ x + f, data = data)

Residuals:
     Min       1Q   Median       3Q      Max
-0.16250 -0.03438  0.00000  0.03125  0.16250

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.38750    0.14099  -9.841 2.38e-05 ***
x            0.46250    0.04128  11.205 1.01e-05 ***
f2           2.77500    0.26538  10.457 1.59e-05 ***
f3          -4.98750    0.46396 -10.750 1.33e-05 ***
f4           7.79583    0.70817  11.008 1.13e-05 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1168 on 7 degrees of freedom
Multiple R-squared: 0.9484, Adjusted R-squared: 0.9189
F-statistic: 32.16 on 4 and 7 DF,  p-value: 0.0001348 

이제 예상 한대로 x의 중요한 예측 변수라는 것을 알았습니다 y.

내가 찾고있는 것은이 차이점에 관한 직관입니다. 내 생각이 어떻게 잘못 되었나요? 왜이 x두 모델에서 중요한 매개 변수를 찾을 것으로 예상 하지만 실제로 고정 효과 모델에서만 볼 수 있습니까?



답변

여기에는 몇 가지 일이 있습니다. 이들은 흥미로운 문제이지만이를 모두 설명하려면 상당한 시간 / 공간이 필요합니다.

우선, 우리 가 데이터를 플롯하면 이 모든 것을 이해하기가 훨씬 쉬워집니다 . 다음은 데이터 포인트가 그룹별로 색상이 지정된 산점도입니다. 또한 각 그룹마다 별도의 그룹 별 회귀선과 그룹을 무시하는 간단한 회귀선이 굵은 체로 표시됩니다.

plot(y ~ x, data=dat, col=f, pch=19)
abline(coef(lm(y ~ x, data=dat)), lwd=3, lty=2)
by(dat, dat$f, function(i) abline(coef(lm(y ~ x, data=i)), col=i$f))

데이터

고정 효과 모델

엑스

엑스

엑스

엑스

엑스

엑스

엑스

와이

엑스

엑스

엑스

lm()

혼합 모델

엑스

엑스

엑스

엑스

엑스

다음은 단순 회귀 모형에 대한 계수입니다 (플롯에서 굵은 선으로 표시).

> lm(y ~ x, data=dat)

Call:
lm(formula = y ~ x, data = dat)

Coefficients:
(Intercept)            x
   0.008333     0.008643  

보시다시피, 여기의 계수는 혼합 모델에서 얻은 것과 동일합니다. 이미 언급했듯이 랜덤 인터셉트에 대한 분산이 0으로 추정되어 앞에서 언급 한 비율 / 클래스 내 상관 관계를 0으로 만듭니다.이 경우 혼합 모형 추정치는 간단한 선형 회귀 추정치이며, 플롯에서 볼 수 있듯이 여기의 기울기는 클러스터 내 기울기보다 훨씬 덜 두드러집니다.

이것은 우리에게 하나의 마지막 개념 문제를 가져옵니다 …

랜덤 절편의 분산이 0으로 추정되는 이유는 무엇입니까?

이 질문에 대한 답은 약간 기술적이고 어려워 질 가능성이 있지만, 가능한 한 단순하고 비 기술적으로 유지하려고 노력할 것입니다 (두 가지 모두를 위해!). 그러나 그것은 여전히 ​​약간 긴 바람 일 것입니다.

클래스 내 상관 관계의 개념을 앞서 언급했습니다. 이것은 의 의존성에 대해 생각하는 또 다른 방법입니다.

와이

클러스터링 구조에 의해 유도 된 (또는보다 정확하게는 모델의 오류) 클래스 내 상관 관계는 데이터 집합의 어느 곳에서든 두 개의 오류의 평균 유사성 (즉, 동일한 클러스터에 있거나 없을 수 있음)과 비교하여 동일한 클러스터에서 가져온 두 개의 오류가 평균적으로 얼마나 비슷한 지 알려줍니다. 클래스 내부의 양의 상관 관계는 동일한 군집의 오류가 상대적으로 더 유사한 경향이 있음을 나타냅니다. 클러스터에서 하나의 오류를 발생시키고 값이 높으면 동일한 클러스터에서 다음에 발생하는 오류도 높은 값을 가질 가능성이 높습니다. 다소 덜 일반적이지만 클래스 내 상관도 음수 일 수 있습니다. 동일한 클러스터에서 발생하는 두 가지 오류는 일반적으로 데이터 집합 전체에서 예상되는 것보다 덜 유사합니다 (즉, 값이 더 떨어져 있음).

우리가 고려하고있는 혼합 모델은 데이터의 의존성을 나타내는 클래스 내 상관 방법을 사용하지 않습니다. 대신 분산 성분 에 대한 의존성을 설명합니다 . 클래스 내 상관 관계가 긍정적 인 한이 모든 것이 좋습니다. 이러한 경우, 클래스 내 상관 관계는 분산 성분의 관점에서 쉽게 작성할 수 있습니다. 구체적으로 앞에서 언급 한 랜덤 인터셉트 분산과 총 분산의 비율입니다. ( 클래스 내 상관 관계에 대한 위키 페이지 참조그러나 불행히도 분산 성분 모델은 클래스 내에서 음의 상관 관계가있는 상황을 처리하는 데 어려움을 겪습니다. 결국, 분산 성분 측면에서 클래스 내 상관 관계를 작성하려면이를 분산의 비율로 작성해야하며, 비율은 음수가 될 수 없습니다.

와이

와이

와이

그러나 다른 군집에서 발생하는 오류는 더 중간 정도의 차이가있는 경향이 있습니다. 따라서 혼합 모형은 실제로이 경우 종종 혼합 모형이 수행하는 작업을 수행합니다. 이는 클래스 내 음의 상관 관계와 일치하는 추정치를 제공합니다. 소집 할 수는 있지만 하한 0에서 멈 춥니 다 (이 구속 조건은 일반적으로 모델 피팅 알고리즘에 프로그래밍됩니다). 그래서 우리는 0으로 추정 된 랜덤 인터셉트 분산 (random intercept variance)으로 끝납니다. 이것은 여전히 ​​좋은 추정치가 아니지만,이 분산 성분 유형의 모델로 얻을 수있는만큼 가깝습니다.

그래서 우리가 뭘 할 수 있지?

엑스

엑스

엑스

엑스

엑스

엑스

엑스

> dat <- within(dat, x_b <- tapply(x, f, mean)[paste(f)])
> dat <- within(dat, x_w <- x - x_b)
> dat
      y   x f x_b x_w
1  -0.5   2 1   3  -1
2   0.0   3 1   3   0
3   0.5   4 1   3   1
4  -0.6  -4 2  -3  -1
5   0.0  -3 2  -3   0
6   0.6  -2 2  -3   1
7  -0.2  13 3  14  -1
8   0.1  14 3  14   0
9   0.4  15 3  14   1
10 -0.5 -15 4 -14  -1
11 -0.1 -14 4 -14   0
12  0.4 -13 4 -14   1
>
> mod <- lmer(y ~ x_b + x_w + (1|f), data=dat)
> mod
Linear mixed model fit by REML
Formula: y ~ x_b + x_w + (1 | f)
   Data: dat
   AIC   BIC logLik deviance REMLdev
 6.547 8.972  1.726   -23.63  -3.453
Random effects:
 Groups   Name        Variance Std.Dev.
 f        (Intercept) 0.000000 0.00000
 Residual             0.010898 0.10439
Number of obs: 12, groups: f, 4

Fixed effects:
            Estimate Std. Error t value
(Intercept) 0.008333   0.030135   0.277
x_b         0.005691   0.002977   1.912
x_w         0.462500   0.036908  12.531

Correlation of Fixed Effects:
    (Intr) x_b
x_b 0.000
x_w 0.000  0.000

엑스

엑스

와이

엑스

엑스

엑스

통계가 더 큽니다. 단순 혼합 회귀 모형이 처리해야하는 분산을 많이 차지하는 랜덤 그룹 효과로 인해이 혼합 모형에서 잔차 분산이 훨씬 더 작기 때문에 이는 놀라운 일이 아닙니다.

마지막으로, 이전 절에서 자세히 설명한 이유로 인해 임의 절편의 분산에 대한 추정치는 여전히 0입니다. 나는 다른 소프트웨어로 바꾸지 않고 적어도 하나에 대해 우리가 무엇을 할 수 lmer()있는지 잘 모르겠으며,이 최종 혼합 모델의 추정치에 여전히 악영향을 미칠 정도가 확실하지 않습니다. 어쩌면 다른 사용자 가이 문제에 대한 몇 가지 생각을 할 수 있습니다.

참고 문헌

  • Bell, A., & Jones, K. (2014). 고정 효과 설명 : 시계열 단면 및 패널 데이터의 랜덤 효과 모델링.정치 연구 및 방법. PDF
  • Bafumi, J., & Gelman, AE (2006). 예측 변수와 그룹 효과가 서로 연관 될 때 다중 레벨 모델을 적합합니다. PDF

답변

상당한 숙고 끝에, 나는 내 자신의 답을 찾았다 고 믿는다. 나는 계량 경제학자가 내 독립 변수를 내인성으로 정의하여 독립 변수 와 종속 변수 모두와 상관 관계가 있다고 생각 합니다. 이 경우 해당 변수는 생략 되거나 관찰되지 않습니다 . 그러나 생략 된 변수가 달라야하는 그룹화를 관찰합니다.

나는 계량 경제학자가 고정 효과 모델을 제안 할 것이라고 믿는다 . 즉,이 경우 모든 그룹화 레벨에 대한 더미 (또는 많은 그룹화 인형이 필요하지 않도록 모델을 조정하는 동등한 사양)가 포함 된 모델입니다. 고정 효과 모델을 사용하면 그룹 전체 (또는 개별) 변동을 조정하여 관찰되지 않고 시간이 변하지 않는 모든 변수를 제어 할 수 있습니다. 실제로, 제 질문의 두 번째 모델은 정확히 고정 효과 모델이며, 따라서 내가 기대하는 추정치를 제공합니다.

이 상황을 더욱 밝게 해줄 의견을 환영합니다.


답변