이것은 개념적 질문이지만, 내가 사용할 R
때의 패키지를 참조 할 것입니다 R
. 목표가 예측 목적으로 선형 모형을 적합시킨 다음 임의 효과를 사용할 수없는 위치를 예측하는 경우 혼합 효과 모형을 사용하는 이점이 있습니까? 아니면 고정 효과 모형을 대신 사용해야합니까?
예를 들어, 다른 정보와 함께 체중 대 신장에 대한 데이터가 있고를 사용하여 다음 모델을 작성하는 lme4
경우 주제는 레벨 ( ) 의 요인입니다 .
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
그런 다음 새로운 신장 및 연령 데이터를 사용하여 모델에서 체중을 예측할 수 있기를 원합니다. 원래 데이터의 개체 별 편차는 모델에서 캡처되지만 예측에이 정보를 사용할 수 있습니까? 새로운 신장 및 연령 데이터가 있고 체중을 예측하고 싶다면 다음과 같이 할 수 있습니다.
predict(mod1,newdata=newdf) # newdf columns for height, age, subject
이 사용 predict.merMod
하고에 (신규) 주제에 대한 열을 포함 newdf
하거나에 설정할 수 re.form =~0
있습니다. 첫 번째 경우, ‘새로운’주체 인자로 모델이 무엇을하는지 명확하지 않으며, 두 번째 경우, 모델에서 포착 된 개체 별 분산이 예측을 위해 단순히 무시 (평균 초과)됩니까?
어느 경우 든 고정 효과 선형 모델이 더 적합 할 것 같습니다. 실제로, 내 이해가 정확하다면, 랜덤 효과가 예측에 사용되지 않으면 고정 효과 모델은 혼합 모델과 동일한 값을 예측해야합니다. 이 경우입니까? 에서 R
그 예를 들어,되지 않습니다 :
mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F)
predict(mod1,newdata=newdf, re.form=~0) # newdf columns for height, age, subject
다른 결과를 얻습니다.
mod2 <- lm(weight ~ height + age, data=df)
predict(mod2,newdata=newdf) # newdf columns for height, age
답변
간단한 사고 실험 : 출생 후 5 명의 영아의 체중과 키를 측정했습니다. 그리고 당신은 2 년 후에 같은 아기에게서 다시 측정했습니다. 한편, 거의 매주 딸의 몸무게와 키를 측정하여 100 쌍의 값을 얻었습니다. 혼합 효과 모델을 사용하면 문제가 없습니다. 고정 효과 모델을 사용하는 경우 딸의 측정 값에 과도한 가중치를 적용하고 딸의 데이터 만 사용하는 경우 거의 동일한 모델에 적합하게 될 수 있습니다. 따라서 반복 측정 또는 불확실성 구조를 정확하게 모델링하는 유추뿐만 아니라 예측도 중요합니다. 일반적으로 혼합 효과 모델과 고정 효과 모델 (위반 된 가정 포함)에서 동일한 예측을 얻지 못합니다.
그리고 newdf에 (신규) 과목에 대한 열을 포함시킬 수 있습니다
원본 (훈련) 데이터의 일부가 아닌 주제는 예측할 수 없습니다. 다시 한 번 생각 실험 : 새로운 주제는 비만입니다. 모형이 모형이 랜덤 효과 분포의 상단에 있다는 것을 어떻게 알 수 있습니까?
모형에서 포착 된 개체 별 분산이 예측을 위해 단순히 무시 (평균 초과)됩니까?
내가 당신을 올바르게 이해한다면 그렇습니다. 모형은 모집단에 대한 예상 값의 추정치를 제공합니다 (이 추정치는 여전히 원래 주제에 대한 조건 임).