R에서 요소가 정확히 어떻게 작동하는지 이해하려고합니다. R의 일부 샘플 데이터를 사용하여 회귀 분석을 실행하려고한다고 가정 해 보겠습니다.
> data(CO2)
> colnames(CO2)
[1] "Plant" "Type" "Treatment" "conc" "uptake"
> levels(CO2$Type)
[1] "Quebec" "Mississippi"
> levels(CO2$Treatment)
[1] "nonchilled" "chilled"
> lm(uptake ~ Type + Treatment, data = CO2)
Call:
lm(formula = uptake ~ Type + Treatment, data = CO2)
Coefficients:
(Intercept) TypeMississippi Treatmentchilled
36.97 -12.66 -6.86
나는 그것을 이해 TypeMississippi
하고 Treatmentchilled
논리 값으로 처리됩니다 : 각 행의 경우, 초기 흡수가 36.97
, 우리는 빼기 12.66
는 유형 미시시피의 경우 6.86
가 냉각 된 경우. 다음과 같은 것을 이해하는 데 문제가 있습니다.
> lm(uptake ~ Type * Treatment, data = CO2)
Call:
lm(formula = uptake ~ Type * Treatment, data = CO2)
Coefficients:
(Intercept) TypeMississippi
35.333 -9.381
Treatmentchilled TypeMississippi:Treatmentchilled
-3.581 -6.557
lm
? 에서 두 가지 요소를 곱하는 것은 무엇을 의미 합니까?
답변
@John의 대답을 자세히 설명하려면 R의 수식에 몇 가지 연산자를 사용하여 용어에 적용 할 수 있습니다. “+”는 단순히 단어를 추가합니다. “:”는 상호 작용을 나타내는 용어 (또는 여러 단어)를 추가 함을 의미합니다 ( “*”는 둘 다를 의미합니다. 즉 “주요 효과”가 추가되고 상호 작용 항도 추가됩니다.
이 상호 작용은 무엇을 의미합니까? 연속 변수의 경우 실제로 두 변수의 배수 인 용어가 추가됩니다. 키와 몸무게를 예측 변수로 사용 out ~ height * weight
하고 공식으로 사용 하는 경우 선형 모델에는 세 가지 ‘변수’, 즉 몸무게, 키 및 해당 제품이 포함됩니다 (상호 작용도 포함하지만 여기서는 관심이 적습니다).
위에서 다르게 제안하지만 : 이것은 범주 변수에 대해 동일한 방식으로 작동하지만 이제 ‘제품’은 각 범주 변수의 더미 변수에 적용됩니다. 키와 몸무게가 각각 범주 (S (mall), M (edium) 및 L (arge))로 분류되어 있다고 가정합니다. 그런 다음 선형 모델에서 이들 각각은 0 또는 1 인 두 개의 더미 변수 세트로 표시됩니다 (다른 코딩 방법이 있지만 이것이 R의 기본값이며 가장 일반적으로 사용됨). 우리가 S를 둘 다에 대한 참조 범주로 사용한다고 가정하면, 두 번의 height.M 및 height.L이 있습니다 (무게와 유사 함).
이제 모델 out ~ height * weight
에는 이제 4 개의 인형 + 모든 더미 조합의 모든 곱이 포함됩니다 (명백하게 계수를 쓰지는 않지만 암시 적입니다).
(intercept) + height.M + height.L + weight.M + weight.L + height.M * weight.M + height.L * weight.M + height.M * weight.L + height.L * weight.L.
위의 라인에서 ‘*’는 이제 단순 제품을 나타내지 만 이번에는 인형의 제품이므로 각 제품 자체도 1 (모든 요소가 1 인 경우) 또는 0 (적어도 하나가 아닌 경우)입니다.
이 경우 8 ‘변수’가능 다른 (평균) 결과 두 변수의 모든 조합에서 : 큰 무게를 갖는 효과가 더 이상 지금 (그들에게 효과가 단순히 용어에 의해 형성되는 작은 사람에 대해 동일 weight.L
)로 큰 사람들을 위해 (여기, 효과는 weight.L + height.L * weight.L
)
답변
John의 대답을 따르기 위해 lm의 수식은 산술 표기법을 사용하지 않고 선형 모델을 설명하기 위해 소형 기호 표기법을 사용합니다 (특히 Wilkinson-Rogers 표기법, 여기에는 짧은 요약이 있습니다 http : //www.physiol .ox.ac.uk / ~ raac / R.shtml ).
기본적으로 모델 수식에 A * B를 포함하면 A, B 및 A : B (A와 B의 상호 작용)를 적합하게됩니다. 교호 작용 항이 통계적으로 유의하면 치료의 효과가 각 유형마다 다르다는 것을 나타냅니다.
답변
도움으로 ‘수식’을 찾는 것이 도움이 될 것입니다. 곱셈하지 않고 두 가지 주요 효과와 그 상호 작용을 원한다고 말하고 있습니다.