통계학 분석의 방법과 결과, 특히 역학에서 결과를 읽음으로써 나는 종종 모델의 조정 또는 제어 에 대해 듣습니다 .
비 통계 학자에게 그 목적을 어떻게 설명 하시겠습니까? 특정 변수를 제어 한 후 결과를 어떻게 해석합니까?
Stata 또는 R의 작은 연습 또는 온라인에 대한 포인터는 진정한 보석입니다.
답변
예를 들어 설명하기 가장 쉬운 방법 :
연구에 따르면 월드컵 결승전을 본 사람들이 경기를 보지 못한 사람들보다 경기 도중 또는 이후 24 시간 동안 심장 마비를 겪을 가능성이 더 높다고 상상해보십시오. 정부는 TV에서 축구를 금지해야 하는가? 그러나 남성은 여성보다 축구를 볼 가능성이 높으며 남성은 여성보다 심장 마비를 일으킬 가능성이 높습니다. 따라서 축구 관찰과 심장 마비 의 연관성 은 둘 다에 영향을 미치는 섹스와 같은 세 번째 요소 로 설명 될 수 있습니다 . (사회 학자 사이 여기 구별 할 성 , 축구 관람과 관련된 문화 구조와 섹스, 심장 마비 발병률과 관련된 생물학적 범주이지만 두 개는 매우 강력하게 상호 연관되어 있으므로 단순성을 위해 그 구별을 무시할 것입니다.)
통계 학자, 특히 역학 학자들은 이러한 세 번째 요소를 혼란 자와 혼란 현상 이라고 부릅니다 . 이 문제를 제거하는 가장 확실한 방법은 개별적으로 남성과 여성의 축구 관람 및 심장 마비 발생률 사이의 관계를보고, 또는 전문 용어에 계층화 성별. 만약 우리가 (아직 하나 있다면) 연관성이 두 성별에서 유사하다는 것을 발견하면, 우리는 두 성별에 걸쳐 연관의 두 추정치를 결합하도록 선택할 수 있습니다. 그런 다음 축구 시청과 심장 마비 발생 간의 연관성에 대한 추정치 를성에 맞게 조정 하거나 제어 한다고합니다 .
우리는 아마도 같은 방식으로 다른 요소들도 통제하고 싶을 것입니다. 나이는 또 다른 명백한 것입니다 (사실 역학 학자들은 나이와 성별에 따라 거의 모든 협회를 계층화하거나 조정 / 통제합니다). 사회 경제적 수업은 아마도 또 다른 것이다. 다른 사람들은 더 까다로울 수 있습니다. 예를 들어 경기를 보면서 맥주 소비를 조정해야합니까? 경기를 혼자서 보는 스트레스의 영향에 관심이 있다면 그렇습니다. 그러나 월드컵 축구 방송 금지를 고려하고 있다면 맥주 소비도 줄어들 것입니다. 주어진 변수가 혼란 스러운지 아닌지는 우리가 어떤 질문을 다루고 싶은지에 달려 있으며, 이것은 매우 신중한 생각이 필요하고 매우 까다 롭고 논쟁의 여지가 있습니다.
분명히, 우리는 몇 가지 요소에 대한 조정 / 통제를 원할 수 있으며, 그 중 일부는 여러 범주 (예 : 사회 계급)로 측정 될 수 있지만 다른 요소는 연속적 (예 : 연령) 일 수 있습니다. 우리는 (연령별) 그룹으로 나눠서 연속적인 것을 다룰 수 있습니다. 그래서 우리는 2 명의 성별, 5 개의 사회 계층 그룹 및 7 개의 연령 그룹이 있다고 가정하십시오. 이제 축구 관찰과 심장 마비 발생 사이의 연관성을 2x5x7 = 70 계층으로 볼 수 있습니다. 그러나 우리의 연구가 상당히 작기 때문에 일부 지층에 사람이 거의 없다면이 접근법에 문제가 생길 것입니다. 실제로 우리는 12 개 이상의 변수를 조정하고자 할 수 있습니다. 회귀 분석을 통해 많은 변수가있을 때 특히 유용한 변수를 조정 / 제어하는 다른 방법이 제공됩니다여러 종속 변수로, 때로는로 알려진 다변량 회귀 분석. (최소 제곱 회귀, 로지스틱 회귀, 비례 위험 (Cox) 회귀 등) 결과 변수의 유형에 따라 여러 유형의 회귀 모델이 있습니다. 관측 연구에서 실험과는 달리, 우리는 거의 항상 잠재적 인 많은 confounders에 대해 조정하기를 원하므로 실제로 confounder에 대한 조정 / 제어는 회귀 분석에 의해 종종 수행되지만 표준화, 가중치, 성향과 같은 다른 대안도 있습니다. 점수 일치 …
답변
Onestop은 그것을 잘 설명했습니다. 데이터를 구성하여 간단한 R 예제를 제공합니다. x가 체중이고 y가 신장이라고 말하면 남성과 여성의 차이가 있는지 확인하고 싶습니다.
set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)
체중을 조절하지 않고 (anova (lm1)에서) 성별 사이에는 차이가 거의 없지만, 체중이 공변량 (lm2로 제어 됨)으로 포함되면 그 차이가 더 분명해집니다.
#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)