통계적 관점에서 관찰 연구에서 성향 점수를 사용하여 인과 관계를 유추 할 수 있습니까? 연구 (

질문 : 통계 학자 (또는 실무자)의 입장에서 , 관찰 연구 ( 실험이 아닌)에서 성향 점수 를 사용하여 인과성을 추론 할 수 있습니까?

화염 전쟁이나 광적인 토론을 시작하고 싶지 않습니다.

배경 : stat PhD 프로그램 내에서 우리는 실무 그룹과 몇 가지 주제 세션을 통해 인과 추론에 대해서만 다루었습니다. 그러나 다른 부서 (예 : HDFS, 사회학)에는 이들을 적극적으로 사용하는 저명한 연구원이 있습니다.

나는 이미이 문제에 대한 꽤 열띤 논쟁을 목격했다. 여기서 시작하려는 것이 아닙니다. 즉, 어떤 참조를 만났습니까? 어떤 견해가 있습니까? 예를 들어, 인과 추론 기술로서 성향 점수에 대해 들었던 한 가지 주장은 생략 된 변수 바이어스로 인해 인과 관계를 결코 추론 할 수 없다는 것입니다. 중요한 것을 빼면 인과 관계가 끊어집니다. 이 문제를 해결할 수 없습니까?

면책 조항 : 이 질문에는 정답이 없을 수도 있습니다 .cw를 클릭하면 완전히 멋지지만 개인적으로 답변에 관심이 있으며 실제 사례를 포함하는 몇 가지 좋은 참고 문헌에 만족합니다.



답변

전염병학에서 PS의 사용을 촉진하기위한 논문의 시작 부분에서, Oakes and Church (1)는 역학에서의 혼란 효과에 대한 Hernán과 Robins의 주장을 인용했다 (2).

관측 연구 결과가 측정되지 않은 혼란에 의해 영향을받지 않는다는 것을 보장 할 수 있습니까? 역학자가 제공 할 수있는 유일한 대답은 ‘아니요’입니다.

이것은 우리가 관찰 연구의 결과가 편견이 없거나 쓸모 없다는 것을 보장 할 수 없다는 것 (@propofol이 말했듯이 결과가 RCT를 설계하는데 유용 할 수 있기 때문에)을 보장 할 수는 없으며, PS가 이것에 대한 완전한 해결책을 제공하지는 않는다 문제가 있거나 적어도 다른 매칭 또는 다변량 방법보다 더 나은 결과를 얻을 수있는 것은 아닙니다 (예 : (10) 참조).

성향 점수 (PS)에 의해 구성이다 확률 하지 인과 표시기. 말한 것처럼 성향 점수 기능을 입력 공변량의 선택은 주로 (회고 또는 꽤 가능성이있는 관측 혼란 변수를 통제하지에서 스탠드, 신뢰성, 그들의 약점을 보장하기위한 핵심 요소입니다 환자 – 대조군 연구) . 다른 요인들도 고려해야한다 : (a) 모형의 부정확성은 직접 효과 추정에 영향을 미치지 만 (실제로 OLS의 경우보다 많지 않다), (b) 공변량 수준에서 데이터가 누락 될 수있다. (c) PS는 인과 해석에 영향을 미치는 것으로 알려진 시너지 효과를 극복하지 못한다 (8,9).

참고로 로저 뉴슨의 슬라이드 인과성, 혼란, 성향 점수 는 성향 점수 사용의 장단점에 대한 실제 연구 결과와 비교적 균형이 잘 맞았습니다. 2 년 전 의학 통계학에서 관측 연구 또는 환경 역학에서 성향 점수의 사용에 관해 논의한 몇 가지 좋은 논문도 있었다, 그리고 나는 마지막에 그들 중 몇 개를 동봉합니다 (3-6). 그러나 나는 인과 관계 문제에 대한 더 큰 관점을 제공하기 때문에 Pearl의 검토 (7)를 좋아한다 (PS는 117 및 130 페이지에서 논의 됨). 응용 연구를 보면 더 많은 그림을 찾을 수 있습니다. Andrew Gelman의 웹 사이트 (11,12)를 방문한 William R Shadish의 최근 기사 2 개를 추가하고 싶습니다. 성향 점수의 사용에 대해 논의하지만, 두 논문은 관찰 연구에서 인과 적 추론 (그리고 무작위 설정과 비교하는 방법)에 더 중점을두고 있습니다.

참고 문헌

  1. Oakes, JM and Church, TR (2007). 초청 해설 : 역학의 성향 점수 방법 향상 . 미국 역학 저널 , 165 (10), 1119-1121.
  2. Hernan MA와 Robins JM (2006). 인과 추론을위한 도구 : 역학자의 꿈? 역학 , 17, 360-72.
  3. Rubin, D. (2007). 인과 적 영향에 대한 관찰 연구의 설계 대 분석 : 무작위 시험의 설계와 평행 . 의학 통계 , 26, 20–36.
  4. Shrier, I. (2008). 편집자에게 보내는 편지 . 의학 통계 , 27, 2740–2741.
  5. 진주, J. (2009). 성향 점수 방법에 대한 설명 . 의학 통계 , 28, 1415–1424.
  6. EA 스튜어트 (2008). 성향 점수 사용에 대한 실질적인 권장 사항 개발 : Peter Austin의 ‘1996 ~ 2003 년 의료 문헌에서 성향 점수 일치에 대한 비판적 평가’에 대한 토론 . 의학 통계 , 27, 2062–2065.
  7. 진주, J. (2009). 통계의 인과 추론 : 개요 . 통계 조사 , 3, 96-146.
  8. Oakes, JM and Johnson, PJ (2006). 사회적 역학에 대한 성향 점수 일치 . 에서는 사회 역학 방법 , JM 오크스 및 S. 카우프만 (에디션.), PP. 364-386. 조세 즈베이스.
  9. Höfler, M (2005). 반 사실에 근거한 인과 추론 . BMC 의료 연구 방법론 , 5, 28.
  10. Winkelmayer, WC 및 Kurth, T. (2004). 성향 점수 : 도움 또는 과대 광고? 신장 투석 이식 , 19 (7), 1671-1673.
  11. Shadish, WR, Clark, MH 및 Steiner, PM (2008). 비 랜덤 화 실험으로 정확한 답변을 얻을 수 있습니까? 랜덤 및 랜덤하지 않은 할당을 비교하는 무작위 실험 . JASA , 103 (484), 1334-1356.
  12. Cook, TD, Shadish, WR 및 Wong, VC (2008). 실험과 관측 연구가 비슷한 인과 적 추정치를 생성하는 3 가지 조건 : 연구 내 비교에서 새로운 발견 . 정책 분석 및 관리 저널 , 27 (4), 724–750.

답변

성향 점수는 일반적으로 일치하는 문헌에 사용됩니다. 성향 점수는 치료 전 공변량을 사용하여 치료를받을 확률을 추정합니다. 본질적으로, 회귀 (정규적인 OLS 또는 로짓, 프로 빗 등)는 결과 및 전처리 변수가 공변량이므로 치료에 대한 성향 점수를 계산하는 데 사용됩니다. 성향 스코어의 양호한 추정치가 획득되면, 유사한 성향 스코어를 갖지만 상이한 치료를받은 대상체는 서로 매칭된다. 치료 효과는이 두 그룹 간의 평균 차이입니다.

Rosenbaum and Rubin (1983)은 성향 점수 만 사용하여 치료 및 대조 대상을 일치시키는 것이 점수를 구성하는 데 사용 된 관찰 된 전처리 공변량으로부터 유래 된 치료 효과의 추정치에서 모든 편향을 제거하기에 충분하다는 것을 보여준다. 이 증거는 추정치보다 실제 성향 점수를 사용해야합니다. 이 접근법의 장점은 여러 차원 (각 전처리 공변량에 대해 하나씩)에서 일치하는 문제를 일 변량 일치 사례로 대폭 단순화한다는 것입니다.

Rosenbaum, Paul R. 및 Donald B. Rubin. 1983. ” 인과 적 영향에 대한 관측 연구에서 성향 점수의 중심적 역할 .” Biometrika. 70 (1) : 41–55.


답변

예비 무작위 배정 시험 만이 인과 관계를 결정할 수 있습니다. 관측 연구에서, 측정되지 않거나 알려지지 않은 공변량이 발생할 가능성이 항상있어 인과 관계를 상승시키는 것은 불가능합니다.

그러나 관측 시도는 x와 y 사이의 강한 연관성을 보여줄 수 있으므로 가설 생성에 유용합니다. 이 가설은 무작위 시험으로 확인해야한다.


답변

이 질문에는 실제로 별도로 고려해야 할 두 가지가 포함됩니다. 첫 번째는 관측 연구에서 인과 관계를 유추 할 수 있는지 여부이며, 펄 (2009)의 관점을 대조 할 수있다. 실험 분야에서 많은 동맹국을 발견하고 Gerber et al (2004)의 글 (모호하지만 애매하지만 좋은) 에세이로 표현 된 생각을 공유 할 수있다. 둘째, 관측 데이터에서 인과 관계가 유추 될 수 있다고 생각한다고 가정 할 때 성향 점수 방법이 유용한 지 궁금 할 수 있습니다. 성향 스코어 방법에는 다양한 컨디셔닝 전략 및 역 성향 가중치가 포함됩니다. 좋은 리뷰는 Lunceford와 Davidian (2004)이 제공합니다.

그러나 약간의 주름 : 성향 점수 매칭 및 가중치는 예를 들어 “간접 효과”계산에 관심이 있고 잠재적으로 비 랜덤 마멸 또는 탈락 문제가있는 경우 무작위 실험의 분석에도 사용됩니다 ( 어떤 경우에 당신은 관찰 연구와 유사합니다).

참고 문헌

거버 A, 등. 2004. “관찰 연구로부터의 착각.” Shapiro I 외 , Cambridge University Press 의 정치학 연구 문제 및 방법 .

Lunceford JK, Davidian M. 2004. “인과 적 치료 효과의 추정에서 성향 점수를 통한 계층화 및 가중치 : 비교 연구.” 의학 통계 23 (19) : 2937-2960.

Pearl J. 2009. Causality (제 2 판) , Cambridge University Press.


답변

기존의 지혜는 무작위 통제 실험 ( “실제”실험) 만이 인과성을 식별 할 수 있다고 말합니다 .

그러나 그렇게 간단하지 않습니다.

무작위 추출이 충분하지 않은 한 가지 이유는 “작은”표본에서 많은 수의 법칙이 각각의 모든 차이가 균형을 이루도록 “충분히 강하지”않기 때문 입니다. 문제는 “너무 작습니다”는 언제 시작하고 “충분히 큰”것입니까? Saint-Mont (2015)는 여기서 “충분히 큰”것이 수천에서 시작될 수 있다고 주장 합니다 (n> 1000)!

결국, 차이점은 그룹 간 차이의 균형을 잡고 차이를 제어하는 ​​것입니다. 따라서 실험에서도 그룹 간 차이의 균형을 유지하기 위해 세심한주의를 기울여야합니다. Saint-Mont (2015)의 계산에 따르면 작은 샘플에서는 일치하는 (수동으로 균형 잡힌) 샘플을 사용하는 것이 훨씬 나을 수 있습니다.

확률에 관해서. 물론, 확률이 극단적이 아니면 (0 또는 1이 아닌 한) 확률은 결정적인 해답을 줄 수 없습니다 . 그러나 과학에서 우리는 상황이 어려워서 결정적인 해답을 제공 할 수없는 상황에 자주 직면한다는 것을 알았습니다. 따라서 확률의 필요성. 가능성은 진술에 불확실성을 표현하는 방법에 지나지 않습니다. 따라서 논리와 유사합니다. Briggs (2016) here 참조 .

따라서 확률은 우리에게 도움이되지만 결정적인 대답은하지 않을 것입니다. 그러나 그것은 불확실성을 표현하는 데 큰 도움이됩니다.

또한 인과 관계는 주로 통계적인 질문이 아닙니다. 두 의미가 “상당히”다르다고 가정하자. 그룹화 변수가 측정 변수의 차이의 원인이라는 것을 의미하지 않습니까? 아니요 (필요하지는 않습니다). 성향 점수, p- 값, Bayes Factors 등 어떤 통계 통계를 사용하든 관계없이 이러한 방법은 인과 적 주장을 뒷받침하기에 충분하지 않습니다.


답변