태그 보관물: multiple-comparisons

multiple-comparisons

소 표본 연구에서 탐색 적 데이터 분석 및 데이터 준설에 대처하는 방법은 무엇입니까? 우울증 /

탐색 적 데이터 분석 (EDA)은 종종 초기 가설 세트에 속하지 않는 다른 “트랙”을 탐색하게한다. 나는 제한된 표본 크기와 다른 설문지 (사회 인구 통계학 데이터, 신경 심리학 또는 의료 규모-정신 또는 신체 기능, 우울증 / 불안 수준, 증상 검사 목록)를 통해 수집 된 많은 데이터를 가진 연구의 경우 그러한 상황에 직면합니다. ). EDA는 추가적인 질문 / 가설로 해석되는 예기치 않은 관계 ( “예기치 않은”관계가 초기 분석 계획에 포함되지 않았 음을 의미 함)를 강조하는 데 도움이됩니다.

과적 합의 경우와 마찬가지로 데이터 준설 또는 스누핑 은 일반화되지 않은 결과를 초래합니다. 그러나, 많은 데이터가 이용 가능할 때, 연구 자나 의사는 제한된 가설을 가정하는 것이 매우 어렵다.

소 표본 연구의 경우 EDA를 설명하는 데 도움이 될 수있는 잘 알려진 방법, 권장 사항 또는 경험 법칙이 있는지 알고 싶습니다.



답변

EDA에서 예상치 못한 결과였으며 선험적 가설을 기반으로 한 초기 분석 계획의 일부가 아니라는 결과를보고 할 때 가장 중요한 것은 정직하다고 생각합니다 . 일부 사람들은 이러한 결과에 ‘가설 생성’이라는 라벨을 붙이기를 좋아합니다. 예를 들어 Google Scholar에서이 문구를 검색 하면 첫 번째로 적중 한 내용 초록의 결론 섹션에 다음과 같습니다.

이것이 “탐사”분석 이었으므로이 효과는 다른 시험에서 가설을 생성하고 전향 적으로 평가해야합니다 …

비록 이것이 사후 하위 그룹 분석 이었음에도 불구하고, 문제를 악화시키는 관측 연구가 아닌 무작위 대조 시험에 의한 것이 었습니다. 필립 콜 (Philip Cole)은 관찰 적 ( ‘역학적’) 연구가 의도적으로 도발적이지만 재미있는 논평에서 가설을 생성 할 수 있다는 생각에 경멸을 부었습니다.

P 콜. 가설 생성 기계. 역학 1993; 4 : 271-273.


답변

관심있는 독자를위한 데이터 준설임상 연구에 대한 참고 자료를 삭제했습니다 . 이것은 @onestop 의 훌륭한 답변 을 확장하기위한 것 입니다. 여러 개의 엔드 포인트와 연구에 도전 현재와 길이에 대한 로스의 주장 이후 논란이 토론 (계속하지만, 단지 여러 비교 또는 디자인 문제에 초점을 맞춘 기사를 피하기 위해 노력 쓸모 조정 , 역학 1990, 1 : 43 ~ 46; 또는 Feise의 리뷰를 참조 BMC를 의료 연구 방법론 2002, 2 : 8).

내 이해는 비록 탐색 적 데이터 분석에 대해 이야기했지만 내 질문은 일반적으로 가설 기반 테스트와 병행하여 잠재적 인 함정과 함께 데이터 마이닝의 사용을 다루는 것입니다.

  1. Koh, HC 및 Tan, G (2005). 헬스 케어의 데이터 마이닝 애플리케이션 . 의료 정보 저널 , 19 (2), 64-72.
  2. JPA 이오 아니 디스 (2005). 대부분의 출판 된 연구 결과가 거짓 인 이유 . PLoS Medicine , 2 (8), e124.
  3. Anderson, DR, Link, WA, Johnson, DH 및 Burnham, KP (2001). 데이터 분석 결과 제시를위한 제안 . 야생 동물 관리 저널 , 65 (3), 373-378. 이것은 초기 가설을 넘어 데이터 중심의 탐색 / 모델링을 인정해야한다는 사실에 대한 @onestop의 의견을 반영합니다.
  4. Michels, KB 및 Rosner, BA (1996). 데이터 트롤링 : 낚시하기 또는 낚시하기 . 랜싯 , 348, 1152-1153.
  5. Lord, SJ, Gebski, VJ 및 Keech, AC (2004). 임상 실험에서 다중 분석 : 건전한 과학 또는 데이터 준설? . 호주의 의학 저널 , 181 (8), 452-454.
  6. Smith, GD and Ebrahim, S (2002). 데이터 준설, 편견 또는 혼란 . BMJ , 325, 1437-1438.
  7. Afshartous, D and Wolf, M (2007). 다단계 및 혼합 효과 모델 ‘스누핑 데이터’를 방지 . 왕립 통계 학회지 A , 170 (4), 1035–1059
  8. Anderson, DR, Burnham, KP, Gould, WR 및 Cherry, S (2001). 실제로 가짜 효과를 찾는 것에 대한 우려 . Widlife Society Bulletin , 29 (1), 311-316.

답변