나는 때때로 진화론 / 생태학 논문을 많이 읽었으며, 때로는 교과서 외부에서 통계가 실제 세계에서 어떻게 사용되는지를보고자하는 목표를 가지고있었습니다. 나는 보통 논문의 통계를 복음으로 삼고이 논문을 사용하여 통계 학습에 도움을줍니다. 결국, 논문을 작성하는 데 몇 년이 걸리고 엄격한 동료 검토를 거친다면 통계는 확실히 견고 할 것입니까? 그러나 지난 며칠 동안 나는 나의 가정에 의문을 제기하고 학술 논문에 발표 된 통계 분석이 얼마나 자주 의심되는지 궁금해 했습니까? 특히 생태학과 진화와 같은 분야의 사람들은 통계를 배우는 데 더 많은 시간을 소비하고 그들의 분야를 배우는 데 더 많은 시간을 소비했을 것으로 예상됩니다.
사람들은 학술 논문에서 얼마나 자주 의심스러운 통계를 찾습니까?
답변
결국, 논문을 작성하는 데 몇 년이 걸리고 엄격한 동료 검토를 거친다면 통계는 확실히 견고 할 것입니까?
다양한 영역 (정치 과학, 경제, 심리학, 의학, 생물학, 재무, 보험 계리 학, 회계, 광학, 천문학 및 기타 여러 분야)에 걸쳐 통계를 적용하려는 논문을 읽은 경험은 통계적 분석은 훌륭하고 잘 수행 된 것에서부터 엄청나게 난센스에 이르기까지 스펙트럼의 어느 곳에 나있을 수 있습니다. 나는 내가 언급 한 모든 영역에서 좋은 분석을 보았고 거의 모든 영역에서 분석을 제대로 수행하지 못했습니다.
일부 저널은 일반적으로 꽤 좋고 일부는 눈가리개로 다트를 치는 것과 비슷할 수 있습니다. 대부분의 저널은 목표에서 너무 멀리 떨어지지 않지만 벽, 바닥 및 천장에는 몇 개가 있습니다. 그리고 아마도 고양이 일 수도 있습니다.
나는 범인의 이름을 밝힐 계획은 없지만, 잘못된 통계 사용으로 인해 학문적 경력을 쌓았다 고 말할 것입니다 (즉, 종이 이후에도 같은 실수와 오해가 종이에서 10 년 이상 반복되는 경우).
그래서 나의 충고는 독자가주의해야한다는 것입니다 . 편집자와 동료 검토자가 자신이하는 일을 알고 있다고 믿지 마십시오. 시간이 지남에 따라 어떤 충격적인 일을하지 않기 위해 일반적으로 어떤 저자가 의지 할 수 있는지, 특히 어떤 사람들이 특히주의해서 다루어야하는지에 대해 잘 이해할 수 있습니다. 일부 저널은 일반적으로 통계에 대해 매우 높은 표준을 가지고 있음을 알 수 있습니다.
그러나 일반적으로 훌륭한 저자라도 실수를하거나 심판과 편집자가 일반적으로 발견 할 수있는 오류를 찾지 못할 수 있습니다. 일반적으로 좋은 저널은 짖는 짐승을 출판 할 수 있습니다.
[때로는 실제로 나쁜 논문이 상이나 상을 수상하는 것을 보게 될 것입니다. 상을 심사하는 사람들의 질에 대해서는 그다지 언급하지 않습니다.]
나는 내가 볼 수있는 “나쁜”통계의 일부 (다양한 모습으로, 질문, 연구 설계, 데이터 수집, 데이터 관리 등을 정의하는 모든 단계에서 …까지)를 추측하고 싶지 않다. 분석 및 결론), 그러나 편안하다고 느낄만큼 작지는 않습니다.
나는 예를 지적 할 수는 있지만 이것이 이것이 올바른 포럼이라고 생각하지 않습니다. ( 실제로 좋은 포럼 이 있다면 좋을 것입니다 . 그러나 다시 한 번, 매우 빨리 “정치화”되어 곧 그 목적을 달성하지 못할 것입니다.
나는 PLOS ONE을 통해 트롤링하는 데 시간을 보냈습니다 … 그리고 다시, 특정 논문을 가리 키지 않을 것입니다. 내가 알아 차린 것들 : 많은 논문이 통계를 가지고있는 것 같습니다. 아마도 반 이상이 가설 검증을받은 것 같습니다. 주요 위험은 각 테스트에서 0.05와 같은 높은 를 사용하는 많은 테스트 인 것 같습니다 (실제로 작은 효과가 우연히 나타날 수 있음을 이해하는 한 자동 문제는 아닙니다). 낮은 개인의 유의 수준, 낮은 전력을 제공하는 경향이 있습니다. 또한 약 6 가지의 다른 테스트가 수행 되는 여러 사례를 보았습니다.
똑같은 질문을 해결하는 데 분명히 적용되었습니다. 이것은 일반적으로 나쁜 생각으로 나를 파업합니다. 전반적으로이 표준은 수십 개의 논문에 걸쳐 꽤 좋았지 만 과거에는 절대적으로 끔찍한 논문을 보았습니다.
[아마도 나는 단지 하나의 예에 간접적으로 빠질 수 있었다. 이 질문 은 아주 모호한 일을하는 사람에게 묻습니다. 내가 본 최악의 상황과는 거리가 멀다.]
다른 한편으로, 나는 사람들이 모든 종류의 불필요한 굴렁쇠를 뛰어 넘어 분석을 받아 들여야하는 경우가 더 많습니다 (더 자주). 리뷰어, 편집자 또는 감독자에 따라 또는 특정 영역의 무언의 문화에 따라 작업을 수행하는 “올바른”방법이 있기 때문에 완벽하게 합리적인 작업은 허용되지 않습니다.
답변
나는 여기에 대답하는 올바른 방법에 대한 @Glen_b의 입장을 존중하지만 (그리고 분명히 그것을 방해하지는 않을 것입니다), 나는 내 집에 가까운 특히 재미있는 예를 가리키는 것에 저항 할 수는 없습니다. 상황을 정치화하고이 질문의 목적을 달성 할 위험이 있으므로 Wagenmakers, Wetzels, Boorsboom 및 Van Der Maas (2011)를 추천 합니다. 나는인지 과학 베타 SE ( 인지 과학이받는 사람의 먼 의도와 뇌 기능을 어떻게 설명 하는가? ) 관련 게시물에서 이것을 인용했다. 이것은 “고양이를 때리는 다트”의 다른 예를 고려한다. Wagenmakers와 동료의 기사는 실제 “짖는 소리”에 대해 직접 언급합니다 : 그것은 JPSP ( 심리학에서 가장 큰 저널 중 하나)에 출판되었습니다.) 몇 년 전. 그들은 또한 베이지안 분석에 찬성하여 더 일반적으로 주장한다.
논란의 여지가있는 주장에 대해 회의적인 청중을 설득하기 위해서는 엄격하게 확증적인 연구를 수행하고 결과를 자유주의보다는 보수적 인 통계 테스트로 분석해야합니다.
나는 이것이 합창단을 설교하는 것과 정확히 맞지 않았다는 것을 말할 필요가 없습니다. FWIW에는 반박도 있지만 (베이지안과 잦은 사람들 사이에 항상있는 것처럼 보인다.) ( Bem, Utts, & Johnson, 2011 ) , 나는 그것이 논쟁을 정확히 점검하지 않았다는 느낌을 받는다 .
과학 공동체로서의 심리학은 최근에 이와 같은 다른 방법 론적 단점으로 인해 약간의 복제가 시작되었습니다. 기타 의견은 여기에 한 번으로 알려져있는 것과 유사한 경우를 가리 사회 신경 과학 부두 상관 관계 (방법 이 정치적으로 올바르지가 BTW 용지가 다시 제목을 붙 된에 대한;? Vul, 해리스, Winkielman, Pashler, 2009 ). 그것 역시 반박을 불러 일으켰으며 , 논쟁의 여지가 많은 관행에 대한 더 많은 토론을 확인할 수 있습니다.
(의사) 통계학자가 잘못 행동하는 (더 비 개인화 된) 비용에 대한 더 많은 교육을 받으려면 CV에 관한 현재 여덟 번째로 많이 제기 된 질문을 다른 정치적으로 부정확 한 제목 인 ” 일반적인 통계적 죄는 무엇입니까? ” @MikeLawrence는 심리학과 통계에 대한 병행 연구에서 영감을 얻었습니다. 그것은 내가 개인적으로 좋아하는 것 중 하나이며, 그 대답은 수많은 함정을 피하는 데 매우 유용합니다.
개인적으로, 나는 지난 5 개월 동안 많은 부분을 주로 보냈습니다. 특정 데이터 분석 질문에 대한 견고한 통계를 얻는 것은 놀랍지 않기 때문입니다. 솔직하게, 특히 복잡한 질문과 많은 유행병 합병증을 가진 젊은 과학 연구의 통계적 조사 측면에서 동료 검토는 전혀 엄격하지 않습니다. 따라서 저는 제 작업에서 분석법을 연마하는 데 개인적 책임을 져야 할 필요성을 느꼈습니다.
논문 연구를 발표 하면서 통계 조사에 대한 개인적인 책임이 얼마나 중요한지를 알게되었습니다. 내 교 배관의 뛰어난 심리학자 두 명이 상관 관계 해석에서 가장 기본적인 죄 중 하나를 저지르고 있다고 말했습니다 . 나는 그 자신에 대해 스스로 생각하고 이미 여러 번 학부생들에게 강의를했지만 여전히 그곳에 가서 전화를 받았습니다 (초기에는 감사합니다). 나는 연구를 검토하고 복제하기 때문에 거기에 갔다! 그래서 나는 논문에 여러 섹션을 추가했다 그것은 다른 실험자들을 준 실험적 종 방향 연구 (때때로 횡단면 상관 관계)로부터 인과성을 가정하고 대안적인 설명을 조기에 무시하는 다른 연구자들을 불러 냈다.
저의 논문은 다른 뛰어난 심리학자와 곧 SPSP (JPSP를 발표 함)를 포함하는위원회의 수정없이 받아 들여졌지만 다시 한 번 솔직하게 말하고는 자랑스럽지 않습니다. 이후 완벽하게 좋은 검토 자와 함께 외부 검토 프로세스를 통과했지만 내 방법으로 여러 토끼 구멍 을 찌를 수있었습니다 . 이제 SEM, IRT 및 비모수 분석과 같은 리 커트 등급의 예측 모델링에 더 적합한 방법을 사용하여 통계를 연결하려고 시도하면서 통계의 최종 단계에 들어 섰습니다 ( 차원 축소 후 회귀 테스트 참조).). 나는 자발적으로 대신에 그대로 출판 할 수있는 논문에 몇 년을 보내려고 선택하고있다. 나는 양심적으로 진행하기 전에해야 할 시뮬레이션 연구도 남아 있다고 생각한다.
그러나 나는 이것이 선택 사항이라고 강조합니다. 출판 경력이있는 출판 문화에서 종종 지나치게 경력이 많고 값 비싼 고급 스러움이있는 경우가 많습니다. 서수 데이터의 가정 위반에 대한 연속 데이터에 대한 파라 메트릭 모델을 잘못 적용하는 것은 통계적 의미의 잘못된 해석 및 잘못된 표현과 마찬가지로 필자의 분야에서는 너무 흔하다 ( p- 값에 대한 견해를 수용 함 참조 ). 나는 그것을 완전히 (단기적으로) 벗어날 수 있었고 … 그보다 더 잘하는 것이 전부는 아닙니다. 그래도 R 프로그램에서 최근 몇 년 동안 놀라운 발전을 거두어 고맙다고 생각합니다! 시간이 바뀌길 바라고 있습니다.
참고 자료
· Bem, DJ, Utts, J., & Johnson, WO (2011). 심리학자들이 데이터 분석 방식을 바꿔야합니까? 성격 및 사회 심리학 저널, 101 (4), 716–719. http://deanradin.com/evidence/Bem2011.pdf 에서 검색했습니다 .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). 감정, 성격 및 사회적인지에 대한 fMRI 연구에서 당연히 높은 상관 관계. 심리학에 대한 관점, 4 (3), 274–290. http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf 에서 검색했습니다 .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. & Van der Maas, H. (2011). 심리학자들이 데이터 분석 방식을 변경해야하는 이유 : psi의 경우. 성격 및 사회 심리학 저널, 100 , 426–432. http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf 에서 검색했습니다 .
답변
나는 대학에서 소수의 데이터 포인트를 가진 프로젝트에 대해 평균을 계산하는 방법에 대해 여러 차례에 걸쳐 여러 차례에 걸쳐 사회 과학 학생들이 질문을 한 것을 기억합니다. (그래서 그들은 계산기를 사용하여 수학을 수행하는 방법이라는 개념만으로 소프트웨어 사용에 문제가 없었습니다.)
내가 원하는 유형의 평균을 물었을 때 그들은 단지 빈 모습을 보여줍니다.
그러나 그들은 모두 보고서에 일부 통계를 넣을 필요가 있다고 느꼈습니다. 통계가 무엇인지에 대해 생각하지 않고 통계가 포함 된 101 개의 논문을 읽었을 것으로 기대합니다.
3 년 동안 그들에게 가르친 연구원은 학생들에 대한 이해를 풀기에 충분한 통계의 정확성에 관심이 없었습니다.
(저는 당시 컴퓨터 과학 학생이었습니다. 의견이 길기 때문에 답변으로 게시하고 있습니다.)
답변
불완전하게 불완전한 목록으로, 나는 1) 물리학 논문에서 2) 통계학 논문에서 가장 자주 올바른 통계를 발견하고 3) 의학 논문에서 가장 비참합니다. 그 이유는 간단하며 각 분야의 프로토 타입 모델에 부과 된 요구 사항의 완전성과 관련이 있습니다.
물리 논문에서 방정식과 응용 통계는 균형 잡힌 단위에주의를 기울여야하며 인과 관계가 가장 자주 발생하고 물리적 표준에 대한 테스트를 수행해야합니다.
통계에서, 1) 단위와 인과 관계는 때때로 무시되고, 가정은 때로는 휴리스틱하고, 물리적 테스트는 너무 자주 무시되지만, 평등 (또는 불평등), 즉 논리는 일반적으로 유도 경로를 따라 보존됩니다. 비 물리적 가정.
의학에서, 일반적으로 단위는 무시되고, 방정식과 가정은 일반적으로 휴리스틱하고, 일반적으로 테스트되지 않고 자주 가짜입니다.
당연히 통계 역학과 같은 분야는 경제학보다 시험 가능한 가정을 가질 가능성이 높으며, 이는 해당 분야의 예비 저자의 재능에 반영되지 않습니다. 실제로 수행 할 수있는 작업의 양과 실제로 각 필드에서 수행 된 테스트 수와 관련이 있습니다.
답변
Null Null 가설을 반증하는 모든 논문은 쓸모없는 통계 (내가 본 것의 대다수)를 사용하고 있습니다. 이 프로세스는 효과 크기로 아직 제공되지 않은 정보를 제공 할 수 없습니다. 또한 중요한 결과가 실제로 연구원에 의해 이론화 된 원인에 의한 것인지 여부에 대해서는 아무 것도 알려주지 않습니다. 이것은 혼란의 증거를 위해 데이터에 대한 신중한 조사가 필요합니다. 대부분의 경우이 증거 중 가장 강력한 것이 “이상 값”으로 버려집니다.
나는 진화론 / 생태학에 익숙하지 않지만, 정신과 의학 연구의 경우 통계적 이해 수준을 “심각하게 혼란스러워”하고 “과학 진보에 장애”라고 부를 것이다. 사람들은 그들의 이론에 의해 예측 된 것을 반대가 아닌 반대 의견으로 반증해야한다 (차이 / 영향 없음).
이 주제에 대해 수천 편의 논문이 작성되었습니다. NHST 하이브리드 논쟁을 찾아보십시오.
편집 : 그리고 닐 null 가설 유의성 검정의 과학 값이 최대 0임을 의미합니다. 이 사람은 머리에 못을 박았습니다.
또한 : Paul Meehl. 1967. 심리학과 물리학 이론 시험 : 방법 론적 역설
편집 3 :
누군가가 “온난화 율이 같다는 가설을 거부하지만 온난화 율이 같다는 것을 암시하지 마십시오” 라고 생각할 필요가없는 strawman NHST의 유용성에 찬성 하는 주장 이 있다면 합리적입니다. 진술, 나는 당신의 의견을 환영합니다.
편집 4 :
Fisher는 다음 인용문에서 무엇을 의미 했습니까? “모델 / 이론 A가 데이터와 호환되지 않는 경우 A가 거짓이라고 말할 수 있지만 A가 참 인지 아닌지에 대해서는 아무것도 모른다”고 생각 했습니까?
“과학 노동자에 대한 통계 시험의 관심은 전적으로 관찰과 양립 할 수없는 것으로 판단되는 가설을 기각하는 데 사용하는 데 전적으로 의존한다는 것이 확실하다.”
…
따라서, 유의미한 검정이 정확하게 사용될 때 가설을 기각 또는 무효화 할 수 있다는 것이 일반적으로 이해된다면 유의성 검정이 고려 되는 명확성을 크게 추가 할 것이다. ; 그러나 그들이 확실히 사실로 그들을 설립 할 수 없다
통계 테스트에 관한 Karl Pearson과 RA Fisher : 1935 년 자연과의 교류
그는 사람들이 밀짚 꾼이 아닌 그럴듯한 가설을 무효화하려한다고 가정 했습니까? 아니면 내가 틀렸어?