Joel Spolsky의“Snark 사냥”은 유효한 통계 컨텐츠 분석 이후입니까? 미국인이 뉴스

최근에 커뮤니티 게시판을 읽고 있다면 StackExchange 네트워크의 CEO Joel Spolsky의 공식 StackExchange 블로그 게시물 인 Snark의 사냥 (Hunting of the Snark)을 보셨을 것입니다. 그는 외부 사용자의 관점에서 “친숙성”을 평가하기 위해 SE 의견 샘플에 대해 수행 된 통계 분석에 대해 설명합니다. 의견은 StackOverflow에서 무작위로 추출되었으며 컨텐츠 분석가는 저렴한 비용으로 작고 짧은 작업을 수행하는 근로자와 회사를 연결 하는 업무 시장 인 Amazon Mechanical Turk 커뮤니티의 회원이었습니다 .

얼마 전 저는 정치학 대학원생이었고 제가 강의하는 과목 중 하나는 통계적 내용 분석 이었습니다. 이 클래스의 최종 프로젝트는 실제로 전체 목적으로 뉴욕 타임즈의 전쟁 보도에 대한 자세한 분석 을 수행하여 전쟁 중에 미국인이 뉴스 보도에 대해 가정하는 많은 가정이 정확한지 여부를 테스트하는 것이 었습니다 (스포일러 : 증거는 그들이 아니). 이 프로젝트는 거대하고 상당히 재미 있었지만, 가장 고통스러운 부분은 ‘훈련 및 신뢰성 테스트 단계’로, 전체 분석을 수행하기 전에 발생했습니다. 그것은 두 가지 목적을 가졌다 (내용 분석 통계 문헌에서 인터 코더 신뢰성 표준에 대한 참조와 자세한 설명은 링크 된 논문의 9 페이지 참조).

  1. 모든 코더, 즉 컨텐츠의 독자가 동일한 질적 정의에 대해 교육을 받았는지 확인하십시오. Joel의 분석에서 이것은 모든 사람들이 프로젝트가 어떻게 “친절하고”친근하지 않다고 정의했는지 정확히 알 수 있음을 의미했습니다.

  2. 모든 코더가 이러한 규칙을 안정적으로 해석했는지 확인합니다. 즉, 샘플을 샘플링하고 부분 집합을 분석 한 다음 정 성적 평가에 대한 쌍별 상관 관계를 통계적으로 입증했습니다.

안정성 테스트는 3-4 회 수행해야했기 때문에 피해를 입었습니다. -1-이 고정되고 -2-가 충분히 높은 쌍별 상관 관계를 보일 때까지 전체 분석에 대한 결과가 의심되었습니다. 유효하거나 유효하지 않다는 것을 증명할 수 없습니다. 가장 중요한 것은 최종 샘플 세트 전에 안정성의 파일럿 테스트를 수행해야했습니다.

내 질문은 이것입니다. Joel의 통계 분석에는 파일럿 신뢰성 테스트가 없었으며 “친 화성”에 대한 운영상의 정의를 확립하지 못했습니다. 최종 결과는 그의 결과의 통계적 타당성에 대해 말할 정도로 신뢰할 만했습니까?

한 가지 관점에서, 인터 코더 신뢰성과 일관된 운영 정의가치 에 대한이 입문서를 고려하십시오 . 동일한 소스에서 자세히 살펴보면 파일럿 신뢰성 테스트 (목록의 항목 5)에 대해 읽을 수 있습니다 .

그의 대답에서 앤디 W.의 제안 당, 내가있는 데이터 세트에 신뢰성 다양한 통계 계산을 시도하고있어 , 여기에 해당 이 사용하는 명령 시리즈 R에 (I 새로운 통계를 산출 갱신을).

설명 통계는 여기

백분율 동의 (허용 오차 = 0) : 0.0143

백분율 합의 (허용 오차 = 1) : 11.8

크리 펜 도르프의 알파 : 0.1529467

또한 다른 질문 에서이 데이터 대한 항목-응답 모델을 시도했습니다 .



답변

백분율 합의 (허용 오차 = 0) : 0.0143

백분율 합의 (허용 오차 = 1) : 11.8

크리 펜 도르프의 알파 : 0.1529467

이러한 합의 조치는 실질적으로 범주 적 합의가 없음을 나타냅니다. 각 코더는 주석을 “친절한”또는 “친절하지 않은”것으로 판단하기위한 내부 차단 지점이 있습니다.

만약 우리가 세 가지 범주, 즉 비 친화적 <중립적 <친근한 것으로 분류되었다고 가정한다면, 다른 합의 척도로서 클래스 내 상관 관계를 계산할 수도 있습니다. 1000 개의 주석으로 구성된 랜덤 샘플에서 ICC (2,1)는 .28이고 ICC (2, k)는 .88입니다. 즉, 20 개의 평가자 중 하나만 사용하는 경우 결과를 매우 신뢰할 수 없으며 (.28) 평균 20 개의 평가자를 사용하면 결과가 신뢰할 수 있습니다 (.88). 세 가지 임의의 평가자를 조합하여 사용하는 경우 평균 신뢰도는 .50과 .60 사이이며 여전히 너무 낮은 것으로 판단됩니다.

두 코더 간의 평균 이변 량 상관 관계는 .34로 다소 낮습니다.

이러한 합의 조치가 코더의 품질 척도로 보이는 경우 (실제로 합의를 보여야 함) 대답은 다음과 같습니다. 좋은 코더가 아니므로 더 잘 훈련해야합니다. 이것이 “임의의 사람들 사이에서 자발적인 합의가 얼마나 좋은가”의 척도로 간주된다면, 그 대답은 다음과 같습니다. 벤치 마크로서 물리적 매력도의 평균 상관 관계는 약 .47-.71입니다 [1]

Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). 아름다움의 막심 또는 신화? 메타 분석 및 이론적 검토. 심리 게시판, 126, 390–423. 도 : 10.1037 / 0033-2909.126.3.390


답변

점수의 신뢰성은 종종 고전 시험 이론 에 의해 해석됩니다 . 여기에는 실제 점수가 X있지만 특정 결과에서 관찰하는 것은 실제 점수뿐만 아니라 오류가있는 실제 점수입니다 (예 🙂 Observed = X + error. 이론적으로 동일한 기본 테스트대해 여러 번 관찰 된 측정을 수행 하여 (그 테스트의 오류 분포에 대한 몇 가지 가정을 수행) 관찰되지 않은 실제 점수를 측정 할 수 있습니다.

이 프레임 워크에서 여러 관측 값이 동일한 기본 테스트를 측정 한다고 가정 해야합니다. 그런 다음 관찰 된 측정 값이 동일한 기본 테스트를 측정하지 않는다는 증거로 테스트 항목의 신뢰성이 떨어집니다. 이것은 신뢰성이 낮고 그 자체로는 항목이 동일한 구성을 측정하지 않는다는 것을 입증하지는 않지만 이는 현장의 관습 일뿐입니다. 따라서 매우 신뢰할 수없는 테스트로도 많은 관찰 된 측정을 수행함으로써 실제 점수의 신뢰할 수있는 측정을 얻을 수 있다고 주장 할 수 있습니다.

또한 고전적 테스트 이론이 그러한 테스트를 해석하는 유일한 방법 일 필요는 없으며 많은 스콜 러들은 잠재적 변수와 항목-응답 이론 의 개념 이 항상 고전적인 테스트 이론보다 더 적합 하다고 주장 할 것 입니다.


고전적 테스트 이론에서 유사한 암시 적 가정은 사람들이 신뢰도가 너무 높다고 말할 때입니다. 특정 항목 (들)이 몇 가지 기본 테스트를 측정하는지의 타당성에 대해서는 아무 것도 말하지 않지만, 신뢰성이 너무 높을 때 연구자들은 테스트 간의 오류가 독립적이지 않다는 증거로 사용합니다.

나는 왜 당신이 들어 가지 않고 신뢰도를 계산하는 것에 대해 그렇게 열의를 가지고 있는지 잘 모르겠습니다. 왜이 추가 정보에 비추어 이것을 수행 할 수없고 분석을 해석 할 수 없습니까?