동일하지 않은 샘플 크기 : 호출시기 종료 대한 정당화로 다음을

나는 학술 저널 기사를 검토하고 저자는 추론 통계를보고하지 않은 것에 대한 정당화로 다음을 썼습니다 (나는 두 그룹의 본질을 알지 못했습니다).

총 2,349 명 (1.1 %)의 25 명은 X를 보고했습니다 . 우리는 그룹 X 와 그룹 Y (다른 2,324 명 참여자) 를 통계적으로 비교하는 분석을 제시하지 않는 것이 적절 하다.

내 질문은이 연구의 저자가 그룹을 비교하는 것과 관련하여 수건을 던지는 데 정당화되어 있습니까? 그렇지 않다면, 그들에게 무엇을 추천 할 수 있습니까?



답변

통계 테스트는 표본 크기에 대해 가정하지 않습니다. 물론 다양한 테스트 (예 : 정규성)로 다른 가정이 있지만 표본 크기의 동등성은 그 중 하나가 아닙니다. 사용 된 테스트가 다른 방식으로 부적절하지 않은 한 (지금은 문제를 생각할 수 없음), 제 1 종 오류율은 그룹 크기가 크게 다른 영향을받지 않습니다. 더욱이 그들의 문구는 그들이 그것을 믿는다는 것을 (내 마음에) 암시합니다. 따라서 이러한 문제에 대해 혼란스러워합니다.

반면에, 타입 II 오류 비율은 매우 것입니다 매우 불평등에 의해 영향을받을 의. 테스트 (예 : t -test, Mann-Whitney U -test 또는 z)에 관계없이 적용됩니다.

n

t

U

z

테스트가 비율의 영향을 받음)에 관계없이 적용됩니다. 이에 대한 예는 여기 내 답변을 참조하십시오. 다른 표본 크기의 평균 비교를 어떻게 해석해야합니까? 따라서, 그들은 문제 와 관련하여 “타월을 던질 때 정당화 될 수있다” . (특히, 효과의 실제 여부에 관계없이 중요하지 않은 결과를 얻을 것으로 예상되는 경우 테스트의 요점은 무엇입니까?)

표본 크기가 다양 해지면 통계 검정력 수렴됩니다 . 이 사실은 다른 제안으로 이어지는데, 나는 소수의 사람들이 들어 본 적이없고 아마도 과거 리뷰어를 얻는 데 어려움을 겪을 것으로 생각 합니다 . 전력 분석에서 α , β , n 1 , n 2 및 효과 크기 d (일반적으로 n 1 = n 2 라고 가정) 는 비교적 간단 합니다. 반면에 n 1 , n 2

α

α

β

n1

n2

d

는 서로 관련되어 있습니다. 하나만 지정하면 마지막에 해결할 수 있습니다. 일반적으로 사람들은 소위 할 선천적 전력 분석 당신이 해결하는,

N

n1=n2

n1

n2

에 유형 I 대 유형 II 오류율의비율을 지정하면 d 를 수정하고 α (또는 동등하게 β )를해결할수 있습니다. 일반적으로 α = .05 β = .20 이므로 유형 I 오류는 유형 I 오류보다 4 배 더 나쁘다는 것을 말합니다. 물론, 주어진 연구원이 이에 동의하지 않을 수도 있지만, 주어진 비율을 지정하면 어떤 α 에 대해 풀 수 있습니다.

d

α

β

α=.05

β=.20

α

은 적절한 전력을 유지하기 위해 사용해야합니다. 이 접근법은이 상황에서 연구원들에게 논리적으로 유효한 옵션이지만,이 접근법의 이국성이 큰 연구 커뮤니티에서 그런 일에 대해 들어 본 적이없는 큰 판매 커뮤니티에서 힘든 판매가 될 수 있음을 인정합니다.


답변

@gung의 대답은 훌륭하지만, 매우 다른 그룹 크기를 볼 때 고려해야 할 중요한 문제가 있다고 생각합니다. 일반적으로 시험의 모든 요구 사항이 충족되는 한 그룹 규모의 차이는 중요하지 않습니다.

그러나 경우에 따라 다른 그룹 규모는 이러한 가정에 대한 위반에 대한 테스트의 견고성에 극적인 영향을 미칩니다. 예를 들어, 고전적인 2- 표본 쌍이없는 t- 검정은 분산 균질성을 가정하고 두 그룹의 크기가 비슷한 규모 인 경우에만 위반에 대해 강력합니다. 그렇지 않으면 더 작은 그룹의 분산이 높을수록 유형 I 오류가 발생합니다. 이제 t- 검정에서는 일반적으로 Welch t- 검정이 대신 사용되며 분산 동질성을 가정하지 않기 때문에 이것은 큰 문제가되지 않습니다. 그러나 선형 모델에서도 비슷한 효과가 발생할 수 있습니다.

요약하면, 이것이 통계 분석에 방해가되지는 않지만 진행 방법을 결정할 때 명심해야합니다.