stats Archives - Page 18 of 728

이 상자와 수염 그림을보고 있다고 가정 해보십시오.

목요일과 금요일 사이에, 나는 대부분의 시간이 잠들었다는 점에 동의한다고 생각합니다. 그래도 통계적으로 유효한 추측입니까? 내부 사 분위수 범위가 목요일과 금요일 사이에 겹치지 않기 때문에 중요한 차이를 식별 할 수 있습니까? 목요일과 금요일의 위스커와 위스커가 각각 겹치는 사실은 어떻습니까? 그것은 우리의 분석에 영향을 줍니까?

일반적으로 이와 같은 차트를 따르는 것은 일종의 분산 분석 일 것입니다. 그러나 단순히 상자 그림을 보면 그룹 간의 차이점에 대해 얼마나 말할 수 있는지 궁금합니다 .

답변

아냐, 못해 표본 크기와 경험이 많은 경우 추측 할 수 있으며 추측의 정확도는 효과 크기 외에 표본 크기에 따라 다릅니다. 그룹당 N = 1,000,000이면 많은 의미가 있습니다. 그룹당 N = 10이면 그다지 많지 않습니다. 그룹당 100으로 추측하기가 더 어렵습니다.

나는 그것이 좋은 것이라고 주장하고 싶습니다 . 박스 플롯과 함께 할 수있는 일이있다 하지 통계적 유의성 추측하려고하지만 무슨 일인지보고 그것에 대해 이유를 시도 할 수 있습니다. 흠. 주말에 더 많은 수면. 그것은 흥미롭지 만 실제로 놀라운 것은 아닙니다. 주말의 기능과 그렇지 않은 기능으로 수면 시간을 모델링 할 수 있습니다. 또는이 패턴이 다른지 확인하려고 시도 할 수 있습니다. 은퇴 한 사람들이이 패턴을 가지고 있지 않습니까? 교대 근무자는 어떻습니까? 주말에 일하는 사람들? 일주일 내내 일하는 사람들?

내가 가장 좋아하는 대학원 (Herman Friedman) 교수는 “연구에 대한 P-Ping 중지!”

답변

그래 넌 할수있어. 적어도 대략적인 의미에서.

몇 가지주의 사항과 제한 사항과 함께 아래에 (실제로 “상자 오버랩”과의 관계가 있음) 개요를 설명합니다. 그러나 먼저 배경과 맥락에 대한 몇 가지 예비 사항에 대해 논의 해 봅시다. (여기서 적절한 대답은 예제의 세부 사항에 중점을 두어야한다고 생각합니다. 아마도 일부 언급은 제외 할 것이지만, 명백한 차이가 무작위 변형으로 쉽게 설명 될 수 있는지 여부를 평가하기 위해 상자 그림을 사용하는 중심 문제에 있습니다. .)

데이터에 액세스 할 수 있으면 이런 종류의 시각적 비교를 위해 설계된 노치 상자 그림 을 그릴 수 있습니다 .

여기에 노치 된 상자 그림 계산에 대한 설명이 있습니다 . 노치 간격이 겹치지 않으면 비교되는 두 그룹이 5 % 수준에서 거의 다릅니다. 계산은 정규 계산을 기반으로하지만 상당히 강력하고 다양한 분포에서 합리적으로 잘 수행됩니다. (정식 테스트로 취급되는 경우 일반적으로 검정력은 그다지 높지 않지만 다소 “전형적인”두꺼운 꼬리의 경우에는 꽤 잘 맞아야합니다.

노치 된 상자 그림이 작동하는 방식을 고려하면 질문에 표시된 것과 같은 디스플레이 만있을 때 작동하는 빠른 경험 법칙을 식별 할 수 있습니다. 표본 크기가 10이고 중앙값이 상자 중앙 가까이에 놓이면 노치 상자 그림의 노치가 상자 너비에 가깝기 때문에 노치 끝과 상자의 위치는 거의 같습니다.

$n = 10$

엔 = 10

$n=10$

$n = 10$

엔 = 10

$n=10$

$n = 9$

엔 = 9

$n=9$ $n = 10$

엔 = 10

$n=10$

$n = 10$

$엔 = 10$

$n=10$ $n = 10, 10$

엔 = 10, 10

$n=10,10$ $n = 9, 9$

엔 = 9, 9

$n=9,9$ $n = 8, 8$

엔 = 8, 8

$n=8,8$

$n$

엔

$n$ $\sqrt{n}$

\sqrt{엔}

$\sqrt{n}$ $n = 40$

엔 = 40

$n=40$

줄거리를 보면 :

문제의 플롯 모양에서 샘플 크기가 5 이상이어야 함을 알 수 있습니다. 이들이 5보다 작 으면, 개별 샘플 박스 플롯은 더 작은 샘플 크기 (예를 들어, 중앙값이 각 박스의 데드 센터 (dead center)이거나, 이상치 (outlier)가있을 때 수염의 길이가 0)와 같은 작은 단서를 가질 것이다.

또는 상자 (사 분위수 표시)가 서로 겹치지 않고 표본 크기가 10 이상인 경우 비교되는 두 그룹의 5 % 수준에서 서로 다른 중앙값을 가져야합니다 (단일 쌍 비교로 간주).

$n$

엔

$n$ $n = 5$

엔 = 5

$n=5$

[여기에는 비교 횟수가 고려되지 않으므로 여러 번 비교를 수행하는 경우 전체 유형 I 오류가 더 커집니다. 공식적인 테스트보다는 육안 검사를위한 것입니다. 그럼에도 불구하고 관련된 아이디어는 여러 비교에 대한 조정을 포함하여보다 공식적인 접근 방식에 적용 할 수 있습니다.]

당신이 할 수 있는지 여부를 해결 한 후 , 당신 이 해야할지 여부를 고려하는 것이 합리적 입니다. 아마 아닐거야; 잠재적 인 p-hacking의 문제는 실제이지만, 예를 들어, 연구 문제에 대한 새로운 데이터 수집을 추구하고 당신이 가진 모든 것이 논문의 상자 그림인지 여부를 알아 내기 위해 이것을 사용한다면 노이즈로 인한 변동으로 쉽게 설명 할 수있는 것보다 더 많은 것이 있는지 여부를 평가할 수있어 매우 유용합니다. 그러나 그 문제를 깊이있게 고려하면 실제로 다른 질문에 대답 할 수 있습니다.

How IT

언제든지 물어보세요.

카테고리 보관물: stats

상자와 수염 그림을 읽는다 : 그룹들 사이에 큰 차이를 모을 수 있는가? 겹치지 않기 때문에 중요한 차이를 식별

답변

답변

답변