태그 보관물: hypothesis-testing

hypothesis-testing

Cumming (2008)은 복제에서 얻은 p- 값의 분포는 원래의 p- 값에만 의존한다고 주장합니다. 그것은 어떻게 사실 일 수 있습니까? .0000810%10%10\%p>.44p>.44p > .44ppp Cumming은이 ” 간격”과 실제로 동일한

필자는 Geoff Cumming의 2008 년 논문 복제 및 간격을

p

p

p p 읽었습니다 . 값은 미래를 모호하게 예측하지만 신뢰 간격은 훨씬 더 우수합니다 [Google Scholar에서 ~ 200 개의 인용] . 이것은 Cumming이 에 대해 논쟁 하고 신뢰 구간을 선호 하는 일련의 논문 중 하나입니다 . 그러나 내 질문 은이 논쟁에 관한 것이 아니며 대한 하나의 특정 주장에만 관련 됩니다.

p

p

초록에서 인용하겠습니다.

이 기사에서는 초기 실험 결과 양측 가 발생하면 복제의
단측 값이 구간 에 해당 하는 확률이 을 보여줍니다. 확률이 , 그리고 완전히 확률이 . 놀랍게도, 간격 이라고하는 간격은이 넓지 만 샘플 크기는 큽니다.

p=.05

80%

p

(.00008,.44)

10%

p<.00008

10%

p>.44

p

Cumming은이 " 간격"과 실제로 동일한 고정 표본 크기로 원래 실험을 복제 할 때 얻을 수있는 의 전체 분포 는 원래 값 에만 의존 실제 효과 크기, 검정력, 샘플 크기 또는 다른 것에 의존하지 않습니다.

p

p p o b t

p

p

pobt

[...] 의 확률 분포는 (또는 power)에 대한 값을 모르거나 가정하지 않고 도출 될 수 있습니다 . [...] 우리는 에 대한 사전 지식을 가지고 있지 않으며 , [그룹 간 차이]는 주어진 에 대한 계산의 기초로 에 관한 정보 만 사용합니다. 와 구간 의 분포에 대한
.

p

δ

δ

Mdiff

δ

pobt

p

p

커밍 2008

의 분포는 힘에 크게 의존 하는 것처럼 보이지만 원래 자체는 그것에 대한 정보를 제공하지 않기 때문에 습니다. 실제 효과 크기는 이고 분포가 균일 할 수 있습니다. 또는 실제 효과 크기가 크면 대부분 매우 작은 기대해야합니다 . 물론 하나 이상의 가능한 효과 크기를 가정하고 그 위에 통합한다고 가정 할 수는 있지만 Cumming은 이것이 자신이하는 것이 아니라고 주장하는 것 같습니다.p o b t δ = 0 p

p

pobt

δ=0

p

질문 : 정확히 무슨 일이 일어나고 있습니까?


이 주제는이 질문과 관련 이 있습니다. 첫 번째 실험의 95 % 신뢰 구간 내에서 반복 실험의 효과 크기는 어느 정도입니까? @ whuber의 훌륭한 답변. Cumming은이 주제에 관한 논문을 가지고 있습니다 : Cumming & Maillardet, 2006, Confidence Intervals and Replication : 다음은 어디로 떨어질까요? 하지만 그 중 하나는 명확하고 문제가 없습니다.

또한 Cumming의 주장은 2015 Nature Methods 논문에서 여러 번 반복된다는 점에 주목하십시오 . 변덕스러운 값

P

은 일부 사람들이 겪었을 수 있는 재현 할 수없는 결과생성합니다 (Google Scholar에서 이미 100 건의 인용 횟수가 있음).

[...] 반복 실험 의 값에 상당한 변화가있을 것 입니다. 실제로 실험은 거의 반복되지 않습니다. 우리는 다음 가 얼마나 다른지 모릅니다. 그러나 매우 다를 수 있습니다. 예를 들어 실험의 통계적 검정력에 관계없이 단일 반복 실험에서 값이 반환하면 반복 실험이 에서 사이 의 값을 반환 할 확률 은 입니다 (그리고 변화). [sic] 는 더 클 것이다).P P 0.05 80 % P 0 0.44 20 % P

P

P

P

0.05

80%

P

0

0.44

20%

P

(그러나 Cumming의 진술이 정확한지 여부에 관계없이 Nature Methods 논문은 어떻게 부정확하게 인용하는지 : Cumming에 따르면 이상의 확률은 불과 합니다. 그렇습니다. g e ". Pfff.)0.44

10%

0.44



답변

요약 : 트릭 은 숨겨진 매개 변수 (종료 부록 B의 , 여기)에 대해 균일 ( Jeffreys ) 을 가정하는 베이지안 접근 방식 인 것으로 보입니다 . θ

zμ

θ

나는 논문의 부록 B에 주어진 방정식을 얻기 위해 베이지안 스타일의 접근법이있을 수 있다고 생각합니다.

내가 알기로 실험은 통계 요약됩니다 . 샘플링 분포 의 평균 는 알려져 있지 않지만 귀무 가설 사라집니다 . θ θ

zNθ,1

θ

θH0=0

실험적으로 관찰 된 통계량 호출하십시오 . 그런 다음 이전에 "균일 한"( 부적절한 ) 것으로 가정 하면 베이지안 후부는 입니다. 그런 다음 를 소외하여 원래 샘플링 분포를 업데이트하면 그 후부는 됩니다. (이중 분산은 가우시안의 컨볼 루션 때문입니다.)θ~1θ | Z ~N의 Z ,1θ | Z의 Z | Z ~N의 Z ,2

z^θNθ,1

θ1

θz^Nz^,1

θz^

zz^Nz^,2

수학적으로 적어도 이것은 작동하는 것 같습니다. 그리고 요소가 "매직 적으로"방정식 B2에서 방정식 B3으로 어떻게 나타나는지 설명합니다 .

12


토론

이 결과를 표준 귀무 가설 검정 프레임 워크와 어떻게 조화시킬 수 있습니까? 한 가지 가능한 해석은 다음과 같습니다.

표준 프레임 워크에서, 귀무 가설은 어떤 의미에서는 "기본"입니다 (예 : 우리는 "무 귀한 거부"라고 말합니다). 위의 베이지안 문맥에서 이것은 을 선호 하는 비 균일 이전의 것입니다 . 이것을 로한다면, 분산 는 이전의 불확실성을 나타냅니다.

θ=0

θN0,λ2

λ2

위의 분석을 통해이를 수행하면

으로부터 우리는 위의 분석을 복구 할 수 있습니다. 그러나 한계 "posteriors"는 null, 및 이므로 표준 결과 복구합니다 .

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]

λ

λ0

θz^N0,0

zz^N0,1

pz^U0,1

(반복 된 연구의 경우, 위의 내용은 베이지안 업데이트와 메타 분석에 대한 "전통적인" 방법 의 의미에 대한 흥미로운 질문을 제시합니다 . 메타 분석의 주제에 대해서는 완전히 무지합니다!)


부록

의견에서 요청한대로 여기에 비교를위한 도표가 있습니다. 이것은 논문에서 공식을 비교적 간단하게 적용한 것입니다. 그러나 나는 모호성을 보장하기 위해 이것을 쓸 것이다.

하자 통계 용 한면 P 값을 나타내고 , 그리고하여 (후방) CDF를 나타낸다 . 부록의 방정식 B3은

여기서 는 표준 일반 CDF입니다. 해당 밀도는

여기서 는 표준 일반 PDF이고 는 CDF 공식. 마지막으로 하면

p

z

F[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]

Φ[]

f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]

ϕ[]

z=z[p]

p^

해당하는 양측 p 값 이면

z^

z^=Φ1[1p^2]

이 방정식을 사용하면 아래 그림 을 볼 수 있는데, 이는 질문에 인용 된 논문의 그림 5와 비교할 수 있어야 합니다.
게시 된 공식을 통한 Cumming (2008) 그림 5의 "재생"

(이것은 다음 Matlab 코드에 의해 생성되었습니다 . 여기서 실행 하십시오 .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));


답변

모든 흥미로운 토론에 감사드립니다! 2008 년 기사를 쓸 때 복제 p 의 분포 ( 연구의 정확한 복제에 의해 주어진 p 값, 정확히 동일하지만 새로운 샘플을 가진 연구를 의미하는 p 값)가 의존적이라는 것을 스스로 확신시키는 데 시간이 걸렸습니다. 원래 연구에 의해 주어진 p에 대해서만 . (논문에서 나는 정규 분포 모집단과 무작위 표본 추출을 가정하고, 우리의 연구는 모집단의 평균을 추정하는 것을 목표로합니다.) 따라서 p 구간 (복제 p 의 80 % 예측 구간 )은 N , 원래 연구의 힘 또는 실제 효과 크기.

물론, 처음에는 믿기지 않습니다. 그러나 나의 원래 진술은 원래 연구의 p 를 아는 것에 근거하고 있다는 점에 유의하십시오 . 이런 식으로 생각하십시오. 원래 연구에서 p = .05를 발견했다고 가정 해 봅시다 . 그 연구에 대해 아무 것도 말해주지 마십시오. 표본 평균의 95 % CI가 정확히 0으로 확장된다는 것을 알고 있습니다 ( p 가 귀무 가설 0으로 계산 되었다고 가정 ). 따라서 표본 평균은 0에서 해당 거리이므로 MoE (95 % CI의 한 팔 길이)입니다. 귀하와 같은 연구에서 평균의 표본 분포는 표준 편차 MoE / 1.96을 갖습니다. 이것이 표준 오류입니다.

정확한 복제에 의해 주어진 평균을 고려하십시오. 해당 복제 평균의 분포는 평균 MoE를 의미합니다. 즉, 분포는 원래 표본 평균을 중심으로합니다. 표본 평균과 복제 평균의 차이를 고려하십시오. 원래 연구와 같은 연구 평균의 분산과 복제의 합과 동일한 분산이 있습니다. 그것은 원래의 연구, 즉 2 x SE ^ 2와 같은 연구의 분산의 두 배입니다. 2 x (MoE / 1.96) ^ 2입니다. 그 차이의 SD는 SQRT (2) x MoE / 1.96입니다.

따라서 우리는 복제 평균의 분포를 알고 있습니다. 평균은 MoE이고 SD는 SQRT (2) x MoE / 1.96입니다. 물론, 수평 척도는 임의적이지만, 원래 연구에서 얻은 CI와 관련하여이 분포 만 알면됩니다. 복제가 실행되면 대부분의 평균 (약 83 %)이 해당 원래 95 % CI에 속하고 약 8 %는 그보다 낮습니다 (예 : 원래 평균이> 0 인 경우 0 미만). CI. 복제 CI가 원래 CI와 관련하여 어디에 있는지 알면 p 값을 계산할 수 있습니다 . 우리는 그래서 우리는 복제의 분포를 알아낼 수 (당신의 CI 관련) 등의 복제 수단의 분포를 알고있는 페이지를값. 복제에 대해 우리가 만드는 유일한 가정은 그것이 정확합니다. 즉, 원래 연구와 동일한 효과 크기를 가진 동일한 모집단에서 왔으며 N (및 실험 설계)이 연구에서와 동일하다는 것입니다. .

위의 모든 내용은 그림이없는 기사의 주장을 복원 한 것입니다.

여전히 비공식적으로, 원래 연구에서 p = .05가 무엇을 의미 하는지 생각하는 것이 도움이 될 수 있습니다 . 효과 크기가 작은 대규모 연구 또는 효과 크기가 큰 소규모 연구를 의미 할 수 있습니다. 어느 쪽이든, 그 연구를 반복하면 (동일한 N , 동일한 모집단) 의심 할 여지없이 표본 평균이 약간 다릅니다. p 값의 관점에서 볼 때 , 당신이 거대한 연구를 했든 작은 연구를하든 '약간 다르다'는 똑같습니다. 따라서 p 값만 알려 주면 p 간격을 알려 드리겠습니다 .

제프


답변

이 문제는 @ GeoMatt22에 의해 명확 해졌으며, 토론에 참여하기 위해 @GeoffCumming이오고 있다는 것을 기쁘게 생각합니다. 이 답변을 추가 의견으로 게시하고 있습니다.


결과적으로이 논의는 최소한 Goodman (1992) 으로 돌아 간다 . 복제, P- 값 및 증거에 대한 의견 과 나중에 답장하는 Senn (2002) 은 편집자에게 보낸 편지 . 이 두 가지 간단한 기사, 특히 Stephen Senn의 기사를 읽는 것이 좋습니다. 나는 Senn에 전적으로 동의합니다.

이 질문을하기 전에이 논문들을 읽었다면, 나는 그것을 게시하지 않았을 것입니다. Goodman (Cumming과 달리)은 자신이 플랫하게 사전을 설정 한 베이지안 설정을 고려하고 있음을 분명히 밝힙니다. 그는 Cumming처럼 값 분포를 제시하지 않고 대신 복제 실험에서 "중요한" 결과 를 관찰 할 확률을보고 합니다.

p

p<0.05

굿맨 1992

그의 주요 요점은 이러한 확률이 놀랍게도 낮다는 것입니다 ( 경우 에도 에 불과합니다 ). 특히 경우 입니다. (이 후자의 확률은 모든 및 대해 동일하게 유지 됩니다.), 0.78 , P = 0.05 0.5 1 / 2 α P = α

p=0.001

0.78

p=0.05

0.5

1/2

α

p=α

SENN의 답변의 요점은이, 그러나 않는 유용한 관찰 있다는 것이다 되지 훼손 어떤 식 으로든 -values 및 수행 하지 , 반대를 굿맨, 그 의미 "널에 대한 증거를 과장"-values. 그는 씁니다.p

p

p

또한 그의 [Goodman 's] 시연은 두 가지 이유로 유용하다고 생각합니다. 첫째, 이것은 두 번째 연구에서는 이것이 일치하지 않을 수 있음을 방금 완료 한 연구와 비슷한 연구를 계획하는 사람에게 경고 역할을합니다. 둘째, 개별 연구의 결과에서 명백한 불일치가 일반적 일 것으로 예상 될 수 있으며이 현상에 과도하게 반응해서는 안된다는 경고의 역할을한다 .

SENN 일방적 있음을 일깨워 -values가의 베이지안 사후 확률로 이해 될 수 위한 평면 종래 아래 (전체 실제 선에 부적절한 사전) [참조 Marsman의 & Wagenmakers 2016 간략한 논의 이 사실과 일부 인용의] .H 0 : μ < 0 μ

p

H0:μ<0

μ

다음, 수득 한 특정 그렇다면 하나의 실험 - 값을 확률은 다음 실험 수율 것이다 저급 -value가 보유 되도록 ; 그렇지 않으면 향후 복제는 수행되기 전에 추가 증거를 제공 할 수 있습니다. 따라서 Goodman은 확률 얻었습니다 . 실제로 Cumming 및 @ GeoMatt22에 의해 계산 된 모든 복제 분포는 각각의 에서 중간 값을 갖습니다 .P 1 / 2 P = 0.05 ~ 0.5 , P O의 B 형

p

p

1/2

p=0.05

0.5

pobs

그러나, 치료의 효능이 가능하다고 믿기 위해이 복제 확률이 보다 높을 필요는 없다 . %가 % 수준 에서 중요했던 긴 일련의 시험 은 치료가 효과적이라는 증거를 설득 할 수 있습니다.50 5

0.5

50

5

또한, 주어진 크기와 거듭 제곱의 t- 검정 ( 예 : 여기 참조 )에 대한 의 예측 분포를 살펴본 사람이라면 의 중앙값을 요구하는 것이 반드시이 분포를 상당히 넓게 만든다는 사실에 놀라지 않을 것입니다. , 뚱뚱한 꼬리는 쪽으로갑니다 . 이 점에서 Cumming이보고 한 넓은 간격은 놀라운 일이 아닙니다.p = 0.05 1

p

p=0.05

1

그들이 오히려 않습니다 , 제안하는 실험을 복제 할 때 하나의 큰 샘플 크기를 사용한다는 것입니다; 실제로 이것은 복제 연구에 대한 표준 권장 사항입니다 (예 : Uri Simonsohn 일반적으로 샘플 크기를 배 늘릴 것을 제안합니다 ).

2.5


답변

더 흥미로운 토론에 감사드립니다. 점을 언급하는 대신 일반적인 의견을 제시하겠습니다.

베이 즈. 나는 베이지안 접근법에 전혀 반대하는 것이 없다. 처음부터 평평하거나 분산 된 것으로 가정 한 베이지안 분석은 동일하거나 매우 유사한 예측 간격을 제공 할 것으로 예상했습니다. p에 대한 의견이 있습니다. 그것에 대해 2008 기사에서 291, 검토 중 하나에 의해 부분적으로 프롬프트. 따라서 위의 접근 방식을 통해 작업하는 것을 기쁘게 생각합니다. 훌륭하지만, 내가 취한 것과는 매우 다른 접근 방식입니다.

따로, 나는 베이지안 접근법 (신뢰할 수있는 간격을 기초로)에 대한 접근 방식보다는 신뢰 구간 (새로운 통계 : 효과 크기, CI, 메타 분석)의 옹호에 대해 연구하기로 결정했습니다. 베이지안은 초보자에게 충분히 잘 접근합니다. 초보자와 함께 사용할 수 있다고 생각하거나 실제로 많은 수의 연구자들이 접근 할 수 있고 설득력이있는 베이지안 교과서를 전혀 보지 못했습니다. 따라서 연구원들이 통계적 추론을 수행하는 방식을 개선 할 수있는 기회를 가지려면 다른 곳을 살펴 봐야합니다. 예, 우리는 p를 넘어서 움직여야합니다이분법적인 의사 결정에서 추정으로 전환하고 베이지안은 그렇게 할 수 있습니다. 그러나 실질적인 변화를 달성 할 가능성이 훨씬 높은 것은 이미 일반적인 CI 접근법입니다. 이것이 최근에 출시 된 인트로 통계 교과서가 새로운 통계 접근 방식을 취하는 이유입니다. www.thenewstatistics.com 참조

반사로 돌아 가기 내 분석의 중심 은 첫 번째 연구 의 p 값만 아는 것 입니다. 내가 만든 가정이 명시되어 있습니다 (정규 모집단, 무작위 표본 추출, 알려진 모집단 SD이므로 모집단 평균, 정확한 복제에 대한 추론을 수행 할 때 t 계산 대신 z 를 사용할 수 있습니다 ). 그러나 그것이 내가 생각하는 전부입니다. 내 질문은 ' 초기 실험에서 p 만 주어 졌는데 얼마나 멀리 갈 수 있을까?'입니다. 필자의 결론은 복제 실험에서 예상되는 p 의 분포를 찾을 수 있다는 것 입니다. 이 분포에서 p 구간 또는 복제가 p 를 제공 할 확률과 같은 관심 확률을 도출 할 수 있습니다.<.05 또는 기타 관심 가치.

논증의 핵심, 그리고 아마도 가장 많은 가치가있는 단계는 기사의 그림 A2에 설명되어 있습니다. 하반부는 아마도 문제가 없을 것입니다. 우리가 mu를 알고 있다면 (보통 초기 연구의 평균과 같다고 가정함으로써 달성 됨), 굵은 선 세그먼트로 표시되는 추정 오차는 알려진 분포 (일반, 평균 mu, SD)에 설명되어 있습니다.

그런 다음 큰 단계 : 그림 2A의 상반부를 고려하십시오. mu에 대한 정보가 없습니다. 정보가 없음-이전에 대한 숨겨진 가정이 없습니다. 그러나 우리는 두꺼운 선분의 분포를 명시 할 수있다 : 정상, 평균 0, SD = SQRT (2) 곱하기 SD의 절반. 이를 통해 복제 p 의 분포를 찾는 데 필요한 것을 얻을 수 있습니다.

결과 p 간격은 놀랍도록 길다. 적어도 p 값이 실제로 연구원에 의해 보편적으로 사용되는 방식과 비교할 때 놀랍다 . 연구자들은 일반적으로 p 값 의 소수점 둘째 자리 또는 셋째 자리에 대해 집착합니다 . 보고에 대한 PP 293-4에 따라서 내 의견 P는 의 모호성 인정 간격 .

예,하지만 그렇다고 해서 초기 실험의 p 가 아무것도 의미하지는 않습니다 . 초기 p 가 매우 낮 으면 복제는 평균적으로 p 값 이 작은 경향이 있습니다. 초기 p 및 복제가 높을 수록 p 값 이 다소 큰 경향이 있습니다 . p.1의 표 1을 참조하십시오. 예를 들어, 초기 p = .001 및 .1 의 오른쪽 열에 있는 p 간격을 비교 합니다. 일반적으로 두 개의 결과가 마일 떨어져 있다고 간주되었습니다. 두 p 간격은 확실히 다르지만 두 p 간격은 엄청나게 겹칩니다. .001 실험의 복제는 p를 매우 쉽게 줄 수 있습니다0.1 실험의 복제보다 큽니다. 가장 가능성이 높지만 그렇지 않습니다.

그의 박사 연구의 일환으로 Jerry Lai는 ( Lai, et al., 2011 ) 여러 분야의 출판 된 연구자 들이 너무 짧은 주관적인 p 간격을 가지고 있다는 몇몇 훌륭한 연구를보고했습니다 . 다시 말해, 연구자들은 복제 의 p 값이 얼마나 다른지를 과소 평가하는 경향이 있습니다.

내 결론은 단순히 p 값을 사용해서는 안된다는 것입니다. 95 % CI를보고하고 논의합니다.이 CI는 조사중인 인구 평균에 대해 알려주는 모든 정보를 데이터에 전달합니다. CI가 주어지면, p 값은 아무 것도 추가하지 않으며, 어느 정도 확실성을 암시합니다 (중요! 중요하지 않음! 효과가 존재합니다! 그렇지 않습니다!). 물론 CI와 p 값은 동일한 이론을 기반으로하며 서로 다른 것으로 변환 할 수 있습니다 (소개 서적 6 장에 많은 내용이 있음). 그러나 CI는 p 보다 더 많은 정보를 제공합니다 . 가장 중요한 것은 불확실성의 정도에 현저한 영향을 미칩니다. 인간이 확실성을 파악하려는 경향이 있으므로 CI의 범위를 고려해야합니다.

또한의 다양성 강조하려 한 페이지의 '의 춤에 값을 페이지의 비디오 값'. 구글 ' p 값 의 춤 '. 최소한 두 가지 버전이 있습니다.

모든 신뢰 구간이 짧을 수 있습니다!

제프


답변