p- 값, 유의 수준 및 유형 I 오류 비교 및 ​​대조 횟수를 세는 매우 간단한 실험을

p- 값, 유의 수준 및 유형 I 오류의 정의 및 사용에 대해 간결한 요약을 제공 할 수 있는지 궁금합니다.

p- 값은 “실제로 관찰 한 것 이상으로 테스트 통계를 얻을 확률”로 정의되는 반면, 유의 수준은 p- 값이 유의한지 여부를 측정하기위한 임의의 컷오프 값일뿐입니다. . 유형 I 오류는 참 가설을 기각 한 오류입니다. 그러나 유의 수준과 제 1 종 오류의 차이에 대해 확신이 없습니다. 동일한 개념이 아닙니까?

예를 들어, 동전을 1000 번 뒤집고 ‘머리’에 도달하는 횟수를 세는 매우 간단한 실험을 가정하십시오. 나의 귀무 가설 H0는 heads = 500 (편견없는 동전)이라는 것입니다. 그런 다음 유의 수준을 alpha = 0.05로 설정했습니다.

동전을 1000 번 뒤집은 다음 p- 값을 계산합니다 .p- 값이> 0.05이면 귀무 가설을 기각하지 못하고 p- 값이 <0.05이면 귀무 가설을 기각합니다.

이 실험을 반복적으로 수행하면 p- 값을 계산하고 귀무 가설을 기각 또는 기각하지 않고 거부하거나 거부 한 수를 세는 경우 귀무 가설의 5 %를 기각하게됩니다. 실제로는 어느 것이 맞습니까? 이것은 유형 I 오류의 정의입니다. 따라서 Fisher 유의성 검정의 유의 수준은 반복 실험을 수행 한 경우 기본적으로 Neyman-Pearson 가설 검정의 유형 I 오류입니다.

이제 p- 값에 관해서는, 마지막 실험에서 0.06의 p- 값을 얻었고 여러 번의 실험을 수행하고 0에서 0.06 사이의 p- 값을 얻은 모든 것을 세었다면 참 귀무 가설을 기각 할 확률 6 %?



답변

질문은 단순 해 보이지만 주위를 돌아 보면 간단하지 않다는 것을 알 수 있습니다.

실제로 p- 값은 통계 이론에 상대적으로 늦은 추가입니다. 컴퓨터없이 p- 값을 계산하는 것은 매우 지루합니다. 그렇기 때문에 최근까지 통계 테스트를 수행 할 수있는 유일한 방법은 이 블로그 게시물 에서 설명하는 것처럼 통계 테스트 테이블을 사용하는 것입니다 . 이러한 테이블은 고정 된 수준 (일반적으로 0.05, 0.01 및 0.001)에 대해 계산되었으므로 해당 수준으로 만 테스트를 수행 할 수있었습니다.

α

컴퓨터는 이러한 테이블을 쓸모 없게 만들었지 만 테스트 논리는 여전히 동일합니다. 당신은해야합니다 :

  1. 귀무 가설을 공식화합니다.
  2. 대립 가설을 공식화하십시오.
  3. 수락 할 수있는 최대 유형 I 오류 (널 가설을 잘못 기각 할 가능성) 오류를 결정하십시오.
  4. 거부 지역을 설계하십시오. 귀무 가설이 수준 경우 검정 통계량이 기각 영역에 포함될 확률입니다 . @ MånsT가 설명 하듯이 이것은 허용 가능한 제 1 종 오류보다 작아서는 안되며, 대부분의 경우 점근 근사를 사용합니다.
    α

  5. 무작위 실험을 수행하고 검정 통계량을 계산하여 거부 영역에 속하는지 확인하십시오.

이론적으로, 이벤트 사이의 엄격한 등가가 “통계가 거부 지역에 빠진다”“P 값 미만입니다 “당신이

α

p- 값을보고 할 수 있다고 생각하는 이유입니다, 대신은 . 실제로 3 단계를 건너 뛰고 테스트가 완료된 후 유형 I 오류를 평가할 수 있습니다 .

게시물로 돌아가려면 귀무 가설에 대한 진술이 올바르지 않습니다. 귀무 가설은 머리를 뒤집을 확률이 라는 것입니다. 귀무 가설은 무작위 실험 결과와 관련이 없습니다.

1/2

임계 값 p- 값 0.05로 실험을 반복해서 반복하면 5 %의 기각 이 있어야합니다 . p- 값 컷오프를 0.06으로 설정하면 약 6 %의 거부로 끝나게됩니다. 보다 일반적으로, p- 값 정의에 의한 연속 테스트의 경우

p

Prob(p<x)=x,(0<x<1),

이것은 개별 테스트에만 해당됩니다.

여기에 이것을 명확히 할 수있는 R 코드가 있습니다. 이항 테스트는 상대적으로 느리기 때문에 10,000 코인을 뒤집는 무작위 실험은 10,000 회만 수행합니다. 이항 테스트를 수행하고 10,000 개의 p- 값을 수집합니다.

set.seed(123)
# Generate 10,000 random experiments of each 1000 coin flipping
rexperiments <- rbinom(n=10000, size=1000, prob=0.5)
all_p_values <- rep(NA, 10000)
for (i in 1:10000) {
    all_p_values[i] <- binom.test(rexperiments[i], 1000)$p.value
}
# Plot the cumulative density of p-values.
plot(ecdf(all_p_values))
# How many are less than 0.05?
mean(all_p_values < 0.05)
# [1] 0.0425
# How many are less than 0.06?
mean(all_p_values < 0.06)
# 0.0491

표본 크기가 무한하지 않고 테스트가 불연속 적이기 때문에 비율이 정확하지 않다는 것을 알 수 있지만, 둘 사이에는 여전히 약 1 %의 증가가 있습니다.


답변

@MansT & @ gui11aume (각각 +1)에서 좋은 답변을 얻고 있습니다. 두 답변 모두에서 더 명확하게 이해할 수 있는지 알아 보겠습니다.

불연속 데이터로 작업 할 때는 특정 p- 값만 가능하며 가능성이 적거나 데이터 세트가 작을수록 문제가 악화됩니다. 예를 들어, 동전을 번 뒤집는 것을 상상해보십시오 . 특정 수의 머리를 얻을 확률 는 다음과 같습니다.

연구원이 원한다고 가정 해 봅시다 (실제로 주어진 동전을 테스트하는 것입니다 그것을 10 배를 뒤집기 및 헤드의 수를 기록하여 공정성 박람회). 즉, 귀무 가설은 여기서 사실입니다. 우리 연구원은 설정합니다k p ( k ) = n !

n

k

α=.05

p(k)=n!k!(n−k)!pk(1−p)n−k

α=.05

, 컨벤션에 의해 그리고 그것이 더 큰 커뮤니티의 수용에 필요한 것이기 때문입니다. 이제 기존 알파를 잠시 무시하고이 상황에서 가능한 양측 p- 값 (유형 I 오류율)을 고려해 보겠습니다.

number of heads:           0    1    2    3    4    5    6    7    8    9   10
individual probability:  .001 .010 .044 .117 .205 .246 .205 .117 .044 .010 .001
type I error rate:       .002 .021 .109 .344 .754   1  .754 .344 .109 .021 .002

α=.05

.021

α≠type I error

α

.05

이항 확률. 또한 이와 같은 상황 은 p- 값과 유의 수준 사이의 불일치를 최소화하기 위해 p- 값 중간 의 개발을 촉발 시켰습니다.

계산 된 p- 값이 유형 I 오류율이 반드시 유의 수준과 같지 않다는 사실 외에 장기 유형 I 오류율과 동일 하지 않은 경우가있을 수 있습니다 . 다음과 같은 관측 계수가 포함 된 2x2 비 상표를 고려하십시오.

     col1 col2
row1   2    4
row2   4    2

χ2

χ12=1.3,p=.248

χ2

χ2

p=.5671

.5637≠.5671

따라서 여기서 문제는 이산 데이터와 관련이 있다는 것입니다.

  • 선호하는 유의 수준이 가능한 제 1 종 오류율 중 하나가 아닐 수 있습니다.
  • 연속 통계에 (기존의) 근사를 사용하면 계산 된 p- 값이 정확하지 않습니다.

N

(이 문제에 대한 해결책에 대한 질문은 없지만) 이러한 문제를 완화 할 수있는 사항이 있습니다.


  • N

  • 계산 된 값을 올바른 값에 더 가깝게하는 수정 (예 : 연속성에 대한 Yates의 수정)이 종종 있습니다.

  • N

  • 중간 p- 값은 제 1 종 오류율을 선택한 신뢰 수준에 가깝게 만들 수있는 가능성을 제공
  • 존재하는 유형 I 오류율 중 하나를 명시 적으로 사용할 수 있습니다.

답변

개념은 실제로 서로 밀접하게 연결되어 있습니다.

P(type I error)=α

α

P(type I error)≤α

α

P(type I error)≈α

α

p- 값은 귀무 가설이 채택되는 최저 유의 수준 입니다. 따라서 결과가 "얼마나 중요한지"알려줍니다.