베르누이 샘플링에 대한 신뢰 구간 X_NXiXiX_iP(Xi=1)=pP(Xi=1)=pP(X_i = 1) = pppp 분명히 : 대한

Bernoulli 임의 변수 의 임의 샘플이 있습니다 . 여기서 는 iidrv이고 이고 는 알 수없는 매개 변수입니다.

X1...XN

Xi

P(Xi=1)=p

p

분명히 : 대한 추정치를 찾을 수 있습니다 .

p

p^:=(X1+⋯+XN)/N

내 질문은 어떻게 대한 신뢰 구간을 만들 수 있습니까?

p


답변

  • 경우 평균 아닌 가까운 또는 , 및 샘플 크기 즉 (충분히 큰 및 , 자신감 구간은 정규 분포와 이렇게 구성된 신뢰 구간으로 추정 할 수 있습니다.

    p^

    1

    0

    n

    np^>5

    n(1−p^)>5

    p^±z1−α/2p^(1−p^)n

  • 경우 및 상기 신뢰 구간이 약을 (Javanovic 레비, 1997) ; 그 반대는 입니다. 참조는 또한 및 (나중에 사전 정보를 통합하기 위해)를 사용하는 방법을 설명합니다.

    p^=0

    n>30

    95%

    [0,3n]

    p^=1

    n+1

    n+b
  • Else Wikipedia 는 정규 근사, 윌슨 점수, Clopper-Pearson 또는 Agresti-Coull 간격 이외의 추정값 사용에 대한 자세한 내용은 Agresti and Couli (1998) 및 Ross (2003)를 잘 설명하고 설명합니다. 이는 및 에 대한 위의 가정 이 충족되지 않을 때 더 정확할 수 있습니다 .

    n

    p^

R은 기능을 제공 binconf {Hmisc}하고 binom.confint {binom}이는 다음의 방식으로 사용될 수있다 :

set.seed(0)
p <- runif(1,0,1)
X <- sample(c(0,1), size = 100, replace = TRUE, prob = c(1-p, p))
library(Hmisc)
binconf(sum(X), length(X), alpha = 0.05, method = 'all')
library(binom)
binom.confint(sum(X), length(X), conf.level = 0.95, method = 'all')

아 그레 스티, 앨런; Coull, Brent A. (1998). “이항 비율의 구간 추정에있어 대략적인 것이 ‘정확한’것보다 낫습니다.” 미국 통계 학자 52 : 119–126.

Jovanovic, BD 및 PS Levy, 1997. 세 가지 규칙을 살펴보십시오. 미국 통계 학자 Vol. 51 권 2 호 137-139 쪽

로스, TD (2003). “이항 비율 및 푸 아송 비율 추정에 대한 정확한 신뢰 구간”. 생물학과 의학 33에있는 컴퓨터 : 509–531.


답변

최대 가능성 신뢰 구간

베르누이 (Beroulli) 샘플에 대한 정규 근사치는 상대적으로 큰 샘플 크기와 테일에서 멀리 떨어진 샘플 비율을 사용합니다. 최대 우도 추정값은 로그 변환 확률에 초점을 맞추고 대신 사용해야하는 비대칭적이고 효율적인 구간을 제공합니다 .

p

로그 홀수를

β^0=log⁡(p^/(1−p^))

대한 1- CI 는 다음과 같습니다.

α

β0

CI(β0)α=β^0±Zα/21/(np^(1−p^)

그리고 이것은 다음 과 같이 에 대해 (비대칭) 간격으로 다시 변환됩니다 .

p

CI(p)α=1/(1+exp⁡(−CI(β0)α)

이 CI는 비율이 0 또는 1 사이의 간격에 있고 CI가 항상 올바른 수준 인 동안 일반 간격보다 좁다는 이점이 있습니다. 다음을 지정하여 R에서 매우 쉽게 얻을 수 있습니다.

set.seed(123)
y <- rbinom(100, 1, 0.35)
plogis(confint(glm(y ~ 1, family=binomial)))

    2.5 %    97.5 %
0.2795322 0.4670450

정확한 이항 신뢰 구간

작은 샘플에서는 MLE에 대한 정규 근사값이 샘플 비율에 대한 정규 근사값보다 우수하지만 신뢰할 수 없습니다. 괜찮아. 는 이항 밀도 를 따르도록 취할 수 있습니다 . 대한 경계 는이 분포에서 2.5 번째 및 97.5 번째 백분위 수를 사용하여 찾을 수 있습니다.

Y=np^

(n,p)

p^

CIα=(Fp^−1(0.025),Fp^−1(0.975))

드물게 가능하지만, 계산 방법을 사용하여 대한 정확한 이항 신뢰 구간을 얻을 수 있습니다 .

p
qbinom(p = c(0.025, 0.975), size = length(y), prob = mean(y))/length(y)
[1] 0.28 0.47

편견없는 신뢰 구간 중간 값

그리고 가 정확히 0 또는 1 인 경우, 중앙 편향되지 않은 추정값을 사용하여 중앙 편향되지 않은 확률 함수를 기반으로 비단 수 구간 추정값을 얻을 수 있습니다. 모든 0 사례의 하한을 0 WLOG로 간단히 취할 수 있습니다. 상한은 비율로 다음을 충족합니다.

p

p1−α/2

p1−α/2:P(Y=0)/2+P(Y>y)>0.975

이것은 또한 계산 루틴입니다.

set.seed(12345)
y <- rbinom(100, 1, 0.01) ## all 0
cil <- 0
mupfun <- function(p) {
  0.5*dbinom(0, 100, p) +
    pbinom(1, 100, p, lower.tail = F) -
    0.975
} ## for y=0 successes out of n=100 trials
ciu <- uniroot(mupfun, c(0, 1))$root
c(cil, ciu)

[1] 0.00000000 0.05357998 ## includes the 0.01 actual probability

마지막 두 가지 방법은 epitoolsR 의 패키지에서 구현 됩니다.