주어진 n에 대한 비율의 표준 오차가 0.5에 대해 가장 큰 이유는 무엇입니까? 때 이것이

비율의 표준 오차는 해당 비율이 0.5 일 때 주어진 N에 대해 될 수있는 최대 값이되고, 비율이 0.5에서 멀어 질수록 작아집니다. 비율의 표준 오차에 대한 방정식을 볼 때 이것이 왜 그런지 알 수 있지만 더 이상 설명 할 수는 없습니다.

공식의 수학적 특성을 넘어서는 설명이 있습니까? 그렇다면 왜 0 또는 1에 가까워 질 때 추정 비율 (주어진 N에 대한)에 대한 불확실성이 더 적은가?



답변

배경과 용어

우리가 논의하고있는 것을 완벽하게 명확하게하기 위해 몇 가지 개념과 용어를 설정해 봅시다. 비율에 대한 좋은 모델은 이진 항아리입니다. 여기에는은 ( “성공”) 또는 자홍색 ( “실패”) 색의 공이 들어 있습니다. 항아리에있는은 공의 비율은 (그러나 이것은 우리가 이야기 할 “비율”이 아닙니다).

p

이 항아리는 베르누이 시험 을 모델링하는 방법을 제공합니다 . 하나의 실현 을 얻으려면 공을 철저히 혼합하고 맹목적으로 그 색을 관찰하여 그립니다. 추가 실현을 얻으려면 먼저 뽑은 공을 반환하여 상자를 재구성 한 다음 절차를 미리 결정된 횟수만큼 반복하십시오. 실현 시퀀스는 성공 횟수 로 요약 할 수 있습니다 . 과 의해 속성이 완전히 결정되는 랜덤 변수입니다 . 의 분포를 이항 분포라고합니다. (실험 또는 “샘플”) 비율 은 비율

n

X

n

p

X

(n,p)

X/n

.

그림

이 그림은 다양한 이항 비율 대한 확률 분포의 막대 그래프입니다 . 가장 주목할만한 점은 관계없이 가 에서 아래로 이동할 때 분포가 더 좁아지고 그에 따라 막대가 높아지는 일관된 패턴 입니다.

X/n

n

p

1/2

의 표준 편차 는 문제에서 언급 한 비율표준 오차입니다 . 주어진 ,이 수량은 에만 의존 할 수 있습니다 . 이것을 라고합시다 . 공의 역할을 바꾸면 (실버는 “실패”, 자홍색은 “성공”이라고 함) 있습니다. 따라서 , 즉 상황은 특별해야합니다. 문제 는 가 에서 과 같이 더 극단적 인 값으로 갈수록 가 어떻게 변하는 지에 관한 것입니다.

X/n

n

p

se(p)

se(p)=se(1p)

p=1p

p=1/2

se(p)

p

1/2

0

.

지식 이해

모든 사람들이 교육 초기에 이와 같은 수치를 보았 기 때문에 모든 사람들이 로 측정 한 줄거리의 폭을 “알고” 가 에서 멀어짐에 따라 감소해야 합니다. 그러나 그 지식은 실제로 경험에 불과하지만 질문은 더 깊은 이해를 추구합니다. 이러한 이해는 300 년 전에 시작된 Abraham de Moivre와 같은 이항 분포에 대한 신중한 분석에서 얻을 수 있습니다. (그들은 중앙 한계 정리 에 대한 논의 에서 제시 한 것들과 정신적으로 유사했습니다 .) 그러나 나는 상대적으로 간단한 고려만으로도 너비가 근처에서 가장 넓어야한다는 점을 지적하기에 충분하다고 생각합니다 .

se(p)

p

1/2

p=1/2

간단한 직관적 분석

실험에서 성공의 비율이 가까울 것으로 예상해야합니다 . 표준 오차는 실제 결과 이 합리적이라고 가정 할 수있는 기대치로부터 얼마나 멀리 떨어져 있는지에 관한 것입니다. 것으로, 일반성의 손실없이, 가정하면 사이에 과 이 증가하는 것을 걸릴 것이다, 에서 ? 전형적으로, 실험에서 그려진 공의 주위 는은이었고 (따라서) 주위 는 자홍색이었습니다. 더 많은 실버 볼을 얻으려면 그 중 일부

p

X/n

p

0

1/2

X/n

p

pn

(1p)n

pn

자홍색 결과는 달라야했습니다. 그 기회가 이런 식으로 작동 할 가능성은 얼마나됩니까? 명백한 대답은 가 작을 때 우리가 은색 공을 그릴 가능성이 거의 없다는 것입니다. 따라서 자홍색 대신 은색 공을 그릴 가능성은 항상 낮습니다. 운이 좋으면 자홍색 결과의 가 다를 수 있었으면 좋겠지 만, 그보다 더 많은 변화가 있었을 것 같지는 않습니다. 따라서 가 보다 크게 변하지 않을 가능성이 높습니다 . 마찬가지로, 은 보다 크게 변하지 않습니다 .

p

p

X

p×(1p)n

X/n

p(1p)n/n=p(1p)

대단원

따라서 매직 조합 가 나타납니다.

p(1p)

이것은 사실상 의문을 해결합니다. 분명히이 수량은 에서 최고점에 도달 하고 또는 에서 0으로 감소합니다 . 그것은 “하나의 극단적 인 것이 다른 것보다 더 제한적이다”는 주장이나 우리가 아는 것을 묘사하려는 다른 노력에 대한 직관적이지만 정량적 인 정당성을 제공한다.

p=1/2

p=0

p=1

그러나 는 정확한 값이 아닙니다. 단지 의 확산을 추정하기 위해 어떤 양이 중요한지 알려줍니다 . 우리는 운이 또한 우리를 대적하는 경향이 있다는 사실을 무시했습니다. 자홍색 공 중 일부는 은색 일 있듯이 , 은색 공 중 일부는 자홍색 일 수 있습니다 . 모든 가능성을 엄밀히 설명하는 것은 복잡해질 수 있지만, 결론은 을 가 기대 에서 얼마나 벗어날 수 있는지에 대한 합리적인 제한으로 사용하는 대신 가능한 모든 결과를 올바르게 설명 한다는 것입니다. 제곱근을 취하려면

p(1p)

X

p(1p)n

X

pn

p(1p)n

. (이유에 대한 자세한 설명을 보려면 ( https://stats.stackexchange.com/a/3904 ) 를 방문 하십시오 . 나누면 비율 자체 의 임의 변형 이 이는 표준 오류 입니다.

n

X/n

p(1p)n/n=p(1p)n,

X/n


답변

0 <= p <= 1에 대해 함수 p (1-p)를 고려하십시오. 미적분을 사용하면 p = 1 / 2에서 최대 값 인 1/4임을 알 수 있습니다. 이 값이 sqrt (p (1-p) / n) 인 비율 추정치의 표준 편차와 관련된 이항에 대한 것이면 p = 1 / 2가 최대 값입니다. p = 1 또는 0 인 경우 표준 오류는 0입니다. 항상 각각 1 또는 모두 0을 얻을 수 있기 때문입니다. 따라서 0 또는 1에 가까워지면 연속성 인수에 따르면 p가 0 또는 1에 가까워 질수록 표준 오류가 0에 가까워집니다. 실제로 p가 0 또는 1에 가까워지면 단조롭게 감소합니다. 비율.


답변

이항 분포 (대형 대해 대략 대칭이되는 경향이 그것은 인 대략 법선 ).

n

비율은 0과 1 사이 여야하므로 불확실성은이 경계에 의해 제한됩니다. 평균 비율이 정확히 중간에 있지 않으면 이러한 경계 중 하나가 다른 범위보다 더 제한적입니다.

에 중심을 둔 대칭 단봉 종 곡선 이 단위 간격에 맞도록하려면 절반 너비가 보다 작아야합니다 .

p

min[p,1p]


답변