Morey et al (2015)은 신뢰 구간은 오도의 소지가 있으며 이들에 대한 이해와 관련하여 여러 가지 편견이 있다고 주장한다. 그중에서도 정확성 오류는 다음과 같이 설명합니다.
정밀도 오류
신뢰 구간의 너비는 모수에 대한 지식의 정밀도를 나타냅니다. 좁은 신뢰 구간은 정확한 지식을 나타내고 넓은 신뢰 오차는 부정확 한 지식을 나타냅니다.추정의 정밀도와 신뢰 구간의 크기 사이에는 필요한 연결이 없습니다. 이것을 보는 한 가지 방법은 선임 연구원과 박사 과정 학생 인 두 연구원 이 실험에서 참가자 데이터를 분석하고 있다고 상상 하는 것입니다. 박사 과정 학생의 이익을위한 운동으로, 선임 연구원은 참가자들을 무작위로 데이터 세트의 절반을 분석 할 수 있도록 두 세트로 무작위로 나누기로 결정합니다 . 후속 회의에서, 하나 두 점유율은 또 다른 자신의 학생의 평균에 대한 신뢰 구간. 박사 과정 학생의 CI는 이고, 선임 연구원의 CI는 입니다.
5025
t
95%
52±2
95%
53±4
선임 연구원은 결과가 광범위하게 일관되며, 각각의 두 점 추정치 ( 의 동일 가중 평균을 실제 평균의 전체 추정치로 사용할 수 있다고 지적 합니다.
52.5그러나 박사 과정 학생은 두 가지 방법이 균등하게 가중치를 부여해서는 안된다고 주장한다. 그녀는 CI의 절반이 넓고 자신의 추정치가 더 정확하고 더 가중되어야한다고 주장한다. 그녀의 고문에 따르면, 두 평균의 불균일 한 가중치 추정치가 전체 데이터 세트 의 추정치와 다르므로 이어야합니다 . 박사 과정 학생의 실수는 CI가 사후 데이터 정밀도를 직접적으로 나타내는 것으로 가정합니다.
52.5
위의 예는 잘못된 것 같습니다. 표본을 무작위로 반으로 나누어 두 표본으로 나누면 표본 평균과 표준 오차가 모두 가깝습니다. 이러한 경우 가중 평균 사용 (예 : 역 오차에 의한 가중)과 간단한 산술 평균 사용간에 차이가 없어야합니다. 그러나 추정치가 다르고 표본 중 하나의 오류가 눈에 띄게 더 큰 경우 이러한 표본의 “문제”를 제안 할 수 있습니다.
명백하게, 상기 예에서, 샘플 크기는 동일하므로, 평균을 취함으로써 데이터를 “결합”하는 것은 전체 샘플의 평균을 취하는 것과 동일하다. 문제는 전체 예제가 샘플이 먼저 부분적으로 나뉘어져 최종 추정을 위해 다시 결합된다는 잘못 정의 된 논리를 따른다는 것입니다.
이 예제는 정확하게 반대의 결론으로 이어질 수 있습니다 :
연구원과 학생은 데이터 세트를 두 부분으로 나누고 독립적으로 분석하기로 결정했습니다. 그 후, 그들은 그들의 추정치를 비교했고 그 표본은 그들이 계산 한 것이 매우 다르다는 것을 의미하는 것으로 보였으며, 또한 학생의 추정치의 표준 오차가 훨씬 컸습니다. 학생은 이것이 자신의 추정 정확도와 관련된 문제를 제안 할 수 있다는 것을 두려워했지만, 연구원은 신뢰 구간과 정밀도 사이에 연관성이 없음을 암시하여 두 추정치 모두 동일하게 신뢰할 수 있으며 무작위로 선택한 임의의 값을 게시 할 수 있습니다. 최종 견적으로.
더 공식적으로 말하면, 학생의 와 같은 “표준”신뢰 구간 은 오류를 기반으로합니다.
t
여기서 는 상수입니다. 이런 경우, 그것들은 정밀도와 직접 관련 이 있습니다 .
c
내 질문은 :
정밀도 오류는 실제로 오류입니까? 정밀도에 대한 신뢰 구간은 무엇을 말합니까?
Morey, R., Hoekstra, R., Rouder, J., Lee, M. 및 Wagenmakers, E.-J. (2015). 신뢰 구간에 신뢰를 두는 오류. 심리학 적 게시판 및 검토, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/
답변
이 논문에서는 실제로 여러 가지 방법으로 정밀 오류를 시연합니다. 당신이 요구하는 것 – 논문의 첫 번째 –이 예는 단순한 “CI = 정밀도”가 틀렸다는 것을 보여주기위한 것입니다. 이것은 유능한 빈민가, 베이지안 또는 우도 주의자가 이것에 의해 혼란 스러울 것이라고 말하는 것은 아닙니다.
진행 상황을 확인하는 또 다른 방법은 다음과 같습니다. CI에 방금 들었다면 샘플의 정보를 함께 결합 할 수는 없습니다. 우리는 을 알아야 하며, 그로부터 CI를 ˉ x 및 s 2 로 분해 하여 두 샘플을 적절히 결합 할 수 있습니다. 우리가해야하는 이유는 CI의 정보가 방해 매개 변수보다 한계가 있기 때문입니다. 두 샘플 모두 동일한 방해 요소 에 대한 정보를 포함하고 있음을 고려해야합니다 . 여기에는 s 2 값을 모두 계산하여 계산하여 σ 2 의 전체 추정치를 구한 다음 새 CI를 계산하는 것이 포함됩니다.
Nx¯
s2
s2
σ2
정밀도 오류에 대한 다른 데모는 다음을 참조하십시오.
- Welch (1939) 섹션 (해저 잠수함)의 여러 CI 중 하나는 위의 @dsaxton에서 언급 한 “사소한”CI를 포함합니다. 이 예에서 최적 CI는 가능성의 폭을 추적하지 않으며 CI가 아닌 다른 몇 가지 예도 있습니다.
- CI-심지어 “양호한”CI라도 비어있을 수 있으며 “거짓”은 무한 정밀도를 나타냅니다.
수수께끼에 대한 대답은 적어도 CI 옹호자들이 그것에 대해 생각하는 방식 (예측치가 모수와 얼마나 가까운 지에 대한 실험 후 평가)은 단순히 신뢰 구간이 일반적으로 갖는 특성이 아니라는 것입니다. 그리고 그들은 의도하지 않았습니다. 특정한 확신 절차는 … 아니요.
여기에 토론을 참조하십시오 : http://andrewgelman.com/2011/08/25/why_it_doesnt_m/#comment-61591
답변
우선, 병리학 적 사례를 피하기 위해 엄격하게 양의 유한 너비로 간격을 생성하는 CI 절차로 제한하십시오.
이 경우 정밀도와 CI 너비의 관계를 이론적으로 설명 할 수 있습니다. 평균에 대한 추정치를 구하십시오 (존재하는 경우). 평균에 대한 CI가 매우 좁 으면 두 가지 해석이 있습니다. 운이 나쁘고 표본이 너무 단단하게 (사전 5 %의 확률로 발생) 간격이 실제 평균 (95 %)을 포함하는 것입니다. 선험적 기회). 물론 관찰 된 CI는이 두 가지 중 하나 일 수 있지만 , 후자가 발생할 가능성이 훨씬 높아지 도록 계산을 설정합니다 (즉, 선험적으로 95 % 확률). 의 자신감우리의 간격이 평균을 커버한다는 것입니다. 따라서 95 % CI는 확률 간격 (Bayesian Credible Interval과 같은)이 아니라 “신뢰할 수있는 조언자”와 비슷합니다. 통계적으로 시간의 95 %에 해당하는 사람이므로 응답을 신뢰할 수 있지만 특정 답변은 매우 잘못되었을 수 있습니다.
실제 매개 변수를 다루는 95 %의 경우 너비는 데이터가 주어지면 그럴듯한 값의 범위에 대해 알려줍니다 (즉, 실제 값을 얼마나 잘 묶을 수 있는지). 따라서 정밀도의 척도처럼 작동합니다 . 그렇지 않은 5 %의 경우 CI가 오도합니다 (샘플이 오도하기 때문에).
따라서 95 % CI 너비는 정밀도를 나타냅니다 … 95 % 확률이 있다고 말합니다 (CI 너비가 양수이면) 😉
합리적인 CI 란 무엇입니까?
원래 저자의 게시물에 대한 응답으로, 나는 (a) “분할 샘플”예제가 매우 특정한 목적을 가졌다는 점을 고려하고 (b) 논평자가 요청한대로 더 많은 배경을 제공하기 위해 나의 답변을 수정했습니다.
이상적인 (빈번한) 세계에서 모든 표본 추출 분포는 정확한 신뢰 구간을 얻는 데 사용할 수있는 중추적 인 통계를 인정합니다. 중추적 통계에 대해 무엇이 좋은가요? 그들의 분포는 추정되는 모수의 실제 값을 모른 채 도출 될 수 있습니다! 이 좋은 경우에, 우리는이 모수에 대한 실제 모수에 대한 샘플 통계의 정확한 분포를가집니다 (가우스가 아닐 수도 있습니다).
더 간결하게 설명하자면, 우리 는 오류 분포 (또는 일부 변형)를 알고 있습니다.
우리가 합리적인 신뢰 구간을 형성 할 수있게하는 것이 일부 추정기의 품질입니다. 이 구간은 그 정의를 만족시키는 것이 아니라 추정 오차의 실제 분포로부터 도출되기 때문에 그렇게 정의합니다.
가우스 분포와 관련 Z 통계량은 평균에 대한 정확한 CI를 개발하기 위해 중추적 수량을 사용하는 표준 예입니다. 좀 더 난해한 예가 있지만 이것은 일반적으로 “큰 표본 이론”에 동기를 부여하는 사례입니다. 이는 기본적으로 가우시안 CI의 이론을 실제 중추적 양을 인정하지 않는 분포에 적용하려는 시도입니다. 이 경우 대략적인 중추적 또는 무증 점적 (샘플 크기로) 수량 또는 “대략적인”신뢰 구간에 대해 읽게됩니다. 이는 가능성 이론, 특히 많은 MLE의 오류 분포에 근거합니다. 정규 분포에 접근합니다.
현명한 CI를 생성하는 또 다른 방법은 가정 테스트를 “반전”하는 것입니다. 아이디어는 “양호한”테스트 (예 : UMP)가 지정된 유형 I 오류율에 대해 양호한 (읽기 : 좁은) CI를 생성한다는 것입니다. 이것들은 정확한 적용 범위를 제공하지는 않지만 낮은 범위의 적용 범위를 제공합니다 (참고 : X % -CI의 실제 정의는 적어도 X %의 실제 매개 변수 를 포함해야 함을 나타냅니다).
가설 검정의 사용에는 피봇 수량 또는 오차 분포가 직접 필요하지 않습니다. 감성은 기본 검정의 감성에서 도출됩니다. 예를 들어, 거부 영역에 시간의 길이 5 5 %, 시간의 무한 길이 95 %의 테스트가있는 경우 CI와 함께 있던 위치로 돌아갑니다. 그러나이 테스트는 그렇지 않습니다. 데이터에 대해 조건부이므로 테스트중인 기본 매개 변수에 대한 정보를 제공하지 않습니다.
정밀도의 추정치가 데이터에 대해 조건부이어야한다는보다 광범위한 아이디어는 Fischer 및 보조 통계에 대한 아이디어로 되돌아갑니다. 테스트 또는 CI 프로 시저의 결과가 데이터에 의해 조건화되지 않은 경우 (즉, 조건부 동작이 무조건 동작과 동일 함) 의심스러운 방법이 있습니다.
답변
{x1,x2,…,xn}
(μ,σ2)
μ
(−∞,∞)
{0}
편향된 동전 뒤집기를 기반으로합니다. 올바른 바이어스를 사용하면 원하는 수준의 신뢰를 얻을 수 있지만 폭이 0 인 간격으로 끝나더라도 “추정”간격은 전혀 정밀하지 않습니다.
우리가이 명백한 오류에 대해 신경 써서는 안된다고 생각하는 이유는 신뢰 구간의 너비와 정밀도 사이에 필요한 연결이없는 것이 사실이지만 표준 오류와 정밀도 사이에는 거의 보편적 인 연결 이 있기 때문 입니다 . 대부분의 경우 신뢰 구간의 너비는 표준 오차에 비례합니다.
σ
답변
“자신 간격 간격”과 “정밀도”(@dsaxton의 답변 참조) 사이의 명백한 구별이 중요하므로 두 가지 용어를 공통적으로 사용하는 데 문제가 있음을 지적하기 때문입니다.
Wikipedia 에서 인용 :
재현성 및 반복성과 관련된 측정 시스템의 정밀도는 변경되지 않은 조건에서 반복 측정이 동일한 결과를 나타내는 정도입니다.
따라서 빈번한 신뢰 구간은 측정 체계 의 정밀도 유형을 나타낸다고 주장 할 수있다 . 동일한 체계를 반복하면 각 반복에 대해 계산 된 95 % CI가 반복의 95 %에 매개 변수의 하나의 실제 값을 포함합니다.
그러나 이것은 많은 사람들이 실제 정밀도 측정에서 원하는 것이 아닙니다. 측정 된 값이 실제 값과 얼마나 가까운 지 알고 싶어 합니다 . 빈번한 신뢰 구간은 해당 정밀도를 엄격하게 제공하지 않습니다. 베이지안 믿을만한 지역이 있습니다.
실제 사례에서 빈번한 신뢰 구간과 베이지안 신뢰할 수있는 영역은 “거의 겹치지 않는다” 는 혼란이있다 . OP에 대한 일부 의견에서와 같이 정규 분포에서 샘플링하는 것이 그러한 예입니다. 실제로 한계에 정규 분포가있는 공정의 표준 오차에 대한 근사값을 기반으로 @Bey가 염두에 둔 일부 광범위한 유형의 분석의 경우에도 실제로 해당 될 수 있습니다.
이러한 상황 에 처해 있다면 측정 체계의 단일 구현에서 특정 값을 CI로 해석 할 때 실제 값을 포함 할 확률이 95 % 인 것처럼 실제 위험이 없을 수 있습니다. 그러나 신뢰 구간의 해석은 실제 값이 특정 구간 내에 있거나없는 잦은 통계에서 나온 것이 아닙니다.
신뢰 구간과 신뢰할 수있는 영역이 현저히 다른 경우, 위의 문헌과 그에 참조 된 이전 문헌에서 입증 된 것처럼, 빈번한 신뢰 구간의 베이지안 유사 해석이 잘못되거나 잘못 될 수 있습니다. 그렇습니다. “상식”은 그러한 오해를 피하는 데 도움이 될 수 있지만 제 경험상 “상식”은 그리 일반적이지 않습니다.
다른 CrossValidated 페이지에는 신뢰 구간 및 신뢰 구간과 신뢰할 수있는 영역 의 차이점 에 대한 자세한 정보가 포함되어 있습니다 . 이러한 특정 페이지의 링크도 유익합니다.
답변
@Bey가 가지고 있습니다. 점수와 성능, 가격과 품질, 냄새와 맛 사이에 필요한 연결이 없습니다. 그러나 하나는 일반적으로 다른 하나에 대해 알려줍니다.
팝 퀴즈를 내릴 수 없다는 귀납법으로 증명할 수 있습니다. 면밀히 살펴보면 퀴즈가 놀랍다는 것을 보장 할 수 없습니다 . 그러나 대부분의 경우입니다.
Morey 등은 폭이 유익하지 않은 경우가 있음을 알 수 있습니다. “추정의 정밀도와 신뢰 구간의 크기 사이에 필요한 연결이 없다”고 주장하기에 충분하지만 CI에 일반적으로 정밀도에 대한 정보가 없다고 결론을 내릴 수는 없습니다. 반드시 그렇게 할 수는 없습니다.
(+ @Bey의 답변에 불충분 한 포인트.)