비례 가능성을 갖는 두 개의 서로 다른 방어 테스트가 p- 값이 아주 큰 차수이지만 대안에 대한 검정력이 유사한 경우와 같이 하나가 현저하게 다른 (그리고 똑같이 방어 가능한) 추론으로 이어질 수있는 예가 있습니까?
내가 본 모든 예제는 이항식과 음의 이항식을 비교하는 매우 바보입니다. 첫 번째의 p- 값은 7 %이고 두 번째 3 %의 경우는 “다른”경우에만 임의의 임계 값에 대해 이진 결정을합니다 5 % (추론에 대해서는 상당히 낮은 표준 임)와 같은 중요성을 가지며, 힘을 보지 않아도됩니다. 예를 들어, 임계 값을 1 %로 변경하면 둘 다 동일한 결론으로 이어집니다.
나는 그것이 현저하게 다르고 방어 가능한 추론으로 이어지는 예를 본 적이 없다 . 그러한 예가 있습니까?
가능성 원리가 통계적 추론의 기초에 기초가되는 것처럼이 주제에 너무 많은 잉크가 소비 되었기 때문에 묻습니다. 그러나 가장 좋은 예가 위와 같은 어리석은 예라면 원칙은 완전히 중요하지 않은 것 같습니다.
따라서 LP를 따르지 않으면 증거의 가중치가 한 번의 테스트에서 한 방향으로 압도적으로 가리 키지 만 비례 가능성이있는 다른 테스트에서는 증거의 가중치가 매우 강력한 예를 찾고 있습니다. 압도적으로 반대 방향을 가리키고 있으며 두 결론은 합리적으로 보입니다.
이상적으로는, 하나는 그러한 테스트와 같은 임의 멀리 떨어져 아직 재치 답변 가질 수 보여 수
대
비례 우도와 같은 대안을 검출하기 위해 동일한 전원을.
추신 : 브루스의 대답은 그 문제를 전혀 다루지 않습니다.
답변
점 귀무 가설이 참일 때
될 때까지 샘플링을 유지하고 (이것은 항상 조만간 일어날 것입니다. 즉, 확률 1로 발생 합니다) 가설 상황 을 고려한 다음 시행을 중단하고 귀무를 거부하기로 결정합니다. 이것은 분명히 극단적 인 중지 규칙이지만 논쟁을 위해 고려하십시오.
이 모로 닉 절차는 100 % Type I 오류율을 가지지 만 가능성 원칙에 따라 아무 문제가 없습니다.
나는 이것이 "정말로"중요하다고 생각합니다. 물론 이 주장에서
를 선택할 수 있습니다 . Bayesian은 원하는 경우 Bayes 계수에서 고정 컷오프를 사용할 수 있습니다. 동일한 논리가 적용됩니다. 여기에 주요 교훈은 LP 준수 할 수 없다는 것입니다 및 오류 요금 보장이있다. 무료 점심은 없습니다.
답변
면책 조항 : 나는이 답변이 전체 논쟁의 핵심이라고 생각하므로 토론 할 가치가 있지만 문제를 완전히 탐구하지는 않았습니다. 따라서 수정, 수정 및 의견을 환영합니다.
가장 중요한 측면은 순차적으로 수집 된 데이터와 관련이 있습니다. 예를 들어, 이진 결과를보고 성공 및 실패 5 회를 보았다고 가정합니다. 가능성 원칙은 10 번의 성공 (음수 이항)을 갖거나 15 번의 시험을 수행 할 때까지 10 개의 성공 (이항)을 달성 할 때까지 데이터를 수집했는지 여부에 관계없이 성공 확률에 대해 동일한 결론을 내려야한다고 말합니다 .
이것이 왜 중요한가?
우도 원칙 (또는 적어도 그것에 대한 특정 해석)에 따르면 추론 도구를 변경하지 않고 데이터 수집을 중단 할 때 데이터에 영향을 미치는 것이 좋습니다.
순차적 방법과의 충돌
데이터를 사용하여 추론 도구를 변경하지 않고 데이터 수집을 중지 할시기를 결정한다는 아이디어는 기존의 순차적 분석 방법을 사용하면서 완전히 날아갑니다. 이에 대한 전형적인 예는 임상 시험에 사용 된 방법입니다. 유해한 치료에 대한 잠재적 노출을 줄이기 위해 데이터는 분석이 수행되기 전에 중간 시간에 종종 분석됩니다. 시험이 아직 완료되지 않았지만 연구원들이 이미 치료가 효과가 있거나 유해하다는 결론을 내릴 수있는 충분한 데이터를 가지고 있다면 의료 윤리는 우리가 시험을 중단해야한다고 말합니다. 치료가 효과가 있다면, 시험을 중단하고 시험이 아닌 환자에게 치료를 제공하는 것이 윤리적입니다. 유해한 경우 시험 환자를 유해한 치료에 노출시키지 않도록 중지하는 것이 더욱 윤리적입니다.
문제는 이제 다중 비교를 시작했기 때문에 다중 비교를 설명하기 위해 방법을 조정하지 않으면 Type I 오류율이 증가한 것입니다. 이것은 실제 다중 비교 문제이기 때문에 전통적인 다중 비교 문제와 동일하지 않습니다 (즉, 수집 된 데이터의 50 %로 데이터를 한 번 분석하고 100 %로 한 번 데이터를 분석하면이 두 샘플은 분명히 독립적이지 않습니다!) 그러나 일반적으로 비교를 많이할수록 제 1 종 오류율을 유지하기 위해 귀무 가설을 기각하는 기준을 더 많이 변경해야하며, 더 많은 비교는 귀무 가설을 기각하기 위해 더 많은 증거가 필요합니다.
이것은 임상 연구자들을 딜레마에 빠뜨린다. 데이터를 자주 확인하고 싶지만 널을 거부하기 위해 필요한 증거를 늘리거나, 가끔씩 데이터를 확인하여 힘을 높이지만 의료 윤리와 관련하여 최적의 방식으로 행동하지 않을 수 있습니다 (예 : 제품의 출시를 지연 시키거나 불필요하게 오랫동안 환자를 유해한 치료에 노출시키는 행위).
그것은 나의 이해 (아마도 잘못된)이다 가능성의 원칙은 우리가 데이터를 확인하는 횟수를 중요하지 않습니다 것을 우리에게 나타납니다, 우리가 같은 추론을해야한다. 이것은 기본적으로 순차적 시험 설계에 대한 모든 접근 방식이 완전히 필요하지 않다고 말합니다. 가능성 원칙을 사용하고 결론을 내릴 충분한 데이터를 수집 한 후에는 중지하십시오. 준비한 분석 수를 조정하기 위해 추론 방법을 변경할 필요가 없으므로 확인 횟수와 검정력 사이의 딜레마는 없습니다. Bam, 순차 분석의 전체 분야가 해결되었습니다 (이 해석에 따라).
개인적으로, 이것에 대해 매우 혼란스러운 것은 순차 설계 분야에서 잘 알려져 있지만 상당히 미묘한 사실 은 최종 테스트 통계 의 가능성 이 중지 규칙에 의해 크게 변경된다는 것입니다. 기본적으로 중지 규칙은 중지 지점에서 불연속적인 방식으로 확률을 높입니다. 다음 은 그러한 왜곡의 도표입니다. 점선은 모든 데이터가 수집 된 후에 만 데이터가 분석되는 경우 널 아래의 최종 테스트 통계의 PDF이며, 실선은 주어진 데이터로 4 번 데이터를 확인하는 경우 테스트 통계의 널 아래 분포를 제공합니다. 규칙.
그것이 말했듯이, 우위 원칙은 우리가 Frequentist 순차 설계에 대해 우리가 알고있는 모든 것을 버리고 데이터를 몇 번이나 분석하는지 잊어 버릴 수 있음을 암시하는 것으로 이해합니다. 분명히, 특히 임상 디자인 분야에서 이것의 의미는 엄청납니다. 그러나 나는 규칙을 멈추는 것이 최종 통계의 가능성을 어떻게 바꾸는지를 무시하는 것이 정당화되는 방법에 대해 내 마음을 감싸지 않았습니다.
약간의 토론은 대부분 마지막 슬라이드 에서 여기 에서 찾을 수 있습니다 .
답변
지수 데이터에 대한 LR 테스트 개요.
하자
에서 무작위로 일
그래서
들면
밀도 함수는
및 CDF는
1. 검정 통계량은 표본 최소값입니다.
이라고하자 . 그런 다음
증명의 개요로
그래서
대
시험에
대해
레벨
우리 간주
그 지수 분포에서 하나의 관찰. 로그 우도 비율은
때 거부를 나타냅니다 . 여기서
이고 μ 0 = 10 인 특정 경우
지수 비율
되어
R에서
가되고 여기서 지수 분포는 비율로 매개 변수화됩니다.
qexp(.95, 10)
[1] 0.2995732
1 - pexp(0.2996, 10)
[1] 0.04998662
따라서, 대안
(rate
에 대한 검정력 은 약 74 %이다.
1 - pexp(0.2996, 1)
[1] 0.7411146
2. 검정 통계량은 표본 평균입니다.
옥스포드 U. 클래스 노트 (두 번째 페이지) 쇼 그 우도 비 테스트
대하여
유의 불량품의 5 % 수준에서의 대
여기서
또한, 하나의 순간 발생 기능을 이용하여 표시 할 수
이고 μ 0 = 10 인 특정 경우
우리가
그래서
qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338
따라서, 대안
에 대한 전력 은 약 95.6 %이다.
1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513
분명히, 지수 평균에 대한 가설을 테스트하기위한 목적
충분한 통계의 정보가
샘플 최소한의 정보보다 훨씬 더입니다.
답변
다른 pdf 함수 및 g ( x , θ )에 의한 위반
이 경우 확률 분포 함수
가 본질적으로 다르기 때문에 '위반'의 예가 됩니다.
와
가 다를 때에도 고정 측정
에서 스케일링까지 동일한 함수
를 제공 하기 때문에 가능성 원리와 관련 될 수 있습니다 . 차이점은 "위반"의 가능성을 열어줍니다.
선택적인 중지 규칙이 있거나없는 코인 플립
또는 선택적 정지 규칙없이 동전 던지기가 대표 예이고,이 PDF 다른 PDF 기능과, P 값의 다른 계산을 초래할 및 신뢰 구간이다 이항 또는 음 이항 있지만 고정을 위해 그들이 같은 가능도 이어질 샘플 / 측정 (최대 스케일링).
더 극단적 인 예
다음 과 같이 분포 된 일부 측정을 고려하십시오.
여기서 는 실험 유형에 따라 알려진 일부 매개 변수 이고 는 알려지지 않았을 수도 있고 측정 에서 유추 할 수있는 일부 매개 변수입니다 .
임의의 소정의 경우 및 우도 함수로부터 독립적 동일한 함수에 비례 :
- 만약 다음
- 만약 후
그러나 동일한 우도 함수이지만 p- 값은 실험에 따라 크게 달라질 수 있습니다 (예 : 값 ). 예를 들어 를 측정 하고 에 대해 테스트 하면 p- 값은
직감 : 이 경우 위반 이유는 p- 값 및 가설 검정이 특정 관측 값 에 대한 우도 함수에만 기초 하지 않기 때문 입니다.
P 값이 우도 계산되지 과 고정하지만, PDF 파일과 와 다른 슬라이스 고정이다. 신뢰 구간, p- 값 및 가설 검정은 우도 비율의 정보와 다릅니다.
p- 값은 실제로 증거가 아닙니다 . p- 값은 단일 측정이 아닌 측정 앙상블과 관련된 측정 인 유형 I 오류와 관련이 있습니다. 이 유형 I 오류 또는 p- 값은 Birnbaums의 '통계적 근거 발견'의 '증거 적 의미'와 동일하지 않습니다. 이것은 p- 값 의 문제와 과학자가 중요한 효과보다는 통계적 유의성만으로 결과를 검색하는 것과 관련이 있습니다.
추론이 현저히 다른 예가 필요합니까? 극단적 인 경우는 좋은 예입니다. 이러한 경우 또는 유사한 극단적 인 차이가있는 것은 물론 실제로 쉽게 발생하지 않습니다. 어리석은 경우와 같이 차이가 작은 경우가 더 많습니다.
가능성 원칙이 '실제로 중요하다'거나 두 가지 다른 추론이 매우 다른 결과를 초래하는 예를 요구하는 것은 약간의 문제 이다. 적어도이 질문의 의도는 철학적 주장과 관련이있을 때. 중요한 원칙이 매우 다양한 결과를 가져 오도록 전제 하기 때문에로드 된 질문 입니다. 많은 실제 사례에서 결과는 작지만 (p- 값이 다른 순서보다 작다는 점에서) 결과는 작습니다. 나는 이것이 다소 다른 결과를 초래하는 두 가지 상이하지만 그럴듯한 방법에는 이상하지 않다고 생각합니다. 차이가 적을 때 가능성 원칙을 '충돌하지 않는'것으로 생각합니다.
답변
다음은 James O. Berger (29 판, 29 페이지)의 통계 결정 이론 및 베이지안 분석 에서 수정 된 예 입니다.
두 종의 말벌은 날개의 노치 수 (이 )와 복부 주위의 검은 고리의 수 (이 ) 로 구별 할 수 있다고 가정하십시오 . 두 종의 문자 분포 ( 및 )는 다음과 같습니다.
날개에 1 개의 노치가 있고 복부 주위에 1 개의 고리가있는 표본을 발견했다고 가정합니다. 두 문자 모두 에 대해 에 찬성하여 100 배 더 큰 증거의 가중치입니다 .
이제 누군가가 에 대한 테스트를 5 % 수준 으로 설정 하려면 첫 번째 문자 " 날개에 1 개의 노치가 있으면 수락 하고, 그렇지 않으면 거부"를 결정하고 두 번째 문자는 " 수락"합니다. 복부 주위에 3 개의 고리가 있으면 거부하십시오.” 다른 많은 가능성이 있지만이 수준에서 가장 강력한 테스트입니다. 그러나 그들은 두 인물에 대해 다른 결론을 이끌어냅니다.
참고 : 물론“ 복부 주위에 1 ~ 3 개의 고리가 있으면 수락 하고 그렇지 않으면 거부 ”규칙을 사용하여 테스트를 설정할 수 있습니다. 문제는 우리가 II 형 위험 0의 5 % 수준에서 시험을 선호하는지, 또는 II 형 위험 0.00001의 4.9 % 수준에서 시험을 선호하는지 여부입니다. 그 차이는 너무 작아서 우리가 신경 쓰지 않을 것입니다. 그러나 내가 이해할 때, 이것이 가능성 원칙에 대한 논쟁의 핵심입니다. 결과가 관련이없는 것으로 의존하도록하는 것은 좋은 생각이 아닙니다.
우도 함수는 비례하지만 의 p- 값 은 0.95이고 의 p- 값 은 0.001입니다 ( 형식의 이벤트로 을 기각한다고 가정 ). 표의 구조에서 0.001보다 작은 수를 선택할 수 있음이 분명합니다. 또한 거부의 유형 II 위험은 0이므로 여기에 "잘못된"것이없는 것처럼 보입니다.
그럼에도 불구하고,이 예제는 개별 데이터로 테스트를 정렬하는 데 어려움을 겪기 때문에 다소 고 안되고 완전히 정직하지 않다는 것을 인정합니다. 지속적인 데이터로 동등한 예를 찾을 수는 있지만 훨씬 더 많은 정보를 얻을 수 있습니다. 나는 가능성 원칙에 실질적인 가치가 거의 없다는 OP에 동의한다. 나는 이론의 일관성을 보장하기위한 원칙으로 해석한다.