overfitting Archives

피셔의 정확한 테스트를 더 잘 이해하고 싶기 때문에 f와 m이 남성과 여성에 해당하고 n과 y가 “소다 소비”에 해당하는 다음 장난감 예제를 고안했습니다.

> soda_gender

    f m
  n 0 5
  y 5 0

분명히 이것은 과감한 단순화이지만 컨텍스트가 방해되는 것을 원하지 않았습니다. 여기서 나는 남자들이 음료수를 마시지 않고 여자들은 음료수를 마시고 통계 절차가 같은 결론에 이르렀는지 알고 싶었습니다.

R에서 피셔 정확한 테스트를 실행하면 다음과 같은 결과가 나타납니다.

> fisher.test(soda_gender)
Fisher's Exact Test for Count Data

data:  soda_gender
p-value = 0.007937
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.0000000 0.4353226
sample estimates:
odds ratio
         0

여기서 p- 값은 0.007937이므로 성별과 소다 소비가 연관되어 있다고 결론 내릴 것입니다.

피셔 정확한 테스트는 초 지오 분포와 관련이 있다는 것을 알고 있습니다. 그래서 나는 그것을 사용하여 비슷한 결과를 얻고 싶었습니다. 즉,이 문제를 다음과 같이 볼 수 있습니다. 10 개의 공이 있습니다. 여기서 5는 “남성”으로 표시되고 5는 “여성”으로 표시되며 5 개의 공을 교체없이 무작위로 그리고 0 개의 공을 보게됩니다. . 이 관찰의 가능성은 무엇입니까? 이 질문에 대답하기 위해 다음 명령을 사용했습니다.

> phyper(q=0,m=5,n=5,k=5,lower.tail=TRUE)
[1] 0.003968254

내 질문은 : 1) 두 결과가 어떻게 다릅니 까? 2) 위의 추론에서 부정확하거나 엄격하지 않은 것이 있습니까?

답변

Fisher의 정확한 테스트는 테이블 여백 (이 경우 남성과 여성 5 명, 음료수 음주자 및 비 음료 자 5 명)을 조정하여 작동합니다. 귀무 가설의 가정 하에서, 남성 소다 술꾼, 남성 비 소다 술꾼, 여성 소다 술꾼 또는 여성 비 소다 술꾼을 관찰하기위한 세포 확률은 모두 마진 총계 때문에 동일하게 (0.25) 가능합니다.

FET에 사용 된 특정 테이블에는 대화, 5 명의 비 소다 술꾼 및 5 명의 남성 소다 술꾼을 제외하고 테이블이 없습니다. 이는 귀무 가설 하에서 “적어도 가능성이 낮습니다”. 초 지오 밀도에서 얻은 확률이 두 배가되면 FET p- 값이 제공됩니다.

How IT

언제든지 물어보세요.

태그 보관물: overfitting

Fisher의 정확한 테스트 및 초기 하 분포 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio

답변

답변