표본 크기가 증가함에 따라 p- 값과 ks- 검정 통계가 감소하는 이유는 무엇입니까? 이 Python 코드를 예로 들어 보겠습니다.
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
결과는 다음과 같습니다.
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
직관적으로 저는 n이 커짐에 따라 두 분포가 다르다는 것이 테스트가 더 확실하다는 것을 이해합니다. 그러나 표본 크기가 매우 크면 이와 같은 유사성 테스트의 요점은 무엇입니까? Anderson Darling 검정 또는 t- 검정이라고합니다 .n이 매우 큰 경우 분포는 항상 다음과 같습니다. “상당히”다르다!? 이제 저는 지구상에서 p- 값의 요점이 무엇인지 궁금합니다. 샘플 크기에 너무 의존합니다. p> 0.05이고 더 작게하려면 더 많은 데이터를 얻으십시오. p <0.05이고 더 높게하려면 일부 데이터를 제거하십시오.
또한 두 분포가 동일하면 ks-test 통계량은 0과 p- 값 1이됩니다. 그러나 예를 들어, n이 ks-test 통계량을 증가 시키면 분포가 시간이 지남에 따라 점점 더 비슷해 짐을 나타냅니다 (감소). 그러나 p- 값에 따라 시간이 지남에 따라 점점 더 달라집니다 (또한 감소합니다).
답변
분포가 매우 유사하고 표본이 클수록 노이즈가 적으므로 검정 통계량은 감소합니다. 사용한 두 가지 이론적 분포를 비교하려면 “true”KS 통계량을 얻어야합니다. 더 많은 데이터를 추가 할 때 예상 KS 통계량은이 실제 값에 근접해야합니다. 그러나 KS 통계량이 감소하더라도 개별 분포의 추정치에 대한 신뢰도가 높기 때문에 실제로 두 가지 분포 (예 : p- 값 감소)임을 확신하게됩니다.
답변
실용적인 참고 사항 : 더 많은 데이터를 얻는 것은 쉽지 않습니다 (내가 그랬습니다). 원하는 값 을 얻기 위해 데이터를 제거하는 것은 학문적 사기이며, 잡히면 문제가 있습니다.
여전히 값 자체는 제한된 값입니다. 기껏해야 그것은 분석의 시작일 뿐이며 끝이 아닙니다. 자세한 내용은 values 에 대한 ASA의 설명을 참조하십시오 .