데이터 크기가 거대 할 때 회귀 분석에서 통계적 유의성은 어떻게 되었습니까? 모든 통계 테스트는 너무

whuber 가 다음과 같이 흥미로운 점을 지적한 대규모 회귀 ( link ) 에 관한이 질문을 읽었습니다 .

“거의 모든 통계 테스트는 너무 강력하여”유의 한 “효과를 거의 확실하게 확인할 수 있습니다. 유의성보다는 효과 크기와 같은 통계적 중요성에 더 집중해야합니다.”

— 우버

이것이 입증 될 수있는 것이거나 실제로 어떤 일반적인 현상인지 궁금합니다.

증명 / 토론 / 시뮬레이션에 대한 포인터가 도움이 될 것입니다.

답변

꽤 일반적입니다.

작지만 0이 아닌 효과가 있다고 상상해보십시오 (즉, 테스트에서 선택할 수있는 null과의 편차).

작은 표본 크기에서 기각 가능성은 제 1 종 오류율에 매우 가깝습니다 (잡음이 작은 효과를 지배 함).

표본 크기가 커짐에 따라 추정 효과가 해당 모집단 효과에 수렴해야하며, 동시에 null 효과가 예상 효과에 충분히 근접 할 때까지 추정 효과의 불확실성이 줄어 듭니다 (보통 ). 모집단에서 무작위로 선택한 표본에서 여전히 그럴듯하다는 사실은 사실상 0으로 줄어 듭니다. $\sqrt{n}$

\sqrt{n}

$\sqrt{n}$

다시 말해, 거의 모든 실제 상황에서 본질적으로 항상 널과 약간 의 편차가 있기 때문에 점 널이 있으면 결국 거부가 확실해집니다 .

답변

이것은 증거는 아니지만 실제로 샘플 크기의 영향을 나타내는 것은 어렵지 않습니다. Wilcox (2009)의 간단한 예제를 약간 변경하여 사용하고 싶습니다.

일반적인 불안 척도에 대해 한 연구원이 대학생 인구의 평균이 50 명 이상이라고 주장한다고 상상해보십시오.이 주장을 확인하기 위해 10 명의 대학생이 무작위로 테스트를 목표로 샘플링한다고 가정합니다 와 . (Wilcox, 2009 : 143) $H_{0} : μ \geq 50$
$H_{0} : μ \geq 50$
$H_0: \mu \geq 50$ $α = .05$
$α = .05$
$\alpha = .05$

이 분석에 t-test를 사용할 수 있습니다.

T = \frac{\bar{X} - μ_{o}}{s / \sqrt{n}}

$T = \frac{\bar X - \mu_o}{s/\sqrt{n}}$

표본 평균 ( )이 45이고 표본 표준 편차 ( )가 11 이라고 가정하면 , $\bar{X}$

\bar{X}

$\bar X$ $s$

s

$s$

T = \frac{45 - 50}{11 / \sqrt{10}} = - 1.44.

$T = \frac{45-50}{11/\sqrt{10}}=-1.44.$

자유도 가 인 스튜던트 분포 의 임계 값을 $t$

t

$t$ $ν$

ν

$ν$ 포함하는 표를 보면 , , 입니다. 따라서 이면 귀무 가설을 기각 할 수 없습니다. 이제 표본 평균과 표준 편차가 같지만 100 개의 관측치가 있다고 가정 해 봅시다. $v = 10 - 1$

v = 10 - 1

$v = 10 -1$ $P (T \leq - 1.83) = .05$

P (T \leq - 1.83) = .05

$P(T \leq - 1.83)= .05$ $T = - 1.44$

T = - 1.44

$T=-1.44$

T = \frac{45 - 50}{11 / \sqrt{100}} = - 4.55

$T = \frac{45-50}{11/\sqrt{100}}= -4.55$

용 , , 우리는 거부 할 귀무 가설. 다른 모든 것을 일정하게 유지하고 표본 크기를 늘리면 분모가 줄어들고 표본 분포의 임계 (거부) 영역에 값이있을 가능성이 높습니다. 참고 평균의 표준 오차의 추정이다. 따라서 유사한 해석이 선형 회귀에서 얻은 회귀 계수에 대한 가설 검정에 어떻게 적용되는지 확인할 수 있습니다. 여기서 . $v = 100 - 1$

v = 100 - 1

$v = 100 - 1$ $P (T \leq - 1.66) = .05$

P (T \leq - 1.66) = .05

$P(T \leq -1.66) = .05$ $s / \sqrt{n}$

s / \sqrt{n}

$s/\sqrt{n}$ $T = \frac{{\hat{β}}_{j} - β_{j}^{(0)}}{s e ({\hat{β}}_{j})}$

T = \frac{{\hat{β}}_{j} - β_{j}^{(0)}}{s e ({\hat{β}}_{j})}

$T = \frac{\hat\beta_j-\beta_j^{(0)}}{se(\hat\beta_j)}$

Wilcox, RR, 2009. 기본 통계 : 기존 방법 및 현대 통찰력 이해 . Oxford University Press, 옥스포드.

답변

회귀 분석에서 전체 모형에 대한 검정은 F에 있습니다.

F = \frac{\frac{R S S_{1} - R S S_{2}}{p_{2} - p_{1}}}{\frac{R S S_{2}}{n - p_{2}}}

$F = \frac{\frac{RSS_1-RSS_2}{p_2 - p_1}}{\frac{RSS_2}{n-p_2}}$
여기서 RSS는 잔차 제곱합이고 p는 매개 변수 수입니다. 그러나이 질문의 핵심은 하위 분모의 N입니다. 이 얼마나 가까이 N이 F가 커집니다. 따라서 F가 커질 때까지 N을 늘리십시오. $R S S_{1}$

R S S_{1}

$RSS_1$ $R S S_{2}$

R S S_{2}

$RSS_2$

How IT

언제든지 물어보세요.

데이터 크기가 거대 할 때 회귀 분석에서 통계적 유의성은 어떻게 되었습니까? 모든 통계 테스트는 너무

답변

답변

답변

답변