정규 (또는 다른) 분포에서 "중단"을 공식적으로 테스트하는 방법 학생 시험을 채점하는 경우에 발생합니다.

사회 과학에서 종종 어떤 방식으로 분포 되어야 하는 변수는 일반적으로 특정 지점 주위에서 분포가 불연속되는 결과를 낳습니다.

예를 들어, “통과 / 실패”와 같은 특정 컷오프가 있고 이러한 측정이 왜곡되는 경우 해당 지점에서 불연속성이있을 수 있습니다.

하나의 두드러진 예 (아래 인용)는 학생의 표준화 된 시험 점수가 기본적으로 모든 곳에서 60-65 %의 질량이 거의없고 60-65 %의 질량이 거의없는 60 %를 제외하고는 기본적으로 배포됩니다. 이는 교사가 학생 시험을 채점하는 경우에 발생합니다. 저자는 교사가 학생들의 시험 합격을 실제로 돕는 지 여부를 조사합니다.

의심 할 여지없이 가장 설득력있는 증거는 다른 테스트에 대해 다른 컷오프 주변에서 큰 불연속성을 가진 종 곡선의 그래프를 보여주는 것입니다. 그러나 통계 테스트를 어떻게 진행하겠습니까? 그들은 보간을 시도한 다음 위 또는 아래의 분수와 컷오프 위와 아래의 분수에 대한 t- 검정을 비교했습니다. 현명하지만 이것들은 임시적입니다. 누구든지 더 나은 것을 생각할 수 있습니까?

링크 :
학생 및 학교 평가 규칙 및 재량 : 뉴욕 리전트 시험 사례
http://www.econ.berkeley.edu/~jmccrary/nys_regents_djmr_feb_23_2011.pdf

검정, 조작 가능한 시험 점수 분포, 컷오프 아래에서 밀도가 급격히 떨어짐

답변

질문을 적절하게 구성하고 유용한 점수의 개념적 모델을 채택하는 것이 중요합니다.

질문

잠재적 부정 행위 임계 값 (예 : 55, 65 및 85)은 데이터와는 독립적으로 선험적 으로 알려져 있습니다. 데이터에서 결정할 필요는 없습니다. (이는 이상치 탐지 문제 나 분포 적합 문제가 아닙니다.)이 임계 값보다 작은 점수 (일부는 아님)가 해당 임계 값 (또는 아마도 임계 값 이상)으로 이동했다는 증거를 평가해야합니다.

개념적 모델

개념적 모델의 경우 점수가 정규 분포 (또는 쉽게 매개 변수화 된 다른 분포) 를 가질 가능성이 없다는 것을 이해하는 것이 중요합니다 . 게시 된 예제와 원본 보고서의 다른 모든 예제에서 그 사실을 분명히 알 수 있습니다. 이 점수는 학교의 혼합을 나타냅니다. 학교 내 분포가 정상이더라도 (그렇지 않은 경우), 혼합물은 정상이 아닐 수 있습니다.

간단한 접근 방식은 진정한 점수 분포가 있음 을 인정합니다.이 특정 부정 행위를 제외하고는 보고 됩니다. 따라서 비모수 설정입니다. 너무 광범위 해 보이지만 실제 데이터에서 예상하거나 관찰 할 수있는 점수 분포의 특징이 있습니다.

점수 , 및 는 와 밀접하게 상관 됩니다. $i - 1$
$i - 1$
$i-1$ $i$
$i$
$i$ $i + 1$
$i + 1$
$i+1$ $1 \leq i \leq 99$
$1 \leq i \leq 99$
$1 \le i \le 99$
이상적인 점수 매기기 버전의 주위에 이러한 개수에 변화가있을 것입니다. 이러한 변형은 일반적으로 개수의 제곱근과 같은 크기입니다.
임계 값 기준으로 부정 행위 는 점수 의 수에 영향을 미치지 않습니다 . 그 효과는 각 점수의 수 (속임수의 영향을받는 “위험에 처한 학생”수)에 비례합니다. 이 임계 값 미만의 점수 경우, 계수 는 일부만큼 감소 하고이 양은 추가됩니다 . $t$
$t$
$t$ $i \geq t$
$i \geq t$
$i\ge t$ $i$
$i$
$i$ $c (i)$
$c (i)$
$c(i)$ $δ (t - i) c (i)$
$δ (t - i) c (i)$
$\delta(t-i)c(i)$ $t (i)$
$t (i)$
$t(i)$
변화량은 점수와 임계 값 사이의 거리에 따라 감소합니다. 는 의 감소 함수입니다 . $δ (i)$
$δ (i)$
$\delta(i)$ $i = 1, 2, \dots$
$i = 1, 2, \dots$
$i=1,2,\ldots$

임계 값 주어지면 귀무 가설 (속임수 없음)은 이며, 가 임을 의미합니다. 대안은 입니다. $t$

t

$t$ $δ (1) = 0$

δ (1) = 0

$\delta(1)=0$ $δ$

δ

$\delta$ $0$

0

$0$ $δ (1) > 0$

δ (1) > 0

$\delta(1)\gt 0$

테스트 구성

어떤 테스트 통계를 사용해야합니까? 이러한 가정에 따르면, (a) 효과는 카운트에 부가적이고 (b) 임계 값 근처에서 가장 큰 효과가 발생합니다. 이것은 카운트의 1 차 차분을보고 나타내는 . 또한 배려 한 단계가는 제안 : 대립 가설 하에서, 우리는 점수 점차 눌려 카운트 시퀀스 것으로 기대 임계 접근 아래를 다음 (ⅰ)에서 많은 양의 변화 (ⅱ)이어서 큰 부정적인 변화 $c^{'} (i) = c (i + 1) - c (i)$

c^{'} (i) = c (i + 1) - c (i)

$c'(i) = c(i+1)-c(i)$ $i$

i

$i$ $t$

t

$t$ $t$

t

$t$ . 검정의 검정력을 최대화하기 위해두 번째 차이점을살펴 보겠습니다. $t + 1$

t + 1

$t+1$

c^{″} (i) = c^{'} (i + 1) - c^{'} (i) = c (i + 2) - 2 c (i + 1) + c (i),

$c''(i) = c'(i+1) - c'(i) = c(i+2) - 2c(i+1) + c(i),$

에서 때문에 이이 약간 큰 마이너스의 쇠퇴에 결합한다 와 네거티브 큰 양의 증가의 함으로써 확대 킬레이트 효과 . $i = t - 1$

i = t - 1

$i = t-1$ $c (t + 1) - c (t)$

c (t + 1) - c (t)

$c(t+1)-c(t)$ $c (t) - c (t - 1)$

c (t) - c (t - 1)

$c(t) - c(t-1)$

임계 값에 가까운 카운트의 직렬 상관이 상당히 작다는 가설을 세울 것입니다. (다른 곳의 직렬 상관 관계는 관련이 없습니다.) 이것은 의 분산 이 대략적으로 $c^{″} (t - 1) = c (t + 1) - 2 c (t) + c (t - 1)$

c^{″} (t - 1) = c (t + 1) - 2 c (t) + c (t - 1)

$c''(t-1) = c(t+1) - 2c(t) + c(t-1)$

var (c^{″} (t - 1)) \approx var (c (t + 1)) + (- 2)^{2} var (c (t)) + var (c (t - 1)) .

$\text{var}(c''(t-1)) \approx \text{var}(c(t+1)) + (-2)^2\text{var}(c(t)) + \text{var}(c(t-1)).$

이전 에 모든 대해 를 제안했습니다 확인 할 수있는 것). 어떻게 $var (c (i)) \approx c (i)$

var (c (i)) \approx c (i)

$\text{var}(c(i)) \approx c(i)$ $i$

i

$i$

z = c^{″} (t - 1) / \sqrt{c (t + 1) + 4 c (t) + c (t - 1)}

$z = c''(t-1) / \sqrt{c(t+1) + 4c(t) + c(t-1)}$

대략 단위 분산이 있어야합니다. 큰 점수 모집단 (게시 된 인구는 약 20,000 명)의 경우 대략 정규 분포 도 기대할 수 있습니다. 우리가 높은 음의 값은 부정 패턴을 나타내는 기대하기 때문에, 우리는 쉽게 크기의 시험 구 작성 : , 표준 정규 분포의 CDF를 들어 임계 못한 부정의 가설을 기각 때 . $c^{″} (t - 1)$

c^{″} (t - 1)

$c''(t-1)$ $α$

α

$\alpha$ $Φ$

Φ

$\Phi$ $t$

$t$
$t$ $Φ (z) < α$
$Φ (z) < α$

$\Phi(z) \lt \alpha$

예

예를 들어, 세 개의 정규 분포를 혼합하여 iid를 추출한 이 실제 테스트 점수 세트를 고려하십시오 .

실제 점수의 히스토그램

$t = 65$

t = 65

$t=65$ $δ (i) = \exp (- 2 i)$

δ (i) = \exp (- 2 i)

$\delta(i) = \exp(-2 i)$

부정 행위 후 점수 히스토그램

$z$

z

$z$ $t$

t

$t$

Z의 줄거리

$z$

$z = - 4.19$

z = - 4.19

$z = -4.19$ $Φ (z) = 0.0000136$

Φ (z) = 0.0000136

$\Phi(z) = 0.0000136$

$z$

z

$z$

이 테스트를 여러 임계 값에 적용 할 때 테스트 크기의 Bonferroni 조정이 현명합니다. 여러 테스트에 동시에 적용 할 때 추가 조정을하는 것도 좋습니다.

평가

$z$

z

$z$ $z$

z

$z$ 시뮬레이션이 매우 간단하고 실행 속도가 빠릅니다.

답변

딥을 명시 적으로 예측 한 모델을 피팅 한 다음 순진한 모델보다 데이터에 훨씬 더 잘 맞는다는 것을 보여주는 것이 좋습니다.

두 가지 구성 요소가 필요합니다.

점수의 초기 분포,
점수가 임계 값보다 낮은 경우 점수를 다시 확인 (정직한 지 여부)하는 절차.

$t$

t

$t$

p_{f i n a l} (s) = p_{i n i t i a l} (s) - p_{i n i t i a l} (s) m (s \to t) + δ (s = t) \sum_{s^{'} = 0}^{t - 1} p_{i n i t i a l} (s^{'}) m (s^{'} \to t),

$p_{final}(s) = p_{initial}(s) - p_{initial}(s)m(s\rightarrow t)+ \delta(s=t)\sum_{s'=0}^{t-1}p_{initial}(s')m(s'\rightarrow t),$

$p_{f i n a l} (s)$
$p_{i n i t i a l} (s)$
$m (s^{'} \to t)$
$δ (s = t)$

$m (s^{'} \to t) \approx a q^{t - s^{'}}$

m (s^{'} \to t) \approx a q^{t - s^{'}}

$m(s'\rightarrow t)\approx a q^{t-s'}$ $a$

a

$a$

초기 분포로 Poisson 또는 Gaussian 분포를 사용할 수 있습니다. 물론 동일한 테스트를받는 것이 이상적이지만 한 그룹의 교사에게는 임계 값을 제공하고 다른 교사에게는 임계 값을 제공하지 않습니다.

$t_{i}$

t_{i}

$t_i$ $a_{i}$

a_{i}

$a_i$

노트:

합격 점수보다 낮은 등급이있는 경우 테스트를 다시 확인하는 절차가 있습니다. 그런 다음 어느 인스턴스가 정직하고 어떤 인스턴스인지 정하기가 더 어렵습니다.
$m (s \to t)$
$t$

답변

이 문제를 두 가지 하위 문제로 나누었습니다.

데이터에 맞는 분포의 모수 추정
적합 분포를 사용하여 이상 값 탐지 수행

하위 문제를 해결하는 방법에는 여러 가지가 있습니다.

포아송 분포가 데이터가 독립적이고 동일하게 분포되어 있다면 (iid) 데이터에 적합 할 것 같습니다. 물론 우리는 그렇지 않습니다. 분포의 모수를 순진하게 추정하려고하면 특이 치에 의해 왜곡됩니다. 이를 극복 할 수있는 두 가지 가능한 방법은 강력한 회귀 기술 또는 교차 검증과 같은 휴리스틱 방법 을 사용 하는 것입니다.

이상 값 탐지에는 여러 가지 접근 방식이 있습니다. 가장 간단한 방법은 1 단계에서 피팅 한 분포의 신뢰 구간을 사용하는 것입니다. 다른 방법으로는 부트 스트랩 방법과 Monte-Carlo 방법이 있습니다.

분포에 “점프”가 있음을 나타내지는 않지만 표본 크기에 대해 예상보다 많은 이상 치가 있는지 여부를 알려줍니다.

보다 복잡한 접근법은 복합 분포와 같은 데이터에 대한 다양한 모델을 구성하고 어떤 모델 비교 방법 (AIC / BIC)을 사용하여 어떤 모델이 데이터에 가장 적합한지를 결정하는 것입니다. 그러나 단순히 “예상 분포와의 편차”를 찾고 있다면 이것은 과도한 것으로 보입니다.

How IT

언제든지 물어보세요.

정규 (또는 다른) 분포에서 “중단”을 공식적으로 테스트하는 방법 학생 시험을 채점하는 경우에 발생합니다.

답변

질문

개념적 모델

테스트 구성

예

평가

답변

답변

답변