학생 서류 채점에서 다른 수준의 관대함을 가진 마커의 효과를 어떻게 가장 잘 다룰 수 있습니까? 무작위로 코호트에 배정되지 않았으며,

600 명 정도의 학생들이 광범위한 평가에서 점수를 받았는데, 이는 신뢰성 / 유효성이 양호하다고 가정 할 수 있습니다. 평가는 100 점 만점에 달하며 컴퓨터가 표시하는 객관식 시험입니다.

이 600 명의 학생들은 또한 2 차 사소한 평가 점수를받습니다. 이 두 번째 평가에서는 11 개의 다른 그레이더로 11 개의 코호트로 구분되며, 마킹에서 ‘유전성’측면에서 그레이더간에 바람직하지 않은 정도의 차이가 있습니다. 이 두 번째 평가는 100 점 만점에 점수를받습니다.

학생들은 무작위로 코호트에 배정되지 않았으며, 코호트간에 기술 수준의 차이를 기대할만한 이유가 있습니다.

두 번째 과제에서 동질 집단 마커의 차이가 개별 학생에게 실질적으로 유리한 점 / 불이익이되지 않도록하는 임무를 받았습니다.

내 생각은 코호트 내에서 개별적인 차이를 유지하면서 첫 번째 코호트 점수와 일치하도록 두 번째 평가에서 코호트 점수를 얻는 것입니다. 두 작업의 성능이 서로 밀접하게 관련되어 있지만 마커의 관대함이 상당히 다르다고 믿을만한 충분한 이유가 있다고 가정해야합니다.

이것이 최선의 접근입니까? 그렇지 않다면 무엇입니까?

응답자가 R, SPSS 또는 Excel과 같이 좋은 솔루션을 구현하는 방법에 대한 실용적인 팁을 줄 수 있다면 대단히 감사하겠습니다.



답변

성적이 어떻게 다른지 아는 것은 좋지만 그래도 성적 보상 할 대상 알려주지는 않습니다 . 단순화를 위해 두 명의 그레이더 만 상상하십시오. 우리가 1 학년이 2 학년보다 일관되게 5 점을 더 많이받는다고하더라도, 각각 70 학년 인 2 명, 1 학년 1 명, 2 학년 2 명에게 어떤 조치를 취해야하는지 말해주지 않습니다. 1 등급으로 표시된 70을 그대로 유지하면서 가혹한 마커 였고 70에서 75까지 상승 했습니까? 아니면 1 학년이 지나치게 관대하다고 가정하고, 학생을 65 점으로 쓰러 뜨리고 2 학년의 70 점을 변경하지 않습니까? 우리는 평균 11 학년을 기준으로 귀하의 사례까지 중간에 타협합니까? 중요한 절대 등급이므로 상대적인 관대함을 아는 것만으로는 충분하지 않습니다.

당신의 결론은 최종 목표가 얼마나 “객관적”이어야하는지에 달려 있습니다. 하나의 정신 모델은 각 학생에게 “정확한”등급 (각 논문을 개별적으로 표시 할 시간이있는 경우 책임 평가자가 수여하는 등급)을 갖도록 제안하는 것입니다. 이는 관찰 된 등급이 근사치입니다. 이 모델에서 관찰 된 성적은 관찰되지 않은 “진정한”등급에 최대한 근접하게하기 위해 해당 학년에 대해 보상되어야합니다. 또 다른 모델은 모든 채점이 주관적 일 수 있으며, 모든 채점자가 동일한 논문을 고려하여 어느 정도의 타협 또는 평균 등급에 도달 한 경우 각 관측 등급을 점수로 전환 할 수 있습니다. 나는 주관성 인정이 더 현실적인 경우에도 두 번째 모델이 해결책으로 덜 설득력이 있음을 발견했습니다. 교육 환경에는 일반적으로 평가에 대한 최종 책임을 가진 사람이 있으며, 학생들이 “학점을받을 자격”을받을 수 있도록 보장하지만이 주요 역할은 우리가 이미 동의하지 않은 학년에 대한 책임을 본질적으로 완전히 없애버 렸습니다. 여기에서 나는 거기에서 가정입니다 우리가 추정하는 것을 목표로하는 것이 하나의 “올바른”등급, 그러나 이것은 경합 제안하고 귀하의 상황에 적합하지 않을 수 있습니다.

같은 코호트에있는 학생 A, B, C 및 D가 모두 각각 75, 80, 85 및 90으로 등급을 매겨 야하지만 그들의 관대 한 학년이 지속적으로 5 점을 너무 높게 표시한다고 가정합니다. 우리는 80, 85, 90 및 95를 관찰하고 5를 빼야하지만 빼는 수치를 찾는 것은 문제가 있습니다. 코호트의 평균 능력이 다를 것으로 예상되므로 코호트 간의 결과를 비교하여 수행 할 수 없습니다. 하나의 가능성은 객관식 시험 결과를 사용하여 두 번째 과제에서 정확한 점수를 예측 한 다음이를 사용하여 각 학년과 정확한 성적 사이의 변동을 평가할 수 있습니다. 그러나이 예측을하는 것은 쉬운 일이 아닙니다. 두 평가간에 서로 다른 평균 및 표준 편차가 예상되는 경우 두 번째 평가 등급이 첫 번째 평가 등급과 일치해야한다고 가정 할 수 없습니다.

또한 학생들은 객관식 및 필기 평가에서 상대적 적성에 차이가 있습니다. 학생의 “관측 된”및 “진정한”등급의 구성 요소를 형성하지만 “예측 된”등급에 의해 포착되지 않는 임의의 효과로 간주 할 수 있습니다. 동질 집단이 체계적으로 다르고 동질 집단의 학생들이 비슷한 경향이 있다면, 각 집단 내에서이 효과의 평균이 0이 될 것으로 기 대해서는 안됩니다. 동질 집단의 관찰 된 성적이 예상 점수와 비교하여 평균 +5 인 경우 불가능합니다이는 넉넉한 채점자, 객관식보다 서면 평가에 특히 적합한 코호트 또는 두 가지의 조합으로 인한 것인지 여부를 결정합니다. 극단적 인 경우에, 코호트는 두 번째 평가에서 적성이 적을 수도 있지만, 매우 관대 한 학년에 의해 보상 된 것보다 많거나 그 반대도 마찬가지입니다. 이것을 분해 할 수 없습니다. 혼란 스러워요.

또한 데이터에 대한 간단한 추가 모델의 적합성이 의심됩니다. 그레이더는 위치 이동뿐만 아니라 스프레드에 의해서도 리드 평가자와 다를 수 있습니다. 코호트의 동질성에 차이가있을 수 있기 때문에 각 코호트에서 관찰 된 그레이드의 확산을 확인하여이를 감지 할 수는 없습니다. 더욱이, 분포의 대부분은 이론적으로 최대 100에 가까운 높은 점수를 가지고 있습니다. 나는 최대에 가까운 압축으로 인해 비선형 성을 도입 할 것으로 예상합니다. 매우 관대 한 그레이더는 A, B, C 및 D 마크를 85, 90, 94, 97. 상수를 빼는 것보다 반전하기가 어렵습니다. 더 나쁜 것은, “클리핑 (clipping)”을 볼 수 있습니다. 매우 관대 한 그레이더는 90, 95, 100, 100으로 등급을 매길 수 있습니다. 이것은 불가능합니다.C와 D의 상대 성능에 대한 정보는 복구 할 수 없을 정도로 손실됩니다.

당신의 학년은 매우 다르게 행동합니다. 평가의 다양한 요소에서 관대함이 아니라 전반적인 관대함 만 다르다고 확신하십니까? 이는 여러 가지 합병증을 유발할 수 있기 때문에 점검 할 가치가 있습니다. 예를 들어, 각 구성 요소에 대한 그레이더의 할당 된 마크가 단조 증가하는 기능을 수행하더라도 B가 5 포인트 “더 나은”임에도 불구하고 B에 대해 관찰 된 등급은 A보다 떨어질 수 있습니다. 수석 평가자의 평가가 Q1 (A는 30/50, B 45/50이어야 함)과 Q2 (A는 45/50, B 35/50이어야 함)로 나누어 져 있다고 가정합니다. 그레이더가 Q1 (관점 : A 40/50, B 50/50)에 매우 관대하지만 Q2 (거점 : A 42/50, 30/50)에 가혹하다고 가정하면 A의 경우 82, A의 경우 80, B. 구성 요소 점수를 고려해야 할 경우

아마도 이것은 답변이 아닌 확장 된 의견이며, 문제의 원래 범위 내에서 특정 솔루션을 제안하지 않는다는 의미입니다. 그러나 만약 당신의 그레이더가 벌써 각각 약 55 개의 논문을 다루고 있다면, 교정 목적으로 5 개 또는 10 개를 더 봐야합니까? 학생들의 능력에 대해 이미 잘 알고 있으므로 다양한 학년의 논문을 직접 고를 수 있습니다. 그런 다음 전체 테스트 또는 각 구성 요소에 걸쳐 등급의 관대함을 보상해야하는지 여부와 상수를 더하거나 빼거나 보간과 같은보다 정교한 방법으로 보상 할 것인지 여부를 평가할 수 있습니다 (예 : 100에 가까운 선형성). 그러나 보간에 대한 경고 단어 : Lead Assessor가 5 개의 샘플 용지를 70, 75, 80, 85 및 90으로 표시한다고 가정합니다. 채점자는 80, 88, 84, 93, 96으로 표시하므로 순서에 대한 의견이 일치하지 않습니다. 관찰 된 등급을 96에서 100 사이의 간격으로 90에서 100까지, 93에서 96에서 관측 된 등급은 85에서 90 사이의 간격으로 매핑하려고 할 수 있습니다. 그러나 그 아래의 마크에는 약간의 생각이 필요합니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 “관측 등급”에서 “예측 된 실제 등급”에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 “관측 등급”에서 “예측 된 실제 등급”에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 “관측 등급”에서 “예측 된 실제 등급”에 대한 공식을 얻기위한 (다항식) 회귀입니다.


답변

매우 간단한 모델 :

s1,i

i

s2,i

A1,…,Ap

각 코호트는 학생들의 힘과 학년의 편이성에 의해 편향됩니다. 이것이 추가 효과라고 가정하면 다음과 같은 방식으로 되돌아갑니다. 첫 번째 테스트에서 코호트의 평균 점수를 빼고 두 번째 테스트에서 코호트의 평균 점수를 더합니다.

조정 된 점수 계산합니다.

s1′

∀j≤p,∀i∈Aj,s1,i′=s1,i−1|Aj|∑i∈Aj(s1,i−s2,i)

s

∀i,si=αs1,i′+(1−α)s2,i

단점은 코호트에있는 사람들이 두 번째 시험에서 운이 나빠지면 개별 학생에게 처벌을받을 수 있다는 것입니다. 그러나 모든 통계 기법은 잠재적으로 불공평 한 단점을 안고 있습니다.


답변

당신은 할 수 없습니다. 적어도 추가 데이터를 수집하지 않고서는 안됩니다. 이유를 확인하려면이 스레드에서 @whuber의 수많은 의견을 읽어보십시오.


답변

편집하다

이 답변에서 해결되는 문제는 그들이 싫어하는 학생들에게 점수를 덜주는 학년을 찾는 것입니다.

원본 게시물

구현하기 쉽다고 생각하는 내 접근 방식은 다음과 같습니다.

μk,i

k

i

yk,i

1

모델을 가정

yk,i=μk,i+α+τek,i

α

α

i

α

2

Gi

i

y~k,i

yk,i−μk,i−α=y~k,i=Gi+σie~k,i

그리고 의 11 개의 개별 추정을하십시오

G

σ

특이한 관찰은

T=|y~−Giσi|

노트

e

T

R 코드

아래는 R의 코드입니다. 귀하의 경우, mu와 y가 모두 주어 지므로 rnorm-number가 할당 될 때 생성 행은 무시되어야합니다. 데이터없이 스크립트를 평가할 수 있도록 포함 시켰습니다.

mu_0 <- 50;
alpha <- 5;
tau<- 10;
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11)

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

답변

문제의 표현 : 위임 된 마커의 정 성적 평가 범위로 ​​인해 두 번째 부분이 더 큰 불확실성에 노출되어야하는 조건으로 시험에서 두 부분의 마크를 설정하는 가장 좋은 방법.

마스터 테스터 = 시험에 대한 책임있는 사람 Delegated Tester = 시험의 파 # 2를 표시하도록 지정된 사람 (1/11) 학생 = 시험에 앉아 재미를 얻는 사람

목표는 다음을 포함합니다 : A) 학생들은 자신의 작업을 반영하는 마크를받습니다. B) 마스터 테스터의 의도와 일치하도록 두 번째 부분의 불확실성을 관리합니다.

제안 된 접근법 (답변) : 1. 마스터 테스터는 대표 표본 세트를 무작위로 선택하고, 파트 # 2를 표시하고 파트 # 1과의 상관 관계를 개발합니다. 2. 상관을 활용하여 모든 위임 된 마커의 데이터 (파트 # 1)를 평가합니다. vs. # 2 점수) 3. 상관 관계가 마스터 테스터와 크게 다른 경우-마스터 테스터가 수용 할 수있는 중요성-결과를 다시 할당하기 위해 마스터 테스터로 시험을 검토하십시오.

이 접근법은 마스터 테스터가 상관과 수용 가능한 중요성에 대해 책임을 지도록합니다. 상관 관계는 파트 # 1 대 # 2의 점수 또는 시험 # 1 대 # 2의 문제에 대한 상대 점수만큼 간단 할 수 있습니다.

마스터 테스터는 또한 상관 관계의 “고무 성”을 기반으로 파트 # 2에 대한 결과 품질을 설정할 수 있습니다.