태그 보관물: reliability

reliability

클래스 내 상관 계수 대 F- 검정 (일원 분산 분석)? 분산 분석과 관련하여 약간 혼란 스럽습니다. 내가

클래스 내 상관 계수 및 일원 분산 분석과 관련하여 약간 혼란 스럽습니다. 내가 이해하는 것처럼, 둘 다 다른 그룹의 관측치와 비교하여 그룹 내에서 유사한 관측치가 얼마나 유사한 지 알려줍니다.

누군가 이것을 조금 더 잘 설명하고 각 방법이 더 유리한 상황을 설명 할 수 있습니까?



답변

두 방법 모두 동일한 아이디어, 관찰 된 분산을 다른 부분 또는 구성 요소로 분해하는 방법에 의존합니다. 그러나 아이템 및 / 또는 평가자를 고정 효과 또는 무작위 효과로 간주하는지 여부에는 미묘한 차이가 있습니다. F- 검정은 전체 변동의 어떤 부분이 요인 간 (또는 분산 간 잔차가 얼마나 많이 발생하는지)에 의해 설명되는 것 외에는 많은 것을 말하지 않습니다. 적어도 이것은 일원 분산 분석에 적용되며 여기서 고정 효과를 가정합니다 (아래 설명 된 ICC (1,1)에 해당). 반면, ICC는 여러 “교환 가능한”평가자에 대한 등급 신뢰도 또는 분석 단위 간의 동질성을 평가할 때 제한 지수를 제공합니다.

우리는 보통 서로 다른 종류의 ICC를 다음과 같이 구분합니다. 이것은 Shrout and Fleiss (1979)의 중요한 작업에서 비롯된 것입니다.

  • 단방향 랜덤 효과 모델 , ICC (1,1) : 각 항목은 잠재적 인 평가자의 더 큰 풀에서 샘플링 된 것으로 간주되는 다른 평가자에 의해 평가되므로 무작위 효과로 처리됩니다. 그런 다음 ICC는 주제 / 항목 차이로 설명 된 총 분산의 %로 해석됩니다. 이것을 일관성 ICC라고합니다.
  • 양방향 랜덤 효과 모델 , ICC (2,1) : 요인과 평가자 / 항목 / 대상 모두 랜덤 효과로 간주되며 잔차 분산 외에 두 가지 분산 성분 (또는 평균 제곱)이 있습니다. 또한 평가자는 모든 항목 / 대상을 평가한다고 가정합니다. 이 경우 ICC는 평가자 + 품목 / 대상에 기인 한 분산의 %를 제공합니다.
  • 양방향 혼합 모형 , ICC (3,1) : 단방향 접근 방식과 달리 여기서 평가자는 고정 효과 (현재 샘플 이외의 일반화 없음)로 간주되지만 항목 / 대상은 무작위 효과로 처리됩니다. 분석 단위는 개인 또는 평균 등급 일 수 있습니다.

이는 표 1의 사례 1 ~ 3에 해당합니다. 관찰 된 등급이 여러 등급의 평균 (ICC (1, k), ICC (2, k)이라고 함)인지 여부에 따라 추가 구별이 가능합니다. 그리고 ICC (3, k)) 또는 아닙니다.

요컨대, 올바른 모델 (단방향 대 양방향)을 선택해야하며 이는 Shrout 및 Fleiss의 논문에서 크게 논의됩니다. 단방향 모델은 양방향 모델보다 작은 값을 생성하는 경향이 있습니다. 마찬가지로, 랜덤 효과 모델은 일반적으로 고정 효과 모델보다 낮은 값을 산출합니다. 고정 효과 모델에서 파생 된 ICC는 평가자 일관성 을 평가하는 방법으로 간주되며 (평가자 분산을 무시하기 때문에) 임의 효과 모델의 경우 평가자 동의 추정치에 대해 이야기 합니다 (평가자가 상호 교환 가능한지 여부). 양방향 모델 만 평가자 x 주제 상호 작용을 통합하며, 이는 전형적인 등급 패턴을 풀려고 할 때 관심이있을 수 있습니다.

다음 그림은 쉽게 /가에서 예를 붙여 넣기 사본입니다 ICC()정신 패키지 (데이터 Shrout 및 Fleiss 1979 년에서 온). 데이터 판정 4 (J) 6 개 과목 또는 타겟 (S)를 asessing 아래 요약에있다 (I는 R 행렬의 이름으로 저장되어 있다고 가정한다 sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

이 예제는 모델의 선택이 결과에 어떤 영향을 미칠 수 있는지 보여주기 때문에 흥미 롭습니다. 따라서 신뢰성 연구의 해석입니다. 6 개의 ICC 모델은 모두 다음과 같습니다 (Shrout 및 Fleiss 논문의 표 4).

Intraclass correlation coefficients
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

알 수 있듯이, 평가자를 고정 효과로 고려하면 (따라서 더 넓은 평가자 풀로 일반화하려고하지 않음) 측정의 동질성에 대해 훨씬 높은 값을 얻을 수 있습니다. ( 모델 유형 및 분석 단위에 대해 다른 옵션을 사용해야하지만 irr 패키지 ( icc())를 사용하여 유사한 결과를 얻을 수 있습니다 .)

분산 분석법은 무엇을 알려줍니까? 관련 평균 제곱을 얻으려면 두 가지 모델을 적합시켜야합니다.

  • 주제 만 고려하는 단방향 모델; 이를 통해 평가 대상 (그룹 MS, BMS 간)을 분리하고 오류 내 항 (WMS)을 추정 할 수 있습니다.
  • 피험자 + 평가자 + 그들의 상호 작용을 고려한 양방향 모델 (복제가 없을 때,이 마지막 용어는 잔차와 혼동 될 것임); 이를 통해 랜덤 효과 모델을 사용하려는 경우 고려할 수있는 평가자 주 효과 (JMS)를 추정 할 수 있습니다 (예 : 총 변동성에 추가)

F- 검정을 볼 필요가 없으며 여기서 MS 만 관심이 있습니다.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

이제 확장 분산 분석 테이블에서 다른 조각을 조립할 수 있습니다. 아래 그림과 같습니다 (Shrout 및 Fleiss 논문의 표 3).


(출처 : mathurl.com )

여기서 처음 두 행은 일방 통행 모델에서 오는 반면, 다음 두 행은 이원 분산 분석에서 나옵니다.

Shrout 및 Fleiss의 기사에서 모든 공식을 쉽게 확인할 수 있으며 단일 평가를위한 신뢰성을 평가하는 데 필요한 모든 것을 갖추고 있습니다. 여러 평가의 평균 에 대한 신뢰도는 어떻습니까 (종종 간 평가자 연구에 관심이있는 정도)? Hays and Revicki (2005)에 따르면 MS의 비율을 다시 작성해야하는 양방향 랜덤 효과 모델을 제외하고는 분모에서 고려한 총 MS를 변경하여 위의 분해에서 얻을 수 있습니다.

  • ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS)의 경우 전체 신뢰성은 (BMS-WMS) /BMS=0.443으로 계산됩니다.
  • ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N)의 경우 전체 신뢰도는 (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0.620.
  • 마지막으로, ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS)에 대해 (BMS-EMS) /BMS=0.909의 신뢰성을 갖습니다.

다시, 우리는 평가자를 고정 효과로 고려할 때 전체 신뢰성이 더 높다는 것을 발견했습니다.

참고 문헌

  1. Shrout, PE and Fleiss, JL (1979). 클래스 내 상관 관계 : 평가자 안정성 평가에 사용합니다 . 심리 게시판 , 86, 420-3428.
  2. Hays, RD 및 Revicki, D. (2005). 신뢰성 및 유효성 (응답 성 포함). Fayers, P. and Hays, RD (eds.), 임상 시험에서 삶의 질 평가 , 2 차 개정판, 25-39 페이지. 옥스포드 대학 출판부.

답변