이진 데이터의 유사 계수 : 왜 Russell과 Rao보다 Jaccard를 선택해야합니까? 0 = 부재)은 우리가 임의의 두

에서 통계 과학 백과 I가 주어진 이해 이분법을 (이진수 1 = 본 0 = 부재)은 우리가 임의의 두 개체 비상 테이블 형성 할 수있다 (변수) 특성을 IJ 시료를 :

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

이러한 값으로부터 모든 객체 쌍 사이의 유사성 계수, 특히 Jaccard 계수
와 Russell 및 Rao 계수
사이의 유사성 계수를 계산할 수 있습니다

에이에이+비+기음

에이에이+비+기음+디=에이피.

이 계수를 계산하면 다른 값을 얻을 수 있지만 다른 것을 선택 해야하는 이유 를 설명하는 리소스를 찾을 수 없습니다 . 일부 데이터 세트의 경우 두 속성 ( ) 의 동시 부재가 정보를 전달하지 않기 때문입니까?



답변

그러한 계수가 많이 있습니다 (대부분 여기 에 표시 됩니다 ). 특히 계수 행렬 을 계산할 때 수식의 차이로 인한 결과에 대해 묵상하십시오 .

예를 들어 객체 1과 2가 객체 3과 4와 유사하다고 상상해보십시오. 그러나 1과 2에는 목록에 많은 속성이 있지만 3과 4에는 속성이 거의 없습니다. 이 경우 Russell-Rao (고려되는 총 속성 수에 대한 공동 속성의 비율)는 1-2 쌍의 경우 높고 3-4 쌍의 경우 낮습니다. 그러나 Jaccard (두 객체 가 가진 속성의 결합 된 수에 대한 공동 속성의 비율 = 두 객체 모두에 속성 이 있으면 둘 다 가질 가능성)는 1-2과 3-4 쌍 모두에서 높을 것입니다.

(에이에이+비+에이에이+기음)/2

에이에이+비에이에이+기음

기음

추신

일부 데이터 세트의 경우 두 속성 (d)의 동시 부재가 정보를 전달하지 않기 때문입니까?

또한 1+ 명목 속성 (이분 또는 다항)을 기반으로 객체 간의 유사성을 계산하려면 이러한 변수를 더미 이진 변수 세트로 다시 코딩하십시오. 그러면 계산할 추천 유사도 측정치는 것이다 다이스 ( 가변 수의 1+ 세트에 대해 계산하면, 오치아이 및 Kulczynski-2에 해당).


답변

전통적인 정확도 (즉, Russell-Rao)에 대한 Tanimoto 계수의 유용성은 분할을 금본위 제와 비교할 때 이미지 분석에서 분명합니다. 이 두 이미지를 고려하십시오.

이진 ‘마스크’인 각 이미지에는 크기가 같지만 약간 다른 위치에 배치 된 두 개의 객체가 있으며이 객체의 중첩을 평가하여이 객체의 모양과 위치가 동일한 정도를 평가하려고합니다. 일반적으로 하나 (예 : 자주색 마스크)는 세그먼테이션 (컴퓨터 알고리즘으로 생성)입니다. 예를 들어 의료 이미지에서 심장을 찾으려고 시도 할 수 있습니다. 다른 하나 (예 : 녹색)는 금 표준 (즉, 전문 임상의가 식별 한 심장)입니다. 흰색이있는 경우 두 모양이 겹칩니다. 검은 색 픽셀은 배경입니다.

두 번째 이미지에서 많은 배경 “패딩”을 제외하고 두 이미지는 동일합니다 (즉, 세그먼테이션 알고리즘의 결과와 골드 표준은 두 이미지에서 동일합니다). 두 번째 x-ray 기계, 두 번째 기계는 더 많은 신체 부위를 덮는 더 넓은 광선을 가졌지 만, 그렇지 않으면 심장의 크기가 두 이미지 세트에서 동일합니다).

두 이미지의 세그먼테이션과 골드 표준이 동일하므로 골드 표준에 대한 세그먼테이션 정확도를 평가하면 두 실험에서 동일한 ‘정확도’결과를 출력하기 위해 측정 항목을 원합니다.

그러나 Russel-Rao 접근 방식을 사용하여 분할의 품질을 평가하려고하면 “배경 픽셀로 올바르게 식별 된 배경 픽셀”이 세트의 전체 정확도 및 배경 픽셀은 제 2 세트에서 불균형 적으로 표현된다. 의료 세분화에서 겹치는 부분을 평가하려는 객체는 종종 거대한 배경에서 작은 얼룩이므로 매우 유용하지 않습니다. 또한 한 분할 알고리즘의 정확도를 다른 분할 알고리즘의 정확도와 비교하려고 시도하고 두 크기가 다른 이미지에서 평가되면 문제가 발생할 수 있습니다! (또는 다른 규모로 동등하게).임베딩 이미지의 스케일링 / 크기는 골드 표준에 대한 세그먼테이션 평가에 차이가 없어야합니다! .

반대로, tanimoto 계수는 배경 픽셀을 신경 쓰지 않으므로 ‘스케일’에 변하지 않습니다. tanimoto 계수에 관한 한,이 두 세트의 유사성은 동일하므로 분할 알고리즘의 품질을 평가하는 데 사용하는 것이 훨씬 유용한 유사성 메트릭이됩니다.