카테고리 보관물: stats

stats

두 히스토그램의 유사성을 평가하는 방법은 무엇입니까? 평가합니까? 단순히 두 히스토그램을 보는 것으로 충분합니까? 간단한

두 개의 히스토그램이 주어지면 비슷한 지 아닌지를 어떻게 평가합니까?

단순히 두 히스토그램을 보는 것으로 충분합니까? 간단한 일대일 매핑은 히스토그램이 약간 다르고 약간 이동하면 원하는 결과를 얻지 못한다는 문제가 있습니다.

어떤 제안?



답변

읽을 가치가있는 최신 논문은 다음과 같습니다.

Cao, Y. Petzold, L. 화학 반응 시스템의 확률 론적 시뮬레이션에서 정확도 한계 및 오차 측정, 2006.

이 백서의 초점은 확률 적 시뮬레이션 알고리즘을 비교하는 데 중점을두고 있지만 본질적으로 두 가지 히스토그램을 비교하는 방법이 주요 아이디어입니다.

작성자의 웹 페이지에서 pdf에 액세스 할 수 있습니다 .


답변

두 히스토그램 사이에는 많은 거리 측정이 있습니다. 다음과 같은 방법으로 이러한 측정 값을 잘 분류 할 수 있습니다.

K. Meshgi 및 S. Ishii, “추적 정확도를 높이기 위해 그리드를 사용하여 색상의 히스토그램 확장”, Proc. 2015 년 5 월 일본 도쿄 MVA’15

가장 인기있는 거리 기능은 다음과 같습니다.


  • 0

     또는 Hellinger 거리

0=나는h1(나는)h2(나는)


  • 1

    , Manhattan 또는 City Block Distance

1=나는|h1(나는)h2(나는)|


  • =2

    또는 유클리드 거리

2=나는(h1(나는)h2(나는))2

  • L 또는 Chybyshev 거리

=에이엑스나는|h1(나는)h2(나는)|

  • L 또는 분수 거리 (Minkowski 거리 제품군의 일부)

=(나는|h1(나는)h2(나는)|)1/

0<<1

  • 히스토그램 교차

=1나는(나는(h1(나는),h2(나는))나는(|h1(나는)|,|h2(나는)|)

  • 코사인 거리

기음영형=1나는h1(나는)h2(나는)

  • 캔버라 거리

기음=나는|h1(나는)h2(나는)|나는(|h1(나는)|,|h2(나는)|)

  • 피어슨의 상관 계수

기음아르 자형=나는(h1(나는)1)(h2(나는)1)나는(h1(나는)1)2나는(h2(나는)1)2

  • Kolmogorov-Smirnov Divergance

케이에스=에이엑스나는|h1(나는)h2(나는)|

  • 경기 거리

에이=나는|h1(나는)h2(나는)|

  • 크 래머 폰 미제스 거리

기음=나는(h1(나는)h2(나는))2


  • χ2

    통계

χ2=나는(h1(나는)h2(나는))2h1(나는)+h2(나는)

  • 바타 카리 야 거리

H=1나는h1(나는)h2(나는)

& 헬 링거

  • 제곱 화음

에스기음=나는(h1(나는)h2(나는))2

  • 쿨백-라이 블러 분기

케이=나는h1(나는)영형h1(나는)(나는)

  • 제 퍼리 이산

J=나는(h1(나는)영형h1(나는)(나는)+h2(나는)영형h2(나는)(나는))

  • Earth Mover 's Distance (지구 이동 거리) (비닝 정보 를 거리에 포함시키는 교통 거리의 첫 번째 구성원입니다. 자세한 내용은 위에서 언급 한 백서 또는 Wikipedia 항목을 참조하십시오 .
    에이

이자형=나는에프나는j나는,j에프나는j에이나는j에스나는,j에프나는j


j에프나는jh1(나는),j에프나는jh2(j),나는,j에프나는j=나는(나는h1(나는)jh2(j))

및 에서 유동 나타내는

에프나는j

나는

j

  • 이차 거리

=나는,j에이나는j(h1(나는)h2(j))2

  • 이차 치 거리

기음=나는,j에이나는j(h1(나는)h2(나는)(기음에이기음나는(h1(기음)+h2(기음))))(h1(j)h2(j)(기음에이기음j(h1(기음)+h2(기음))))

000

이 거리 중 일부의 Matlab 구현은 내 GitHub 저장소에서 사용할 수 있습니다 :
https://github.com/meshgi/Histogram_of_Color_Advancements/tree/master/distance
또한 당신은 Yossi Rubner, Ofir Pele, Marco Cuturi 및 Haibin Ling과 같은 사람을 검색 할 수 있습니다 최첨단 거리.

업데이트 : 거리에 대한 대안 설명이 여기 저기 문헌에 나와 있으므로 완전성을 위해 여기에 나열합니다.

  • 캔버라 거리 (다른 버전)

기음=나는|h1(나는)h2(나는)||h1(나는)|+|h2(나는)|

  • Bray-Curtis 비 유사성, Sorensen 거리 (히스토그램의 합이 1이므로 과 동일 )
    0

기음=12나는h1(나는)=h2(나는)나는h1(나는)+나는h2(나는)

  • Jaccard 거리 (즉, 조합 교차점, 다른 버전)

나는영형=1나는나는(h1(나는),h2(나는))나는에이엑스(h1(나는),h2(나는))


답변

이 질문에 대한 표준 답변은 카이 제곱 테스트 입니다. KS 테스트는 비닝 된 데이터가 아닌 비닝 된 데이터에 대한 것입니다. 바인드 해제 된 데이터가있는 경우 반드시 KS 스타일 테스트를 사용하지만 히스토그램 만있는 경우 KS 테스트는 적합하지 않습니다.


답변

당신은 Kolmogorov-Smirnov 테스트를 찾고 있습니다. 막대 높이를 각 히스토그램의 모든 관측치의 합계로 나누는 것을 잊지 마십시오.

KS- 검정은 또한 분포의 평균이 서로에 대해 이동되는 경우 차이를보고합니다. 응용 프로그램에서 x 축을 따라 히스토그램의 변환이 의미가없는 경우 먼저 각 히스토그램에서 평균을 빼고 싶을 수 있습니다.


답변

David의 답변에서 알 수 있듯이 KS 검정이 연속 분포를 가정하므로 구간 화 된 데이터에 카이 제곱 검정이 필요합니다. KS 테스트가 부적절한 이유 (naught101의 의견)와 관련하여, 여기에서 제기 할 가치가있는 응용 통계 문헌에서이 문제에 대한 논의가있었습니다.

자연 신문의 3 분의 1에 통계적 오류 가 있다고 주장하는 흥미로운 교환이 시작되었다 ( Garcia-Berthou and Alcaraz, 2004 ). 그러나 후속 논문 ( Jeng, 2006 , " 통계 테스트 오류 통계 테스트 오류 "-아마도 내가 가장 좋아하는 논문 제목)은 Garcia-Berthou와 Alcaraz (2005)가 개별 데이터에 대해 KS 테스트를 사용하여 메타 연구에서 부정확 한 p- 값을보고합니다. Jeng (2006) 백서는이 문제에 대한 훌륭한 토론을 제공하며 개별 데이터를 처리하기 위해 KS 테스트를 수정할 수 있음을 보여줍니다. 이 특정 경우에, 구별은 [0,9], 에서 후행 자릿수의 균일 한 분포 사이의 차이로 요약됩니다.
P(x)=1

(엑스)=19, (0엑스9)


(잘못된 KS 테스트에서) 및 델타 함수의 콤 분포,

(올 바르고 수정 된 형식) . 원래 오류의 결과로 Garcia-Berthou와 Alcaraz (2004)는 null을 잘못 거부했지만 카이 제곱 및 수정 된 KS 테스트는 그렇지 않았습니다. 어쨌든 KS를 여기에서 작동하도록 수정할 수 있더라도 카이 제곱 테스트가이 시나리오의 표준 선택입니다.

(엑스)=110j=09δ(엑스j)


답변

두 히스토그램 간의 상호 상관 (컨볼 루션)을 계산할 수 있습니다. 그것은 약간의 traslation을 고려할 것입니다.


답변