distance Archives - Page 2 of 3

데이터를 계층 적으로 클러스터하고 싶지만 유클리드 거리를 사용하는 대신 상관 관계를 사용하고 싶습니다. 또한 상관 계수의 범위는 -1에서 1까지이며, 연구에서 -1과 1이 모두 “공-조절”을 나타내므로 -1과 1을 d = 0으로 취급합니다. 따라서 계산은 $d = 1 - | r |$

d = 1 - | r |

$\ d = 1-|r|$

나는 코사인 정리를 사용하여 r 을 진정한 유클리드 d 로 변환해야한다는 별도의 질문 (k- 평균 군집화에 관한)을 읽었습니다 $d = \sqrt{2 (1 - r)}$

d = \sqrt{2 (1 - r)}

$d = \sqrt{2(1-r)}$

계층 적 군집화를 위해 상관 관계를 거리로 변환하는 가장 정확한 방법은 무엇입니까?

답변

계층 적 클러스터링 요구 사항

계층 적 군집화는 임의의 유사성 및 비 유사성 측정과 함께 사용할 수 있습니다. (대부분의 도구는 비 유사성을 기대하지만 음수 값을 허용합니다. 작거나 큰 값을 선호하는지 여부는 사용자에게 달려 있습니다.).

중심 또는 분산 (예 : Ward의 방법)을 기반으로하는 방법 만 특별하며 제곱 유클리드와 함께 사용해야합니다. (이유를 이해하려면이 연결을주의해서 연구하십시오.)

단일 연계, 평균 연계, 완전 연계는 그다지 영향을받지 않으며, 여전히 쌍별 차이의 최소 / 평균 / 최대입니다.

거리 측정과의 상관

각 피처에 및 ( 일정한 피처 를 허용하지 않음 )을 갖도록 데이터를 전처리 ( $n$

n

$n$ 관측치, $p$

p

$p$ 피처) 하면 상관 관계가 코사인으로 줄어 듭니다. $μ = 0$

μ = 0

$\mu=0$ $σ = 1$

σ = 1

$\sigma=1$

Corr (X, Y) = \frac{Cov (X, Y)}{σ_{X} σ_{Y}} = \frac{E [(X - μ_{X}) (Y - μ_{Y})]}{σ_{X} σ_{Y}} = E [X Y] = \frac{1}{n} ⟨ X, Y ⟩

$\text{Corr} (X,Y) = \frac{\text{Cov}(X, Y)} {\sigma_X \sigma_Y} = \frac{\mathbb{E} \left[ (X - \mu_X) (Y - \mu_Y) \right]} {\sigma_X \sigma_Y} = \mathbb{E} [XY] = \frac1n \left<X, Y\right>$

같은 조건에서 제곱 유클리드 거리도 코사인으로 줄어 듭니다.

d_{Euclid}^{2} (X, Y) = \sum (X_{i} - Y_{i})^{2} = \sum X_{i}^{2} + \sum Y_{i}^{2} - 2 \sum X_{i} Y_{i} = 2 n - 2 ⟨ X, Y ⟩ = 2 n [1 - Corr (X, Y)]

$d_\text{Euclid}^2(X,Y) = \sum (X_i - Y_i)^2 = \sum X_i^2 + \sum Y_i^2 - 2 \sum X_i Y_i \\ = 2n - 2\left<X, Y\right> = 2n \left[1 - \text{Corr}(X, Y)\right]$

따라서 데이터가 퇴화되지 않는 한 계층 적 클러스터링에 상관 관계를 사용하는 것이 좋습니다. 위에서 설명한대로 전처리 한 다음 제곱 유클리드 거리를 사용하십시오.

How IT

언제든지 물어보세요.

태그 보관물: distance

거리 메트릭으로 상관 관계 사용 (계층 적 클러스터링의 경우) 관계를 사용하고 싶습니다. 또한

답변

계층 적 클러스터링 요구 사항

거리 측정과의 상관

답변