태그 보관물: text-mining

text-mining

차원 축소를 클러스터링과 언제 결합합니까? Semantic Analysis)

문서 수준 클러스터링을 수행하려고합니다. 용어 문서 주파수 행렬을 구성했으며 k- 평균을 사용하여 이러한 고차원 벡터를 군집화하려고합니다. 직접 클러스터링 대신, 먼저 LSA (Latent Semantic Analysis) 특이 벡터 분해를 적용하여 U, S, Vt 행렬을 구하고, scree plot을 사용하여 적절한 임계 값을 선택하고 축소 된 행렬에 클러스터링을 적용했습니다 (특히 Vt 그것은 나에게 좋은 결과를주는 것처럼 보였던 개념 문서 정보를 제공합니다.

일부 사람들은 SVD (단일 벡터 분해) (코사인 유사성 측정 등을 사용하여 ) 군집화 한다고 말하고 SVD 의 출력에 k- 평균을 적용 할 수 있는지 확실하지 않았습니다. SVD는 차원 축소 기술이기 때문에 논리적으로 정확하다고 생각했습니다. 새 벡터를 많이 제공합니다. 반면 k- 평균은 군집 수를 입력으로 사용하여 이러한 벡터를 지정된 군집으로 나눕니다. 이 절차에 결함이 있거나 개선 할 수있는 방법이 있습니까? 어떤 제안?



답변

이것은 완전한 대답이 아닙니다. “차원 축소를 수행 할 때 어떤 종류의 거리가 유지됩니까?”라는 질문이 있습니다. K- 평균과 같은 군집 알고리즘은 거리에서만 작동하기 때문에 (이론적으로) 사용할 올바른 거리 측정법은 차원 축소에 의해 유지되는 거리 측정법입니다. 이러한 방식으로, 차원 축소 단계는보다 낮은 차원의 공간에서 데이터를 클러스터링하기위한 계산 바로 가기로 볼 수 있습니다. (또한 지역 최소 등을 피하기 위해)

여기에는 내가 이해하지 못하는 많은 미묘한 부분이 있지만 (로컬 거리 대 전역 거리, 상대 거리가 왜곡되는 방법 등), 이것이 이론적으로 이러한 것들에 대해 생각하는 올바른 방향이라고 생각합니다.


답변

“우리는 언제 차원 축소와 클러스터링을 결합합니까?” 전체 질문보다는. 한 가지 이유는 명백합니다. 우리는 agaist 이상 치를 확보하려고 할 때입니다. 초기 중심 힌트가 없으면 K- 평균 알고리즘은 구름에서 k를 가장 중심점으로 가장 먼저 가져 오며, 이는 이상 치일 가능성이 높습니다. PCA에 의한 Preacting은 주니어 구성 요소와 함께있는 특이 치들을 PCA에 유지되는 소수의 수석 구성 요소에 투영하여 중립화합니다.


답변