태그 보관물: clustering

clustering

1 차 Markov 체인의 클러스터 평가 어떻게 다른지 알아낼 수있는 권장 방법이 있습니까?

수천 개의 1 차 Markov 체인의 데이터 세트를 약 10 개의 클러스터로 클러스터링했습니다.

이러한 클러스터를 평가하고 클러스터의 항목이 공유하고 다른 클러스터와 어떻게 다른지 알아낼 수있는 권장 방법이 있습니까? 따라서 “클러스터 A의 프로세스는 일단 도착하면 상태 Y를 유지하는 경향이 있습니다. 이는 다른 클러스터의 프로세스에는 해당되지 않습니다.”

이러한 Markov 체인의 전이 행렬은 너무 커서 “보이고”볼 수 없습니다. 도움이 될 수 있다면 비교적 희소합니다.

내 생각은 모든 전이 행렬을 클러스터로 가져 와서 합산하여 그림의 강도 (0에서 255까지의 규모)로 플롯하는 것이 었습니다. 시도해야 할 “전문적인”것이 있습니까?



답변

각 군집의 정상 상태 동작에 대해 설명하려면 고유 벡터로 각 전이 행렬의 정상 상태 분포를 계산 한 다음 군집별로 상자 그림을 비교할 수 있습니다. 어떤 종류의 스무딩을 먼저 적용하지 않고 정상 상태를 계산할 때 문제가 발생할 수 있습니다.

전이 행렬을 어떻게 클러스터링합니까? 그것이 내가 있다면, 나는 각 행에 추가 평활을 적용하고 각 행의 중심 로그 비율 변환을 취한 다음 행렬을 평평하게 만들 것입니다.

K- 평균 또는 변형을 사용하여 군집화하는 경우 정규화 된 군집 중심을 분석 할 수 있습니다. 또는 각 군집에서 관측치를 몇 개 선택하여 분석하십시오.


답변

먼저 아이디어를 얻으려면 언급 한 응용 프로그램과 일치하는 105 x 105 차원의 행렬이 있습니까? ‘Y 상태 유지’라고 말하면 응용 프로그램 Y를 고수한다는 의미입니까?

그런 다음 “클러스터 A의 프로세스는 일단 도착하면 상태 Y에 머무르는 경향이 있으며 다른 클러스터의 프로세스에는 해당되지 않습니다”와 같은 결과는 단지 10 개의 클러스터로 너무 세밀한 것으로 가정합니다. 응용 프로그램 도메인의 클러스터링을 시도 했습니까? 제대로 이해하면 사용자 동작을 기반으로 105 개의 응용 프로그램을 클러스터링 할 수 있습니다. 다음으로, 전환이 아닌 단순한 사용자의 존재, 즉 105 개의 응용 프로그램에서 사용자의 프로파일을 살펴 봤습니까? 마치 사용자 프로필간에 Pearson 계수를 사용할 수있는 것처럼 들립니다. 응용 프로그램 클러스터 또는 응용 프로그램 자체에서. 이것은 아마도 응용 프로그램 간 전환으로 확장 될 수 있지만 현재 클러스터 수와 관심있는 결과 유형 사이에 큰 불일치가 있다고 생각합니다.


답변