치수를 줄이기 위해 t-SNE의 매개 변수를 결정하는 방법은 무엇입니까? 100K 문서가 있습니다. 사용 가능한 여러 패키지도

나는 단어 임베딩에 매우 익숙하다. 학습 후 문서가 어떻게 보이는지 시각화하고 싶습니다. 나는 t-SNE가 그것을위한 접근법이라는 것을 읽었다. 포함 크기로 250 크기의 100K 문서가 있습니다. 사용 가능한 여러 패키지도 있습니다.

그러나 t-SNE의 경우 반복 횟수 나 알파 값 또는 퍼펙 스 빌리티 값을 더 잘 알고 있어야합니다.

이러한 하이퍼 파라미터입니까 아니면 일부 속성에 의해 결정될 수 있습니까?



답변

t-SNE를 효과적으로 사용하는 방법 기사를 적극 권장합니다 . 그것은 tsne 피팅 프로세스의 훌륭한 애니메이션 플롯을 가지고 있으며 실제로 tsne 이하는 일을 직관적으로 이해할 수있는 첫 번째 소스였습니다.

높은 수준에서 당황은 중요한 매개 변수입니다. 5, 30 및 50의 난이도를 시도하고 결과를 살펴 보는 것이 좋습니다.

그러나 t-SNE를 효과적으로 사용하는 방법을 읽으십시오. TSNE를보다 효과적으로 사용할 수 있습니다.

패키지의 경우 R에서 Rtsne 을 사용 하거나 Python 에서 sklearn.manifold.TSNE 를 사용 하십시오 .


답변

t-SNE 웹 사이트 에서 FAQ를 인용하겠습니다 . 난처함을 먼저 :

t-SNE에서 난이도를 어떻게 설정해야합니까?

t-SNE의 성능은 난이도의 다른 설정에서 상당히 강력합니다. 가장 적절한 값은 데이터 밀도에 따라 다릅니다. 느슨하게 말해서, 더 크고 밀도가 높은 데이터 세트에는 더 큰 당황 성이 필요하다고 말할 수 있습니다. 당황의 전형적인 값은 5와 50 사이입니다.

다른 모든 매개 변수의 경우 이것을 읽는 것이 좋습니다.

t-SNE가 구축 한 시각화의 품질을 어떻게 평가할 수 있습니까?

가급적이면, 그냥보세요! t-SNE는 거리가 아닌 확률을 유지하므로 high-D와 low-D에서 유클리드 거리 사이의 일부 오차를 측정하는 것은 쓸모가 없습니다. 그러나 동일한 데이터와 난이도를 사용하는 경우 t-SNE가보고 한 Kullback-Leibler의 차이를 비교할 수 있습니다. t-SNE를 10 회 실행하고 KL 발산이 가장 낮은 솔루션을 선택하는 것이 좋습니다.

다시 말해, 시각화가 양호하다면 매개 변수를 변경하지 마십시오. 각 고정 난이도에 대해 KL 분기가 가장 낮은 런을 선택할 수도 있습니다.


답변