나는 현재 t-SNE 시각화 기술을 읽고 있으며 고차원 데이터를 시각화하기 위해 PCA (Principal Component Analysis)를 사용하는 단점 중 하나는 점 사이의 큰 쌍 거리를 유지한다는 것입니다. 고차원 공간에서 멀리 떨어져있는 의미 점은 저 차원 부분 공간에서도 멀리 떨어져 있지만 다른 모든 쌍방향 거리는 망칠 수 있습니다.
왜 그런지 이해하고 그래픽으로 무엇을 의미하는지 이해할 수 있습니까?
답변
다음 데이터 세트를 고려하십시오.
PC1 축이 투영의 분산을 최대화합니다. 따라서이 경우 분명히 왼쪽 하단에서 오른쪽 상단으로 대각선으로 이동합니다.
원래 데이터 세트에서 가장 큰 쌍별 거리는이 두 개의 바깥 점 사이입니다. PC1에서는 거의 정확하게 보존됩니다. 작지만 여전히 상당한 쌍별 거리는 각각의 외부 지점과 다른 모든 지점 사이에 있습니다. 그것들도 합리적으로 잘 보존됩니다. 그러나 중앙 군집의 점 사이에서 훨씬 작은 쌍별 거리를 보면 일부가 크게 왜곡 된 것을 볼 수 있습니다.
이것이 올바른 직관을 제공한다고 생각합니다. PCA는 최대 분산으로 저 차원 부분 공간을 찾습니다. 최대 분산은 부분 공간이 중심에서 멀리 떨어진 지점에 가까워 지도록 정렬되는 경향이 있음을 의미합니다. 따라서 가장 큰 쌍별 거리는 잘 유지되는 경향이 있고 작은 거리는 덜 유지됩니다.
그러나 이것이 반드시 사실 이 아니기 때문에 공식적인 주장으로 바뀔 수는 없습니다. 주성분 분석과 다차원 스케일링의 차이점은 무엇입니까? 에서 내 대답을 살펴보십시오 . 위의 그림에서 점 을 가져 와서 쌍 거리의 행렬을 구성하고 가능한 한 거리를 유지하는 1D 투영이 무엇인지 묻는다면 대답은 MDS 솔루션에 의해 주어지고 PC1 . 당신이 생각한다면, 페어의 매트릭스는 스칼라 제품을 중심을, 그것은 이다
실제로 PC1에 의해 정확하게 보존되는 것이 가장 좋습니다 (증명은 저의 답변 참조). 그리고 한 쌍의 거리가 길면 대개 큰 스칼라 곱을 의미한다고 주장 할 수 있습니다. 실제로 MDS 알고리즘 중 하나 (클래식 / Torgerson MDS)가 명시 적으로이 가정을하고 있습니다.
요약하면 다음과 같습니다.
- PCA는 원래 스칼라 곱과 재구성 된 스칼라 곱 사이의 제곱 차이의 합이 최소화되어야한다는 점에서 쌍 스칼라 곱의 행렬을 보존하는 것을 목표로합니다.
- 즉, 절대 값이 가장 큰 스칼라 곱을 보존하고 절대 값이 작은 스칼라 곱은 제곱 오차의 합에 대해 더 적기 때문에 신경 쓰지 않습니다.
- 따라서 PCA는 더 큰 스칼라 제품을 작은 것보다 더 잘 보존합니다.
- 쌍방향 거리는 스칼라 곱과 비슷하거나 항상 그런 것은 아니지만 항상 유지됩니다. 이 경우 더 큰 페어 와이즈 거리가 작은 것보다 더 잘 유지됩니다.