비 가우시안 데이터의 PCA 있다고 가정합니다.

PCA에 대한 몇 가지 빠른 질문이 있습니다.

  • PCA 는 데이터 세트가 가우스 인 것으로 가정 합니까 ?
  • 본질적으로 비선형 데이터에 PCA를 적용하면 어떻게됩니까?

데이터 세트가 주어지면 프로세스는 먼저 평균 정규화, 분산을 1로 설정하고 SVD를 취하고 순위를 줄이고 마지막으로 데이터 세트를 새로운 감소 된 순위 공간에 매핑합니다. 새로운 공간에서 각 차원은 최대 분산의 “방향”에 해당합니다.

  • 그러나 새 공간에서 해당 데이터 집합의 상관 관계는 항상 0입니까, 아니면 기본적으로 가우시안 데이터에만 해당됩니까?

“A”와 “B”라는 두 개의 데이터 세트가 있다고 가정합니다. 여기서 “A”는 가우시안에서 가져온 무작위로 샘플링 된 점에 해당하고 “B”는 다른 분포에서 무작위로 샘플링 된 점 (예 : 포아송)에 해당합니다.

  • PCA (A)와 PCA (B)를 어떻게 비교합니까?
  • 새 공간의 점을 보면 PCA (A)가 가우시안에서 샘플링 된 점에 해당하고 PCA (B)가 포아송에서 샘플링 된 점에 해당하는지 어떻게 알 수 있습니까?
  • “A”0의 점들의 상관 관계는 무엇입니까?
  • “B”의 포인트 상관도 0입니까?
  • 더 중요한 것은 “올바른”질문입니까?
  • 상관 관계를 살펴 봐야합니까, 아니면 고려해야 할 다른 지표가 있습니까?


답변

여기에 이미 좋은 답변이 있습니다 (@ Cam.Davidson.Pilon 및 @MichaelChernick 모두 +1). 이 문제에 대해 생각하는 데 도움이되는 몇 가지 사항을 알려 드리겠습니다.

먼저, PCA는 상관 매트릭스를 통해 작동합니다. 따라서 중요한 질문은 데이터에 대한 생각을 돕기 위해 상관 행렬을 사용하는 것이 합리적인지 여부입니다. 예를 들어, Pearson 곱-모멘트 상관 관계는 두 변수 사이 의 선형 관계를 평가합니다 . 변수가 관련되어 있지만 선형이 아닌 경우 상관 관계는 관계의 강도를 인덱싱하기위한 이상적인 지표가 아닙니다. ( 여기서는 상관 관계 및 비정규 데이터에 대한 CV에 대한 좋은 설명이 있습니다.)

둘째, PCA로 무슨 일이 일어나고 있는지 이해하는 가장 쉬운 방법은 단순히 축을 회전시키는 것입니다. 물론 더 많은 일을 할 수 있으며 불행히도 PCA는 요인 분석 과 혼동됩니다 (확실히 더 진행되고 있음). 그럼에도 불구하고 종과 휘파람이없는 평범한 오래된 PCA는 다음과 같이 생각할 수 있습니다.

  • 한 장의 그래프 용지에 2 차원으로 그려진 점이 있습니다.
  • 직교 축이 그려진 투명도와 원점의 핀홀이 있습니다.
  • 투명도의 원점 (즉, 핀홀)을 중심에두고 연필 구멍을 통해 연필의 끝을 끼워 고정시킵니다.
    (x¯,y¯)

  • 그런 다음 점 (원래의 축 대신 투명도의 축에 따라 색인화 될 때)이 상관되지 않을 때까지 투명도를 회전합니다.

이는 PCA에 대한 완벽한 은유가 아닙니다 (예 : 분산을 1로 조정하지 않았습니다). 그러나 사람들에게 기본 아이디어를 제공합니다. 요점은이 이미지를 사용하여 데이터가 가우시안이 아닌 경우 결과가 어떻게 보이는지 생각하는 것입니다. 이 프로세스가 가치가 있는지 여부를 결정하는 데 도움이됩니다. 희망이 도움이됩니다.


답변

부분 해결책을 제시하고 귀하의 답변을 제시 할 수 있습니다 두 번째 단락세 번째 질문은 새로운 데이터의 상관 관계와 관련이 있습니다. 짧은 대답은 아니요, 새 공간의 데이터는 서로 관련이 없습니다. 확인하려면, 고려 및 이 개 독특한 원리 구성 요소로한다. 그러면 X w 1X w 2 는 데이터의 새로운 공간 X 의 2 차원입니다 .2

w1

w2

Xw1

Xw2

X


상수이고, 두 번째 항 0입니다 (우리가 X 를 의미한다고 말했듯이). 첫 번째 항은 w T 1 E [ X T 로 다시 쓸 수 있습니다.

Cov(Xw1,Xw2)=E[(Xw1)T(Xw2)]−E[Xw1]TE[Xw2]

wi

X

으로 w 전체 용어 가정 제로 있도록 서로 직교이다 V를 R ( X는 ) 유한. 이것은 모두 정규성에 대한 가정과 무관했습니다.

w1TE[XTX]w2=Var(X)w1Tw2=0

wi

Var(X)

X

Xw

X

Xw

α

답변

PCA에는 가정 된 선형성 또는 정규성이 없습니다. 아이디어는 설명 된 분산 량에 따라 p- 차원 데이터 세트의 변동을 직교 성분으로 분해하는 것입니다.


답변

7 페이지를 읽으십시오 :

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

그들은 PCA가 우리가 설명하는 것의 분포가 평균 (0의)과 분산만으로 설명 될 수 있다고 가정하고, 그것들은 정규 분포 일 뿐이라고 말합니다.

(기본적으로 Cam의 답변 외에도 의견을 말할만큼 충분한 평판이 없습니다.)


답변

내가 아는 한 PCA는 데이터의 정규성을 가정하지 않습니다. 그러나 정규 분포 (보다 일반적인 의미에서 대칭 분포)이면 결과가 더욱 강력 해집니다. 다른 사람들이 말하듯이, 핵심은 PCA가 Pearson 상관 계수 매트릭스를 기반으로한다는 것이며,이 추정값은 특이 치와 치우친 분포에 의해 영향을받습니다. 따라서 통계 테스트 또는 p- 값과 같은 일부 분석에서는 정규성이 충족되는지에 대해 더주의해야합니다. 탐색 적 분석과 같은 다른 응용 프로그램에서는이를 사용할 수 있지만 해석 할 때는주의해야합니다.


답변

데이터를 “정상적으로”배포해야한다고 다른 사람들과 동의했습니다. 모든 분포는 정규 분포와 겹치게됩니다. 분포가 정상이 아닌 경우 여기에 설명 된 것처럼 정규 결과에 비해 결과가 열등합니다 …

  • 필요한 경우 배포를 변형 할 수 있습니다.
  • PCA를 선택하고 ICA (Independent Component Analysis)를 대신 사용할 수 있습니다.

첫 번째 답변에서 참조를 읽으면 부록 섹션에서 가정이 정규 분포라고 가정합니다.