Biplot / loading 플롯에서 PCA 구성 요소와 변수의 적절한 연관 측정은 무엇입니까? 0.9247266 1.066303e-10 cov

FactoMineR측정 데이터 세트를 잠재 변수로 줄이기 위해 사용 하고 있습니다.

! [변수 맵] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

내가 해석하는 위의 변수 맵은 분명하지만, 변수의지도를 찾고 변수와 구성 요소 1 사이의 연관에 올 때 나는 혼란 스러워요, ddp그리고 cov매우 가까운 맵의 구성 요소이며, ddpAbs조금 더있다 떨어져. 그러나 이것은 상관 관계가 보여주는 것이 아닙니다.

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

그런 다음 sin2수량 rpvi(예 : 높이 )이 있지만 측정 값은 첫 번째 구성 요소에 가장 가까운 변수가 아닙니다.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

그렇다면 변수와 첫 번째 구성 요소 사이의 연관성이있을 때 무엇을보아야합니까?



답변

PCA의 로딩 플롯 또는 요인 분석에 대한 설명.

하중 그림은 주요 구성 요소 (또는 요인)의 공간에서 점으로 변수를 표시합니다. 변수의 좌표는 일반적으로 하중입니다. (같은 구성 요소 공간에서 로딩 플롯을 해당 데이터 사례의 산점도와 올바르게 결합하면 이중 플롯이됩니다.)

어떻게 든 상관 관계가있는 변수 , W , U를 갖도록하겠습니다 . 우리는 그것들을 중앙에 놓고 PCA를 수행 하여 세 가지 중 첫 번째 주요 구성 요소 인 F 1F 2를 추출 합니다. 아래 의 하중 그림 을 수행하기 위해 하중을 좌표로 사용 합니다. 로딩은 표준화 되지 않은 고유 벡터의 요소, 즉 해당 구성 요소 분산 또는 고유 값이 부여 된 고유 벡터입니다.

V

W

U

F1

F2

적재 도표는 그림의 평면입니다. 변수 만 고려해 봅시다 . 로딩 도표에서 습관적으로 그려진 화살표는 여기서 h ‘로 표시 됩니다. 좌표 a 1 , a 2 는 각각 F 1F 2를 갖는 V 의 하중입니다 (용어가 “변수를 적재함”이라고하는 말이 더 정확하다는 것을 알고 계십시오).

V

h′

a1

a2

V

F1

F2

화살표 는 구성 요소 평면에서 벡터 h 의 투영 값으로, V , W , U에 의해 분포 된 변수 공간에서 변수 V 의 실제 위치입니다 . 벡터의 제곱 길이 h 2V분산 a 입니다 . 반면 H 2 는 IS 그 차이 부분을 설명 두 구성 요소.

h′

h

V

V

W

U

h2

a

V

h′2

로딩, 상관 관계, 예상 상관 관계 . 변수는 성분 추출 전에 중심을 두었으므로 V 와 성분 F 1 간의 Pearson 상관 관계 입니다. 이는 적재량에서 cos α 와 혼동해서는 안되며 , 이는 또 다른 수량입니다. 성분 F 1 과 여기에서 h 로 변수화 된 벡터 간의 Pearson 상관 관계 입니다. 변수로서, H는 의 예측이다 V 회귀 형상의 드로잉 비교 선형 회귀의 (표준화 된) 구성 요소 ( 여기에는

cos⁡ϕ

V

F1

cos⁡α

F1

h′

h′

V

여기서 하중 는 회귀 계수입니다 (추출 된대로 구성 요소가 직교로 유지되는 경우).

a

더욱이. 우리는 (삼각법) 합니다. 벡터 V 와 단위 길이 벡터 F 1 사이 의 스칼라 곱 으로 이해 될 수 있습니다 . h 1 cos ϕ . F (1) 가 더는이 없으므로 그 단위 분산 벡터 설정된 자신 의 분산 따로 분산 V설명 (량으로 H 예 🙂 F 1

a1=h⋅cos⁡ϕ

V

F1

h⋅1⋅cos⁡ϕ

F1

V

h′

F1

V에서 추출 된 V, W, U이며 외부에서 초대 된 엔티티가 아닙니다. 그리고, 분명히, 1 = V표준화 된단위 스케일b간의공분산입니다(s1= √ 설정).

a1=varV⋅varF1⋅r=h⋅1⋅cos⁡ϕ

V

b

) 구성 요소F1. 이 공분산은 입력 변수 간의 공분산과 직접 비교할 수 있습니다. 예를 들어,VW사이의 공분산은벡터 길이의 곱에 코사인을 곱한 값이됩니다.

s1=varF1=1

F1

V

W

요약 로드 하는 것은 표준화 된 구성 요소와 관측 변수 h 1 cos ϕ 사이의 공분산 또는 표준화 된 구성 요소와 설명 된 (구성을 정의하는 모든 구성 요소에 의한) 이미지 사이의 공분산으로 볼 수 있습니다 변수, h 1 cos α . 이 cos α 는 F1-F2 구성 요소 부분 공간에 투영 된 V-F1 상관 관계라고 불릴 수 있습니다 .

a1

h⋅1⋅cos⁡ϕ

h′⋅1⋅cos⁡α

cos⁡α

변수와 구성 요소 사이의 상관 관계를 표준화 또는 재조정 된 적재 라고도합니다 . [-1,1] 범위에 있기 때문에 구성 요소를 해석하는 데 편리합니다.

cos⁡ϕ=a1/h

고유 벡터와의 관계 . 재 규격화로드 해야 하지 과 혼동 고유의 우리가 알고있는 – – 요소에있는 변수 및 주요 구성 요소 사이의 각도의 코사인입니다. 로딩은 컴포넌트의 특이 값 (고유 값의 제곱근)에 의해 스케일링 된 고유 벡터 요소 라는 것을 상기하십시오. 즉, 플롯의 변수 V 에 대해 : a 1 = e 1 s 1 , 여기서 s 1 은 st입니다. F 1의 편차 ( 1이 아니라 원래, 즉 특이 값)

cos⁡ϕ

V

a1=e1s1

s1

1

F1

잠재 변수. 그러면 고유 벡터 요소 는하지COS는φ자체를. 두 가지 단어 “코사인”주위의 혼란은 우리가 어떤 종류의 공간 표현을 떠올리게되는지 해소됩니다. 고유 벡터 값변수가 pr로 축으로회전하는 각도의코사인입니다. 변수 공간 내 축으로 구성 요소 (일명 산점도) (예 : here). 반면COS가φ우리 로딩 플롯코사인 유사도 측정은벡터와 같은 가변 PR 사이는. 구성 요소를 … 음 …. 벡터로도 원한다면 (그림에서 축으로 그려지더라도)-현재주제 공간에 있기 때문에

e1=a1s1=hs1cos⁡ϕ

cos⁡ϕ

cos⁡ϕ

상관 하중은 직교 축이 아닌 벡터의 팬이며, 벡터 각도는 공간 기준 회전이 아닌 연관의 척도입니다.

로딩은 변수와 단위 스케일 구성 요소 간의 각도 (즉, 스칼라 곱 유형) 연관 측정이며, 스케일링로드는 변수의 스케일이 단위로 축소되는 표준화 된로드이지만 고유 벡터 계수는 구성 요소가 “과도하게 표준화되어”즉, 아닌 1 / s 로 조정되었습니다 . 대안 적으로, 그것은 변수의 스케일이 h가 아닌 (1 대신) h / s 로 재조정 된로드로 생각할 수 있습니다 .

1/s

h/s

그렇다면 변수와 컴포넌트 사이의 연관성무엇 입니까? 원하는 것을 선택할 수 있습니다. 그것은 수있다 하중 (단위와 공분산 성분 조정) ; 재 규격화 로딩 COS φ (= 가변 구성 요소의 상관 관계); 상관 관계 화상 (예측)과 성분 (= 상관 관계 투영 COS α를 ). 필요한 경우 고유 벡터 계수 e = a / s를 선택할 수도 있습니다 (이유가 무엇인지 궁금하지만). 또는 자신의 측정을 발명하십시오.

a

cos⁡ϕ

cos⁡α

e=a/s

고유 벡터 값 제곱 은 변수가 pr에 기여한다는 의미를 갖습니다. 구성 요소. 재조정 된 적재 제곱 은 pr의 기여를 의미합니다. 변수로 구성 요소.

상관 관계에 기반한 PCA와의 관계. 만약 우리가 PCA 분석을 통해 중심화 될뿐만 아니라 표준화 된 (단위-분산 스케일링 된) 변수 인 경우, 3 개의 변수 벡터 (평면에서의 투영이 아닌)는 단위 길이가 같습니다. 그런 다음 로딩은 변수와 구성 요소 사이의 공분산이 아닌 상관 관계를 자동으로 따릅니다 . 그러나 상관 관계가 되지 않습니다 “표준화로드”와 같은 때문에 PCA 표준화 변수의 (단지 중심 변수의 분석에 근거) 위 그림 (상관 관계를 기반 PCA)를 산출 다른 중심 변수의 PCA (보다 구성 요소를 공분산 기반 PCA). 상관 관계 기반 PCA 에서 1

cos⁡ϕ

때문에 h = 1 이지만 주성분은 공분산 기반 PCA (read,read)에서 얻는것과 동일한주성분이아닙니다.

a1=cos⁡ϕ

h=1

에서 요인 분석 , 로딩 플롯은 기본적으로 PCA와 동일 개념과 해석이있다. 유일한 (그러나 중요한 ) 차이점은 의 실체입니다 . 요인 분석 에서 변수의 “커뮤니티”라고하는 h 는 변수 간의 상관을 구체적으로 담당 하는 공통 요인으로 설명되는 분산 부분입니다 . PCA에서 설명 된 부분 h

h′

h′

h′

총 “혼합물”-변수 간의 상관성과 부분적인 관련성을 나타냅니다. 요인 분석을 사용하면 그림의 하중 평면이 다르게 방향이 지정됩니다 (실제로 3D 변수 공간에서 4 차원으로 확장됩니다.이 평면은 하중 평면이 우리의 하위 공간이 아닙니다. 3d 공간은 와 다른 두 변수에 의해 확장되고 , 투영 h 는 다른 길이와 다른 각도 α 가 될 것입니다 . (PCA 요인 분석 간의 이론적 차이는 기하학적으로 설명 여기 될 공간을 통해 표현하고 여기서 변수 공간 표현을 통해).

V

h′

α


A @Antoni Parellada의 의견에 대한 답변. 분산또는분산(SS 편차)으로 표시하는 것을 선호하는지 여부는 동일합니다. variance = scatter / (n1)여기서n은 표본 크기입니다. 동일한n을 가진 하나의 데이터 집합을 다루기 때문에상수는 수식에서 아무것도 변경하지 않습니다. 경우X는데이터를 인 공분산 행렬 (B) 분산 된 매트릭스의 eigendecomposition와 동일한 고유 값 (성분 편차를)과 고유 벡터 산출, 그 (A)의 후 eigendecomposition을 (변수 V와 W는 U는 중심) X X를

a,b

/(n−1)

n

n

X

X′X

√로 처음 나눈 후 획득

X

팩터. 그 후, 적재 공식 (응답의 중간 부분 참조)에서a1=hs1cosϕ, 항hst입니다. 편차

n−1

a1=h⋅s1⋅cos⁡ϕ

h

(A)하지만 루트 분산 (즉, 규범)에서V(B)이다. 기간1에 해당,1,이고표준화 된F(1)구성 요소의 일. 편차

varV

‖V‖

s1

1

F1

(A)에서는 a r F 1 이지만 (B)에서는 루트 산란F1입니다. 마지막으로cosϕ=r은계산에서n1의 사용에영향받지 않는상관 관계입니다. 따라서 우리는 단순히분산 (A) 또는 산포 (B)에대해개념적으로말하지만값 자체는 두 경우 모두 수식에서 동일하게 유지됩니다.

varF1

‖F1‖

cos⁡ϕ=r

n−1