내 이해에 따르면, 상관 관계에 기반한 PCA에서는 변수와 요인 사이의 상관 관계에 불과한 요인 (이 경우 주요 구성 요소) 로딩을 얻습니다. 이제 SPSS에서 요인 점수 를 생성해야 할 때 각 요인에 대한 각 응답자의 요인 점수를 직접 얻을 수 있습니다. 또한 SPSS에서 생성 한 ” 구성 요소 점수 계수 행렬 “에 표준화 된 원래 변수를 곱하면 SPSS에서 얻은 것과 동일한 요인 점수를 얻습니다.
“요소 점수 계수 행렬”또는 “요소 점수 계수 행렬”(요소 또는 요소 점수를 계산할 수있는)이 계산되는 방식을 이해하도록 도와 줄 수 있습니까? 이 행렬에서 다른 계산 요소 점수 방법은 어떻게 다릅니 까?
답변
요인 / 성분 점수 계산 방법
일련의 의견 후 나는 마침내 답변을 발표하기로 결정했다 (의견 등을 기반으로). PCA의 구성 요소 점수 및 요소 분석의 요소 점수를 계산합니다.
요소 / 부품 점수가 주어진다 F = X B , X는 (분석 변수 중심 PCA / 요인 분석은 공분산에 기초하여 또는 경우 Z-표준화 가 상관 관계를 기반으로 한 경우는). B 는 계수 / 성분 점수 계수 (또는 가중치) 행렬 입니다. 이 가중치는 어떻게 추정 할 수 있습니까?
표기법
-인자였다 어느 변수 (아이템) 또는 상관 공분산의 행렬 / PCA 분석.
p x p
-요소 / 성분 행렬 로딩 . 추출 후의 하중 (종종 A 라고도 함)은 잠복이 직교 또는 실제로 존재하거나 회전, 직교 또는 사선으로 된 적재 일 수 있습니다. 회전이비스듬한경우패턴로딩이어야합니다.
-자신 (부가금) 경사 회전 후의 인자 / 요소 간의 상관 관계 행렬. 회전 또는 직교 회전이 수행되지 않은 경우 이것은동일행렬입니다.
m x m
-재생 상관 / 공분산 행렬의 감소는=PCP‘(=PP‘직교 솔루션)은, 그것의 대각선 communalities를 포함한다.
p x p
-uniquenesses의 대각 행렬 (고유성 communality + = 대각 원소 R ). 수식에서 가독성을 높이기 위해위첨자 ( U 2 )대신 아래 첨자로 “2”를 사용하고있습니다.
p x p
-재생 상관 / 전체 공분산 행렬 = R + U 2 .
p x p
일부 행렬 M 의 M + -의사 역수; 만약 M이 전체 랭크 인 M + = ( M ‘ M ) – 1 M은 ‘ .
일부 정사각형 대칭 행렬 M의 경우 , p o w e r 로의증가는 고유분해 H K H ‘ = M 에 해당하며, 고유 값을 거듭 제곱 한 다음 다시 구성합니다. M p o w e r = H K p o w e r H ‘ .
계수 / 구성 요소 점수 계산의 대략적인 방법
Cattell이라고도하는이 인기있는 / 전통적인 접근 방식은 단순히 동일한 요소에 의해로드 된 항목의 값을 평균화 (또는 요약)하는 것입니다. 수학적으로, 이는 가중치 설정 금액 점수 계산에 F = X B . 이 접근법에는 세 가지 주요 버전이 있습니다. 1) 로딩을 그대로 사용하십시오. 2) 그것들을 이분법 화하십시오 (1 =로드, 0 =로드되지 않음); 3) 하중은 일부 임계 값보다 작지만 무부하 하중은 그대로 사용하십시오.
품목이 동일한 척도 단위에있을 때이 방법을 사용하면 값 가 그대로 사용됩니다. 팩토링의 논리를 어 기지 않으면 서 X 가 팩터링에 들어갔을 때 X 를 사용하는 것이 좋습니다 .
필자의 견해로 는 계수 / 구성 요소 점수를 계산하는 대략적인 방법의 주요 단점은 로드 된 항목 간의 상관 관계를 설명하지 않는다는 것입니다. 한 팩터로로드 된 항목이 밀접하게 연관되어 있고 하나가 더 강하게로드 된 경우 다른 항목은 합리적으로 젊은 복제본으로 간주되어 무게가 줄어들 수 있습니다. 세련된 방법은 그렇게하지만 거친 방법은 할 수 없습니다.
행렬 반전이 필요하지 않기 때문에 거친 점수는 계산하기 쉽습니다. 조잡한 방법의 장점 (컴퓨터 가용성에도 불구하고 여전히 널리 사용되는 이유를 설명 함)은 샘플링이 이상적이지 않을 때 (대표 성과 크기의 의미에서) 또는 분석이 잘 선택되지 않았습니다. 한 논문을 인용하기 위해, “합산 점수 방법은 신뢰성 또는 타당성의 증거가 거의 또는 전혀없이, 원본 데이터를 수집하는 데 사용 된 스케일이 테스트되지 않았고 탐색적일 때 가장 바람직 할 수 있습니다”. 또한 , 요인 분석 모델이 요구하기 때문에 “요인”을 반드시 일 변량 잠재 본질로 이해하지 않아도됩니다 ( 참조 , 참조).). 예를 들어 요인을 현상 모음으로 개념화하면 항목 값을 합산하는 것이 합리적입니다.
계산 된 요소 / 구성 요소 점수 계산 방법
이러한 방법은 요인 분석 패키지가하는 일입니다. 그들은 다양한 방법으로 를 추정 합니다. 하중 A 또는 P 는 요인 / 성분으로 변수를 예측하기위한 선형 조합 의 계수 이지만 B 는 변수에서 요인 / 성분 점수를 계산하는 계수입니다.
을 통해 계산 된 점수 스케일링된다 : 그들은 차이가 동일하거나 또는 가까운 1 (표준화 또는 근처 표준화)가 -없는 진정한 계수 편차를 (제곱 구조 하중의 합과 같게되는 각주 3 참조 여기를 ). 따라서 실제 요인의 분산으로 요인 점수를 제공해야하는 경우 해당 분산의 제곱근에 점수 (st.dev.1로 표준화 된 점수)를 곱하십시오.
X의 새로운 관측치에 대한 점수를 계산할 수 있도록 수행 된 분석에서 를 보존 할 수 있습니다 . 또한, B 는 계수가 요인 분석에 의해 개발되거나 검증 될 때 설문의 척도를 구성하는 아이템을 가중시키는 데 사용될 수있다. B의 (제곱 된) 계수 는 항목에 대한 요인의 기여 로 해석 될 수 있습니다 . 회귀 계수가 표준화 된 것처럼 계수를 표준화 할 수 있음 β = b σ i t e m
(여기서σfactor=1)은 분산이 다른 항목의 기여도를 비교합니다.
점수 계수 행렬에서 점수를 계산하는 것을 포함하여 PCA 및 FA에서 수행 된 계산을 보여주는 예 를 참조하십시오 .
PCA 설정에서 하중 (수직 좌표)와 점수 계수 b (비대칭 좌표)에 대한 기하학적 설명이 여기 의 첫 두 그림에 나와 있습니다 .
이제 세련된 방법으로 넘어갑니다.
방법
PCA에서 계산
구성 요소 로딩이 추출되었지만 회전되지 않은 경우, 이며, 여기서 L 은 고유 값으로 구성된 대각 행렬입니다 . 이 공식은 A의 각 열을 성분의 분산 인 각 고유 값 으로 간단히 나눕니다 .
m
마찬가지로, 입니다. 이 공식은 회전, 직교 (예 : varimax) 또는 비스듬한 구성 요소 (적재)에도 적용됩니다.
PCA에 적용되는 경우 요인 분석에 사용 된 일부 방법 (아래 참조)은 동일한 결과를 반환합니다.
계산 된 구성 요소 점수는 분산 1을 가지며 실제 표준화 된 구성 요소 값입니다 .
통계 데이터 분석에서 주요 구성 요소 계수 행렬 라는 것이 무엇이며 회전 로딩 행렬이 아닌 완전 로딩으로 계산되는 경우 기계 학습 문헌에서 종종 (PCA 기반) 미백 행렬로 표시되며 표준화 된 주요 구성 요소는 다음과 같습니다. “미백 된”데이터로 인식됩니다.
p x p
공통 요인 분석에서 계산
구성 요소 점수와 달리 요인 점수 는 절대 정확하지 않습니다 . 그것들은 요인 들의 알려지지 않은 실제 값 에 대한 근사치 일뿐 입니다. 이는 구성 요소와 달리 요인이 매니페스트와 분리 된 외부 변수이고 분포에 알려지지 않은 자체 변수를 가지기 때문에 사례 수준에서 커뮤니티 또는 고유성 값을 알 수 없기 때문입니다. 그 요인 점수 불확실성 의 원인은 다음과 같습니다 . 불확정성 문제는 요인 솔루션의 품질과 논리적으로 독립적입니다. 요인이 얼마나 많은지 (인구에서 데이터를 생성하는 잠재성에 해당) 요인의 응답자 점수가 얼마나 많은지 (정확한 추정치) 추출 된 요인).
요인 점수는 근사치이므로이를 계산하는 다른 방법이 존재하고 경쟁합니다.
요인 점수를 추정하는 회귀 또는 Thurstone 또는 Thompson의 방법 은 로 주어집니다 . 여기서 S = P C 는 구조 하중의 행렬입니다 (직교 계수 솔루션의 경우 A = P = S ). 회귀 방법의 기초는 각주 1에 있습니다.
노트. 에 대한이 공식은 PCA에서도 사용할 수 있습니다. PCA에서는 이전 섹션에서 인용 한 공식과 동일한 결과를 제공합니다.
FA (PCA 아님)에서 회귀 적으로 계산 된 요인 점수는 “표준화되지 않은”것으로 나타납니다. 1은 아니지만 S S r e g r 과 동일한 분산을 갖습니다. 변수로이 점수를 회귀 분석합니다. 이 값은 변수에 의한 요인의 결정 정도 (알 수없는 실제 값)-실제 요인에 대한 예측의 R- 제곱 및 회귀 방법이 최대화하는-계산의 “유효성”으로 해석 될 수 있습니다. 점수. 그림2는 형상을 보여줍니다. (SS r e g r
은 모든 정제 된 방법에 대한 점수 분산과 같지만, 회귀 분석법의 경우에만 수량이 참 f의 결정 비율과 동일합니다. f에 의한 값 점수.)
회귀 방법 의 변형 으로 , 공식에서 R 대신 를 사용할 수 있습니다 . 좋은 요소 분석에서 R 과 R * 는 매우 유사하다는 근거가 보장됩니다 . 그러나, 그렇지 않은 경우, 특히 요인 수가 실제 모집단 수보다 적은 경우이 방법은 점수에서 강한 편향을 생성합니다. 그리고이 “재생 된 R 회귀”방법을 PCA와 함께 사용해서는 안됩니다.
m
PCA의 방법 은 Horst (Mulaik) 또는 이상적인 (ized) 가변 접근 (Harman)이라고도합니다. 이것으로 회귀 방법 R 에 대신 R 의 화학식이다. 공식이 B = ( P + ) ‘ 로 감소한다는 것을 쉽게 알 수 있습니다 (그래서 우리는 실제로 C 를 알 필요가 없습니다 ). 요소 점수는 마치 요소 점수 인 것처럼 계산됩니다.
“변수 이상화”[라벨 인자 또는 성분에 따라 이후 사실에서 비롯 모델 변수의 예측 된 부분이 X = F P는 ‘ 그것은 다음 F = ( P + ) ‘ X가 있지만,이 대신 X를 미지위한 (이상적인) X는 추정하는 F를 점수로 F ; 그러므로 우리는 X를 “이상화”한다 .]
사용 된 하중이 PCA의 하중이 아니라 요인 분석이기 때문에이 방법은 요인 점수에 대한 PCA 구성 요소 점수를 전달하지 않습니다. 점수에 대한 계산 방식 만 PCA의 방식과 동일합니다.
바틀렛의 방법 . 여기서, . 이 방법은 모든 응답자에 대해 고유 ( “오류”) 요인에 대한 편차 를 최소화하려고합니다 . 공통 요소 점수의 차이는 같지 않으며 1을 초과 할 수 있습니다.
p
Anderson-Rubin 방법 은 이전의 수정으로 개발되었습니다. . 점수의 편차는 정확히 1입니다. 그러나이 방법은 직교 인수 솔루션에만 해당됩니다 (경사 솔루션의 경우 여전히 직교 점수를 산출 함).
맥도날드-앤더슨-루빈 방법 . McDonald는 Anderson-Rubin을 경사 요인 솔루션까지 확장했습니다. 그래서 이것은 더 일반적입니다. 직교 요소를 사용하면 실제로 Anderson-Rubin으로 줄어 듭니다. 일부 패키지는 “Anderson-Rubin”이라고 부르는 동안 McDonald의 방법을 사용할 수 있습니다. 공식은 : , G 및 H가 얻어진다 SVD ( R 1 / 2 U – 1 2 P C 1 / 2 )
. (물론 G의 첫 번째열만사용하십시오.)
m
그린의 방법 . 맥도날드 – 앤더슨 루빈과 같은 수식을 사용하지만, 및 H는 다음과 같이 계산된다 : SVD ( R – 1 / 2 P C 3 / 2 ) = G Δ H ‘ . ( 물론 G의 첫 번째 열만 사용하십시오 .) Green의 방법은 유사성 (또는 고유성) 정보를 사용하지 않습니다. 변수의 실제 커뮤니티가 점점 더 평등 해짐에 따라 McDonald-Anderson-Rubin 방법에 접근하고 수렴합니다. 또한 PCA의 로딩에 적용되는 경우 Green은 기본 PCA의 방법과 같은 구성 요소 점수를 반환합니다.
m
Krijnen et al . 이 방법은 하나의 공식으로 이전 두 가지를 모두 수용하는 일반화입니다. 아마도 새로운 기능이나 중요한 새로운 기능을 추가하지 않을 것이므로 고려하지 않습니다.
정제 된 방법 사이의 비교 .
-
회귀 방법은 요인 점수와 해당 요인의 알 수없는 실제 값 사이의 상관 관계를 최대화 하지만 (즉, 통계적 유효성을 최대화 함 ) 점수는 다소 편향되어 있으며 요인간에 다소 잘못 연관됩니다 (예 : 솔루션의 요인이 직교 인 경우에도 상관 관계가 있음). 이들은 최소 제곱 추정치입니다.
-
PCA의 방법은 또한 최소 제곱이지만 통계적 유효성이 떨어집니다. 계산 속도가 더 빠릅니다. 오늘날 컴퓨터 때문에 요인 분석에 자주 사용되지 않습니다. ( PCA 에서이 방법은 기본적이고 최적입니다.)
-
Bartlett의 점수는 실제 요인 값의 편향 추정치입니다. 점수는 다른 요인의 실제 알 수없는 값과 정확하게 상관 관계를 갖도록 계산됩니다 (예 : 직교 솔루션에서는 점수와 상관 관계가 없음). 그러나
다른 요인에 대해 계산 된 요인 점수 와 여전히 부정확 한 상관 관계가있을 수 있습니다 . 이는 최대 가능성 ( 가정 의 다변량 정규성 ) 추정치입니다. -
Anderson-Rubin / McDonald-Anderson-Rubin 및 Green의 점수는 다른 요인의 요인 점수와 정확하게 연관되도록 계산되므로 상관 관계 보존 이라고 합니다. 요인 점수 간의 상관 관계는 솔루션의 요인 간 상관 관계와 같습니다 (예를 들어 직교 솔루션의 경우 점수가 완전히 상관되지 않음). 그러나 점수는 다소 편향되어 있으며 그 유효성은 적당하지 않을 수 있습니다.
이 표도 확인하십시오.
[SPSS 사용자를위한 참고 사항 : PCA ( “주성분”추출 방법)를 수행하지만 “회귀”방법 이외의 요청 계수 점수를 사용하는 경우 프로그램은 요청을 무시하고 대신 “회귀”점수를 계산합니다 (정확한 구성 요소 점수).]
참고 문헌
-
Grice, James W. 계산 및 평가 요인 점수 // Psychological Methods 2001, Vol. 6, No. 4, 430-450.
-
DiStefano, Christine et al. 요인 점수 이해 및 사용 // 실제 평가, 연구 및 평가, Vol 14, No 20
-
Ten Berge, Jos MFet al. 상관-보존 인자 점수 예측 방법에 대한 몇몇 새로운 결과 // 선형 대수와 그 응용 289 (1999) 311-318.
-
Mulaik, Stanley A. 요인 분석의 기초, 2 판, 2009
-
Harman, Harry H. Modern Factor Analysis, 3 판, 1976
-
뉴 데커, 하인즈 요인 점수의 최상의 아핀 바이어스되지 않은 공분산 보존 예측에서 // SORT 28 (1) 2004 년 1 월 -6 월, 27-36
답변
기상학에서 PCA를 수행하기 위해 상관 계수는 Pearson 상관 계수 (변수가 다른 단위 인 경우 데이터를 표준화 할 수 없으므로 데이터 간의 크기 / 크기 차이로 인한 불일치없이 직접 비교할 수 있으므로 변수가 다른 단위 인 경우)를 사용하여 얻습니다. 상관 계수는 각 데이터 세트와 각 데이터 세트 사이의 평균 주위의 분산 정도를 비교할 수 있습니다. 그렇지 않으면 동일한 단위를 사용하여 모든 데이터를 측정하면 공분산 법을 사용할 수 있습니다 SPSS를 사용하면 쉽게 할 수 있습니다.