FA ( 전통적, 선형) 요인 분석 (FA), 특히 FA 이전 (및 가능하게는 이후에) 가정 을 실제로 이해했는지 확인하고 싶습니다 .
일부 데이터는 초기에 상관 관계가 있어야하며 데이터간에 선형 관계가있을 수 있습니다. 요인 분석을 수행 한 후에는 데이터가 정규 분포 (각 쌍에 대한 이변 량 분포)로 분포되며 요인 (공통 및 특정) 간의 상관 관계가 없으며 한 요인의 변수와 다른 요인의 변수간에 상관 관계가 없습니다.
맞습니까?
답변
선형 FA의 입력 데이터 가정 ( FA 모델 의 내부 가정 / 속성 또는 결과 의 적합 품질 확인에 대해서는 여기서 말하지 않습니다 ).
- 스케일 (간격 또는 비율) 입력 변수 . 이는 품목이 연속 측정이거나 이산 정량적 척도로 측정되는 동안 연속으로 개념화됨을 의미합니다. 선형 FA에 서수 데이터가 없습니다 ( read ). 바이너리 데이터는 (참조 피해야한다 이 , 이 ). 선형 FA는 잠재적 공통 요인과 고유 요인 이 연속적 이라고 가정합니다 . 따라서로드되는 변수는 연속적이어야합니다.
- 상관 관계는 선형 입니다. 선형 FA는 모든 SSCP 유형 연관 행렬 (Pearson 상관 관계, 공분산, 코사인 등)을 기반으로 수행 될 수 있습니다 (일부 방법 / 구현은 Pearson 상관 관계로만 제한 될 수 있음). 이들은 모두 선형 대수 제품입니다. 공분산 계수의 크기 가 단순한 선형성 이상을 반영하지만 , 선형 FA의 모델링은 공분산을 사용하는 경우에도 사실상 선형 입니다. 변수 는 요인의 선형 조합따라서 결과 연관성에 선형성이 암시됩니다. 비선형 연관이 우세하다고 생각하는 경우-선형 FA를 수행하거나 데이터의 일부 변환을 통해 먼저 선형화하지 마십시오. 그리고 스피어 또는 켄달 상관들을 FA 선형 기재하지 않음 (PT. 4 가 ).
- 특이 치 없음 -비 강성 방법과 동일합니다. 피어슨 상관 관계 및 유사한 SSCP 유형 연관은 특이 치에 민감하므로주의하십시오.
- 상당히 높은 상관 관계가 존재 합니다. FA는 상관 관계 분석입니다. 모든 상관 관계 또는 거의 모든 상관 관계가 약할 때 그 용도는 무엇입니까? -사용 안함. 그러나 “합리적으로 높은 상관 관계”는 연구 분야에 따라 다릅니다. 매우 높은 상관 관계를 수용 해야하는지에 대한 흥미롭고 다양한 질문도 있습니다 (예 : PCA에 미치는 영향에 대해서는 여기에서 설명 ). 데이터가 상관 관계가없는 경우 통계적으로 테스트하기 위해 Bartlett의 구형도 테스트를 사용할 수 있습니다.
- 부분 상관 관계가 약하고 요인을 충분히 정의 할 수 있습니다 . FA는 단순히 상관 된 항목 쌍을로드하는 것보다 요인이 더 일반적이라고 가정합니다. 실제로, 탐색 적 FA에서 3 개 미만의 아이템을로드하는 팩터를 추출하지 말라고 조언하는 경우가있다. 확증 FA에서는 3+만이 보장 식별 구조입니다. Heywood case라고 불리는 추출의 기술적 문제는 뒤에있는 이유 중 하나로서 요인이 너무 적은 상황입니다. Kaiser-Meyer-Olkin ( KMO ) “샘플링 적절성 측정”은 전체 상관 관계에 비해 데이터의 부분 상관 관계가 얼마나 약한 지 추정합니다. 모든 항목과 전체 상관 행렬에 대해 계산할 수 있습니다.
- 다중 공선 성이 없습니다 . FA 모델은 모든 항목이 각각 고유 한 요소를 나타내며 이러한 요소는 직교한다고 가정합니다. 따라서 2 개의 항목은 평면, 3 개의 항목-3d 공간 등을 정의해야합니다.
p
상관 된 벡터는 p-dim 공간에 걸쳐서 p의 서로 직교하는 고유 한 구성 요소를 수용해야합니다. 따라서 이론적 인 이유 때문에 특이점 은 없습니다 (따라서 자동으로 말하지 않고 더 좋습니다 ). 하지 않는 것이 완전한 다중 공선는하지만 허용된다; 그러나 대부분의 FA 알고리즘에서 계산 문제를 일으킬 수 있습니다 ( 참조 ).
1n observations > p variables
n>>p
- 배포 . 일반적으로 선형 FA는 입력 데이터의 정규성을 요구하지 않습니다. 약간 치우친 분포가 허용됩니다. Bimodality는 모순이 아닙니다. 정규성은 실제로 모델의 고유 한 요인 (회귀 오류로 작용)에 대해 가정되지만 공통 요인과 입력 데이터에는 적용되지 않습니다 ( 참조 ). 그럼에도 불구하고, 일부 추출 방법 (즉, 최대 가능성)과 일부 점근 테스트를 수행 하여 데이터의 다변량 정규성 이 추가 가정 으로 필요할 수 있습니다 .
1
FA의 ULS / 마이너 방법 은 단일 및 심지어 비 psd 상관 행렬과 함께 작동 할 수 있지만 이론적으로는 이러한 분석이 엄청나게 모호합니다.
답변
대부분의 경우 요인 분석은 통계 테스트없이 수행됩니다. 회귀, 구조 방정식 모델링 등과 같은 방법보다 훨씬 더 주관적이고 해석 적입니다. 일반적으로 가정과 함께 제공되는 추론 테스트입니다. p 값과 신뢰 구간이 정확하려면 이러한 가정을 충족해야합니다.
이제 요인 수를 선택하는 방법이 최대 우도 방법으로 설정되면 요인 분석에 입력 된 변수에 정규 분포가 있다고 가정합니다.
입력 변수가 0이 아닌 상관 관계를 갖는다는 것은 사실이 아니라면 요인 분석 결과가 (아마도) 쓸모가 없다는 점에서 일종의 가정입니다. 어떤 입력 변수 집합 뒤에 잠재 변수로 요소가 나타나지 않습니다.
“요인 (공통 및 특정) 간의 상관 관계가없고 한 요인의 변수와 다른 요인의 변수 사이의 상관 관계가없는 한, 요인 분석가가 조건이나 근사치 중 하나를 선택하더라도 보편적으로 가정하는 것은 아닙니다. 그것의) 바람직 할 수 있습니다. 후자는 그것이 붙을 때 “간단한 구조”로 알려져 있습니다.
때때로 “가정”으로 취급되는 또 다른 조건이 있습니다. 입력 변수 간의 0 차 (바닐라) 상관 관계가 큰 부분 상관 관계에 의해 늪이되지 않습니다. 간단히 말해, 관계는 일부 페어링에서는 강력하고 다른 페어링에서는 약해야한다는 것입니다. 그렇지 않으면 결과가 “흐리게됩니다”. 이는 단순한 구조의 바람직 함과 관련이 있으며 Kaiser-Meyer-Olkin 통계 또는 KMO를 사용하여 실제로 공식적으로 “테스트 된”것은 아닙니다. .8 또는 .9 근처의 KMO 값은 일반적으로 유익한 요인 분석 결과에 매우 유망한 것으로 간주되는 반면 .5 또는 .6 근처의 KMO는 유망하지 않으며 .5 이하의 값은 분석가가 자신의 전략을 다시 생각하게 할 수 있습니다.
답변
탐색 적 요인 분석을 기본 가정은 :
• 간격 또는 측정 비율 수준
랜덤 샘플링 •
인 선형 관측 된 변수들 사이의 관계 •
• 정규 분포 (각 관측 변수)
• 이변 량 정규 분포 (관측 각 변수 쌍)
• 다변량 정규 분포
로부터 위 SAS 파일