주요 변수에 회귀를 적용하여 출력 변수를 예측하는 방법은 무엇입니까? 일부 변수 Y를

tutorial1 , link1link2 에서 주요 구성 요소 분석의 기본 사항에 대해 읽었습니다 .

100 변수 (출력 변수 Y 포함)의 데이터 세트가 있고 PCA로 변수를 40으로 줄이고 그 40 변수를 사용하여 변수 Y를 예측하려고합니다.

문제 1 : 주요 구성 요소를 가져 와서 처음 40 개의 구성 요소를 선택한 후 회귀를 적용하면 데이터에 맞는 기능이 생깁니다. 그러나 원래 데이터에서 일부 변수 Y를 예측하는 방법은 무엇입니까? 변수 Y를 예측하려면 입력에 (100-1) 변수가 있으며 원래 100-1 변수 중에서 선택할 40 개의 변수를 어떻게 알 수 있습니까?

문제 2 : PCA를 되돌리고 40 가지 주요 구성 요소에서 데이터를 다시 가져옵니다. 그러나 처음 40 개 구성 요소 만 선택했기 때문에 데이터가 변경되었습니다. 이 데이터에 회귀를 적용하는 것이 의미가 있습니까?

Matlab / Octave를 사용합니다.



답변

원래 99 (100-1) 변수의 하위 집합을 선택하지 않았습니다.

각 주성분은 모든 99 개의 예측 변수 (x 변수, IV, …)의 선형 조합입니다. 처음 40 개의 주성분을 사용하는 경우 성분 은 99 개의 원래 예측 변수의 함수입니다. (적어도 일반적인 PCA 의 경우 Zou, Hastie 및 Tibshirani 의 SPCA 와 같이 희소 / 정규화 된 버전이 있으므로 적은 수의 변수를 기반으로 구성 요소를 생성합니다.)

양의 상관 관계가있는 두 변수의 간단한 경우를 생각해 보자. 단순성을 위해 동일하게 변한다고 가정한다. 그런 다음 첫 번째 주성분은 두 변수의 합의 (분수) 배수이고 두 번째 변수는 두 변수의 차이의 (분수) 배수입니다. 둘이 동일하게 가변적이지 않은 경우, 첫 번째 주요 구성 요소는 더 가변적 인 구성 요소에 더 많은 가중치를 부여하지만 여전히 둘 다 포함합니다.

따라서 99 개의 x- 변수로 시작하여 각 원래 변수에 해당 가중치를 적용하여 40 개의 주요 구성 요소를 계산합니다. [내 논의에서 NB는 와 가 이미 중앙에 있다고 가정 합니다.]

와이

엑스

그런 다음 다중 회귀 문제에서와 마찬가지로 40 개의 새로운 변수를 마치 자체 예측 변수 인 것처럼 사용합니다. (실제로 추정값을 얻는 더 효율적인 방법이 있지만 계산 측면을 제쳐두고 기본 아이디어를 다루겠습니다)

두 번째 질문과 관련하여 “PCA의 역전”이 무엇을 의미하는지 명확하지 않습니다.

PC는 원래 변형의 선형 조합입니다. 원래 변이가 에 있고 를 계산 한다고 가정합니다 (여기서 는 이고 는 사용중인 구성 요소에 대한 주요 구성 요소 가중치를 포함하는 행렬 임 ). 견적 회귀 통하여.

엑스

지=엑스여

엑스

엔×99

99×40

40

와이^=지β^PC

그런 다음 say (where ), 원래 예측 변수의 함수로 작성할 수 있습니다. 그것이 ‘역전’이라는 의미인지는 모르겠지만 와 의 원래 관계를 보는 의미있는 방법 입니다. 물론 원래 X에 대한 회귀를 추정하여 얻은 계수와 같지 않습니다. PCA를 수행하여 정규화합니다. 이 방법으로 각 원본 X에 대한 계수를 얻을 수 있지만 장착 한 구성 요소 수의 df 만 있습니다.

와이^=지β^PC=엑스여β^PC=엑스β^※

β^※=여β^PC

와이

엑스

주성분 회귀 분석 에 대한 Wikipedia도 참조하십시오 .