PCA를 수행하기 전에 다른 표준화 요소가 아닌 표준 편차로 나누는 이유는 무엇입니까? 통해 도출

원시 데이터를 표준 편차로 나누는 이유에 대한 다음과 같은 정당성을 읽었습니다 (cs229 코스 노트에서).

여기에 이미지 설명을 입력하십시오

설명이 말하는 것을 이해하더라도 표준 편차로 나누는 것이 왜 그러한 목표를 달성 할 수 있는지는 분명하지 않습니다. 그것은 모두가 같은 “규모”에 더 가깝도록 말합니다. 그러나 왜 표준 편차로 나누는 것이 그렇게되는지 완전히 명확하지는 않습니다 . 분산으로 나눌 때 무엇이 잘못 되었습니까? 왜 다른 수량? 절대 값의 합처럼? 또는 다른 표준 … STD를 선택하기위한 수학적 근거가 있습니까?

이 추출의 주장은 수학 (및 / 또는 통계)을 통해 도출 / 증명 될 수있는 이론적 진술입니까, 아니면 그것이 “연습”에서 작동하는 것처럼 보이기 때문에 우리가하는 그러한 진술 중 하나입니까?

기본적으로 왜 직관이 사실인지에 대한 엄격한 수학적 설명을 제공 할 수 있습니까? 또는 단지 경험적 관찰이라면 PCA를 수행하기 전에 일반적으로 효과가 있다고 생각하는 이유는 무엇입니까?

또한 PCA와 관련하여 표준화 또는 표준화 프로세스입니까?

STD가 왜 “설명”될 수있는 다른 생각들 :

PCA는 분산을 최대화하여 얻을 수 있기 때문에 STD와 같은 관련 수량으로 나누는 것이 STD로 나눈 이유 중 하나 일 수 있습니다. 그러나 다른 표준과의 “변이”를 정의하면 이면 우리는 표준의 STD로 나눕니다 (pth 근을 취함으로써). 그러나 그것은 단지 추측 일 뿐이며 나는 이것에 대해 100 %가 아니므로 질문입니다. 누군가 이것과 관련된 것을 알고 있는지 궁금합니다. $\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{p}$

\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - μ)^{p}

$\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p$

관련 질문이 있음을 알았습니다.

상관 또는 공분산에 대한 PCA?

그러나 “상관성”또는 “공분산”을 사용할시기에 대해 더 많이 이야기하는 것처럼 보였지만 엄격하거나 설득력이 있거나 자세한 정당화가 부족했습니다.

동일 :

분석 전에 데이터를 정규화해야하는 이유

답변

이것은 왜 표준 편차로 나누는 것이 그러한 목표를 달성 할 수 있는지에 대해서는 명확하지 않습니다. 특히 변환 된 (표준화 된) 데이터를 “동일한 스케일”에 배치하는 이유는 무엇입니까? 이 질문은 더 심오한 문제 ( “작동 된”것, “수행 된”이 의미하는 것, 심지어 수학적으로 연결된 것 “)를 암시하지만 적어도이 절차가”작동하는 “이유에 대한보다 간단한 측면을 다루는 것이 합리적이었습니다. 즉, 본문에서 주장을 달성합니다.

공분산 행렬의 행 와 열 의 항목 은 와 변수 사이의 공분산 입니다. 대각선, 행 및 열 , 이것은 변수와 그 자체 의 공분산이됩니다 . $i$

i

$i$ $j$

j

$j$ $i^{t h}$

i^{t h}

$i^{th}$ $j^{t h}$

j^{t h}

$j^{th}$ $i$

i

$i$ $i$

i

$i$ $i^{t h}$

i^{t h}

$i^{th}$ 변수. $i^{t h}$

i^{t h}

$i^{th}$

변수 와 변수 호출 해 봅시다 . 나는 이것들이 이미 0이되도록 중심에 있다고 가정합니다. 그 리콜 $i^{t h}$

i^{t h}

$i^{th}$ $X_{i}$

X_{i}

$X_i$ $j^{t h}$

j^{t h}

$j^{th}$ $X_{j}$

X_{j}

$X_j$

C o v (X_{i}, X_{j}) = σ_{X_{i}} σ_{X_{j}} C o r (X_{i}, X_{j})

$Cov(X_i, X_j) =\sigma_{X_i} \, \sigma_{X_j} \, Cor(X_i, X_j)$

변수를 표준 편차로 나눔으로써 변수가 분산되도록 변수를 표준화 할 수 있습니다. 표준화 할 때 일반적으로 평균을 먼저 뺍니다. 그러나 이미 중간에 있다고 가정하여 해당 단계를 건너 뛸 수 있습니다. 하자 $Z_{i} = \frac{X_{i}}{σ_{X_{i}}}$

Z_{i} = \frac{X_{i}}{σ_{X_{i}}}

$Z_i = \frac{X_i}{\sigma_{X_i}}$ 그리고 왜 분산이 하나인지를 알기 위해서는

V a r (Z_{i}) = V a r (\frac{X_{i}}{σ_{X_{i}}}) = \frac{1}{σ_{X_{i}}^{2}} V a r (X_{i}) = \frac{1}{σ_{X_{i}}^{2}} σ_{X_{i}}^{2} = 1

$Var(Z_i) = Var\left(\frac{X_i}{\sigma_{X_i}}\right) = \frac{1}{\sigma_{X_i}^2}Var(X_i) = \frac{1}{\sigma_{X_i}^2} \sigma_{X_i}^2 = 1$

$Z_{j}$

Z_{j}

$Z_j$ $i$

i

$i$ $j$

j

$j$

C o v (Z_{i}, Z_{j}) = σ_{Z_{i}} σ_{Z_{j}} C o r (Z_{i}, Z_{j}) = C o r (Z_{i}, Z_{j})

$Cov(Z_i, Z_j) =\sigma_{Z_i} \, \sigma_{Z_j} \, Cor(Z_i, Z_j) = Cor(Z_i, Z_j)$

$C o r (Z_{i}, Z_{j})$

C o r (Z_{i}, Z_{j})

$Cor(Z_i, Z_j)$ $C o r (X_{i}, X_{j})$

C o r (X_{i}, X_{j})

$Cor(X_i, X_j)$

$C o v (Z_{i}, Z_{i}) = V a r (Z_{i}) = 1$

C o v (Z_{i}, Z_{i}) = V a r (Z_{i}) = 1

$Cov(Z_i, Z_i) = Var(Z_i) = 1$ 우리가 예상 한 것처럼 전체 대각선이 대각선으로 채워집니다. 이런 의미에서 데이터는 이제 “동일한 규모”입니다. 최소한 한계가 평균 0과 분산 (및 표준 편차)으로 시작하기 위해 한계 분포가 매우 유사하게 보일 것입니다. 한 변수의 가변성이 다른 변수를 늪으로 빠뜨리는 경우는 더 이상 없습니다. 물론 다른 스프레드 단위로 나 have 수도 있습니다. 차이는 치수 불일치로 인해 특히 좋지 않은 선택이었습니다 (예를 들어, 변수 중 하나의 단위를 미터에서 킬로미터로 변경 한 경우 어떤 일이 있었는지 생각해보십시오). 중간 절대 편차 (또는 MAD의 적절한 배수)와 같은 것표준 편차의 강력한 추정량으로 사용하려는 경우)이 더 적합 할 수 있습니다. 그러나 여전히 대각선을 대각선으로 바꾸지 않습니다.

결론은 표준화 된 데이터의 공분산 행렬에서 작동하는 방법이 원래 데이터의 상관 행렬을 사용한다는 것입니다. PCA에서 사용하기를 원하는 것은 상관 관계 또는 공분산에 대한 PCA를 참조하십시오 .

답변

왜 분산으로 나눌 때 표준 편차
로 나눌까요?

@Silverfish가 이미 주석에서 지적했듯이 표준 편차는 측정과 동일한 단위를 갖습니다. 따라서 분산과 대조적으로 표준 편차로 나누면 평균과 표준 편차로 측정 된 사례가 평균과 스프레드의 상대적인 위치를 알려주는 일반 숫자로 끝납니다. 이것은 매우 가깝습니다. $z$

z

$z$ . 데이터가 정규 분포를 따르는 경우 는 데이터를 표준 정규 분포로 변환합니다.

따라서 데이터에 적합한 표준 정규 분포를 고려하면 표준화 (평균 중심화 + 표준 편차에 의한 스케일링) 가 의미가 있습니다.

왜 다른 수량? 절대 값의 합처럼? 아니면 다른 표준 …

다른 수량은 스케일링에 사용됩니다 데이터 되지만 평균 중심화를 사용하고 표준 편차로 나누는 경우에만 표준화라고합니다. 스케일링은 일반적인 용어입니다.

예를 들어, 분광 데이터로 작업하고 검출기에 파장에 따른 감도와 (전자) 바이어스가 있음을 알고 있습니다. 따라서 I를 보정 오프셋 (공백) 신호를 감산하고 보정 계수 (분할)을 곱하여.

또한 나는 평균이 아니라 대 평균 대신 제어 그룹의 평균과 같은 다른 기준 값을 중심으로 할 수 있습니다. (개인적으로, 변형이 이미 동일한 물리적 단위를 가지고 있고 동일한 크기의 순서로 있기 때문에 거의 표준화하지 않습니다)

참조 : 모델을 만들기 전에 변수를 조정 (예 : 표준화)하는 경우가 종종 있습니다. 언제 이것이 좋은 아이디어이고 언제 나쁜가요?

답변

이 링크는 귀하의 질문에 명확하게 대답합니다. http://sebastianraschka.com/Articles/2014_about_feature_scaling.html

나는 작은 조각을 인용한다 :

Z- 점수 표준화 또는 최소 최대 스케일링?

“표준화 또는 최소-최대 스케일링?”-이 질문에 대한 명확한 대답은 없습니다. 실제로 응용 프로그램에 따라 다릅니다.

예를 들어, 군집 분석에서 특정 거리 측정을 기반으로 형상 간의 유사성을 비교하기 위해 표준화가 특히 중요 할 수 있습니다. 또 다른 두드러진 예는 Principal Component Analysis (주성분 분석)입니다. 여기서 우리는 Min-Max 스케일링보다 표준화를 선호합니다. 왜냐하면 우리는 분산을 최대화하는 성분에 관심이 있기 때문입니다 (질문에 따라 PCA가 상관 행렬 대신 공분산 행렬;하지만 이전 기사의 PCA에 대한 자세한 내용).

그러나 이것이 Min-Max 스케일링이 전혀 유용하지 않다는 것을 의미하지는 않습니다! 널리 사용되는 응용 프로그램은 이미지 처리이며, 픽셀 강도를 특정 범위 (예 : RGB 색상 범위의 경우 0-255)에 맞게 정규화해야합니다. 또한 일반적인 신경망 알고리즘에는 0-1 스케일의 데이터가 필요합니다.

How IT

언제든지 물어보세요.

PCA를 수행하기 전에 다른 표준화 요소가 아닌 표준 편차로 나누는 이유는 무엇입니까? 통해 도출

답변

답변

답변

답변