regression Archives - Page 33 of 112

회귀 또는 벡터 표기법에서 다중 상관 관계 $R$

및 결정 계수 의 기하학적 의미에 관심이 있습니다. , $R^{2}$

$y_{i} = β_{1} + β_{2} x_{2, i} + \dots + β_{k} x_{k, i} + ϵ_{i}$

yi=β1+β2x2,i+⋯+βkxk,i+ϵi

y = X β + ϵ

여기서 설계 행렬 $X$

는 $n$

행과 $k$

열을 가지며 , 첫 번째는 $x_{1} = 1_{n}$

x1=1n

이며, 절편 해당하는 1의 벡터입니다 $β_{1}$

β1

기하학은 차원 가변 공간 보다는 $n$

차원 대상 공간 에서 더 흥미 롭다 . 모자 매트릭스를 정의하십시오. $k$

H = X (X ⊤ X) - 1 X ⊤

이것은 의 열 공간에 대한 직교 투영 $X$

, 즉 각 변수 나타내는 벡터에 의해 스팬 된 원점을 통한 평면 투영 이며, 첫 번째는 입니다. 이어서 관찰 된 반응에의 벡터 돌출 평면에서의 “그림자”로, 장착 값 벡터 , 우리는 우리가 잔차의 벡터 참조 돌기의 경로를 따라 보면 $k$

$x_{i}$

$1_{n}$

$H$

$y$

$\hat{y} = H y$

y^=Hy

$e = y - \hat{y}$

e=y−y^

삼각형의 세 번째면을 형성합니다. 이것은 우리에게 의 기하학적 해석에 대한 두 가지 경로를 제공해야합니다 . $R^{2}$

상기 다수의 상관 계수의 제곱 사이의 상관 관계로 정의되고, 및 . 이것은 각도의 코사인으로 기하학적으로 나타납니다. $R$ $y$ $\hat{y}$
벡터의 길이 측면에서 : 예를 들어 . $S S_{residual} = \sum_{i = 1}^{n} e_{i}^{2} = ‖ e ‖^{2}$

다음을 설명하는 간단한 계정을 보게되어 기쁩니다.

(1)과 (2)의 세부 사항은
(1)과 (2)가 동일한 이유
간단히 말해, 기하학적 통찰력을 통해 의 기본 속성을 시각화 할 수있는 방법 , 예를 들어 잡음 분산이 0이되었을 때 1로 이동하는 이유는 무엇입니까? 그림.) $R^{2}$

변수가 먼저 중심에 있으면 질문에서 절편을 제거하면 더 간단합니다. 그러나 다중 회귀를 도입하는 대부분의 교과서 계정에서 디자인 행렬 는 내가 설명한 대로입니다. 물론 박람회가 중심 변수에 의해 확장 된 공간을 파고 들어도 괜찮지 만, 교과서 선형 대수학에 대한 통찰력을 얻으려면 이것을 중심이없는 상황에서 기하학적으로 일어나는 일과 다시 관련시키는 것이 도움이 될 것입니다. 정말 통찰력있는 대답은 설명 할 수 정확하게 기하학적으로 분해되는 것을 절편 기간이 제거 될 때 – 즉 때 벡터 $X$

$1_{n}$

스패닝 세트에서 제거됩니다. 중심 변수를 고려 하여이 마지막 요점을 해결할 수 있다고 생각하지 않습니다.

답변

모형에 상수 항이있는 경우 은 의 열 공간에 있습니다 ( 과 마찬가지로 나중에 유용함). 피팅 관측의 정사영 인 그 열 공간에 의해 형성되는 평면 상. 이 수단 잔차 벡터의 평면에 수직이며, 따라서, 행 . 내적을 고려하면 이므로 $1_{n}$

$X$

$\bar{Y} 1_{n}$

Y¯1n

$\hat{Y}$

$Y$

$e = y - \hat{y}$

e=y−y^

$1_{n}$

$\sum_{i = 1}^{n} e_{i} = 0$

∑i=1nei=0

는 0으로 합산되어야합니다. 이후 우리 결론 너무 모두 끼워 관찰 응답 평균 있는지 . $e$

$Y_{i} = \hat{Y_{i}} + e_{i}$

Yi=Yi^+ei

$\sum_{i = 1}^{n} Y_{i} = \sum_{i = 1}^{n} \hat{Y_{i}}$

∑i=1nYi=∑i=1nYi^

$\bar{Y}$

Y¯

도면에서 점선 나타내는 과 이며, 중심 관찰 끼워 맞춤 응답 벡터. 각도의 코사인 이러한 벡터 사이 그러므로의 상관 것이다 및 정의 다중 상관 계수이고, . 이들 잔차 벡터의 벡터를 형성하는 삼각형 때문에 직각되는 놓여 평면뿐만 $Y - \bar{Y} 1_{n}$

Y−Y¯1n

$\hat{Y} - \bar{Y} 1_{n}$

Y^−Y¯1n

$θ$

$Y$

$\hat{Y}$

$R$

$\hat{Y} - \bar{Y} 1_{n}$

Y^−Y¯1n

는 그것에 직교합니다. 금후: $e$

R = cos (θ) = adj hyp = ∥ Y ^ - Y ¯ 1 n ∥ ∥ Y - Y ¯ 1 n ∥

피타고라스를 삼각형에 적용 할 수도 있습니다.

∥ Y - Y ¯ 1 n ∥ 2 = ∥ Y - Y^∥ 2 + ∥ Y^- Y ¯ 1 n ∥ 2

다음과 같이 더 친숙 할 수 있습니다.

\sum i = 1 n (Y i - Y ¯) 2 = \sum i = 1 n (Y i - Y^i) 2 + \sum i = 1 n (Y^i - Y ¯) 2

이것은 제곱의 합, 의 분해입니다 . $S S_{total} = S S_{residual} + S S_{regression}$

SStotal=SSresidual+SSregression

결정 계수에 대한 표준 정의는 다음과 같습니다.

R 2 = 1 - S S residual S S total = 1 - \sum n i = 1 ( y i - y ^ i ) 2 \sum n i = 1 ( y i - y ¯ ) 2 = 1 - ∥ Y - Y ^ ∥ 2 ∥ Y - Y ¯ 1 n ∥ 2

When the sums of squares can be partitioned, it takes some straightforward algebra to show this is equivalent to the “proportion of variance explained” formulation,

R 2 = S S regression S S total = \sum n i = 1 ( y ^ i - y ¯ ) 2 \sum n i = 1 ( y i - y ¯ ) 2 = ∥ Y ^ - Y ¯ 1 n ∥ 2 ∥ Y - Y ¯ 1 n ∥ 2

There is a geometric way of seeing this from the triangle, with minimal algebra. The definitional formula gives $R^{2} = 1 - \sin^{2} (θ)$

R2=1−sin2⁡(θ)

and with basic trigonometry we can simplify this to $\cos^{2} (θ)$

cos2⁡(θ)

. This is the link between $R^{2}$

and $R$

Note how vital it was for this analysis to have fitted an intercept term, so that $1_{n}$

was in the column space. Without this, the residuals would not have summed to zero, and the mean of the fitted values would not have coincided with the mean of $Y$

. In that case we couldn’t have drawn the triangle; the sums of squares would not have decomposed in a Pythagorean manner; $R^{2}$

would not have had the frequently-quoted form $S S_{reg} / S S_{total}$

SSreg/SStotal

nor be the square of $R$

. In this situation, some software (including R) uses a different formula for $R^{2}$

altogether.

How IT

언제든지 물어보세요.

태그 보관물: regression

다중 상관 계수 이며, 첫 번째는 1 n 입니다. 이어서

답변

답변