이 사이트 에는 OLS 잔차가 점진적 으로 정규 분포 되어 있는지 확인 하는 방법 에 대해 설명 하는 여러 스레드가 있습니다 . R 코드로 잔차의 정규성을 평가하는 또 다른 방법이이 훌륭한 답변에 제공됩니다 . 이것은 표준화 잔차와 관측 잔차의 실제적인 차이에 대한 또 다른 논의 입니다.
그러나이 예제 에서처럼 잔차가 확실히 정규 분포가 아니라고 가정 해 봅시다 . 여기에는 수천 개의 관측치가 있으며 정규 분포 잔차 가정을 분명히 거부해야합니다. 문제를 해결하는 한 가지 방법은 답변에 설명 된대로 강력한 형태의 추정기를 사용하는 것입니다. 그러나 나는 OLS에 국한되지 않으며 실제로 다른 glm 또는 비선형 방법론의 이점을 이해하고 싶습니다.
잔차의 OLS 정규성 가정을 위반하는 데이터를 모델링하는 가장 효율적인 방법은 무엇입니까? 또는 적어도 올바른 회귀 분석 방법론을 개발하기위한 첫 번째 단계는 무엇입니까?
답변
보통 최소 제곱 추정은 비정규 오차에 직면해도 여전히 합리적인 추정값입니다. 특히, Gauss-Markov Theorem 은 일반적인 최소 제곱 추정값이 오류가있는 한 회귀 계수의 최고 선형 비 편향 추정량 (BLUE) ( 평균 제곱 오차 를 최소화하는 데 최적 인 ‘최상의’ )이라고 설명합니다.
(1) 평균이 0이다
(2) 상관이 없다
(3) 분산이 일정하다
여기에는 정규 조건이 없습니다 (또는 오류가 IID 인 조건 ).
신뢰 구간 및 / 또는 값을 얻으려고 할 때 정규성 조건이 적용됩니다 . (우리가 논의 된 바와 같이, 예를 들면 – @MichaelChernick 당신은 오랫동안 정상에서 출발이 방법으로 처리 할 수있는만큼 오류가 아닌 일반적인 경우 강력한 추론을 사용할 수 있습니다 (BTW 일을) 언급으로 이 스레드) 후버 -estimator는 실제 오차 분포가 정규 분포와 긴 꼬리 분포 (예 : 모양) 사이의 혼합이지만 다른 정규 분포를 벗어나는 데 도움이되지 않을 때 강력한 추론을 제공 할 수 있습니다. Michael이 암시하는 한 가지 흥미로운 가능성 은 OLS 추정치에 대한 신뢰 구간을 얻기 위해 부트 스트랩 하고 이것이 Huber 기반 추론과 비교되는 방식을 보는 것입니다.M
p M편집 : 나는 종종 비제 한 오류를 처리하기 위해 중앙 제한 정리에 의존 할 수 있다고 들었습니다. 항상 사실이 아닙니다 (정리가 실패하는 반례에 대해서만 말하는 것이 아닙니다). 에서 실제 데이터 예를 들어 당신은 반드시 제공하기 위해 중심 극한 정리에 의존 할 수 없다, 당신은 오래 오류를 꼬리 한 상황에서 – 영업가 참조, 우리는 큰 샘플 크기를 가지고 있지만 긴 꼬리 오류 분포의 증거를 볼 수 있습니다 현실적인 유한 샘플 크기에 대한 대략적인 편향 추론. 예를 들어, 오차 가 자유 도로 분포를 따르는 경우 ( 더 명확하지는 않음)2.01
t2.01
OP의 데이터에서 볼 수있는 오차보다 긴 꼬리), 계수 추정값은 무 정규 정규 분포이지만 다른 짧은 꼬리 분포보다 “차지”하는 데 훨씬 오래 걸립니다.
이하, I는에 조 시뮬레이션 보여 R
그 때 여기서 의 샘플링 분포 표본 크기가 경우에도 은 여전히 매우 긴 꼬리입니다 .ε I ~ t 2.01 β 1 N = 4000
εi∼t2.01
β^1
n=4000
set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
x = rnorm(4000)
y = 1 + 2*x + rt(4000,2.01)
g = lm(y~x)
B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])
답변
잔차의 모든 속성을보고 싶다고 생각합니다.
- 정규성
- 일정한 분산
- 공변량과 상관 관계가 있습니다.
- 위의 조합
이 값이 1에 불과하고 하나의 두꺼운 꼬리로 인한 두꺼운 꼬리 또는 왜곡으로 인해 강력한 회귀가 좋은 접근 방법이거나 정규성으로 변환 될 수 있습니다. 일정하지 않은 분산 인 경우 분산 안정화 변환을 시도하거나 분산 함수를 모델링하십시오. 공변량과 관련된 다른 형태의 모형을 제안하는 것이 단지 3이라면. 벡터 나 리드의 부트 스트랩 문제는 항상 옵션입니다.
답변
내 경험은 Michael Chernick과 완전히 일치합니다. 때때로 데이터 변환을 적용하면 모델링 오류가 정상적으로 분포 될뿐만 아니라 이분산성을 수정할 수도 있습니다.
미안하지만, 제 생각에는이 과학 / 예술을 실천하는 것은 미친듯한 양의 데이터를 수집하거나 덜 효율적인 로버 스트 회귀 방법을 사용하는 것과 같이 제안하는 것은 잘못된 것입니다.
답변
매크로 (위의 내용)가 정답을 말했습니다. 같은 질문이 있었기 때문에 약간의 정확성
잔차의 정규성 조건은 잔차가 균일 한 경우에도 유용합니다. 결과적으로 OLS는 모든 추정기 (선형 또는 비선형) 사이의 편차가 가장 작습니다 .
확장 된 OLS 가정 :
E(u|Xi=x)=0
(Xi,Yi),i=1,…,n,- 큰 특이 치는 드물다
- 너는 동요하다
- u가 분포 됨
N(0,σ2)
1-5가 검증되면 OLS는 모든 추정기 (선형 또는 비선형) 사이에서 가장 작은 분산을 갖습니다 .
Gauss-Markov가 1 ~ 4 개만 확인한 경우 OLS가 최고의 선형 (!) 추정기 (BLUE)입니다.
출처 : 주식 및 왓슨, 계량 경제학 + 내 코스 (EPFL, 계량 경제학)
답변
비정규 조건의 경우 , 특히 방법에 대한 링크를 사용하여 강력한 회귀에 의존하는 경우 가 있습니다 .
비정규성에 대한 맥락을 제시하기 위해 선형 OLS 회귀에 대한 가정을 검토하는 데 도움이 될 수 있습니다.
- 외 생성이 약하다 . 이는 본질적으로 예측 변수 x 가 랜덤 변수가 아닌 고정 된 값으로 취급 될 수 있음을 의미 합니다. 예를 들어 예측 변수에는 오류가없는 것으로 가정합니다. 즉, 측정 오류로 오염되지 않습니다. 이 가정은 가장 자주 위반되는 것으로 가정되며이 가정 목록에 따라 오류가 발생합니다.
- 선형성. 이는 반응 변수의 평균이 모수 (회귀 계수)와 예측 변수의 선형 조합임을 의미합니다. 이 가정은 처음에 보이는 것보다 훨씬 덜 제한적입니다. 예측 변수는 고정 된 값으로 처리되므로 (위 참조) 선형성은 실제로 매개 변수에 대한 제한 일뿐입니다. 예측 변수 자체는 임의로 변환 될 수 있으며, 실제로 동일한 기본 예측 변수의 여러 복사본이 추가 될 수 있으며, 각 복사본은 다르게 변환됩니다.
- 일정한 분산 (일명 동성애). 이는 예측 변수의 값에 관계없이 반응 변수의 다른 값이 오차에서 동일한 분산을 갖음을 의미합니다. 실제로 응답 변수가 광범위하게 변할 수있는 경우이 가정은 유효하지 않습니다 (즉, 오류가 이분법적임). 이기종 오차 분산을 확인하기 위해 또는 잔차 패턴이 동질성 모형 가정을 위반하는 경우 ( x 는 모든 점의 ‘최적 합선’에서 오차가 동일), 잔차 오차와 예측값 사이의 “패닝 효과”를 찾는 것이 좋습니다. 이것은 예측 변수에 대해 플롯 할 때 절대 또는 제곱 잔차에 체계적인 변화가있을 것입니다. 회귀선에 오류가 고르게 분포되지 않습니다. 이분산성 (heteroscedasticity)은 점 주위의 구별 가능한 분산을 평균화하여 선의 모든 분산을 부정확하게 나타내는 단일 분산을 얻습니다. 실제로, 잔차는 선형 회귀선을 따라 점에 대한 더 크고 작은 값에 대한 예측 된 그림에서 군집되어 분산되어 나타나며 모형의 평균 제곱 오차가 잘못됩니다.
- 오류의 독립성. 이것은 응답 변수의 오류가 서로 관련이 없다고 가정합니다. (실제 통계적 독립성은 단순한 상관 관계가없는 것보다 더 강력한 조건이며, 보유하고 있다고 알려진 경우 악용 될 수 있지만 종종 필요하지는 않습니다. 후자는 군집 분석 및 상호 작용에 대한 수정으로 검사 할 수 있습니다.) 일부 방법 (예 : 일반화) 최소 제곱)은 상관 오류를 처리 할 수 있지만, 상관되지 않은 오류를 가정하여 모델을 편향시키는 데 일종의 정규화를 사용하지 않는 한 일반적으로 훨씬 더 많은 데이터가 필요합니다. 베이지안 선형 회귀는이 문제를 처리하는 일반적인 방법입니다.
-
오차 항과 회귀 변수 간의 통계적 관계는 추정 절차가 편향되지 않고 일관성있는 것과 같은 바람직한 샘플링 특성을 갖는지 여부를 결정하는 데 중요한 역할을합니다.
-
예측 변수 x의 배열 또는 확률 분포는 β 추정의 정밀도에 큰 영향을 미칩니다. 실험의 샘플링 및 설계는 β의 정확한 추정치를 달성하는 방식으로 데이터를 수집하기위한 지침을 제공하는 고도로 개발 된 통계의 하위 필드입니다.
이 같이 응답이 도시, 시뮬레이션 Student’s- 분포 기울기와 절편 그 자유도로서 대형화 (위한 신뢰 구간과 OLS 회귀 라인 광고 리드에서 에러를 이동시킴으로써 행한다 ) 감소한다. 들면 , Student’s- 코시 분포이며, 경사에 대한 신뢰 구간이되고 .
ty
df
df=1
t
(−∞,+∞)
발생 오차가 Cauchy 분포 일 때, 데이터를 통한 스퓨리어스 라인으로부터의 OLS 잔차는 신뢰성이 떨어질 수 있다는 점에서 잔존물에 대해 Cauchy 분포를 호출하는 것은 자의적입니다. 이 경우 Theil-Sen 회귀 분석을 사용할 수 있습니다 . Theil-Sen은 비정규 잔차에 대해 OLS보다 확실히 강력합니다. 예를 들어, Cauchy 분산 오차는 신뢰 구간을 저하시키지 않으며 OLS와는 달리 이변 량 회귀와 달리 이변 량의 경우 여전히 편향됩니다. 통과 -Bablok 회귀 는 편향되지 않은 이변 량일 수 있지만 음의 회귀 기울기에 적용되지 않습니다. 방법 비교 연구에 가장 일반적으로 사용됩니다. 데밍 회귀를 언급해야한다여기서 Theil-Sen 및 Passing-Bablok 회귀와 달리 이항 문제에 대한 실제 솔루션이지만 다른 회귀의 견고성이 부족합니다. 보다 중심적인 값을 포함하도록 데이터를 잘라내어 견고성을 높일 수 있습니다. 예를 들어, 랜덤 샘플 합의 (RANSAC) 는 특이 치를 포함하는 관측 된 데이터 세트에서 수학적 모델의 매개 변수를 추정하는 반복적 방법입니다.
이변 량 회귀는 무엇입니까? 문제의 이변 량 특성에 대한 테스트 부족은 OLS 회귀 희석 의 가장 흔한 원인이며이 사이트의 다른 곳 에서 훌륭하게 제시되었습니다 . 이러한 맥락에서 OLS 바이어스의 개념은 잘 알려져 있지 않습니다. 예를 들어 Longford et al. (2001), 독자를 다른 방법으로 참조하여 회귀 모델을 확장하여 변수 의 변동성을 인정 하므로 바이어스가 발생하지 않습니다 . 즉, 와 모두있을 때 이변 량 대소 문자 회귀를 무시할 수없는 경우가 있습니다.
x1 x y x y y 2 x y x y = f ( x )
1x
y
값은 무작위로 분배됩니다. 이변 량 회귀의 필요성은 OLS 회귀선을 데이터의 OLS 회귀의 잔차에 맞추는 것으로 테스트 할 수 있습니다. 그런 다음 OLS 잔차가 0이 아닌 기울기를 갖는 경우 문제는 이변 량이며 데이터의 OLS 회귀는 너무 얕은 기울기 크기와 함수 관계를 나타내기에는 너무 큰 절편을 갖습니다. 간 및 . 이 경우 값의 최소 오차 선형 추정기는 실제로 여전히 OLS 회귀에서 비롯되며 R 값은 가능한 최대 값이되지만 OLS 회귀선은 실제 관련 함수를 나타내지 않습니다. 및
xy
y
2
x
y
랜덤 변수. 반대의 예로서, 등거리 갖는 시계열에서 다른 문제들 사이에서 발생하는 것처럼 , 미가공 데이터의 OLS가 항상 부적절하지는 않지만 최고의 라인을 나타낼 수 있지만 여전히 변수 변환, 예를 들어 카운트 데이터의 경우, 포아송 분산 오차의 오류를보다 일반적인 조건으로 변환하기 위해 카운트의 제곱근을 취하고 0이 아닌 잔차 기울기를 여전히 점검해야합니다.
xy=f(x)
- NT, 롱 포드 (2001). “통신”. 왕립 통계 학회지, 시리즈 A. 164 : 565. doi : 10.1111 / 1467-985x.00219