비정규 적으로 분포 된 오류가 우리의 중요성 설명의 유효성을 손상시키는 이유는 무엇입니까? 정규 분포를 따르는 것입니다. Cross Validated를

OLS 모델을 고려할 때 정규성 가정이 있으며 오류가 정규 분포를 따르는 것입니다. Cross Validated를 통해 탐색 해 왔으며 오류가 정상화되기 위해 Y와 X가 정상일 필요는없는 것 같습니다. 내 질문은 왜 우리가 비정규 적으로 분포 된 오류를 가질 때 우리의 중요성 진술의 유효성이 손상 되었는가? 신뢰 구간이 너무 넓거나 좁은 이유는 무엇입니까?



답변

비정규 적으로 분포 된 오류가있을 때 왜 중요한 진술의 유효성이 손상됩니까? 신뢰 구간이 너무 넓거나 좁은 이유는 무엇입니까?

신뢰 구간은 분자와 분모가 t- 통계량으로 분포되는 방식을 기반으로합니다.

정규 데이터를 사용하면 t- 통계량의 분자는 정규 분포를 가지며 분모 제곱 분포 (분산)는 카이 제곱 분포의 특정 배수입니다. 분자와 분모가 독립적 인 경우 (관측 자체가 독립적 인 경우 일반 데이터의 경우에만 해당) 전체 통계량에는 t- 분포가 있습니다.

이는 와 같은 t- 통계량 이 중추적 인 수량 이된다는 것을 의미합니다 (분포는 실제 경사 계수에 따라 달라지지 않으며, 그것은 미지의 함수이다 신뢰 구간을 건설하기에 적합하다), … 이러한 간격은 사용 원하는 범위를 얻기 위해 자신의 건설에 -quantiles. βt

β^β에스β^

β

데이터가 다른 분포에서 나온 경우 통계량에 t- 분포가 없습니다. 예를 들어, 꼬리가 두꺼운 꼬리 일 경우 t- 분포는 꼬리가 약간 가벼워지는 경향이 있습니다. 다음은 예입니다. 두 경우 모두 히스토그램은 10,000 회귀입니다.

여기에 이미지 설명을 입력하십시오

왼쪽의 히스토그램은 데이터가 조건부로 정상일 때, n = 30 (이 경우 )입니다. 배포판은 정상적으로 보입니다. 오른쪽의 히스토그램은 조건부 분포가 오른쪽으로 치우치고 굵은 꼬리를 띠고 히스토그램이 외부의 값이 거의 없는 경우에 대한 것입니다. 분포는 정규 데이터의 이론적 분포와 크게 다르지 않습니다. 통계에 더 이상 t- 분포가 없기 때문입니다.( 2 , 2 )

β=0

(2,2)

95 % t- 간격 (샘플에서 기울기의 95 %를 포함해야 함)은 -2.048에서 2.048까지입니다. 일반 데이터의 경우 실제로 10000 개의 샘플 기울기의 95.15 %가 포함되었습니다. 치우친 데이터의 경우 99.91 %가 포함됩니다.


답변