회귀를 사용하여 데이터 범위를 벗어난 투영 확인? 절대 안돼? 때때로 괜찮습니까? 4.98 3019 4.98 3077

회귀를 사용하여 데이터 범위를 벗어나는 것에 대해 어떻게 생각하십니까? 선형 또는 전력 모형 형태를 따르는 것이 확실하다면 모형이 데이터 범위를 넘어서 유용하지 않습니까? 예를 들어, 가격에 따라 수량이 결정됩니다. 우리는 내가 믿는 데이터 범위를 벗어난 가격을 예상 할 수 있어야합니다. 당신의 생각?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92



답변

거의 모든 답변과 의견은 외삽의 위험에 대해 경고합니다. 예측이 신중한 지 여부를보다 공식적인 방법으로 제공하고 싶습니다. 이 방법은 열이 차지하는 공간의 투영 행렬을 기반으로합니다.

엑스

우리는 전체 순위를 가정합니다. 즉, 열 공간이 p 차원이라고 가정합니다. 당신이 기억 하듯이

H=엑스(엑스엑스)1엑스

대각선 요소가

H

풀다

0<H나는나는<1, 나는=1,,

이것은 this 등식의 결과이며 예측 공간의 중심으로부터의 거리로 해석 될 수 있습니다. 레버리지간에 일대일 대응이 있기 때문에 이것은 사실입니다

H나는나는

그리고 제곱 Mahalanobis 거리. 숨겨진 외삽을 발견하는 방법은 새로운 관측이 중심으로부터 얼마나 멀리 떨어져 있는지 보는 것입니다. 이것은 새로운 대각선 요소를 계산하여 수행 할 수 있습니다. 행렬 곱셈의 몇 가지 기본 규칙을 상기하면서

H이자형,이자형=엑스이자형(엑스엑스)1엑스이자형

만약

H이자형,이자형

다른 대각선 요소보다 훨씬 크다면 새로운 관측 값이 중심과는 거리가 멀고 예측이 위험 할 수 있습니다. 크기가 너무 커서 결정하는 것은 약간의 판단이 필요합니다. 물론이 기술은 절대 안전하지 않습니다. 그럼에도 불구하고 그 아름다움은 단순한 산포도를 볼 수 없을 때 모든 차원에서 작동한다는 것입니다.

사용중인 소프트웨어는 확실하지 않지만 거의 모든 소프트웨어가 올바른 명령으로 모자 매트릭스를 반환합니다. 마음을 정하기 전에 살펴 보는 것이 좋습니다.


답변

예측 오차는 평균으로부터의 거리에 따라 2 차적으로 증가합니다. 회귀 방정식과 결과를 사용하면 관측 된 데이터 범위에 대한 오차의 크기를 측정 할 수 있으며 모델은 동일한 범위에 대해서만 적합합니다.

그 범위를 벗어나면 많은 일들이 일어날 수 있습니다. 먼저, 예측 오차의 증가로 인해 예측이 악화된다.

둘째, 모델이 완전히 고장날 수 있습니다. 이를 확인하는 가장 쉬운 방법은 가격과 시간을 기준으로 모델을 투영하는 것입니다. 부정적인 시간을 예측할 수 없습니다.

셋째, 선형 관계가 부적절 할 수 있습니다. 귀하의 예에서는 규모의 경제가 거의 확실합니다. 관측 된 값의 범위를 훨씬 벗어나서 예측하려고하면 매우 눈에 띄게됩니다.

이 같은 효과에 대한 유머러스 한 예는 Mark Twain작품 중 하나에서 나타나며 , 시간이 지남에 따라 미시시피 강의 길이를 모델링하려고 시도합니다 .- 매년 침식으로 인해 바람이 많이 불고 짧아졌습니다. 수년 동안 카이로, 일리노이, 뉴 올리언스 사이의 거리가 약 1 마일에서 3/4로 줄어든다는 예측과 함께 "구부러진 것"을 포함합니다.

마지막으로 예측 변수가 둘 이상인 경우 관측 값의 범위가 매우 복잡 할 수 있습니다. 예측 변수 간의 상관 관계로 인해 각 예측 변수의 최대 값과 최소값으로 정의 된 상자를 사용할 수없는 경우가 많습니다.


답변

데이터가없는 영역에 대해서는 데이터 중심 의사 결정을 내릴 수 없습니다. 이야기의 끝. 데이터는 데이터가 수집되는 범위에 대해 선형 모양을 매우 잘 지원할 수 있지만이 모양이 범위 밖에서 계속 선형이라고 믿을만한 데이터 기반 이유는 없습니다. 태양 아래 어떤 모양이든 될 수 있습니다!

선형 모양이 데이터 범위를 벗어난 것으로 가정 할 수 있지만 수집 한 데이터에서 지원하지 않는 주관적인 가정입니다. 주제 전문가에게 문의하여 주제 전문가가이 가정이 얼마나 안전한지 확인하도록 제안합니다.


답변