태그 보관물: regression

regression

외삽 법에 어떤 문제가 있습니까? 저학년 청문회로서 통계 과정에 앉아있는 것을

외삽이 왜 나쁜 생각인지에 대한 저학년 청문회로서 통계 과정에 앉아있는 것을 기억합니다. 또한 온라인에 대한 다양한 출처가 있습니다. 여기에 대한 언급도 있습니다 .

외삽이 왜 나쁜 생각인지 이해하는 사람이 있습니까? 그렇다면 예측 기술이 통계적으로 유효하지 않은 이유는 무엇입니까?



답변

회귀 모델은 종종 외삽, 즉 모델에 적합하는 데 사용되는 예측 변수의 값 범위를 벗어난 입력에 대한 응답을 예측하는 데 사용됩니다. 외삽과 관련된 위험은 다음 그림에 설명되어 있습니다.

회귀 모형은 보간 모형을 “구축”하여 적절하게 정당화 하지 않는 한 외삽 법에 사용해서는 안됩니다 .


답변

xkcd 만화 는 모든 것을 설명합니다.

Cueball (막대기를 가진 남자)은 데이터 포인트를 사용하여 다음 달 말까지 여자에게 “십여 명의”남편이있을 것이라고 외삽했으며,이 외삽 법을 사용하여 웨딩 케이크를 대량 구매하는 결론을 내 렸습니다.

편집 3 : “데이터 포인트가 충분하지 않다”고 말하는 사람들을 위해 xkcd 만화가 있습니다 .

여기서 시간이 지남에 따라 “지속 가능한”이라는 단어의 사용은 세미 로그 플롯에 표시되며 데이터 지점을 추정하여 향후 “지속 가능한”이라는 단어가 얼마나 자주 발생할 지에 대한 비합리적인 추정치를받습니다.

편집 2 : “당신은 모든 과거 데이터 포인트가 필요합니다.”

여기에는 모든 과거 데이터 포인트가 있지만 Google 어스의 해상도를 정확하게 예측하지 못합니다. 이것은 세미 로그 그래프이기도합니다.

편집 : 때로는 가장 강한 상관 관계 (이 경우 r = .9979)조차도 명백한 잘못입니다.


다른 근거를 제시하지 않고 추정하면 상관 관계 를 위반 한다고해서 원인이되는 것은 아닙니다 . 통계 세계에서 또 다른 큰 죄.

그러나 X를 Y로 외삽 하는 경우 Y 만으로 X를 정확하게 예측할 수 있어야 합니다 . 거의 항상 영향 X보다 여러 가지 요소가 있습니다.

Nassim Nicholas Taleb의 말로 설명하는 다른 답변에 대한 링크를 공유하고 싶습니다 .


답변

“예측은 미래에 관한 경우 특히 어렵다”. 이 인용문은 어떤 형태의 많은 사람들에게 귀속됩니다 . 다음 “외삽 법”에서 “알려진 범위 밖의 예측”으로 제한하고 1 차원 설정에서는 알려진 과거에서 알려지지 않은 미래로의 외삽 법을 제한합니다.

외삽 법의 문제점은 무엇입니까? 첫째, 과거를 모델링하는 것은 쉽지 않습니다 . 둘째, 과거의 모델이 미래에 사용될 수 있는지 알기가 어렵다 . 두 가지 주장 뒤에는 인과 관계 또는 에르고 디 시티, 설명 변수의 충분 성 등에 대한 심층적 인 질문이 있으며, 이는 사례에 따라 다릅니다. 잘못된 점은 많은 추가 정보없이 다른 상황에서 잘 작동하는 단일 외삽 체계를 선택하기 어렵다는 것입니다.

이 일반적인 불일치는 아래 표시된 Anscombe 사중 데이터 세트 에 명확하게 설명되어 있습니다. 선형 회귀는 외삽의 인스턴스 이기도합니다 ( 좌표 범위 외부 ). 동일한 선이 동일한 표준 통계를 사용하여 4 개의 점 집합을 회귀합니다. 그러나 기본 모델은 매우 다릅니다.

x

그러나 예측은 어느 정도 연장 될 수 있습니다. 다른 답변에 덧붙여, 몇 가지 재료가 실제 외삽에 도움이 될 수 있습니다.

  1. 외삽하고자 하는 위치 까지의 거리 (인덱스 ) 에 따라 샘플가중치를 부여 할 수 있습니다 . 예를 들어, 지수 가중 또는 스무딩 또는 샘플의 슬라이딩 윈도우 와 같이 증가하는 함수 ( ) 을 사용하면 오래된 값에 덜 중요합니다.p f p ( n ) p n
    n

    p

    fp(n)

    p≥n

  2. 여러 가지 외삽 모델을 사용하여 결합 하거나 가장 적합한 모델을 선택할 수 있습니다 ( Combining predictions , J. Scott Armstrong, 2001). 최근에는 최적의 조합에 대한 많은 연구가있었습니다 (필요한 경우 참조를 제공 할 수 있음).

최근에 저는 실시간 환경에서 시뮬레이션 서브 시스템의 통신을위한 값을 추정하는 프로젝트에 참여했습니다. 이 영역의 교리는 외삽이 불안정성을 야기 할 수 있다는 것입니다. 실제로 위의 두 가지 성분을 결합하는 것은 눈에 띄는 불안정성없이 (정확한 증거없이 현재 검토 중인 ) 매우 효율적이라는 것을 깨달았습니다 . 그리고 외삽 법은 계산 부담이 매우 낮은 간단한 다항식으로 작업했으며 대부분의 연산은 미리 계산되어 조회 테이블에 저장되었습니다.

마지막으로 외삽 법에서 재미있는 그림을 제시 할 때 선형 회귀의 역효과는 다음과 같습니다.


답변

모델의 적합도는 ” 양호 ” 할 수 있지만 데이터 범위를 벗어난 외삽 법은 회의적으로 처리해야합니다. 그 이유는 많은 경우에 외삽은 (불행히도 불가피하게도) 관찰 된 지원을 넘어서 데이터의 행동에 대한 테스트 할 수없는 가정에 의존하기 때문입니다.

외삽 할 때 두 가지 판단 호출을 수행해야합니다. 첫째, 정량적 관점에서 볼 때 데이터가 범위를 벗어난 모델은 얼마나 유효합니까? 둘째, 질적 관점 에서 관찰 된 표본 범위를 벗어난 점 이 표본에 대해 가정 한 모집단의 구성원이되는 것은 얼마나 그럴듯 합니까? 두 질문 모두 어느 정도의 모호함 외삽을 수반하기 때문에 모호한 기술로 간주됩니다. 이러한 가정에 동의해야 할 이유가있는 경우, 외삽은 일반적으로 유효한 추론 절차입니다.

xout

추가적인 비주의 사항은 많은 비모수 적 추정 기술이 기본적으로 외삽을 허용하지 않는다는 것입니다. 이 문제는 장착 된 스플라인을 고정 할 매듭이 더 이상없는 스플라인 스무딩의 경우에 특히 두드러집니다.

외삽은 악과 거리가 멀다는 점을 강조하겠습니다. 예를 들어 통계에서 널리 사용되는 수치 방법 (예 : Aitken의 델타 제곱 프로세스Richardson의 외삽 법 )은 관측 된 데이터에 대해 분석 된 함수의 기본 동작이 기능 지원 전반에 걸쳐 안정적으로 유지된다는 아이디어에 기초한 외삽 법입니다.


답변

다른 답변과 달리 외삽 법에 아무런 의미가없는 한 외삽 법에는 아무런 문제가 없다고 말하고 싶습니다. 먼저 외삽 법은 다음과 같습니다.

원래 관측 범위를 넘어서, 다른 변수와의 관계에 기초하여 변수의 값을 추정하는 과정.

… 이것은 매우 광범위한 용어이며 간단한 선형 외삽 법 에서부터 선형 회귀법, 다항식 회귀법 또는 심지어 고급 시계열 예측 법에 이르기까지 다양한 정의가 그러한 정의에 적합합니다. 실제로 외삽, 예측 및 예측 은 밀접한 관련이 있습니다. 통계에서 우리는 종종 하게 예측과 예측을 . 이것은 또한 당신이 말하는 링크가 말하는 것입니다 :

우리는 통계의 첫날부터 외삽은 절대 대단하지 않다는 것을 배웠습니다. 그러나 그것은 정확히 예측입니다.

또한 많은 외삽 법 예측을 위해 사용 되며, 종종 일부 간단한 방법 은 작은 샘플에서 잘 작동 하므로 복잡한 방법보다 선호 될 수 있습니다. 외삽 법을 부적절하게 사용하면 다른 답변에서 알 수 있듯이 문제가 있습니다.

예를 들어, 많은 연구에 따르면 서부 국가에서는 성적인 연령이 시간이 지남에 따라 감소하는 것으로 나타났습니다. 미국에서의 첫 성교 연령에 관한 아래의 도표를 살펴보십시오. 맹목적으로 선형 회귀를 사용하여 첫 번째 성교의 나이를 예측하면 몇 년이 지나면 0 미만으로 떨어질 것으로 예상합니다 (처음 결혼과 첫 번째 출생이 사망 한 후 발생하는 경우에 따라). 1 년 전에 예측하면 선형 회귀가 추세에 대해 매우 정확한 단기 예측으로 이어질 것이라고 생각합니다.

(source guttmacher.org )

정확한 예측을 할 수 없기 때문에 모든 모델이 잘못 되었고 외삽도 잘못되었습니다. 다른 수학 / 통계 도구와 마찬가지로 대략적인 예측 을 수행 할 수 있습니다 . 그것들이 얼마나 정확한지의 여부는 문제에 적합한 방법을 사용하여 모델의 정의와 다른 많은 요소를 가정 한 가정에 따라 데이터 품질에 달려 있습니다. 그러나 이것이 우리가 그러한 방법을 사용할 수 없다는 것을 의미하지는 않습니다. 우리는 할 수 있지만 한계에 대해 기억 하고 주어진 문제에 대한 품질평가해야합니다 .


답변

나는 Nassim Taleb (Bertrand Russell의 이전 예제를 채택한)의 예를 매우 좋아합니다.

매일 먹이를주는 칠면조를 생각해보십시오. 한 번의 모든 먹이는 정치인이 말하는 것처럼 인류의 친근한 사람들이 “최고의 이익을 기대하는”사람들이 매일 먹이를 먹는 것이 일반적인 규칙이라는 새의 신념을 강화할 것입니다. 추수 감사절 전 수요일 오후에는 칠면조에 예기치 않은 일이 발생합니다. 그것은 믿음의 개정을 초래할 것입니다.

일부 수학적 아날로그는 다음과 같습니다.

  • 함수의 처음 몇 테일러 계수에 대한 지식이 후속 계수가 추정 된 패턴을 따를 것을 항상 보장하지는 않습니다.

  • 미분 방정식의 초기 조건에 대한 지식이 항상 점근 적 행동에 대한 지식을 보장하지는 않습니다 (예 : Lorenz의 방정식, 때로는 소위 “나비 효과”로 왜곡됨)

문제에 대한 좋은 MO 스레드 가 있습니다.


답변

원한다면 다음 이야기를 깊이 생각해 본다.

나는 또한 통계 과정에 앉아 기억하고 교수는 외삽이 나쁜 생각이라고 우리에게 말했다. 다음 수업 시간에 그는 다시 나쁜 생각이라고 말했습니다. 사실, 그는 그것을 두 번 말했습니다.

나는 학기의 나머지 기간 동안 아 sick 다. 그러나 나는 지난 주까지 그 사람은 반드시 아무것도하지 않았고 사람들에게 외삽이 어떻게 나쁜 생각인지를 말하고 있었기 때문에 많은 자료를 놓칠 수 없었을 것이라고 확신했다. .

이상하게도 시험에서 높은 점수를 얻지 못했습니다.