“순진한 부트 스트랩”이 실패하는 예는 무엇입니까? 생성하고, 내 통계 계산하는 것입니다 위한 추정

알 수 없거나 복잡한 분포의 표본 데이터 집합이 있고 데이터의 통계적 에 대해 약간의 추론을 수행하려고한다고 가정 합니다. 내 기본 성향은 교체와 부트 스트랩 샘플의 무리를 생성하고, 내 통계 계산하는 것입니다 위한 추정 분포를 생성하기 위해 각각의 부트 스트랩 샘플 .

T

T

T

이것이 나쁜 생각의 예는 무엇입니까?

예를 들어,이 부트 스트랩을 순진하게 수행하지 못하는 경우는 시계열 데이터에 부트 스트랩을 사용하려고하는 경우입니다 (예 : 중요한 자기 상관 관계가 있는지 테스트하기 위해). 위에서 설명한 순진한 부트 스트랩 ( 원래 시리즈에서 교체하여 샘플링하여 n 번째 부트 스트랩 샘플 시리즈 의 번째 데이터 포인트 생성 )은 원래 시계열의 구조를 무시하기 때문에 잘못 권장됩니다. 블록 부트 스트랩과 같은 더 멋진 부트 스트랩 기술을 얻으십시오.

i

달리 말하면, “대체 표본 추출”외에 부트 스트랩에는 무엇이 있습니까?



답변

일반적으로 분포의 기능인 관심 수량이 합리적으로 매끄럽고 데이터가 iid 인 경우 일반적으로 매우 안전한 영역에있게됩니다. 물론 부트 스트랩이 작동하는 다른 상황도 있습니다.

부트 스트랩이 “실패”한다는 의미

일반적으로 부트 스트랩의 목적은 관심 통계량에 대한 대략적인 샘플링 분포를 구성하는 것입니다. 매개 변수의 실제 추정에 관한 것이 아닙니다. 따라서 관심있는 통계 (일부 크기 조정 및 중심 조정)가 및 부트 스트랩 배포는 다음과 같습니다. 분포로 수렴합니다 . 우리가 이것을 가지고 있지 않다면, 우리는 추론을 믿을 수 없습니다.

X^n

X^n→X∞

X∞

부트 스트랩이 실패 할 수있는 경우 의 일반적인 예는 iid 프레임 워크에서도 극단적 인 순서 통계의 샘플링 분포를 근사화하는 경우입니다. 아래는 간단한 토론입니다.

분포 에서 무작위 표본의 최대 주문 통계

U[0,θ]

하자 에 IID 균일 한 확률 변수의 순서 수 . 하자 . 의 분포 는

(매우 간단한 인수이 실제로 해당 도시 유의 확률, 심지어, 거의 확실하게 , 랜덤 변수가 동일한 공간에 정의 된 경우).

X1,X2,…

[0,θ]

X(n)=max1≤k≤nXk

X(n)

P(X(n)≤x)=(x/θ)n.

X(n)→θ

기본 계산으로

즉 은 평균 지수 랜덤 변수로 분포에 수렴 합니다.

P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,

n(θ−X(n))

θ

이제 를 대체 하고 분포를 사용하여 을 리샘플링 하여 분포의 (순진한) 부트 스트랩 추정치를 구성합니다. 의 조건으로 .

n(θ−X(n))

X1,…,Xn

X1⋆,…,Xn⋆

n(X(n)−X(n)⋆)

X1,…,Xn

그러나, 관찰이 함께 확률 , 따라서 부트 스트랩 분포는 0 점 질량 갖는다 하더라도 점근 불구 실제 제한 분포가 연속적이라는 사실.

X(n)⋆=X(n)

1−(1−1/n)n→1−e−1

보다 명확하게, 실제 제한 분포는 평균 지수 적이지만, 제한 부트 스트랩 분포 는 실제 값과 관계없이 크기의 0에 점 질량 을 배치합니다 . 취하여 충분히 대형, 우리는 어떤 일정 구간 동안 작은 임의의 분포 제한 진정한 가능성을 만들 수있다 아직 부트 스트랩 것 ( 여전히 이 구간에서 적어도 확률 0.632이 있음!) 보고서! 이것으로부터 부트 스트랩 이이 설정에서 임의로 잘못 작동 할 수 있음을 분명히해야 합니다.

θ

1−e−1≈0.632

θ

θ

[0,ε)

요약하면,이 경우 부트 스트랩이 실패합니다 (비참하게). 매개 변수 공간의 가장자리에서 매개 변수를 처리 할 때 문제가 발생하는 경향이 있습니다.

정규 확률 변수 샘플의 예

놀랍도록 간단한 상황에서 부트 스트랩 실패에 대한 다른 유사한 예가 있습니다.

샘플 고려 에서 에 대한 파라미터 공간 여기서 제한된다 . 이 경우 MLE는 입니다. 다시 부트 스트랩 추정값 합니다. 다시, (관측 된 샘플에 따라)가 .

X1,X2,…

N(μ,1)

μ

[0,∞)

X^n=max(X¯,0)

X^n⋆=max(X¯⋆,0)

n(X^n⋆−X^n)

n(X^n−μ)

교환 가능한 어레이

아마도 가장 극적인 예 중 하나는 교환 가능한 어레이입니다. 하자 확률 변수의 배열 예를 들어, 그 모든 순열 쌍 행렬 및 상기 어레이 와 동일한 공동 분포를 갖는다. 즉, 의 행과 열을 바꾸면 분포가 변하지 않습니다. (모델이 훨씬 일반적이지만 셀당 하나의 관측치가있는 양방향 랜덤 효과 모델을 생각해 볼 수 있습니다.)

Y=(Yij)

P

Q

Y

PYQ

Y

평균 대한 신뢰 구간을 추정하려고한다고 가정합니다 (위의 모든 수단의 교환 가능성 가정으로 인해 세포는 같아야합니다).

μ=E(Yij)=E(Y11)

McCullagh (2000)는 그러한 배열을 부트 스트래핑하는 두 가지 다른 자연 (즉, 순진한) 방법을 고려했다. 둘 다 표본 평균에 대한 점근 적 분산을 얻지 못합니다. 그는 또한 단방향 교환 가능한 배열과 선형 회귀의 일부 예를 고려합니다.

참고 문헌

불행히도, 주제는 사소한 것이 아니므로, 특히 쉬운 것은 아닙니다.

P. Bickel과 D. Freedman, 부트 스트랩에 대한 점근 론 . 앤 통계 , vol. 아뇨. 6 (1981), 1196–1217.

DWK Andrews, 매개 변수가 매개 변수 공간의 경계에있을 때 부트 스트랩의 불일치 , Econometrica , vol. 68 호 2 (2000), 399–405.

P. McCullagh, 리샘플링 및 교체 가능한 어레이 , Bernoulli , vol. 6 번 2 (2000), 285–301.

EL Lehmann 및 JP Romano, 통계적 가설 테스트 , 3 차. ed., Springer (2005). [15 장 : 일반적인 큰 샘플 방법]


답변

다음 책에는 “부트 스트래핑이 실패에 대한 구제 조치와 함께 실패 할 때”에 관한 장 (Ch.9)이 있습니다.

MR Chernick, 부트 스트랩 방법 : 실무자와 연구원을위한 안내서 , 2 차 개정판. Hoboken NJ : Wiley-Interscience, 2008.

주제는 다음과 같습니다.

  1. 표본 크기가 너무 작음
  2. 무한한 순간을 가진 분포
  3. 극단적 인 가치 추정
  4. 설문 조사 샘플링
  5. M에 종속적 인 데이터 시퀀스
  6. 불안정한 자기 회귀 프로세스
  7. 장기 의존성

답변

순진 부트 스트랩은 표본 크기가 크므로 데이터에 대한 경험적 CDF가 “진정한”CDF에 대한 근사치입니다. 이를 통해 경험적 CDF에서의 샘플링이 “참”CDF에서의 샘플링과 매우 유사합니다. 극단적 인 경우는 하나의 데이터 포인트 만 샘플링 한 경우입니다. 부트 스트랩은 여기서 아무 것도 달성하지 못합니다. 이 퇴화 사례에 접근함에 따라 점점 더 쓸모 없게 될 것입니다.

부트 스트랩이 순식간에 시계열 분석에서 반드시 실패하지는 않습니다 (비효율적 일 수 있음). 추세 구성 요소에 대해 연속 시간의 기본 함수 (예 : 범례 다항식)와 주기적에 대한 연속 시간의 사인 및 코사인 함수를 사용하여 시리즈를 모델링하는 경우 구성 요소 (정상적인 소음 오류 항). 그런 다음 가능성 함수로 샘플링 된 시간을 입력하면됩니다. 부트 스트랩으로 인한 재난이 없습니다.

모든 자동 상관 또는 ARIMA 모델은 위의 형식으로 표현됩니다.이 모델은 사용하기가 더 쉽고 이해하고 해석합니다 (사인 및 코사인 함수의주기를 이해하기 쉽고 ARIMA 모델의 계수를 이해하기 어렵다). 예를 들어 자동 상관 함수는 시계열의 전력 스펙트럼의 역 푸리에 변환입니다.