통계 학습에서 iid 가정의 중요성 y \vert {\bf{X}}) .

통계적 학습, 내재적으로 또는 명시 적으로, 하나는 반드시 학습 집합에 있다고 가정 으로 구성되는 N 입력 / 응답 튜플 ( X I , Y I ) 되어 독립적 같은 조인트 분포로부터 인출 P ( X를 , Y )

D={X,y}

N

(Xi,yi)

P(X,y)

p(X,y)=p(y|X)p(X)

그리고 특정 학습 알고리즘을 통해 우리가 포착하려고하는 관계를

p(y|X)

. 수학적으로이 iid 가정은 다음과 같이 씁니다.

(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}

나는 우리가이 가정이 실제로 거의 만족하지 않는다는 것에 모두 동의 할 수 있다고 생각한다. 관련 SE 질문 과 @Glen_b 및 @Luca의 현명한 의견을 참조하십시오 .

내 질문은 따라서 :

실제로 iid 가정이 정확히 어디에 중요해 집니까?

[문맥]

특정 모델을 훈련시키기 위해 이러한 엄격한 가정이 필요하지 않은 많은 상황 (예 : 선형 회귀 방법)을 생각할 수 있거나 적어도 하나는 iid 가정을 해결하고 강력한 결과를 얻을 수 있기 때문에 이것을 묻습니다. 실제로 결과 는 일반적으로 동일하게 유지 됩니다. 이는 선형 회귀 분석에서 이분산성 및 자기 상관 일관성있는 HAC 추정기 (예 : 이분산성 및 자기 상관 일관성)를 추론 할 수 있는 추론 입니다. Gauss-Markov 가정의 위반을 설명하기 위해 OLS 추정기의 유한 샘플 동작).

따라서 iid 가정은 특정 학습 알고리즘을 훈련시킬 수는 없지만 교차 검증과 같은 기술을 사용하여 모델의 일반화 능력을 안정적으로 측정 할 수 있습니다 . 통계 학습에서 우리가 실제로 데이터에서 배울 수 있다는 것을 보여주기 때문에 우리가 마지막 날에 관심을 가지는 것은 유일합니다. 직관적으로, 종속 데이터에 교차 유효성 검사를 사용하는 것이 ( 이 흥미로운 예 에서 설명 / 설명 된 것처럼) 낙관적으로 바이어스 될 수 있음을 실제로 이해할 수 있습니다 .

나를 위해 iid는 특정 모델 을 훈련 시키는 것과는 관련이 없지만 해당 모델의 일반 성과 관련된 모든 것을 제공합니다 . 이것은 Huan Xu 등이 발견 한 논문에 동의하는 것 같습니다 . “Markovian 샘플의 견고성 및 일반화”를 참조 하십시오 .

그것에 동의하겠습니까?

[예]

이 설명을 도울 수 있다면, 스마트 중에서 선택 수행 올가미 알고리즘 사용의 문제점을 고려 소정 기능 N의 트레이닝 샘플 ( X I를 , Y I )I = 1 , . . . , N의 X의 I = [ X I 1 , . . . , X i P ] 다음과
같이 더 가정 할 수 있습니다.

P

N

(Xi,yi)

∀i=1,...,N


Xi=[Xi1,...,XiP]

  • 입력 된 의존 그러므로 (각 기능에 대한 예 IID를 가정을 위반 선도 J = 1 , . . , P는 우리가 관찰 N에 따라서 시간적 자기 상관을 도입 점 시계열)
    Xi

    j=1,..,P

    N

  • 조건부 응답 는 독립적입니다.
    yi|Xi

  • 우리는 집니다.
    P≫N

교차 검증 방법 (전체 데이터 세트에서)을 사용하여 LASSO 불이익 계수 를 결정할 계획이라면 가정 할 때 iid 가정 위반이 문제를 일으킬 수 있는 방법은 다음과 같습니다. 이 학습 전략의 일반화 오류에 대한 느낌을 얻으십시오 (유용한 경우를 제외하고는 LASSO의 고유 한 장단점에 대한 논의를 남길 수 있습니다).

λ


답변

(Xi,yi)

i=1,…,N

기본 가정

y

X

p(y∣X)

  • yi

    Xi

    p(yi∣Xi)

yi

i

Xi

Xi

다음에서는 주로 독립의 역할에 중점을 둘 것입니다.

모델링

y

X


  • p(y∣X)

    yi

    Xi

    Xi


  • p(X,y)

    (X,y)

    p(X∣y)

    p(y)

    p(y∣X)

p(y∣X)

p(y∣X)

일관성 및 오류 범위

p(y∣X)

p(y∣X)

N

Xi

1NXTX→Σ

N→∞

X

XiT

N

의존성 구조에 대한보다 자세한 지식이 있다면 모델링에 사용 된 독립성 가정을 의존성 구조를 포착하는 모델로 대체 할 수 있습니다. 이것은 종종 시계열에 대해 수행됩니다. 작업 모델이 좋을수록 더 효율적인 방법이 될 수 있습니다.

모델 평가

p(y∣X)

p(y∣X)

배깅 (bagging)과 마찬가지로, 데이터 세트의 무작위 분할은 모든 의존 구조를 “지배”합니다. 그러나 독립성 가정에 근거한 방법의 경우, 평가 추정치가 합리적이되기 위해서는 iid보다 약한 ergodicity 가정이 충분해야하지만, 이러한 추정치에 대한 표준 오차를 도출하기는 매우 어렵다.

[ Edit : 변수들 사이의 의존성은 iid 가정 하의 분포와는 다른 학습 된 모형의 분포를 초래합니다. 교차 검증에 의해 생성 된 추정치는 명백히 일반화 오류와 관련이 없습니다. 의존성이 강하면 추정치가 좋지 않을 수 있습니다.]

요약 (tl; dr)

p(y∣X)

X

y

X
  • 학습 방법을 도출 할 수있는 유용한 작업 모델링 가정
  • 일관성을 증명하고 오류 범위를 제공하기에 충분하지만 필요하지 않은 가정
  • 학습용 배깅 및 평가를위한 교차 검증과 같은 임의의 데이터 분할 기술을 사용하기에 충분하지만 필요하지 않은 가정

충분한 iid의 대안이 무엇인지 정확하게 이해하는 것은 사소하지 않으며 어느 정도 연구 주제입니다.


답변

무엇 IID 가정 상태 것은 확률 변수가 있다는 것입니다 독립동일하게 분산 . 의미하는 바를 공식적으로 정의 할 수 있지만 비공식적으로 모든 변수 는 서로 독립적으로 동일한 종류의 정보를 제공한다고합니다 (관련 교환 성에 대해서도 읽을 수 있음 ).

추상적 인 아이디어에서 잠시 구체적인 예로 넘어 갑시다. 대부분의 경우 데이터는 행 단위로, 변수는 열 단위로 행렬에 저장할 수 있습니다. 데이터가 iid 인 것으로 가정 하면 열 사이의 관계에만 신경 쓰지 않고 행 사이의 관계에 신경 쓰지 않아도됩니다. 두 가지 모두에 신경 쓰면 열의 행과 행의 행, 즉 모든 것의 모든 항목을 모델링합니다. 모든 것에 따라 단순화하고 모든 것에 대한 통계 모델 을 구축하는 것은 매우 어렵습니다 .

exchengeability를 사용하면 교차 유효성 검사 또는 부트 스트랩과 같은 방법을 사용할 수 있지만 중앙 제한 정리 를 사용할 수 있으며 모델링에 도움이되는 단순화를 만들 수 있습니다 (열 방향으로 생각할 수 있음) ).

LASSO 예제에서 알 수 있듯이 독립 가정은 종종 조건부 독립으로 완화됩니다 . 이 경우에도 독립적이고 동일하게 분산 된 “부품”이 필요합니다. 유사하게, 당신이 언급 한 시계열 모델들에 대해 더 부드러운 가정이 종종 만들어집니다. 즉, 정상 성 을 가정 합니다. 일반적인 현상에 대해 같은 생각을 가진 여러 가지 유사한 것들을 관찰하는 것이 중요합니다. 우리가 많은 독특하고 의존적 인 것들을 가지고 있다면 일반화 할 수 없습니다.

당신이 기억해야 할 것은 이것은 단지 가정 일 뿐이며 , 우리는 그것에 대해 엄격하지 않습니다. 그것은 독립적으로 어떤 일반적인 현상에 대한 유사한 정보를 전달하기에 충분한 것들을 갖는 것입니다. 사물이 서로 영향을 미쳤다면 분명히 비슷한 정보를 전달하여 유용하지 않을 것입니다.

교실에서 아이들의 능력에 대해 배우고 싶다고 상상해 보자. 시험 결과는 아이들이 스스로 독립적으로 행동 한 경우에만 능력을 나타내는 지표로 사용할 수 있습니다. 그들이 상호 작용하면 아마도 가장 영리한 아이의 능력 또는 가장 영향력있는 아이의 능력을 측정 할 것입니다. 그것은 당신이 아이들 사이에 상호 작용이나 의존성이 없다고 가정 할 필요는 없지만 단순히 스스로 시험을 수행했다는 것을 의미합니다. 아이들은 또한 “동일하게 배포”되어야하므로 결과를 해석하기 어려워 질 수 있기 때문에 다른 나라에서 왔거나 다른 언어로 말하거나 다른 연령대에있을 수 없습니다. 데이터가 iid 라고 가정 할 수있는 경우일반 모델을 만드는 데 집중할 수 있습니다. 비 아이 이드 데이터를 처리 할 수 있지만 데이터의 “노이즈”에 대해 훨씬 더 걱정해야합니다.


주요 질문 외에도 비 iid 데이터로 교차 유효성 검사를 요청하고 있습니다. iid 가정 의 중요성을 과소 평가하는 것처럼 보이지만 동시에이 가정을 충족하지 못하는 문제를 과대 평가하여 교차 검증을 제기합니다. 부트 스트랩 또는 교차 검증과 같은 리샘플링 방법을 사용할 때 이러한 데이터를 처리하는 방법에는 여러 가지가 있습니다. 시계열을 다루는 경우 값이 독립적이라고 가정 할 수 없으므로 임의의 소수 부분을 취하는 것은 데이터의 자동 상관 구조를 무시하기 때문에 나쁜 생각입니다. 이 때문에 시계열에서는 일반적으로 한 걸음 앞서 교차 검증을 사용합니다.즉, 다음 값을 예측하기 위해 계열에 참여합니다 (모델링에는 사용되지 않음). 데이터가있는 경우 유사 구조를 클러스터 , 당신은 전체 클러스터를 샘플링 데이터의 특성을 보존 할 수 있습니다. 따라서 모델링과 마찬가지로 교차 유효성 검사를 수행 할 때 비 iid -sness도 처리 할 수 있지만 이러한 경우 iid 데이터 용으로 설계된 방법이 적용되지 않으므로 데이터의 특성에 맞게 분석법을 조정해야합니다 .


답변

iid를 안전하게 무시할 수있는 유일한 곳은 학부 통계 및 기계 학습 과정입니다. 당신은 다음과 같이 썼습니다 :

iid 가정을 해결하고 강력한 결과를 얻을 수 있습니다. 실제로 결과는 일반적으로 동일하게 유지되며 오히려 추론 할 수있는 추론입니다.

이는 모델의 기능적 형태가 기본적으로 올바른 것으로 가정 된 경우에만 해당됩니다. 그러나 이러한 가정은 iid보다 그럴듯하지 않습니다.

적용된 모델링 측면에서 iid가 매우 중요한 두 가지 방법이 있습니다.

  1. 귀하의 질문에 언급 한 바와 같이 대부분의 통계적 추론에 대한 명백한 가정입니다. 대부분의 실제 모델링에서 일부 단계에서는 변수 선택 및 모델 비교와 같이 사양을 테스트하기 위해 추론을 사용해야합니다. 따라서 iid 위반에도 불구하고 각 특정 모델 적합은 괜찮을 수 있지만 어쨌든 잘못된 모델을 선택할 수 있습니다.

  2. iid 위반을 통한 사고는 데이터 생성 메커니즘에 대해 생각하는 유용한 방법이며, 따라서 모델의 적절한 사양을 우선적으로 생각하는 데 도움이됩니다. 두 가지 예 :

    • 데이터가 클러스터 된 경우 이는 iid 위반입니다. 이에 대한 해결책은 혼합 모델 일 수 있습니다. 혼합 모델에서 도출 할 추론은 일반적으로 OLS에서 도출 한 추론과 완전히 다릅니다.
    • iid 조사의 일부로 잔차를 검사 할 때 종속 변수와 독립 변수 간의 비선형 관계가 종종 나타납니다.

물론, 제가 지금까지 구축 한 거의 모든 모델에서 잔차 분포를 진정으로 정규 분포에 가까운 것으로 줄이는 것에 실패했습니다. 그럼에도 불구하고, 나는 항상 정말로 열심히 노력함으로써 많은 것을 얻습니다.


답변

제 생각에 iid 가정이 통계 학습 (또는 일반적인 통계)에서 중요한 이유는 두 가지가 있습니다.

  1. 많은 수학 배후에서이 가정에 의존합니다. 학습 방법이 실제로 둘 이상의 데이터 세트에 대해 작동 함을 입증하려는 경우 iid 가정이 결국 자릅니다. 피하는 것이 가능하지만 수학은 몇 배 더 어려워집니다.

  2. 데이터에서 무언가를 배우려면 배울 것이 있다고 가정해야합니다. 모든 데이터 포인트가 다른 메커니즘으로 생성되면 학습이 불가능합니다. 따라서 어떤 것이 주어진 데이터 세트를 통합한다고 가정해야합니다. 데이터가 랜덤이라고 가정하면 확률 분포는 랜덤 ​​변수에 대한 모든 정보를 포함하기 때문에 자연스럽게 확률 분포입니다.

    x1,...,xn

    xi

    Fn

    (x1,...,xn)∼Fn.

    Fn

    Fm

    n

    m

    n

    Fn

    Fn

    n

    Fn=Fn,

    xi∼F

    Fn

    Fm

    n

    F

답변

일부 상황에서는 데이터가 iid 가 아니며 통계 학습이 여전히 가능하다는 점을 강조하고 싶습니다 . 모든 관측치의 공동 분포에 대한 식별 가능한 모델을 갖는 것이 중요합니다. 관측치가 iid이면이 관절 분포는 단일 관측치의 한계 분포에서 쉽게 얻을 수 있습니다. 그러나 경우에 따라 공동 분포는 한계 분포에 의존하지 않고 직접 제공됩니다.

Y=Xα+Zu+ε

Y∈Rn

X∈Rn×p

α∈Rp

Z∈Rn×q

u∈Rq

ε∈Rn

X

Z

α

u

u∼N(0,τIq)

ε∼N(0,σ2In)

τ

σ2

Y

Y∼N(Xα,τZZ′+σ2In).

α

τ

σ2

Y

n