태그 보관물: multivariate-analysis

multivariate-analysis

관절 분포가 가우스가 아닌 한 쌍의 가우스 랜덤 변수를 가질 수 있습니까? 가우시안이라고 답했습니다. 나는 항상 평균과 분산 및

누군가가 면접에서이 질문을하고 공동 분포가 항상 가우시안이라고 답했습니다. 나는 항상 평균과 분산 및 공분산으로 이변 량 가우시안을 작성할 수 있다고 생각했습니다. 두 가우시안의 공동 확률이 가우시안이 아닌 경우가 있는지 궁금합니다.



답변

이변 량 정규 분포는 예외 가 아니라 규칙입니다!

정규 한계를 갖는 “거의 모든”관절 분포가 이변 량 정규 분포 가 아님 을 인식하는 것이 중요합니다 . 즉, 이변 량 법선이 아닌 법선 한계 값을 갖는 관절 분포가 어떻게 든 “병리학 적”이라는 일반적인 관점은 약간 잘못된 것입니다.

다변량 법선은 선형 변환에서의 안정성으로 인해 매우 중요하므로 응용 분야에서 많은 관심을 받고 있습니다.

몇 가지 예제로 시작하는 것이 좋습니다. 아래 그림은 여섯 개 이변 량 분포의 히트 맵을 포함 하는 모든 표준 정규 marginals이있는이. 맨 위 줄의 왼쪽과 가운데는 이변 량 법선이고 나머지는 그렇지 않습니다 (명백해야 함). 아래에 더 자세히 설명되어 있습니다.

copulas의 베어 본

의존성의 속성은 종종 copulas를 사용하여 효율적으로 분석됩니다 . 이변 접합부는 단위 제곱에 대한 확률 분포 단지 공상 이름 로 균일 marginals.

[0,1]2

가 이변 량의 copula 라고 가정하십시오 . 그런 다음 위에서 바로 , 및 입니다.

C(u,v)

C ( u , 1 ) = u C ( 1 , v ) = v

C(u,v)≥0

C(u,1)=u

C(1,v)=v

이변 량 copula의 간단한 변형으로 미리 지정된 한계 값을 갖는 유클리드 평면에 이변 량 랜덤 변수를 생성 할 수 있습니다 . 하자 및 랜덤 변수 쌍에 대한 한계를 정하는 분포 . 그런 다음 가 이변 량 copula이면

는 한계 값 및 가있는 이변 량 분포 함수입니다 . 이 마지막 사실을 보려면

대해서도 같은 주장이 적용됩니다 .F 2 ( X , Y ) C ( u , v ) F ( x , y ) = C ( F 1 ( x ) , F 2 ( y ) ) F 1 F 2

F1

F2

(X,Y)

C(u,v)

F(x,y)=C(F1(x),F2(y))

F1

F2

P(X≤x)=P(X≤x,Y<∞)=C(F1(x),F2(∞))=C(F1(x),1)=F1(x).

F2

연속 및 경우 Sklar 정리 는 대화를 암시하는 고유성을 암시합니다. 즉, 연속 마진이 , 인 이변 량 분포 가 주어지면 해당하는 copula는 고유합니다 (적절한 범위 공간에서).

F1

F2

F(x,y)

F1

F2

이변 량 법선은 예외적입니다

Sklar의 정리는 (실질적으로) 이변 량 정규 분포를 생성하는 하나의 copula 만 있다고 말합니다. 이것은, 적절하게 상기라는 가우시안 접합부 의 밀도가
여기서 분자는 및 에서 평가 된 상관 관계 갖는 이변 량 정규 분포입니다. .

[0,1]2


cρ(u,v):=∂2∂u∂vCρ(u,v)=φ2,ρ(Φ−1(u),Φ−1(v))φ(Φ−1(u))φ(Φ−1(v)),

ρ

Φ−1(u)

Φ−1(v)

그러나, 거기에 많은 다른 copulas의은과 모든 그들이다 정상 marginals와 이변 량 분포를 줄 것이다 없습니다 이전 섹션에 설명 된 변환을 사용하여 이변 량 정상을.

예제에 대한 세부 사항

참고한다면 그 오전이며 , 임의의 밀도와 접합부 의 변화 하에서 표준 정규 marginals와 해당 이변 밀도 는

C(u,v)

c(u,v)

F(x,y)=C(Φ(x),Φ(y))

f(x,y)=φ(x)φ(y)c(Φ(x),Φ(y)).

위의 방정식에서 가우스 copula를 적용하여 2 변량 정규 밀도를 회복합니다. 그러나 다른 선택에 대해서는 그렇지 않습니다.

c(u,v)

그림의 예는 다음과 같이 구성되었습니다 (한 번에 한 열씩 각 행을 이동).

  1. 독립 성분을 가진 이변 량 법선.
  2. 이변 량 법선 .
    ρ=−0.4

  3. Dilip Sarwate의 답변주어진 예 . 밀도 의 copula 에 의해 쉽게 유도되는 것을 볼 수 있습니다. .
    C(u,v)

    c(u,v)=2(1(0≤u≤1/2,0≤v≤1/2)+1(1/2<u≤1,1/2<v≤1))

  4. 매개 변수 Frank copula 에서 생성됩니다 .
    θ=2

  5. 매개 변수 Clayton copula 에서 생성됩니다 .
    θ=1

  6. 매개 변수 Clayton copula의 비대칭 수정으로 생성됩니다 .
    θ=3


답변

다변량 법선 벡터의 각 요소는 그 자체로 정규 분포되어 있으며 그 평균과 분산을 추론 할 수 있습니다. 그러나 두 개의 구 아시안 랜덤 변수가 함께 정규 분포되어 있다는 것은 사실이 아닙니다. 예를 들면 다음과 같습니다.

편집 : 점 질량 인 임의 변수가 인 정규 분포 변수로 생각할 수 있다는 의견에 동의하여 예제를 변경하고 있습니다.

σ2=0

하자 및하자 A는 랜덤 변수. 즉, 각각 확률이 입니다.

X∼N(0,1)

Y=X⋅(2B−1)

B

Bernoulli(1/2)

Y=±X

1/2

먼저 에 표준 정규 분포가 있음을 보여줍니다 .

Y

으로 총 확률의 법칙 ,

P(Y≤y)=12(P(Y≤y|B=1)+P(Y≤y|B=0))

다음,

P(Y≤y|B=0)=P(−X≤y)=1−P(X≤−y)=1−Φ(−y)=Φ(y)

여기서 는 표준 일반 CDF 입니다. 비슷하게,

Φ

P(Y≤y|B=1)=P(X≤y)=Φ(y)

따라서,

P(Y≤y)=12(Φ(y)+Φ(y))=Φ(y)

따라서 의 CDF 는 이므로 입니다.

Y

Φ(⋅)

Y∼N(0,1)

이제 우리는 가 공동으로 정규 분포되지 않음 을 보여줍니다 .

X,Y

@cardinal이 지적했듯이, 다변량 법선의 한 특성은 요소의 모든 선형 조합이 정규 분포한다는 것입니다. 에는이 속성이 없습니다.

X,Y

Y+X={2Xif B=10if B=0.

따라서 는 랜덤 변수와 0의 점 질량 의 혼합물 이므로 정규 분포를 사용할 수 없습니다.

Y+X

50/50

N(0,4)

답변

다음 게시물에는 주요 아이디어를 제공하고 시작하기위한 증명 개요 가 포함되어 있습니다 .

하자 두 개의 독립적 인 가우시안 랜덤 변수 일 및하자 수

z=(Z1,Z2)

x=(X1,X2)

x=(X1X2)=(α11Z1+α12Z2α21Z1+α22Z2)=(α11α12α21α22)(Z1Z2)=Az.

각 이지만 둘 다 동일한 독립 r.vs의 선형 조합이므로 공동으로 의존합니다.

Xi∼N(μi,σi2)

정의
r.vs 쌍은 독립 정규 r.vs 의 선형 조합 로 쓸 수있는 경우 이변 량 정규 분포라고합니다 .

x=(X1,X2)

x=Az

z=(Z1,Z2)

보조 정리
하면 이변 량 가우시안 후 그 임의의 다른 선형 조합들은 다시 정상 랜덤 변수이다.

x=(X1,X2)

증거 . 사소한, 다른 사람을 화나게하지 않기 위해 건너 ped

속성 가 서로 관련이
없으면 독립적이며 그 반대도 마찬가지입니다.

X1,X2

분포

X1|X2

가정 이전 만의 그들이 긍정적 인 변화가 제로가 단순에 대한 의미 가정하자 같은 가우스 r.vs 있습니다.

X1,X2

가 에 의해 확장 된 부분 공간 인 경우 및 입니다.

S

X2

X1S=ρσX1σX2X2

X1S⊥=X1−X1S

X1

과 는 선형 조합 이므로 도 동일합니다. 그것들은 공동 가우시안이고 상관되지 않으며 (증명) 독립적입니다.

X2

z

X2,X1S⊥

분해

X1=X1S+X1S⊥

E[X1|X2]=ρσX1σX2X2=X1S

V[X1|X2]=V[X1S⊥]=E[X1−ρσX1σX2X2]2=(1−ρ)2σX12.

그런 다음

X1|X2∼N(X1S,(1−ρ)2σX12).

두 개의 일 변량 가우스 랜덤 변수 는 조건부 와 도 가우시안입니다.

X,Y

X|Y

Y|X

답변