태그 보관물: variance

variance

공분산 행렬에서 “분산”의 척도? 경우 분산은 데이터

데이터가 1d 인 경우 분산은 데이터 포인트가 서로 다른 정도를 나타냅니다. 데이터가 다차원이라면 공분산 행렬을 얻게됩니다.

다차원 데이터에 대해 데이터 포인트가 일반적으로 어떻게 다른지를 단일 수치로 나타내는 측정 값이 있습니까?

이미 많은 솔루션이 있다고 생각하지만 솔루션을 검색하는 데 사용할 올바른 용어가 확실하지 않습니다.

공분산 행렬의 고유 값을 더하는 것과 같은 일을 할 수 있습니다.



답변

(아래 답변은 단지 [0]에서 입증 된 정리를 소개하고 언급 한 것입니다.이 논문의 장점은 대부분의 주장이 기본 선형 대수의 관점에서 이루어 졌다는 것입니다.이 질문에 대답하기 위해서는 주요 결과를 진술하기에 충분하지만 반드시 원본 소스를 확인하십시오).

데이터의 다변량 패턴이 변이 타원형 분포에 의해 기술 될 수있는 임의의 상황에서 , 통계적 추론은 정의에 의해 k 변이 위치 벡터 ( θ ) 및 k에 의한 k 의 적합 (및 특성화) 문제를 감소시킬 것이다. k 대칭 반 양성 한정 행렬 (예 : Σ )을 데이터에 적용합니다. 아래에서 설명하지만 (이미 전제로 가정 하는 ) 다변량 분포의 밀도 윤곽의 모양을 설명 하는 Σ 를 모양 구성 요소 ( Σ 와 동일한 크기의 SPSD 행렬)로 분해하는 것이 더 의미 가 있습니다. 스칼라 σ S

k

k

θ

k

k

Σ

Σ

Σ

σS

이 윤곽의 규모를 표현합니다.

단 변량 데이터 ( ) Σ 에서 데이터의 공분산 행렬은 스칼라이며 아래 설명에서 볼 수 있듯이 Σ 의 모양 성분 은 1이므로 Σ 는 척도 성분 Σ = σ S 와 항상 같고 모호성이 없습니다.

k=1

Σ

Σ

Σ

Σ=σS

다변량 데이터에서, 다양한 스케일링 기능 선택 이 가능하다. 특히 하나 ( σ S = | Σ

σS

)는 바람직한 바람직한 특성을 갖는 데있어서 두드러진다. 이것은 타원형 패밀리의 맥락에서 스케일링 팩터를 선호하는 선택으로 만들어야합니다.

σS=|ΣΣ|1/k

MV 통계의 많은 문제는 R k × k 로 정의 된 함수 (al) 대칭 준 양수로 정의 되고 다음을 충족시키는 산란 행렬의 추정과 관련됩니다
.

Σ

Rk×k


(단수 행렬이 아닌 행렬 A 및 벡터 b ). 예를 들어, 공분산의 고전 추정치는 (0)을 만족하지만 결코 유일한 것은 아닙니다.

(0)Σ(AX+b)=AΣ(X)A⊤

A

b

모든 밀도 윤곽선이 동일한 모양 행렬에 의해 정의 된 타원 인 스칼라에 의한 곱셈까지의 타원 분산 데이터가있는 경우 정규화 된 버전의 를 고려하는 것이 당연합니다 .

Σ

VS=Σ/S(Σ)

여기서 는 다음을 만족하는 1- 유전 함수입니다

S

(1)S(λΣ)=λS(Σ)

모든 입니다. 이어서, V S는 와 (짧은 형상 매트릭스) 캐터 매트릭스 형상 성분이라고 σ S = S 1 / 2 ( Σ ) 산란 행렬의 스케일 성분이라고한다. 손실 함수는 변수에 따라 추정 문제의 예 Σ 형상 구성 요소를 통해 V S는 중에서도 구형, PCA 및 CCA의 테스트를 포함한다.

λ>0

VS

σS=S1/2(Σ)

Σ

VS

물론, 가능한 스케일링 함수가 많기 때문에, 여전히 몇몇 정규화 함수 ( ) 중 어떤 선택이 어떤 의미에서 최적 인지에 대한 의문이 여전히 남아 있습니다. 예를 들면 다음과 같습니다.

S
  • (예를 들어 OP의 질문 아래 그의 의견에서 @amoeba가 제안한 것. [1], [2], [3] 참조)
    S=tr(Σ)/k

  • ([4], [5], [6], [7], [8])
    S=|Σ|1/k

  • (공분산 행렬의 첫 번째 항목)
    Σ11

  • (첫 번째 고유 Σ )
    λ1(Σ)

    Σ

그러나 는 국부적으로 무증상 정상 패밀리에서 대응하는 스케일 및 형상 추정치에 대한 피셔 정보 매트릭스가 블록 대각선 인 유일한 스케일링 함수이다 (즉, 추정 문제의 스케일 및 형상 성분은 비대칭 직교 임) [0 ]. 이것은 무엇보다도 스케일 기능 S = | Σ | 1 / kV S 에 대한 추론을 수행 할 때 σ S 의 비 사양 이 효율 손실을 유발하지 않는 유일한 S 선택입니다 .

S=|Σ|1/k

S=|Σ|1/k

S

σS

VS

나는 (1)을 만족시키는 의 많은 가능한 선택들 중 어느 것에 대한 비교 가능한 강한 최적 성 특성을 모른다 .

S
  • Paindaveine, D., 형태의 정식 정의, 통계 및 확률 서한, 78 권, 제 14 호, 2008 년 10 월 1 일, 페이지 2240-2247. 연결되지 않은 링크
  • Dumbgen, L. (1998). 타일러의 M- 스캐너 기능성에 대해 Ann. Inst. 통계 학자. 수학. 50, 471–491.
  • Ollila, E., TP Hettmansperger 및 H. Oja (2004). 등변 량 다변량 부호 방법을 정의합니다. Jyvaskyla 대학의 Preprint.
  • 타일러, DE (1983). 산란 매트릭스의 견고성 및 효율 속성, Biometrika 70, 411–420.
  • Dumbgen, L. 및 DE Tyler (2005). 일부 다변량 M- 기능의 항복 특성에서 스캔 됨. J. 통계 학자. 32, 247–264.
  • [5] Hallin, M. 및 D. Paindaveine (2008). 분산의 동질성에 대한 최적의 순위 기반 테스트, Ann. 통계가 나타납니다.
  • [6] Salibian-Barrera, M., S. Van Aelst 및 G. Willems (200 6). 빠르고 강력한 부트 스트랩이있는 다변량 MM 추정기를 기반으로하는 주성분 분석, J. Amer. 통계 학자. Assoc. 101, 1198-1211.
  • [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila 및 H. O ja (2006). 산란 및 모양 행렬을 기반으로하는 표준 상관 및 벡터 추정의 영향 함수 및 효율성, J. Multivariate Anal. 97, 359–384.
  • [8] Tatsuoka, KS 및 DE Tyler (2000). 비타 원 분포에서 S-Functionals 및 M-functions의 고유성에 대해 Ann. 통계 학자. 28, 1219–1243.

답변

스칼라 변수의 분산은 평균과 변수의 제곱 편차로 정의됩니다.

Var⁡(X)=E⁡[(X−E⁡[X])2]

하나의 일반화 벡터 값 랜덤 변수의 스칼라 값의 변화에 대한이 같은 편차를 해석하여 얻을 수있다 유클리드 거리 :

Vars⁡(X)=E⁡[‖X−E⁡[X]‖22]

이 표현은 다음과 같이 다시 쓸 수 있습니다

Vars⁡(X)=E⁡[(X−E⁡[X])⋅(X−E⁡[X])]=E⁡[∑i=1n(Xi−E⁡[Xi])2]=∑i=1nE⁡[(Xi−E⁡[Xi])2]=∑i=1nVar⁡(Xi)=∑i=1nCii

여기서 는 공분산 행렬입니다. 마지막으로, 이것은 다음과 같이 단순화 될 수 있습니다

C

Vars⁡(X)=tr⁡(C)

공분산 행렬 의 흔적 입니다.


답변

공분산 행렬 의 추적tr (C) 가 총 분산의 척도를 제공하지만 변수 간의 상관 관계는 고려하지 않습니다.

변수가 서로 독립적 일 때 크고 변수가 서로 밀접하게 관련되어있을 때 매우 작은 전체 분산 측정이 필요한 경우 공분산 행렬 의 결정자 를 사용할 수 있습니다. | C | .

더 나은 설명을 위해이 기사 를 참조하십시오 .


답변

하나의 숫자 만 필요하면 공분산 행렬의 가장 큰 고유 값을 제안합니다. 이것은 또한 PCA에서 첫 번째 주요 구성 요소의 설명 된 분산입니다. 벡터의 차원을 1로 줄이면 총 분산을 얼마나 설명 할 수 있는지 알려줍니다. math SE 에서이 답변 을 참조하십시오 .

아이디어는 모든 변수를 선형으로 하나의 시리즈로 결합하여 벡터를 하나의 차원으로 축소하는 것입니다. 1d 문제로 끝납니다.

설명 된 분산은 총 분산에 대해 %로보고 할 수 있습니다. 이 경우 계열간에 많은 선형 상관 관계가 있는지 즉시 확인할 수 있습니다. 일부 응용 프로그램에서이 수치는 80 % 이상일 수 있습니다 (예 : 금융의 금리 곡선 모델링). 이는 모든 변수의 분산에 대한 80을 설명하는 변수의 선형 조합을 구성 할 수 있음을 의미합니다.


답변

정보 이론에서 엔트로피 개념 주어진다 콘텐츠 정보의 불확실성의 측정치와 같은 목적에 맞는 것

H(X)=−∫p(x)log⁡p(x)dx.

Wikipedia 에 따르면 데이터에서 파생 된 평균 μ 와 공분산 Σ를 갖는 대한 다변량 가우스 분포를 가정하면 , 차분 엔트로피는
H ( X ) = 1입니다.

p(x)

μ

Σ


여기서n은 차원 수입니다. 이후

H(X)=12log⁡((2πe)ndet(Σ))

n

다변량 가우시안 주어진 공분산위한 차동 엔트로피 극대화 분포이며 ,이 수식은 상부 주어진 분산과 미지 분포 행 엔트로피를 제공한다.

그리고 @ user603이 제안한 것처럼 공분산 행렬의 결정 요인에 따라 다릅니다.


답변