태그 보관물: data-mining

data-mining

헤 시안 행렬과 공분산 행렬의 관계 추론하려면 분산을 알아야합니다. 분산을 찾으려면

최대 우도 추정을 공부하는 동안 최대 우도 추정을 추론하려면 분산을 알아야합니다. 분산을 찾으려면 Cramer의 Rao Lower Bound를 알아야합니다.이 곡선은 곡률에 두 번째 편차가있는 Hessian Matrix와 같습니다. 공분산 행렬과 헤 시안 행렬 간의 관계를 정의하기 위해 혼합되어 있습니다. 질문에 대한 설명을들을 수 있기를 바랍니다. 간단한 예가 이해 될 것이다.



답변

먼저 Fisher Information 매트릭스와 Hessian 및 표준 오류와의 관계에 대한기본 질문을 확인해야 합니다.

통계 모델 (분포 계열) 가 있다고 가정 합니다. 가장 일반적인 경우에 가 패밀리는 로 매개 변수화됩니다 . 특정 규칙 조건 하에서

{fθ:θΘ}

dim(Θ)=d

θ=(θ1,,θd)T

Ii,j(θ)=Eθ[2l(X;θ)θiθj]=Eθ[Hi,j(l(X;θ))]

여기서 는 Fisher Information 매트릭스 ( 함수 )이고 는 관측 값 (샘플)입니다.

Ii,j

θ

X

l(X;θ)=ln(fθ(X)), for some θΘ

따라서 Fisher Information 매트릭스는 일부 에서 로그 확률에 대한 Hesian의 부정 된 예상 값입니다.

θ

이제 알려지지 않은 매개 변수 의 벡터 함수를 추정한다고 가정 해 봅시다 . 일반적으로 추정기 는 편향되지 않아야합니다.

ψ(θ)

T(X)=(T1(X),,Td(X))

θΘ Eθ[T(X)]=ψ(θ)

Cramer Rao Lower Bound는 모든 편향되지 않은 대해 만족 한다고 말합니다.

T(X)

covθ(T(X))

covθ(T(X))ψ(θ)θI1(θ)(ψ(θ)θ)T=B(θ)

여기서 행렬 수단은 인 포지티브 세미 확정적 , 단순히 코비안이고 . 참고로, 우리가 예상되는 경우에 이라고 단순화 위

AB

AB

ψ(θ)θ

Ji,j(ψ)

θ

ψ(θ)=θ

covθ(T(X))I1(θ)

그러나 그것은 우리에게 실제로 무엇을 말합니까? 예를 들어

varθ(Ti(X))=[covθ(T(X))]i,i

모든 양의 반 정규 행렬에 대각선 요소는 음이 아닙니다.

A

i Ai,i0

위에서 우리는 각 추정 된 요소의 분산이 행렬 의 대각선 요소에 의해 구속된다는 결론을 내릴 수 있습니다.

B(θ)

i varθ(Ti(X))[B(θ)]i,i

따라서 CRLB는 추정기의 분산을 알려주지 않지만 추정기가 최적 인지 여부에 상관없이 최적 입니다.


답변