여러 다변량 관측 값이 있으며 모든 변수에 대한 확률 밀도를 평가하려고합니다. 데이터가 정규 분포되어 있다고 가정합니다. 적은 수의 변수에서는 모든 것이 예상대로 작동하지만 더 큰 수로 이동하면 공분산 행렬이 양의 한정이 아닙니다.
Matlab의 문제를 다음과 같이 줄였습니다.
load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.
err> 0이면 Sigma는 양의 한정이 아닙니다.
실험 데이터를 더 높은 차원에서 평가하기 위해 할 수있는 일이 있습니까? 내 데이터에 유용한 정보가 있습니까?
나는이 분야의 초보자이기 때문에 분명한 것을 놓친 경우 사과드립니다.
답변
공분산 행렬은 특이하기 때문에 양의 한정이 아닙니다. 즉, 변수 중 하나 이상이 다른 변수의 선형 조합으로 표현 될 수 있습니다. 하나 이상의 값을 다른 변수의 하위 집합에서 확인할 수 있으므로 모든 변수가 필요하지는 않습니다. 변수를 순차적으로 추가하고 각 단계에서 공분산 행렬을 확인하는 것이 좋습니다. 새로운 변수가 특이점을 만들면 그 변수를 삭제하고 다음 변수로 넘어갑니다. 결국에는 postive 명확한 공분산 행렬이있는 변수의 하위 집합이 있어야합니다.
답변
유효한 결과입니다. 공분산 행렬의 해당 성분에 대한 추정치는 0이며 이는 사실 일 수 있습니다. 계산이 어려울 수 있지만 R의 일부 알고리즘 (Matlab에 대해 모른다)이 이것을 처리 할 수 있습니다. 나는 사람들이 왜 이것에 대해 화를 내는지 이해하지 못하고 더 교황 적 인 모델을 갖추기를 주장합니다.
답변
위에서 언급하지 않은 한 가지 점은 변수가 완벽하게 선형 적으로 관련되어 있지 않더라도 경험적 데이터에서 비 양성 유한 공분산 행렬을 계산할 수 있다는 것입니다. 데이터가 충분하지 않거나 (특히 쌍별 비교에서 고차원 공분산 행렬을 구성하려는 경우) 데이터가 다변량 정규 분포를 따르지 않는 경우 역설 관계가 생길 수 있습니다 변수들, 예컨대 cov (A, B)> 0; cov (A, C)> 0; cov (B, C) <0.
이 경우 이러한 기준을 충족하는 다변량 정규 분포가 없으므로 다변량 정규 PDF에 적합 할 수 없습니다. cov (A, B)> 0 및 cov (A, C)> 0은 반드시 cov (B, C )> 0.
즉, 양수가 아닌 확정 행렬이 항상 공선 변수를 포함하고있는 것은 아닙니다. 또한 선택한 파라 메트릭 구조에서 불가능한 관계를 모델링하려고 시도 할 수도 있습니다.