태그 보관물: multivariate-analysis

multivariate-analysis

양수가 아닌 공분산 행렬은 내 데이터에 대해 무엇을 알려줍니까? 한정이 아닙니다. Matlab의 문제를 다음과

여러 다변량 관측 값이 있으며 모든 변수에 대한 확률 밀도를 평가하려고합니다. 데이터가 정규 분포되어 있다고 가정합니다. 적은 수의 변수에서는 모든 것이 예상대로 작동하지만 더 큰 수로 이동하면 공분산 행렬이 양의 한정이 아닙니다.

Matlab의 문제를 다음과 같이 줄였습니다.

load raw_data.mat; % matrix number-of-values x number of variables
Sigma = cov(data);
[R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf.

err> 0이면 Sigma는 양의 한정이 아닙니다.

실험 데이터를 더 높은 차원에서 평가하기 위해 할 수있는 일이 있습니까? 내 데이터에 유용한 정보가 있습니까?

나는이 분야의 초보자이기 때문에 분명한 것을 놓친 경우 사과드립니다.



답변

공분산 행렬은 특이하기 때문에 양의 한정이 아닙니다. 즉, 변수 중 하나 이상이 다른 변수의 선형 조합으로 표현 될 수 있습니다. 하나 이상의 값을 다른 변수의 하위 집합에서 확인할 수 있으므로 모든 변수가 필요하지는 않습니다. 변수를 순차적으로 추가하고 각 단계에서 공분산 행렬을 확인하는 것이 좋습니다. 새로운 변수가 특이점을 만들면 그 변수를 삭제하고 다음 변수로 넘어갑니다. 결국에는 postive 명확한 공분산 행렬이있는 변수의 하위 집합이 있어야합니다.


답변

유효한 결과입니다. 공분산 행렬의 해당 성분에 대한 추정치는 0이며 이는 사실 일 수 있습니다. 계산이 어려울 수 있지만 R의 일부 알고리즘 (Matlab에 대해 모른다)이 이것을 처리 할 수 ​​있습니다. 나는 사람들이 왜 이것에 대해 화를 내는지 이해하지 못하고 더 교황 적 인 모델을 갖추기를 주장합니다.


답변

위에서 언급하지 않은 한 가지 점은 변수가 완벽하게 선형 적으로 관련되어 있지 않더라도 경험적 데이터에서 비 양성 유한 공분산 행렬을 계산할 수 있다는 것입니다. 데이터가 충분하지 않거나 (특히 쌍별 비교에서 고차원 공분산 행렬을 구성하려는 경우) 데이터가 다변량 정규 분포를 따르지 않는 경우 역설 관계가 생길 수 있습니다 변수들, 예컨대 cov (A, B)> 0; cov (A, C)> 0; cov (B, C) <0.

이 경우 이러한 기준을 충족하는 다변량 정규 분포가 없으므로 다변량 정규 PDF에 적합 할 수 없습니다. cov (A, B)> 0 및 cov (A, C)> 0은 반드시 cov (B, C )> 0.

즉, 양수가 아닌 확정 행렬이 항상 공선 변수를 포함하고있는 것은 아닙니다. 또한 선택한 파라 메트릭 구조에서 불가능한 관계를 모델링하려고 시도 할 수도 있습니다.


답변