카테고리 보관물: stats

stats

표준 편차의 2D 아날로그? 표시 (또는 레이블이없는) 세계지도에 표시하도록

다음 실험을 고려해보십시오. 한 무리의 사람들에게 도시 목록이 제공되고 해당 위치를 표시 (또는 레이블이없는) 세계지도에 표시하도록 요청합니다. 각 도시마다 대략 각 도시를 중심으로 여러 포인트가 산포됩니다. 이스탄불에 따르면 일부 도시는 다른 도시보다 산란이 적을 것이라고 모스크바는 말합니다.

주어진 도시 에 대해 테스트에 의해 할당 에서 도시 의 위치를 나타내는 2D 샘플 가정 해 봅시다. 주제 . 이 세트에서 포인트의 “분산”의 양을 적절한 단위 (km)로 단일 숫자로 표현하고 싶습니다.( x , y )

{(xi,yi)}

(x,y)

i

1D 문제의 경우 표준 편차를 선택하지만 위에서 설명한 상황에 맞게 합리적으로 선택할 수있는 2D 아날로그가 있습니까?



답변

사용할 수있는 한 가지 점은 중심점 와의 거리 측정입니다 예 : 점의 샘플 평균 또는 관측 된 점의 중심입니다. 그런 다음 분산 측정은 해당 중심점으로부터의 평균 거리입니다.

c=(c1,c2)

(x¯,y¯)

1n∑i=1n||zi−c||

여기서 입니다. 거리 측정에는 많은 선택이 가능하지만 규범 (예 : 유클리드 거리)이 합리적인 선택 일 수 있습니다. L 2

zi={xi,yi}

L2

||zi−c||=(xi−c1)2+(yi−c2)2

그러나 다른 많은 잠재적 인 선택이 있습니다. http://en.wikipedia.org/wiki/Norm_%28mathematics%29 참조


답변

포인트 패턴의 공간 분포에 대한 메트릭스에 대한 좋은 참고 자료는 CrimeStat 매뉴얼입니다 ( 특히이 질문에 대해서는 4 장을 참조하십시오). 제안 된 메트릭 매크로와 유사하게 표준 거리 편차는 2D 표준 편차와 유사합니다 (단, 첫 번째 수식 매크로에서 “n”이 아니라 “n-2″로 나눈다는 점만 다릅니다).

귀하의 예제 실험은 실제로 연구가 어떻게 Geographic Offender Profiling을 평가 하는지를 상기시켜 주므로 이러한 작업에 사용 된 지표가 관심을 가질 수 있습니다. 특히 정밀도와 정확성이라는 용어는 상당히 많이 사용되며 연구와 관련이 있습니다. 가제 스는 표준 편차가 적을 수 있지만 (정확한) 여전히 정확도가 매우 낮습니다.


답변

데이터 세트의 상관 관계를 고려하고 ‘규모 불변’이기 때문에 유클리드 거리 표준 대신 ‘Mahalanobis 거리’를 사용해야한다고 생각합니다. 여기 링크가 있습니다:

http://en.wikipedia.org/wiki/Mahalanobis_distance

‘Half-Space Depth’를 사용할 수도 있습니다. 좀 더 복잡하지만 많은 매력적인 속성을 공유합니다. 데이터 세트 P에 대한 주어진 점 a의 절반 공간 깊이 (위치 깊이라고도 함)는 a를 통해 선으로 결정된 닫힌 반평면에있는 P의 최소 점 수입니다. 링크는 다음과 같습니다.

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf
http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


답변

최근에 비슷한 문제가 발생했습니다. 점이 영역별로 얼마나 잘 흩어져 있는지 측정하는 방법이 필요합니다. 물론, 주어진 측정에 대해, 모든 점들이 직선으로되어 있다면, 2 차원 다양성이 없기 때문에 답은 0이라는 것을 알아야합니다.

내가 한 계산에서 이것은 내가 생각해 낸 것입니다.

에스엑스엑스에스와이와이−에스엑스와이²

이 경우 Sxx와 Syy는 각각 x와 y의 분산이고 Sxy는 x와 y의 혼합 분산과 비슷합니다.

자세히 설명 n 개의 요소가 있고 는 x 의 평균값을 나타내고 는 y의 평균을 나타냅니다.

엑스μ

와이μ

에스엑스엑스=1엔∑나는=1엔(엑스−엑스μ)²


에스와이와이=1엔∑나는=1엔(와이−와이μ)²


에스엑스와이=1엔∑나는=1엔(엑스−엑스μ)(와이−와이μ)

잘하면 이것이 당신을 위해 작동해야합니다.

또한 4 차원으로 부피 산포 또는 surteron 벌크 측정과 같이 더 높은 차원에서 수행하는 방법에 대해 궁금한 경우 다음과 같은 행렬을 형성해야합니다.

Sxx Sxy Sxz …

Syx Syy Syz …

Szx Szy Szz …

… … … …

그리고 필요한 많은 치수를 계속하십시오. 위에서 제공 한 정의에 따라 다른 변수에 대해 S 값을 알아낼 수 있어야합니다.

행렬이 만들어지면 결정자를 취하고 제곱근을 찾으면 끝납니다.


답변

들어 이 특정 예 – 소정 “올바른”응답이 어디에 – 나는 것 다시 작동 X / Y cooridnates은지도에 표시하도록 요청되고 있었다 도시 주변 극좌표 수 있습니다. 그런 다음 반경 성분 (평균, sd 등)을 다시 측정하여 정확도를 측정합니다. “평균 각도”를 사용하여 바이어스를 측정 할 수도 있습니다.

나 자신을 위해, 나는 여전히 미리 결정된 중심점이 없을 때에 대한 좋은 해결책을 찾고 있으며, 중심을 생성하기 위해 데이터를 사전 통과하는 아이디어를 좋아하지 않습니다.


답변