데이터 분포가 대칭인지 확인하는 방법 값과 평균이 거의 같으면 대칭

중간 값과 평균이 거의 같으면 대칭 분포가 있음을 의미하지만이 특별한 경우 확실하지 않습니다. 평균과 중앙값은 상당히 가깝고 (0.487m / 갤런 차이) 대칭 분포가 있다고 말하지만 박스 플롯을 보면 약간 긍정적으로 치우친 것처럼 보입니다 (확인 된 중앙값은 Q3보다 Q1에 가깝습니다) 값으로).

(이 소프트웨어에 대한 특정 조언이 있으면 Minitab을 사용하고 있습니다.)



답변

의심 할 여지없이 당신은 다른 말을 들었지만, 평균 중앙값은 대칭을 의미 하지 않습니다 .

=

평균 마이너스 중앙값 (두 번째 피어슨 왜도)을 기준으로 왜도 측정이 있지만 분포가 대칭이 아닌 경우 (일반적인 왜도 측정과 같이) 0이 될 수 있습니다.

마찬가지로, 평균과 중앙값 사이의 관계가 중간 힌지 ( )와 중앙값 사이의 유사한 관계를 의미하지는 않습니다 . 반대의 왜도를 제안하거나 하나는 중앙값과 같지만 다른 하나는 그렇지 않습니다.

(1+)/2

대칭을 조사하는 한 가지 방법은 대칭 플롯 *을 사용하는 것입니다.

만약 최소에서 최대까지 정렬 관측 (순서 통계)이고, , 다음 대칭 플롯 플롯 중간 인 vs , vs 등. M Y ( N )M M Y ( 1 ) Y ( N 1 )M M Y ( 2 )

와이(1),와이(2),...,와이()

와이()

MY(1)

와이(1)

와이(2)

* Minitab은이를 수행 할 수 있습니다 . 실제로이 도표를 Minitab에서 수행 한 것을 보았으므로이 도표를 가능성으로 제기합니다.

다음은 네 가지 예입니다.

대칭 플롯


4 개의 분포에서 추출한 표본에 대한 위 유형의 대칭 도표

(실제 분포는 (왼쪽에서 오른쪽, 맨 위 행)-Laplace, Gamma (모양 = 0.8), beta (2,2) 및 beta (5,2)입니다. 코드는 여기 에서 Ross Ihaka입니다 )

두꺼운 꼬리 대칭 예제의 경우 가장 극단적 인 점이 선에서 매우 멀리 떨어져있는 경우가 종종 있습니다. 그림 오른쪽 상단 가까이에있을 때 하나 또는 두 점의 선으로부터의 거리에 덜주의를 기울입니다.

물론 다른 음모가 있습니다 (나는 특정 음모에 대한 특정 옹호의 의미가 아니라 이미 Minitab에서 구현되었음을 알았 기 때문에 대칭 음모를 언급했습니다). 그럼 다른 것들을 살펴 봅시다.

Nick Cox가 의견에서 제안한 해당 skewplots는 다음과 같습니다.

왜도


주석에서 Nick Cox가 제안한 왜곡도

이 그림에서 추세 상승은 왼쪽보다 일반적으로 오른쪽 꼬리가 무겁고, 아래쪽 경향은 오른쪽보다 일반적으로 왼쪽 꼬리가 무겁다는 것을 나타냅니다.

Nick은이 음모가 더 우수하다고 제안합니다 (특히 “직접”). 나는 동의하는 경향이있다. 플롯의 해석은 결과적으로 약간 더 쉬워 보이지만 해당 플롯의 정보는 종종 매우 유사합니다 (첫 번째 세트에서 단위 경사를 뺀 후 두 번째 세트와 매우 유사한 것을 얻습니다).

[물론, 이러한 것들 중 어느 것도 데이터가 도출 된 분포가 실제로 대칭 적이라고 말하지 않을 것입니다. 우리는 표본이 얼마나 가까운 지에 대한 지표를 얻었고, 그 정도로 데이터가 대략적으로 가까운 인구 집단으로부터 도출 된 것과 일치하는지 판단 할 수있다.]


답변

가장 쉬운 방법은 샘플 왜도 를 계산하는 것입니다 . Minitab에는이를위한 기능이 있습니다. 대칭 분포는 왜도가 없습니다. 제로 왜곡이 반드시 대칭을 의미하는 것은 아니지만 대부분의 실제 경우에 그러합니다.

@NickCox가 지적했듯이, 왜도에 대한 정의는 둘 이상입니다. Excel과 호환되는 것을 사용 하지만 다른 것을 사용할 수 있습니다.


답변

표본 평균을 빼서 데이터를 0에 맞 춥니 다. 이제 데이터를 음수와 양수의 두 부분으로 나눕니다. 음수 데이터 포인트의 절대 값을 가져옵니다. 이제 두 파티션을 서로 비교하여 2- 표본 Kolmogorov-Smirnov 테스트를 수행하십시오. p- 값을 기반으로 결론을 내립니다.


답변

관측 값을 한 열에 증가하는 값으로 정렬 한 다음 다른 열에 감소하는 값으로 정렬합니다.
그런 다음이 두 열 사이의 상관 계수 (Rm이라고 함)를 계산하십시오.
키랄 지수를 계산하십시오 : CHI = (1 + Rm) / 2.
CHI는 [0..1] 간격으로 값을 가져옵니다.
CHI는 표본이 대칭 적으로 분포되어있는 경우에만 null입니다.
세 번째 순간이 필요 없습니다.
이론 :
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(대부분의 논문은이 두 페이지에 인용 된 PDF 파일로 다운로드 할 수있다)
희망이 최근에도 도움이됩니다.


답변