중앙 경향, 확산 및 왜도는 적어도 직관적 인 기준으로 비교적 잘 정의 될 수 있습니다. 이러한 것들에 대한 표준 수학적 측정은 또한 우리의 직관적 인 개념과 비교적 잘 일치합니다. 그러나 첨도는 다른 것 같습니다. 매우 혼란스럽고 분포 모양에 대한 직감과 잘 맞지 않습니다.
적용된 설정에서 첨도에 대한 일반적인 설명은 Microsoft Excel 사용하여 비즈니스 및 관리에 대한 Applied 통계 에서 추출한 것입니다 .
첨도는 분포의 정점 또는 정반대의 분포를 나타냅니다. 꼬리에 정규 분포에서 예상되는 것보다 많은 데이터 값이있는 경우 첨도는 양수입니다. 반대로 꼬리에 데이터 값이 적 으면 정규 분포에서 예상하는 것보다 첨도가 음수입니다. 네 개 이상의 데이터 값이 없으면 Excel에서이 통계를 계산할 수 없습니다.
“kurtosis”와 “excess kurtosis”(이 책에서와 같이, 다른 사람들이 후자를 부르는 것을 언급하기 위해 전자를 사용하는 것이 일반적 임)와 혼동을 제외하고, “피부”또는 “평탄도”에 대한 해석 그런 다음 꼬리에 몇 개의 데이터 항목이 있는지주의를 기울여 전환합니다. “피크”와 “꼬리”를 모두 고려해야합니다 — Kaplansky
1945 년에 첨도를 잘못 언급 한 많은 교과서는 꼬리를 고려하지 않고 분포의 피크가 정규 분포의 피크와 비교되는 것과 관련이 있다고 잘못 주장했다. 그러나 피크와 꼬리의 모양을 명확하게 고려해야하는 경우 직관을 이해하기가 더 어려워집니다. 위에서 인용 한 추출물은 마치 마치 마치 마치 같은 개념 인 것처럼 꼬리의 정점에서 무거움으로 분리하여 건너 뜁니다.
더욱이 첨도에 대한이 고전적인 “피크 앤 테일”설명은 대칭 및 단봉 분포에 대해서만 잘 작동합니다 (실제로 텍스트의 그림은 모두 대칭입니다). 그러나 “피크”, “꼬리”또는 “어깨”와 관련하여 첨도를 해석하는 “올바른”일반적인 방법은 수십 년 동안 논쟁의 여지가 있습니다.
더 엄격한 접근 방식을 취했을 때 모순이나 반례에 맞지 않는 적용 환경에서 첨도를 가르치는 직관적 인 방법이 있습니까? 수학 통계 수업과 달리 이러한 종류의 응용 데이터 분석 과정에서 첨도도 유용한 개념일까요? 분포의 “피크 니스”가 직관적으로 유용한 개념이라면, 대신 L- 모멘트 가르쳐야 합니까?
Herkenhoff, L. 및 Fogli, J. (2013). Microsoft Excel을 사용한 비즈니스 및 관리에 대한 통계를 적용했습니다 . 뉴욕, 뉴욕 : 스프링거.
Kaplansky, I. (1945). “첨도 관련 일반적인 오류”.
미국 통계 협회 저널 , 40 (230) : 259.
Darlington, Richard B (1970). “Kertosis는 정말 ‘피크 니스’입니까?” 미국 통계 학자 24 (2) : 19–22
JJA 무 어스. (1986) “첨도의 의미 : 달링턴 재검토”. 미국 통계 학자 40 (4) : 283–284
Balanda 케빈 P. 및 MacGillivray, HL (1988). ” Kutosis : 중요한 검토”. 미국 통계 학자 42 (2) : 111–119
LT (DeCarlo, LT) (1997). ” 첨도의 의미와 사용에 “. 심리학 적 방법 , 2 (3), 292. 시카고
JRM Hosking (1992). “모멘트 또는 L 모멘트? 분포 형태의 두 측정 값을 비교하는 예”. 미국 통계 학자 46 (3) : 186–189
답변
첨도는 정말 간단하고 유용합니다. 그것은 단순히 특이 치 또는 꼬리의 척도입니다. 그것은 피크와 아무 관련이 없습니다. 그 정의는 포기해야합니다.
다음은 데이터 세트입니다 :
0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999
‘999’는 특이 치입니다.
데이터 세트 의 값 은 다음과 같습니다 .
0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00,0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 0.00, 360.98
특이 치 만이 0과 눈에 띄게 다른 를 제공합니다 .
이 값 의 평균은 경험적 분포의 첨도입니다 (원하는 경우 3을 뺍니다. 제가 만드는 시점에 상관 없습니다).
이 계산에서 “피크”근처의 데이터 (이상 치가 아닌 데이터)는 첨도 통계에 거의 영향을 미치지 않습니다.
첨도는 특이 치의 척도로 유용합니다. 특이 치는 초등학생에게 중요하므로 첨도를 가르쳐야합니다. 그러나 첨도는 뾰족하거나, 편평하거나, 바이 모달이든 무한이든, 피크와 거의 관련이 없습니다. 작은 첨도를 가진 위의 모든 것과 큰 첨도를 가진 위의 모든 것을 가질 수 있습니다. 그래서이해야 결코 그 잘못된 정보를 가르 칠 것이기 때문에, 피크와 아무 필요로 표시되지 않습니다. 또한 머티리얼을 불필요하게 혼란스럽게 만들고 유용하게 보이지 않습니다.
요약:
- 첨도는 꼬리 (이상치)의 척도로 유용합니다.
- 첨도는 피크와 관련이 없습니다.
- 첨도는 실질적으로 유용하며 특이 치의 척도로만 가르쳐야합니다. 첨도를 가르 칠 때 최고점을 언급하지 마십시오.
이 기사에서는 왜 “피크 니스”정의가 공식적으로 죽었는지 명확하게 설명합니다.
웨스트 폴, PH (2014). ” 정점으로서의 첨도, 1905 – 2014. RIP ” 미국 통계 학자 , 68 (3), 191–195.
답변
질문이 다소 모호하지만 흥미 롭습니다. 첨도는 어느 수준에서 가르치는가? 나는 (오래 전에 Seber의 책의 첫 번째 판을 기반으로) 선형 모델의 (마스터 레벨) 과정에서 언급 된 것을 기억합니다. 중요한 주제는 아니지만, 메모리에서 정확한 수준이 무증상으로 동일한 첨도를 갖는 것에 따라 변이의 동등성에 대한 우도 비율 검정 (F- 검정)의 견고성을 연구하는 것과 같은 주제에 들어갑니다. 정규 분포는 가정하기에 너무 많습니다! 우리는 Oja의 http://www.jstor.org/stable/4615828?seq=1#page_scan_tab_contents 논문을 보았습니다. 왜냐하면 왜도, 첨도 및 실제로 측정되는지 확인하려고합니다.
왜이게 흥미로울까요? 나는 라틴 아메리카에서 가르치고 있기 때문에, 중요한 주제로 왜도 및 첨도를 가르치고 대학원생 (경제에서 많은 사람들)에게 첨도가 분포의 형태의 나쁜 척도라고 말하려고합니다 (주로 네 번째 거듭 제곱의 표본 변동성이 간단하기 때문에), 어려웠습니다. 대신 QQplots를 사용하려고했습니다. 따라서 일부 주석가에게, 예, 이것은 아마도 많은 곳에서 가르칩니다 !
그건 그렇고, 이것은 내 의견만이 아닙니다. 다음 블로그 게시물 https://www.spcforexcel.com/knowledge/basic-statistics/are-skewness-and-kurtosis-useful-statistics 에는이 인용이 포함되어 있습니다 (휠러 박사에 의한).
요컨대, 왜도 및 첨도는 실질적으로 가치가 없습니다. Shewhart는 그의 첫 번째 책에서 이러한 관찰을했습니다. 왜도 및 첨도에 대한 통계는 단순히 위치 및 분산 측정에 의해 제공된 것 이상의 유용한 정보를 제공하지 않습니다.
우리는 분포 형태를 연구하는 더 나은 기술을 가르쳐야합니다! QQplots (또는 상대 분포도)와 같은 누군가 수치 측정이 필요한 경우 L- 모멘트를 기반으로하는 측정이 더 좋습니다. JRM Hosking의 “J-Statist Soc B (1990) 52, No 1, pp 105–124″에서 발췌 한 한 구절을 인용하겠습니다. “L- 모멘트 : 주문 통계의 선형 조합을 사용한 분포 분석 및 추정”, 페이지 109 :
L- 모멘트에 대한 이러한 해석의 대안 적 정당화는 Oja (1981)의 연구에 근거 할 수 있으며, Oja는 실제 라인의 하나의 확률 분포에 대해 직관적으로 합리적인 기준을 정의하여 오른쪽으로 더 먼 곳에 위치하도록합니다 (더 많이 분산되어 있고 더 많이 기울입니다) 첨도)보다. 이러한 기준에 의해 암시 된 분포의 부분적 순서를 유지하는 분포의 실제 가치 기능은 합리적으로 ‘위치 측정 (분산, 왜도, 첨도)’이라고 할 수 있습니다. Oja의 표기법 인
및 에서 및 는 각각 위치 및 척도의 측정 값 인 Oja의 작업에서 바로 집니다. Hosking (1989)은
및 는 오자 기준에 의해 각각 왜도 및 첨도의 척도이다.
(현재로서는이 측정 값의 정의에 대한 논문을 참조하며 모두 L- 모멘트를 기반으로합니다.) 흥미로운 점은 네 번째 순간을 기준으로 한 전통적인 첨도 측정은 첨도의 측정 이 아니라는 것입니다 오자의 의미에서! (그 주장을 찾을 수있을 때 해당 주장에 대한 참조를 편집 할 것입니다).
답변
필자의 의견에 따르면, 왜도 계수는 용어를 긍정적으로 왜곡하고 부정적으로 왜곡하는 데 유용합니다. 그러나 목표가 정상을 평가하는 것이라면 그것이 멈추는 곳입니다. 왜도 및 첨도에 대한 고전적인 측정은 종종 정상에서 벗어난 다양한 유형의 편차를 포착하지 못합니다. 나는 보통 학생들에게 그래픽 기술을 사용하여 qq-plot 또는 normal 확률 도와 같은 정규성을 평가하는 것이 합리적이라고 평가하도록 옹호합니다. 또한 적절한 크기의 샘플로 히스토그램을 사용할 수도 있습니다. 상자 그림은 특이 치나 두꺼운 꼬리를 식별하는 데에도 유용합니다.
이것은 APA의 1999 년 태스크 포스 권고안과 일치한다 :
” 가정. 데이터를 감안할 때 분석에 필요한 기본 가정이 합리적이되도록 노력해야합니다. 잔차를주의 깊게 검사하십시오. 잔차를 그래픽으로 검사하는 대신에 분포 테스트 및 모양의 통계 지수 (예 : 왜도, 첨도)를 사용하지 마십시오. 모형 적합의 문제를 진단하기 위해 통계 테스트를 사용하면 몇 가지 단점이 있습니다. 첫째, 요약 통계 (예 : 분산 동질성 검정)를 기반으로하는 진단 유의성 검정은 비실용적으로 민감한 경우가 많습니다. 모델의 통계 검정은 종종 가정의 통계 검정보다 강력합니다. 둘째, 왜도 및 첨도와 같은 통계는 종종 잔차의 분포 불규칙성을 감지하지 못합니다. 셋째, 통계 테스트는 표본 크기에 따라 다르며 표본 크기가 증가함에 따라 테스트는 종종 무해한 가정을 거부합니다. 일반적으로, 가정의 그래픽 분석을 대신 할 수는 없습니다.”
참조 : Wilkinson, L. 및 통계적 추론에 관한 태스크 포스. (1999). 심리학 저널의 통계적 방법 : 지침 및 설명. 미국 심리학자, 54, 594-604.
답변
코스가 어떻게 적용되는지에 따라 추정의 정확성에 대한 문제가 생길 수 있습니다. 분산 추정의 정확도는 첨도에 크게 좌우됩니다. 이것이 발생하는 이유는 높은 첨도를 통해 분포가 희귀하고 잠재적으로 관찰 가능한 데이터를 허용하기 때문입니다. 따라서 데이터 생성 프로세스는 일부 샘플에서는 매우 극단적 인 값을 생성하고 다른 샘플에서는 극단적 인 값을 생성하지 않습니다. 전자의 경우 분산 추정치가 매우 크며 후자의 경우 분산 추정치가 작습니다.
구식이고 부정확 한 “피크 니스”해석이 제거되고 대신에 특이 치 (즉, 희귀하고 극단적 인 관찰 가능)에 초점을 둔 경우 입문 과정에서 첨도를 가르치는 것이 더 쉬울 것입니다. 그러나 사람들은 자신의 교과서에 (부정확하게) 그렇게 표현되어 있기 때문에 “말하기”를 정당화하려고하는 매듭으로 자신을 꼬아 서 첨도의 실제 적용을 그리워합니다. 이러한 응용 프로그램은 주로 특이 치와 관련이 있으며 물론 응용 통계 과정에서는 특이 치가 중요합니다.