QQplot 해석-비정규 성을 결정할 규칙이 있습니까? 경험 법칙이

QQplot이 다른 정규성 테스트보다 더 유익 할 수 있음을 이해하기 위해 QQplots에서 충분한 스레드를 읽었습니다. 그러나 QQplots를 해석 한 경험이 없습니다. 나는 많은 구글 검색; 나는 비정규 QQplots에 대한 많은 그래프를 찾았지만, 분포와 “장감”을 아는 것 외에는 그것을 해석하는 방법에 대한 명확한 규칙이 없습니다.

비정규 성을 결정하는 데 도움이되는 경험 법칙이 있는지 알고 싶습니다.

이 질문은이 두 그래프를 보았을 때 나타났습니다.
그래프 2

나는 비정규 성 결정이 데이터와 내가하고 싶은 것에 달려 있다는 것을 이해한다. 그러나 내 질문은 : 일반적으로 직선에서 관찰 된 출발이 정규성의 근사치를 불합리하게 만들 수있는 충분한 증거를 언제 구성합니까?

그만한 가치가 있기 때문에 Shapiro-Wilk 검정은 두 경우 모두 비정규 성 가설을 기각하지 못했습니다.



답변

Shapiro-Wilk는 강력한 정규성 테스트입니다.

가장 좋은 방법은 실제로 사용하려는 모든 절차가 다양한 종류의 비정규성에 얼마나 민감한 지에 대한 좋은 아이디어를 얻는 것입니다. 받아 들일 수 있습니다).

도표를보기위한 비공식적 인 접근 방식은 실제로 가지고있는 것과 동일한 표본 크기 (예 : 24 개)와 동일한 표본 크기의 정규 데이터 세트를 생성하는 것입니다. 이러한 플롯의 그리드에 실제 데이터를 플로팅하십시오 (24 개의 랜덤 세트의 경우 5×5). 특히 이상하게 보이지 않는 경우 (가장 최악으로 보이는 경우) 정상과 합리적으로 일치합니다.

내 눈에, 중앙의 데이터 세트 “Z”는 “o”및 “v”및 아마도 “h”와 대략적으로 같지만 “d”및 “f”는 약간 나빠 보입니다. “Z”는 실제 데이터입니다. 나는 그것이 실제로 정상이라고 잠시 믿지 않지만, 일반 데이터와 비교할 때 특히 이상하게 보이지는 않습니다.

[편집 : 방금 임의의 설문 조사를 실시했습니다. 음, 딸에게 물었지만 상당히 임의의 시간에 – 최소한의 직선에 대한 그녀의 선택은 “d”였습니다. 설문에 응한 사람들 중 100 %가 “d”가 가장 홀수 인 것으로 생각했습니다.]

보다 공식적인 접근 방식은 Shapiro-Francia 테스트 (QQ- 플롯의 상관 관계를 기반으로 효과적으로 수행)를 수행하는 것이지만 (a) Shapiro Wilk 테스트만큼 강력하지는 않으며 (b) 공식 테스트는 어쨌든 당신이 이미 답을 알아야한다는 질문 (때때로)은 당신이 대답해야 할 질문 대신 (데이터가 얼마나 심각합니까?)


요청한대로 위의 코드를 표시하십시오. 멋진 것은 없습니다.

z = lm(dist~speed,cars)$residual
n = length(z)
xz = cbind(matrix(rnorm(12*n),nr=n),z,matrix(rnorm(12*n),nr=n))
colnames(xz) = c(letters[1:12],"Z",letters[13:24])

opar = par()
par(mfrow=c(5,5));
par(mar=c(0.5,0.5,0.5,0.5))
par(oma=c(1,1,1,1));

ytpos = (apply(xz,2,min)+3*apply(xz,2,max))/4
cn = colnames(xz)

for(i in 1:25) {
  qqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main="")
  qqline(xz[,i],col=2,lty=2)
  box("figure", col="darkgreen")
  text(-1.5,ytpos[i],cn[i])
}

par(opar)

x

(최소한 80 년대 중반부터 이런 식의 음모를 꾸미고 있습니다. 가정이 유지 될 때와 그렇지 않을 때 어떻게 행동하는지에 익숙하지 않은 경우 음모를 어떻게 해석 할 수 있습니까?)

더보기:

Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne, DF and Wickham, H. (2009) 탐색 적 데이터 분석 및 모델 진단을위한 통계적 추론 Phil. 트랜스 R. Soc. A 2009 367, 4361-4383 doi : 10.1098 / rsta.2009.0120


답변

여기에 훌륭한 대답과 모순되지 않고, 종종 (항상 그런 것은 아니지만) 결정적인 규칙이 있습니다. (@Dante의 답변에 지나가는 의견도 관련이 있습니다.)

때때로 진술하기에는 너무 명백해 보이지만 여기 있습니다.

명확하게 더 적합한 다른 설명을 제공 할 수 있다고 생각되면 비정규 배포를 호출하게되어 기쁩니다.

따라서 정상적인 Quantile Quantile Quantile 플롯의 꼬리에 약간의 곡률 및 / 또는 불규칙성이 있지만 감마 Quantile Quantile 플롯에서 대략적인 진 직도 인 경우, “정상적으로 잘 특성화되어 있지 않습니다. 감마와 비슷합니다.” “.

이것이 일반적인 과학 관행은 말할 것도없고, 과학사와 과학 철학에서 표준 논증을 반영하는 것은 우연이 아닙니다. 가설을 더 잘 배치 할 때 가설이 가장 명확하고 효과적으로 반박됩니다. (큐 : Karl Popper, Thomas S. Kuhn 등에 대한 암시)

초보자와 실제로 모든 사람에게 “우리가 항상 기대하는 사소한 불규칙성을 제외하고는 정상입니다”와 “우리가 자주 얻는 약간의 유사성을 제외하고는 정상과 매우 다릅니다. “.

자신감 (같은) 봉투와 여러 개의 시뮬레이션 된 샘플이 큰 도움이 될 수 있으며 두 가지를 모두 사용하고 권장하지만 도움이 될 수도 있습니다. (실제로, 시뮬레이션 포트폴리오와 비교하는 것은 최근의 재발 명 된 반복이지만 적어도 1931 년 Shewhart까지 거슬러 올라갑니다.)

나는 나의 최고 라인을 에코 할 것이다. 때로는 브랜드 배포가 전혀 맞지 않는 것 같으므로 최대한 최선을 다해야합니다.


답변

@Glen_b가 말했듯이 데이터는 정상적인 데이터와 비교할 수 있습니다-직접 생성 한 데이터는 직감에 의존합니다 🙂

다음은 OpenIntro Statistics 교과서 의 예입니다.

이 QQ Plot을 살펴 봅시다 :

정상입니까? 정규 분포 데이터와 비교해 봅시다 :

이것은 우리의 데이터보다 좋아 보이므로 우리의 데이터는 정상적이지 않습니다. 여러 번 시뮬레이션하고 나란히 플로팅하여 확인합시다

따라서 우리의 직감은 샘플이 정상적으로 분포되지 않을 가능성을 알려줍니다.

이 작업을 수행하는 R 코드는 다음과 같습니다.

load(url("http://www.openintro.org/stat/data/bdims.RData"))
fdims = subset(bdims, bdims$sex == 0)

qqnorm(fdims$wgt, col=adjustcolor("orange", 0.4), pch=19)
qqline(fdims$wgt)

qqnormsim = function(dat, dim=c(2,2)) {
  par(mfrow=dim)
  qqnorm(dat, col=adjustcolor("orange", 0.4),
         pch=19, cex=0.7, main="Normal QQ Plot (Data)")
  qqline(dat)
  for (i in 1:(prod(dim) - 1)) {
    simnorm = rnorm(n=length(dat), mean=mean(dat), sd=sd(dat))
    qqnorm(simnorm, col=adjustcolor("orange", 0.4),
           pch=19, cex=0.7,
           main="Normal QQ Plot (Sim)")
    qqline(simnorm)
  }
  par(mfrow=c(1, 1))
}
qqnormsim(fdims$wgt)

답변

H0:F=Normal

대체 가설로 다른 분포 를 고려 하는 검정은 올바른 대립 가설이있는 검정과 비교할 때 검정력이 낮습니다 (예 : 12 참조 ).

몇 가지 비모수 정규성 테스트 ( ‘nortest’, http://cran.r-project.org/web/packages/nortest/index.html)를 구현 한 흥미로운 R 패키지가 있습니다. 위의 논문에서 언급했듯이, 적절한 대안 가설을 가진 우도 비율 검정은이 검정보다 강력합니다.

@Glen_b가 샘플을 (적합한) 모델의 임의 샘플과 비교하는 것에 대한 아이디어는 두 번째 참조에서 언급됩니다. “QQ- 봉투”또는 “QQ- 팬”이라고합니다. 이를 위해서는 암시 적으로 대안 가설에서 데이터를 생성하기위한 모델이 필요합니다.