태그 보관물: data-visualization

data-visualization

QQ 플롯이 히스토그램과 일치하지 않습니다 재정 로그

히스토그램, 커널 밀도 및 재정 로그 수익률의 정규 분포가 손실로 바뀌고 (표지가 변경됨) 이러한 데이터의 일반적인 QQ 플롯이 있습니다.

http://tinypic.com/r/34ocwvr/6

QQ 플롯은 꼬리가 올바르게 장착되지 않았 음을 명확하게 보여줍니다. 그러나 히스토그램과 적합 정규 분포 (파란색)를 보면 0.0 정도의 값도 올바르게 피팅되지 않습니다. 따라서 QQ 플롯은 꼬리 만 제대로 적합하지 않지만 전체 분포가 올바르게 적합하지 않음을 보여줍니다. 이것이 QQ 플롯에 나타나지 않는 이유는 무엇입니까?



답변

+1에서 @NickSabbe로, ‘줄거리는 단지 “뭔가 잘못되었다”고 알려주는데, 이는 종종 qq-lot을 사용하는 가장 좋은 방법입니다 (해석 방법을 이해하기 어려울 수 있음). 그러나 qq-plot을 만드는 방법에 대해 생각함으로써 qq-plot을 해석하는 방법을 배울 수 있습니다.

데이터를 정렬하여 시작한 다음 각 값을 같은 백분율로 사용하는 최소값에서 계산합니다. 예를 들어 20 개의 데이터 포인트가있는 경우 첫 번째 포인트 (최소)를 계산할 때 ‘내 데이터의 5 %를 계산했습니다’라고 스스로에게 말하게됩니다. 끝날 때까지이 절차를 수행하면 100 %의 데이터를 통과하게됩니다. 이 백분율 값은 해당 이론적 법선 (즉, 평균과 SD가 같은 법선)의 동일한 백분율 값과 비교할 수 있습니다.

이 그림을 그릴 때, 이론적 법칙의 100 %를 통과하면 무한대에 있기 때문에 마지막 값 (100 %)에 문제가 있음을 알게 될 것입니다. 이 문제는 백분율을 계산하기 전에 데이터의 각 지점에서 분모에 작은 상수를 추가하여 처리됩니다. 일반적인 값은 분모에 1을 더하는 것입니다. 예를 들어 첫 번째 (20 개) 데이터 포인트 1 / (20 + 1) = 5 %를 호출하고 마지막을 20 / (20 + 1) = 95 %로 지정합니다. 이제 이러한 이론적 법선에 대해 이러한 점을 플롯하면 pp- 플롯이 생깁니다(확률에 대한 확률을 플로팅하기 위해). 이러한 그림은 분포와 분포 중심의 법선 사이의 편차를 나타냅니다. 이는 정규 분포의 68 %가 +/- 1 SD 내에 있기 때문에 pp-plots는 해상도가 뛰어나고 다른 곳에서는 해상도가 낮기 때문입니다. (이 시점에 대한 자세한 내용은 PP-plots vs. QQ-plots 에서 내 대답을 읽는 데 도움이 될 수 있습니다 .)

종종 우리는 배포의 꼬리에서 일어나는 일에 대해 가장 우려하고 있습니다. 더 나은 해상도를 얻을 수 있다 (그리고 중간에 따라서 더 해상도), 우리는 구성 할 수 있습니다 전분기 플롯을 대신. 우리는 확률 집합을 가지고 정규 분포 CDF의 역수를 통해 그것들을 전달함으로써 이것을합니다. 점수). 이 연산의 결과는 두 세트의 Quantile 이며, 서로 유사하게 그려 질 수 있습니다.

@whuber는 기준선이 점의 중간 50 %를 통해 (즉, 1 사분 위에서 3 사분까지) 최적 피팅 선을 찾음으로써 나중에 (일반적으로) 그려지는 것이 옳습니다. 이것은 플롯을 더 읽기 쉽게하기 위해 수행됩니다. 이 선을 사용하면 꼬리로 이동할 때 분포의 Quantile이 실제 법선에서 점진적으로 분기되는지 여부를 나타내는 것으로 해석 할 수 있습니다. (중심에서 더 멀리 떨어진 지점의 위치는 더 가까이있는 지점과는 독립적이지 않으므로 특정 히스토그램에서 ‘숄더’가 다른 후에 꼬리가 함께 나타나는 것처럼 Quantiles를 의미하지는 않습니다. 이제 다시 동일합니다.)

주어진 플롯 포인트에 대해 축에서 읽은 값을 비교하여 qq 플롯을 분석적으로 해석 할 수 있습니다. 데이터가 정규 분포로 잘 설명 되었다면 값은 거의 같아야합니다. 예를 들어, 아주 멀리 왼쪽 하단 모서리에있는 극단적 인 지점을 : 그 값은 어딘가에 과거이다 ,하지만 값은 약간의 과거입니다 그것은 수 ‘해야한다’보다 훨씬 더 멀리가 그래서. 일반적으로 qq-plot을 해석하는 간단한 루 브릭은 주어진 꼬리가 기준선에서 시계 반대 방향으로 비틀어지면 분포의 꼬리에 이론적 인 법선보다 더 많은 데이터가 있고 꼬리가 시계 방향으로 비틀리는 경우 인 이하

x

3

y

.2

이론적 정상보다 분포의 꼬리에있는 데이터. 다시 말해:

  • 두 꼬리가 시계 반대 방향으로 비틀면 꼬리가 짙은 경우 ( 렙 토커 토 시스 )
  • 두 꼬리가 시계 방향으로 비틀어지면 꼬리가 옅은 것입니다 (platykurtosis).
  • 오른쪽 꼬리가 시계 반대 방향으로 꼬이고 왼쪽 꼬리가 시계 방향으로 꼬이면 오른쪽으로 치우친 것입니다
  • 왼쪽 꼬리가 시계 반대 방향으로 꼬이고 오른쪽 꼬리가 시계 방향으로 꼬인 경우 왼쪽으로 치우친 것입니다

답변

간단히 말해 : QQ- 플롯은 예상 분포와 비교 한 경험적 분포의 순위를 보여줍니다. 귀하의 경우 (그리고 실제로는 종종 그렇습니다. 항상 대칭 분포를 갖는 경우), 중간 부근의 순위는 예상과 경험적 사이에서 유사하므로 QQ 플롯은 그 선에 가깝습니다.

QQ- 플롯에서 해당 위치를 기준으로 “이상한”관측 값을 실제로 식별하는 것은 그리 간단하지 않습니다. 플롯은 단지 “뭔가 잘못되었다”고 알려주며, 데이터 / 분포에 대해 더 많이 알고 있다면 문제가있는 곳.


답변