세 그룹에 걸쳐 많은 비율의 차이를 가장 잘 시각화하는 방법은 무엇입니까? 사람에게 매우 간단하고 직관적입니다. 그러나 간행물의 차이점을

나는 세 개의 다른 뉴스 간행물이 어떻게 다른 주제를 다루는지를 시각적으로 비교하려고합니다 (LDA 주제 모델을 통해 결정). 나는 그렇게하는 두 가지 관련 방법을 가지고 있지만 이것이 매우 직관적이지 않다는 동료로부터 많은 피드백을 받았습니다. 나는 누군가를 시각화하기위한 더 좋은 아이디어가 있기를 바랍니다.

첫 번째 그래프에서는 다음과 같이 각 발행물의 각 주제 비율을 보여줍니다.

모든 주제와 출판물에 대한 비율

이것은 내가 이야기 한 거의 모든 사람에게 매우 간단하고 직관적입니다. 그러나 간행물의 차이점을 이해하기는 어렵습니다. 어떤 신문이 어떤 주제를 더 다루고 있습니까?

이를 위해, 나는 가장 높은 출판물로 채색 된 주제의 비율이 가장 높은 출판물과 두 번째로 높은 출판물 간의 차이를 그래프로 표시했습니다. 이처럼 :

예를 들어, 축구에 대한 막대는 실제로 al-Ahram English와 Daily News Egypt (축구 범위에서 2 위) 사이의 거리이며 Al-Ahram이 1 위이기 때문에 빨간색으로 표시됩니다. 마찬가지로, Egypt Independent의 비율이 가장 높고 막대 크기가 Egypt Independent와 Daily News Egypt 간의 거리이므로 (2 번) 시험은 녹색입니다.

두 단락에서 모두 설명한다는 사실은 그래프가 자급 자족 테스트에 실패했다는 확실한 신호입니다. 보고있는 것만으로 실제로 무슨 일이 일어나고 있는지 말하기는 어렵습니다.

보다 직관적 인 방법으로 각 주제에 대한 주요 발행물을 시각적으로 강조 표시하는 방법에 대한 일반적인 제안이 있습니까?

편집 : 데이터와 재생 다음의 dputR의 출력 뿐만 아니라 CSV 파일 .

편집 2 : 예비 점 플롯 버전이 있습니다. 점의 지름은 말뭉치의 주제 비율에 비례합니다 (주제가 원래 정렬 된 방식). 여전히 조금 더 조정해야하지만 이전에했던 것보다 훨씬 직관적입니다. 모두 감사합니다!



답변

데이터에 액세스 할 수있게하고 흥미로운 데이터 세트 및 그래픽 문제에 대해 감사합니다.

내 주요 제안은 (클리블랜드) 도트 차트입니다.

강조하고 싶은 가장 중요한 세부 사항 :

  1. 여기서 중첩은 비교를 허용하고 용이하게합니다.

  2. 디스플레이에서 주제의 순서는 매우 임의적으로 나타납니다. 자연스러운 순서가 없으면 (예 : 시간, 공간, 순서가 지정된 변수) 프레임 워크를 제공하기 위해 항상 변수 중 하나를 정렬합니다. 어느 것이 어느 것이 흥미 롭거나 중요한지, 연구원의 결정에 따라 문제가 될 수 있습니다. 다른 가능성은 논문들 사이의 차이를 어느 정도 측정하여 주문할 수 있기 때문에 비슷한 범위의 주제는 한쪽 끝에 있고 다른 범위는 다른 범위에있는 주제입니다.

  3. 열린 마커 또는 점 기호를 사용하면 닫히거나 단단한 마커 또는 기호보다 겹치거나 동일성을 더 잘 해결할 수 있습니다. 최악의 경우 서로 가려 지거나 가려집니다. (여기서 잘 작동하는 대안은 세 신문의 A, D 및 I와 같은 문자입니다.)

내 디자인을 개선 할 수있는 범위는 분명히 많습니다. 예를 들어 글자가 너무 크거나 무겁습니까? 반면에 제목은 쉽게 읽을 수 있어야합니다. 그렇지 않으면 그래프가 실패합니다.

더 작고 까다로운 포인트 :

ㅏ. 그래프에서 빨간색과 녹색은 피해야 할 색상 조합입니다. 다른 마커를 사용하는 경우 색상 선택이 덜 중요합니다.

비. 그래프의 가로 눈금이 산만 해집니다. 대조적으로, 내 그리드 선이 필요하지만 얇고 가벼운 선을 사용하여 눈에 잘 띄지 않게하려고합니다.

×

0.1 % 또는 2 %이므로 용지의 98 %가 다른 것입니까? 제공된 .csv에서 비율을 직접 사용했습니다.

클리블랜드 도트 차트

Cleveland, WS 1984. 데이터 표시를위한 그래픽 방법 : 전체 규모 중단, 도트 차트 및 다중 기반 로깅. 미국 통계 학자 38 : 270-80.

Cleveland, WS 1985. 그래프 데이터 요소. 몬트레이, 캘리포니아 : 워즈워스.

Cleveland, WS 1994. 그래프 데이터의 요소. Summit, NJ : Hobart Press.

하나의 선구자 (상당히 다른 작업으로 통계적으로 더 유명합니다!)는

Pearson, ES 1956. 통계 지오메트리의 일부 측면 : 수학적 통계의 이론과 적용을 이해하기위한 시각적 표현의 사용. 왕립 통계 학회지 A 119 : 125-146.

관심있는 사람들을 위해 코드로 .csv를 읽은 후 Stata에서 그래프를 준비했습니다.

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)
lines(lc(gs12) lw(vthin)) scheme(s1color)

답변

Nick Cox의 도트 플롯이 전체 그림에 가장 적합 할 것입니다. 첫 번째 관계와 두 번째 관계를 실제로 강조하려는 경우 두 번째 막대의 길이에 따라 차이 막대를 상쇄하도록 차트를 수정했습니다.

다른 큰 그림을 보려면 기울기 차트 또는 평행 좌표 플롯과 같은 것을 시도해보십시오. 여기에 선이 너무 혼잡 할 수 있지만 주제의 하위 세트를 강조 표시하려는 경우 효과가있을 수 있습니다.

또한, 당신은 이와 같은 매우 구체적인 데이터 질문에 맞춰 helpmeviz.com 을 시도 할 수 있습니다 .


답변

나의 첫 번째 instict는 Mosaic plot 을 제안하는 것이 었습니다 ; 각 하위 범주를 사각형으로 그래프로 표시합니다. 한 차원은 기본 범주의 총 ​​개수를 나타내고 다른 차원은 하위 범주의 비례 점유율을 나타냅니다. 거기 를 그릴 수있는 R 패키지 , 그러나 또한 상당히 낮은 수준의 그래프 도구를 할 간단합니다.

그러나 비율을 비교하려는 차원에 2 개 또는 3 개의 범주 만있는 경우 모자이크 그림 (예 : 백분율 기반 누적 막대 그래프)이 가장 효과적입니다. 따라서 세 개의 신문에있는 기사의 비율에서 주제 간의 차이 를 비교 하고 싶지만 의도 한 용도로는 그렇게 많이 사용하지 않고 세 가지 신문의 차이를 각 주제에 대한 비율로 비교하려는 경우에는 잘 작동합니다 . 미묘하지만 중요한 차이!

강조하고 싶은 점에서 가장 효과적인 그래프는 가장 단순한 그룹화 막대 그래프 중 하나라고 생각합니다. 도트 차트보다 막대 그래프를 이해하는 사람이 더 많습니다. 한눈에 다른 크기의 수량을 비교하고 있으며 비교하려는 값이 나란히 있음을 알 수 있습니다.

그러나 비율의 차이를 실제로 강조하려는 경우 사용자 지정 그룹화 된 막대 그래프를 만들어 각 그룹을 배치하도록 수정하여 범주 당 중앙값이 0 값 대신 축과 정렬되도록 할 수 있습니다.

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage
   per category, all papers
   (large bars)

각 그룹의 막대는 크기를 쉽게 비교할 수 있도록 정렬되어 있으며 각 그룹의 기준선은 이제 해당 그룹의 중앙값에 따라 축의 왼쪽 에 위치 하지만 막대는 축의 오른쪽 으로 는 동일합니다 두 번째 막대 그래프에서 상위 두 카테고리의 차이점을 보여줍니다.

위와 같이 표준 그룹 막대 그래프를 사용하든 오프셋 조정 그래프를 사용하든 관계없이 모자이크 플롯에서 아이디어를 가져 와서 각 막대의 너비를 해당 신문의 총 기사 수에 비례하도록 만들 수 있습니다. 막대는 해당 범주의 해당 신문 기사 수에 비례합니다.

테스트 통계는 개별 값이 아니라 각 비교 의 속성이므로 모든 데이터 포인트를 중요도에 따라 스케일링하는 것이 유용하지 않다고 생각합니다. 대신 각 그룹 옆에 의미를 나타내는 아이콘이 있습니다. 학술 출판의 경우 표준 */ **/ ***은 친숙 함의 이점이 있지만 통계의 전체 연속성을 보여주고 싶다면 창의력을 발휘할 수 있습니다.


답변

버블 차트를 사용해 보셨습니까? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

개별 주제는 원이 될 수 있고 각 원은 각 뉴스 매체가 주제를 다루는 백분율의 원형 차트 일 수 있습니다. 원의 크기는 주제의 상대적 범위를 나타낼 수 있습니다. 예를 들어 배양 물보다 기름에 대해 더 많은 총 기사가 쓰여지면 기름 원의 직경이 더 큽니다.