한때 인터넷에서 범주 형 데이터 (예 : 우연성 테이블)에 대한 플롯 형식을 우연히 발견했지만 다시는 찾지 못했으며 그것이 무엇인지조차 모릅니다. 행 높이와 열 너비가 한계 확률에 비례하여 조정되었다는 점에서 본질적으로 체 플롯과 같습니다. 따라서 각 상자는 독립 상태에서 예상되는 상대 주파수로 조정되었습니다. 그러나 각 상자 내에 교차 해칭을 표시하는 대신 각 관측치에 대해 이변 량 균일에서 무작위로 선택된 위치에 점을 산 점화한다는 점에서 체 플롯과 다릅니다. 이러한 방식으로 점의 밀도는 관측 된 카운트가 예상 카운트와 얼마나 잘 일치 하는지를 나타냅니다. 즉, 모든 상자에서 밀도가 비슷하면 null 모델이 합리적입니다. )는 null 모델에 없을 가능성이 큽니다. 교차 해칭 대신 점이 그려 지므로, 플롯 된 요소와 관측 된 개수 사이에 단순하고 직관적 인 대응 관계가 있으며, 이는 체 도표에 반드시 해당되는 것은 아닙니다 (아래 참조). 또한, 점의 무작위 배치는 음모에 ‘유기적’느낌을줍니다. 또한 색상은 null 모델과 크게 다른 상자 / 셀을 강조 표시하는 데 사용할 수 있으며 플롯 행렬을 사용하여 여러 변수 간의 쌍별 관계를 검사 할 수 있으므로 유사한 플롯의 장점을 통합 할 수 있습니다.
나는,제이- 이 플롯이 무엇인지 아는 사람이 있습니까?
- R 또는 다른 소프트웨어 (예 : Mondrian)에서이를 쉽게 수행 할 수있는 패키지 / 기능이 있습니까? vcd 에서 이와 비슷한 것을 찾을 수 없습니다 . 물론 처음부터 하드 코딩 할 수는 있지만 고통 스러울 수 있습니다.
다음은 체 그림의 간단한 예입니다. 다른 모델에 대한 예상 카운트가 null 모델에서 어떻게 수행되어야하는지 쉽게 알 수 있지만 실제 수치와 교차 해치를 조정하기가 어려워 플롯이 아닙니다. 아주 읽기 쉽고 미적으로 끔찍한 :
B ~B
A 38 4
~A 3 19
가치가있는 것은 모자이크 플롯에 반대의 문제가 있습니다. 어떤 셀이 ‘너무 많거나’너무 적습니까 (널 모델에 비해) 카운트가 더 쉬운 지 알기는하지만, 어떤 셀이 예상 카운트가되었을 것입니다. 특히, 열 너비는 한계 확률에 비례하여 조정되지만 행 높이는 그렇지 않으므로 해당 정보를 추출하기가 거의 불가능합니다.
그리고 지금 완전히 다른 무언가를 위해 …
- 누구나 ‘너무 많음’에 파란색을 사용하고 ‘너무 소수’에 빨간색을 사용하는 규칙이 어디에서 유래했는지 알고 있습니까? 이것은 항상 반 직관적이었습니다. 매우 높은 밀도 (또는 너무 많은 관측치)가 뜨거워지고 , 낮은 밀도가 추워 짐 에 따라 (적어도 무대 조명에서는) 빨강이 따뜻하고 파랑이 차가워 보입니다 .
업데이트 : 내가 정확하게 기억한다면, 내가 본 음모는 마케팅 티저로 온라인으로 자유롭게 제공되는 책의 챕터 (소개 또는 ch1)의 PDF에 있습니다. 다음은 내가 처음부터 코딩 한 아이디어의 대략적인 버전입니다.
이 조잡한 버전을 사용하더라도 체 플롯보다 읽기가 더 쉽고 어떤 방식으로 모자이크 플롯보다 더 쉽다고 생각합니다 (예 : 관계가 무엇인지 인식하는 것이 더 쉽습니다) 셀 주파수들 사이에 독립성이있을 것이다). 다음과 같은 기능을 갖는 것이 좋을 것 입니다. 우발 사태 테이블에서 자동으로이를 수행합니다 . b. 플롯 매트릭스의 빌딩 블록으로 사용될 수 있으며, c. 위의 플롯과 함께 제공되는 멋진 기능이 있습니다 (모자이크 플롯의 표준화 잔차 범례와 같습니다).
답변
당신이 묘사 한 책은 ‘범주 데이터 시각화’, Michael Friendly처럼 들립니다. 귀하의 요청과 일치하는 첫 번째 장에서 설명한 플롯은 우발성 테이블 데이터를 시각화하기위한 개념적 모델 유형으로 묘사되었으며 (저자에 의해 관측 밀도가있는 동적 압력 모델로 설명되지 않음) Google 미리보기에서 볼 수 있습니다 이 책은 SAS 사용자를 대상으로합니다.
이 주제에 대한 논문은 여기에서 참조됩니다 :
www.datavis.ca/papers/koln/kolnpapr.pdf
‘우연성 테이블 데이터를 시각화하기위한 개념적 모델’, Michael Friendly.
* 우연히도 저자는 vcd 패키지의 저자 중 하나로 표시됩니다 (위에서 언급 한 책에서 특별히 영감을 얻었음)-내장 함수 중 하나에 간단한 수정이 있는지 직접 물어볼 수 있습니다. 쉽게 명백하지 않습니다.
** 색상 구성표는 파란색에서 파란색의 독립성에 대한 양의 편차, 음의 편차에 대한 빨강과 관련이있는 것으로 보입니다. 이러한 맥락에서 빨간색 체계가 의미가 있지만 녹색을 사용하여 양의 편차를 나타내는 것이 더 적합했을 것입니다.
답변
아마도 당신이 보았던
것이 아니라 독립 대응 도표 에서 예상되는 출발 을 시각화하기 위해 동기가 부여되었습니다.
http://www.jstatsoft.org/v20/i03/
한편, SAS와 M Friendly의 책은 권장 조정에 대해 착각했으며 많은 음모에 유물이 있었으며 인식 된 값에서 산만 해졌습니다.