태그 보관물: data-mining

data-mining

대화 형 데이터 시각화는 언제 유용합니까? 할 때 작업중 인 데이터 세트에서

연설을 준비하는 동안, 나는 최근 대화식 데이터 시각화를위한 두 가지 주요 도구 인 GGobimondrian을 파헤 치기 시작했습니다. 둘 다 다양한 기능을 제공합니다 (약간 버그가 있더라도).

조음 (나 자신과 미래의 청중 모두)에게 도움을 요청하고 싶습니다. 대화 형 음모를 사용하는 것이 언제 도움이됩니까? 데이터 탐색 (자신을위한) 및 데이터 프레젠테이션 ( “클라이언트”)을위한 것입니까?

클라이언트에 데이터를 설명 할 때 다음에 대한 애니메이션의 가치를 볼 수 있습니다.

  • 그래프에서 어떤 데이터 포인트가 무엇인지 확인하기 위해 “식별 / 링크 / 브러싱”사용
  • 데이터의 민감도 분석 제공 (예 : “이 지점을 제거하면 다음과 같이됩니다.)
  • 데이터에서 여러 그룹의 효과를 보여줍니다 (예 : “남성과 여성을위한 그래프를 보자”).
  • 시간의 영향 (또는 연령, 또는 일반적으로 프레젠테이션에 다른 차원을 제시)

데이터 자체를 탐색 할 때 작업중 인 데이터 세트에서 이상 값을 탐색 할 때 식별 / 연결 / 브러싱의 가치를 볼 수 있습니다.

그러나이 두 가지 다른 예에서는이 기술이 실제로 어떤 다른 용도로 사용되는지 잘 모르겠습니다. 특히 우리 자신의 데이터 탐색을 위해!

대화식 부분은 데이터에서 다른 그룹 / 클러스터의 다른 동작을 탐색하는 데 유용하다고 주장 할 수 있습니다. 그러나 (실제로) 내가 그러한 상황에 접근했을 때, 내가하려는 경향은 관련 통계 절차 (및 사후 테스트)를 실행하는 것이 었습니다. 그리고 중요한 것으로 밝혀진 것은 데이터를 관련 그룹. 내가 본 것으로부터, 이것은 데이터를 “돌아가는”더 안전한 접근법이다 (데이터 준설로 쉽게 이어질 수있다 (보정에 필요한 다중 비교의 범위는 명확하지 않았다).

이 문제에 대한 귀하의 경험 / 생각을 읽어 드리겠습니다.

(이 질문은 위키가 될 수 있습니다. 주관적이지 않고 신중하게 대답하면 기꺼이 “답변”마크를 얻습니다.)



답변

@whuber가 보여주는 것처럼 양적 또는 질적 데이터를 공간 패턴에 연결하는 것 외에도 세로고차원 데이터 분석을 위해 브러싱과 다양한 연결 플롯을 함께 사용하는 EDA의 사용에 대해 언급하고 싶습니다 .

둘 다 Dianne Cook과 Deborah F. Swayne (Springer UseR !, 2007)이 저술 한 R 및 GGobi를 사용한 데이터 분석을위한 대화 형 및 동적 그래픽 (Dynamic and Dynamic Graphics with R and GGobi) 에서 논의 되었습니다. 저자는 1 장에서 EDA에 대해 좋은 토론을했으며, John Tukey (13 페이지)를 인용하면서 EDA가 “예기치 않은 일을 우리에게 강요”할 필요성을 정당화했습니다. 대화 형 및 동적 디스플레이의 사용은 데이터 스누핑 또는 예비 데이터가 아닙니다 검사 (예 : 데이터의 순수 그래픽 요약)이지만 단순한 가설 기반 통계 모델링보다 우선하거나 보완 할 수있는 데이터에 대한 대화 형 조사로 간주됩니다.

R 인터페이스 ( rggobi )와 함께 GGobi 를 사용하면 DescribeDisplay 또는 ggplot2 패키지 덕분에 Projection Pursuit (pp. 26-34) 에서도 중간 보고서 또는 최종 게시를위한 정적 그래픽을 생성하는 방법의 문제를 해결할 수 있습니다 .

같은 맥락에서 Michael Friendly 는 오랫동안 vcd 패키지와 최근 vcdExtra 패키지 (동적 viz.를 통한 rgl 패키지 포함)에서 예시 된 Categorical Data Analysis의 데이터 시각화 사용을 오랫동안 옹호 해 왔습니다 . 로그 선형 모델을 확장하기 위해 vcdgnm 패키지 사이의 접착제 역할을합니다 . 그는 최근 6 차 CARME 컨퍼런스 인 R의 vcd, gnm 및 vcdExtra 패키지를 사용하여 범주 형 데이터 시각화의 발전에서 그 작업에 대해 요약 했습니다 .

따라서 EDA는 순수한 통계적 모델링 접근법 이전에 또는 이와 병행하여 데이터에 대한 시각적 설명 (관측 된 데이터에서 예상치 못한 패턴을 설명 할 수 있다는 의미에서)을 제공하는 것으로 생각할 수 있습니다 . 즉, EDA는 현재 데이터의 내부 구조를 연구하는 데 유용한 방법을 제공 할뿐만 아니라 데이터에 적용된 통계 모델을 세분화 및 / 또는 요약하는 데 도움이 될 수 있습니다. 본질적 으로 예를 들어, 이중 행성이 허용하는 것입니다. 그것들은 다차원 분석 기법 자체 는 아니지만 다차원 분석의 결과를 시각화하는 도구입니다 ( 근사값 을 제공함으로써)모든 개인을 함께 고려하거나 모든 변수를 함께 또는 둘 다 고려할 때의 관계). 차원을 줄이거 나 중간 수준의 표현을 제공하기 위해 원래 메트릭 대신 후속 모델링에서 요소 점수를 사용할 수 있습니다.

사이드 노트

구식이 될 위험이 있지만 때때로 나는 여전히 xlispstat( Luke Tierney )를 사용 하고 있습니다. 현재 기본 R 그래픽에서는 사용할 수없는 대화 형 디스플레이를위한 간단하면서도 효과적인 기능을 가지고 있습니다. Clojure + Incanter (+ Processing)에서 비슷한 기능을 알지 못합니다.


답변

그래픽의 동적 연결은 탐색 적 공간 데이터 분석 또는 ESDA에 자연스럽고 효과적입니다 . ESDA 시스템은 일반적으로 하나 이상의 정량적 맵 (예 : choropleth maps )을 기본 데이터의 테이블 형식 뷰 및 통계 그래픽과 연결합니다. 이러한 기능 중 일부는 약 15 년 동안 일부 데스크탑 GIS 시스템, 특히 ArcView 3 (단종 된 상용 제품)의 일부였습니다. 무료 GeoDa 소프트웨어는 공간 데이터 탐색 및 통계 분석을 위해 설계된 환경에서 이러한 기능 중 일부를 제공합니다. 특이한 인터페이스와 닦지 않은 그래픽으로 버그가 많지 않습니다.

이러한 EDA의 사용은 통계적 테스트가 대화 형 탐색보다 낫다는 반대 의견을 우회합니다. 많은 (대부분의) 상황에서 명확한 통계 모델이없고, 명백한 (또는 적절한) 통계 테스트가 없으며, 가설 테스트는 종종 관련이 없기 때문에 : 사람들은 발생 상황 , 발생 위치 , 공간적 맥락에서 변수 간의 통계적 관계 를 관찰해야 합니다 . 모든 데이터 분석이 공식적인 절차가 아니거나 심지어 구성되어야하는 것은 아닙니다!


답변

나에게 대화 형 시각화는 내 자신의 탐색 또는 실무 클라이언트와 작업 할 때만 유용합니다. 최종 프리젠 테이션을 다룰 때, 나는 내 요점을 가장 잘 나타내는 정적 그래프를 선택하는 것을 선호합니다. 그렇지 않으면 고객은 gee-whiz 요소에 의해 완전히 산만해질 수 있습니다.

내가 얻을 수있는 가장 큰 이점은 솔루션 프로그래밍을 중단했을 때보 다 훨씬 더 많은 속도로 검사 할 수있는 수준의 속도입니다. JMP는 내가 원하는 것을 너무 많이 단일 인터페이스에 통합하기 때문에 가장 좋아하는 도구 중 하나입니다. 좋은 통계 프로그래머 인 대부분의 사람들은 JMP (또는 GGobi 등)를 너무 짧은 기간 동안 시도해 실제로 그것을 잘 활용한다고 생각합니다. 특히 JMP는 메뉴를 살펴보면 자신이 알고있는 인상을 줄 것입니다. 그러나 설명서의 작업은 실제로 모든 기능을 찾아야합니다.

이 속도 수준에 대한 나의 주요 관심사를 언급했지만 p- 값의 의미를 전혀 알지 못합니다. 몇 분 안에 수백 가지 관계를 시각적으로 조사 할 수 있습니다. 결국 오해의 소지가있는 가설 검정을하는 것은 사람들이 항상 그렇게하는 것을 본다.

GGobi에서 내가 좋아하는 기능은 프로젝션 추구입니다. 높은 공간에서 어떤 유형의 패턴을 찾고 나서 앉아서 그 목표를 “추구”하는 것을 지켜 봅니다. 좋은 물건!


답변