상자 그림을 생성 할 수 있도록 많은 수의 샘플을 설명하는 일련의 통계를 누적 할 수 있습니까? 아니라 실습 소프트웨어

통계 전문가가 아니라 실습 소프트웨어 개발자이며 대학 통계 강의가 아주 오래 전에 있었다는 것을 즉시 분명히해야합니다 .

즉, 상자 그림을 생성하는 데 사용할 수있는 일련의 설명 통계를 축적하는 방법이 있는지 알고 싶습니다. 개별 샘플을 저장하지 않아도됩니까?

내가하려고하는 일은 복잡한 다중 대기열 프로세스 내에서 대기열 서비스 시간을 그래픽으로 요약 한 것입니다. 과거에는 tnftools라는 패키지를 사용하여 큰 샘플을 축적 한 다음 응답 시간과 이상치에 대한 멋진 그래프로 후 처리했습니다 … 그러나 현재 플랫폼에서는 tnftools를 사용할 수 없습니다.

이상적으로는 프로세스가 실행되는 동안 “즉석에서”일련의 설명 통계를 누적 한 다음 필요시 분석 할 데이터를 추출하고 싶습니다. 그러나 프로세스와 관련된 메모리 / IO가 시스템 성능에 용인 할 수없는 영향을 미치기 때문에 프로세스가 샘플을 축적 할 수는 없습니다.



답변

‘즉석’상자 그림의 경우 ‘즉석’최소 / 최대 (사소한) 및 ‘즉석’사 분위수 (0.25,0.5 = 중간 값 및 0.75)가 필요합니다.

중앙값 계산을위한 온라인 (또는 ‘즉석에서’) 알고리즘 문제에서 최근 많은 작업이 진행되고 있습니다.

최근 개발은 binmedian 입니다. 부수적으로, 또한 빠른 선택 (온라인이나 단일 패스가 아님) 보다 최악의 경우보다 더 복잡 합니다.

관련 용지와 C 및 FORTRAN 코드를 온라인 에서 찾을 수 있습니다 . 제작자와 라이센싱 세부 정보를 확인해야 할 수도 있습니다.

또한 사 분위수에 대한 단일 패스 알고리즘이 필요합니다.이 경우 사 분위수에 대한 위의 접근 방식과 다음 사 분위수의 재귀 적 특성을 사용할 수 있습니다.

0.75(엑스)0.5(엑스나는:엑스나는>0.5(엑스))

0.25(엑스)0.5(엑스나는:엑스나는<0.5(엑스))

즉, 25 (75) 퍼센트 사 분위수는 중앙값보다 작은 (더 큰) 관측치의 중앙값에 매우 가깝습니다.

추가:

Quantile을 계산하기위한 오래된 멀티 패스 방법이 많이 있습니다. 널리 사용되는 접근 방식은 스트림에서 무작위로 선택된 관측치의 결정적인 저장소를 유지 / 업데이트 하고이 저장소에서 Quantile을 재귀 적으로 계산하는 것입니다 ( 리뷰 참조 ). 이 (및 관련) 접근 방식은 위에서 제안한 방법으로 대체됩니다.


답변

대신 중간을 찾는, 직접 추정 히스토그램을 유지하는 알고리즘이있다 " 는 P-광장 알고리즘 관측을 저장하지 않고 분위와 히스토그램의 동적에 대한 계산". 이것은 원하는 모든 Quantile에 대해 반복되는 binning보다 훨씬 더 효율적일 것입니다.


답변