computational-statistics Archives

대부분의 사용자는 Google 문서 도구가 여전히 기본 도구라고 생각합니다. Matlab 또는 R이 아니며 Excel조차도 아닙니다. 그러나 브라우저의 작동 기능 만 사용하는 (그리고 매우 다르게 작동하는 많은 브라우저와 호환되는)이 웹 기반 소프트웨어의 힘에 당황합니다.

이 포럼에서 활동중인 Mike Lawrence는 Google 문서 도구를 사용하여 아주 멋진 작업을 수행하면서 스프레드 시트를 공유했습니다. 필자는 개인적으로 Google 문서 도구의 Excel에서 처음 수행 된 매우 철저한 가설 테스트 프레임 워크 (여러 매개 변수 및 비모수 테스트 포함)를 복제했습니다.

Google 문서 도구를 사용해 보시고 흥미로운 응용 프로그램의 한계에 도달 한 적이 있다면 관심이 있습니다. Google 문서와 관련하여 발생한 버그 나 결함에 대해서도 듣고 싶습니다.

이 질문에 대한 답변은 “커뮤니티 위키 용”으로 지정하고 있습니다. 그것은 무엇보다 설문 조사입니다.

답변

Google 스프레드 시트의 주요 용도는 데이터를 수집 한 다음 R로 쉽게 가져 오는 데 Google 양식을 사용하는 것입니다. 다음은 반년 전에 내가 쓴 글입니다.

Google 스프레드 시트 + Google 양식 + R = 분석을위한 데이터 수집 및 가져 오기

또한 공동 작업중인 경우 내 선택 도구는 DropBox입니다. 나는 몇 달 전에 그것에 관한 게시물을 썼습니다 :

DropBox를 사용하여 컴퓨터 간 파일 동기화

나는 지금 5 명의 공동 저자가있는 프로젝트에서 약 반년 동안 그것을 사용하고 있으며, 귀중한 가치를 지니고 있습니다. 기사의 동일한 .docx 파일).

두 게시물 모두 비디오 자습서 및 구두 지침을 제공합니다.

답변

R, bash, Python, asciidoc, (La) TeX, 오픈 소스 소프트웨어 또는 기타 유닉스 도구를 좋아하는 사용자는 객관적인 답변을 제공 할 수 없습니다. 또한 MS Excel 또는 모든 종류의 스프레드 시트 (데이터 또는 일부를 볼 수는 있지만 다른 것)는 사용하지 않는 경우가 많으므로 토론에 긍정적으로 기여하지는 않습니다. 난 유일한 사람이 아니야

P. Burns의 Spreadsheet Addiction .
MS R 의 정확성과 정확성 , 2004 R 메일 링리스트에 게시
L. Knusel, Microsoft Excel 97의 통계 분포 정확도 , 전산 통계 및 데이터 분석, 26 : 375-377, 1998. ( pdf )
BD McCullough & B. Wilson, Microsoft Excel 2000 및 Excel XP의 통계 절차 정확도 , 전산 통계 및 데이터 분석 , 40 : 713–721, 2002.
M. Altman, J. Gill & MP McDonald, 사회 과학자 통계 계산의 수치 문제 , Wiley, 2004. [예, pp. 12–14]

내 동료가 이전 버전과의 호환성 부족 등으로 인해 모든 매크로를 느슨하게했습니다. 다른 동료가 유전자 데이터 (80 만 개의 마커, 120 Mo에 약 700 명의 피험자 120 명)를 가져 오려고했습니다. Excel이 실패하고 메모장도 포기했습니다 … vi로 “그것을보고”일부 sed / awk 또는 perl 스크립트로 데이터를 신속하게 다시 포맷 할 수 있습니다. 스프레드 시트의 유용성에 대해 논의 할 때 고려해야 할 다른 수준이 있다고 생각합니다. 작은 데이터 세트에서 작업하고 기본 통계 자료 만 적용하고 싶을 수도 있습니다. 그런 다음 결과를 신뢰하는 것은 전적으로 귀하의 몫입니다. 또는 항상 소스 코드를 요청할 수 있지만 NIST 벤치 마크를 사용하여 모든 인라인 프로 시저를 신속하게 테스트하는 것이 더 간단 할 수 있습니다.. 앞서 언급 한 목록을 업데이트 할 때 최신 버전의 MS Excel은 정확도가 향상 된 것으로 보이지만 실제로 는 통계를 수행하는 좋은 방법이라고 생각하지 않습니다. 통계 분석 은 9 가지 통계 소프트웨어 패키지의 신뢰성에 대한 비교 연구 인 Keeling and Pavur ( CSDA 2007 51 : 3811)를 참조하십시오.

여전히 10 또는 20 중 약 1 장 (생의학, 심리학, 정신과)에는 Excel로 만든 그래픽이 포함되어 있습니다. 때로는 회색 배경, 가로 검은 선 또는 자동 범례를 제거하지 않고 (Andrew Gelman 및 Hadley Wickham은 확실히 행복합니다. 그것을 볼 때 나). 그러나 FlowingData 의 최근 여론 조사 에 따르면 가장 일반적으로 사용되는 “소프트웨어”인 경향이 있는데, 이는 MASS R 패키지를 공동 작성했으며 패턴 인식에 대한 훌륭한 책을 쓴 Brian Ripley의 오래된 이야기를 떠올리게합니다. ) :

가장 많이 사용되는 통계 용 소프트웨어는 Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf입니다.

이제 통계를 빠르고 쉽게 얻을 수있는 방법을 제공한다고 생각하십니까? 문제는 그러한 환경에서 여전히 할 수없는 일이 있다는 것입니다 (적어도 까다 롭습니다). 부트 스트랩, 순열, 다변량 탐색 데이터 분석을 예로 들겠습니다. VBA (스크립팅이나 프로그래밍 언어가 아님)에 능숙하지 않은 한, R (또는 Matlab 또는 Python)에서 데이터에 대한 작은 작업조차 더 잘 처리한다고 생각하는 경향이 있습니다. 예를 들어 소위 data.frame). 무엇보다도, Excel은 데이터 분석가를위한 우수 사례를 장려하지는 않는다고 생각합니다 (그러나 이는 “진정”에도 적용됩니다. 데이터 처리 기록을 유지해야 할 필요성에 대해서는 Medstats에 대한 토론을 참조하십시오.문서화 분석 및 데이터 편집 ), Practical Stats 에 대한이 게시물 은 일부 Excel 함정을 비교적 잘 보여줍니다. 여전히 Excel에 적용되지만 GDoc으로 어떻게 변환되는지 모르겠습니다.

작업 공유에 관해서는 Github (또는 소스 코드의 요지 ) 또는 Dropbox (EULA가 일부 사람들을 실망시킬 수 있지만)가 매우 좋은 옵션 (수정 내역, 필요한 경우 보조금 관리 등) 이라고 생각하는 경향이 있습니다. 기본적으로 데이터를 이진 형식으로 저장하는 소프트웨어를 사용하도록 권장 할 수 없습니다. R, Matlab, Stata, SPSS로 가져올 수 있지만 내 의견으로는 알 수 있습니다.

데이터는 다른 통계 소프트웨어가 읽을 수있는 텍스트 형식이어야합니다.
분석은 재현 가능해야합니다. 즉, 분석을위한 완전한 스크립트를 제공해야하며 언제든지 다른 운영 체제에서 실행해야합니다 (여기서는 이상적인 사례에 접근합니다 …).
자체 통계 소프트웨어는 승인 된 알고리즘을 구현해야하며 통계 모델링의 현재 모범 사례를 반영하도록 쉽게 업데이트 할 수있는 방법이 있어야합니다.
선택한 공유 시스템에는 버전 관리 및 공동 작업 기능이 포함되어야합니다.

그게 다야.

답변

“또한 Google 문서와 관련된 버그 나 결함에 대해 듣고 싶습니다.”

나는 원래 질문의 그 부분에만 응답 할 것입니다. Google Docs Spreadsheets (GSheets)에 대한 나의 탐구는 수학 및 통계 함수와 관련이 있습니다. 결국 내 평가에 따르면 Google 스프레드 시트는 2012 년에 악성 1997 년에 비해 열등한 것으로 평가됩니다.

증거 : Google 스프레드 시트는 erf (x)가 1에 가까운 인수에 대해 erfc (x) = 1-erf (x)를 사용하여 erfc (x)를 평가하는 것으로 나타났습니다. 평균의; 수치 연습이 잘못되었습니다. 포아송 (n, x) = pow (x, n) * exp (-x) / n과 같은 조합 함수와 이산 확률! 요소별로 평가되므로 불필요한 오버플로가 발생합니다. 계승은 스털링의 요인 별 근사를 사용하여 평가되므로 불필요한 오버플로가 발생합니다. 누적 푸 아송 분포는 단순히 유한 합을 수행하여 평가되므로 반올림에서 정규화 속성이 손실됩니다. 누적 이항 분포에 대해서도 마찬가지입니다. 누적 정규 분포가 완전히 엉망입니다. [0,1] 범위를 벗어납니다. 다른 패키지에서 동일한 기능의 구현과 관련하여 일반적인 정확도 손실이 있습니다. 반올림과 같은 기본 함수에 대한 설명은 종종 왜곡되고 이해하기 어렵습니다. 해석은 추측 게임입니다.

Google 문서 제품 포럼에서 다음 두 가지 게시물에 이러한 문제를 문서화했습니다.

(2011-11-13 이상) normdist가 여전히 음수 값을 발생시킵니다
https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 이상) GSheets의 통계 및 수학 함수 관련 오류 및 기타 문제
https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

답변

Exit mobile version

How IT

언제든지 물어보세요.

태그 보관물: computational-statistics

일부는 Google 문서 스프레드 시트를 사용하여 통계 작업을 수행하고 다른 사람과 공유합니까? 매우 다르게 작동하는 많은

답변

답변

답변

답변