태그 보관물: eda

eda

데이터 “탐사”와 데이터 “스누핑”/ “고문”? 나는 종종 “데이터

여러 번 나는 “데이터 스누핑”에 대한 비공식적 인 경고를 겪었으며 (여기서는 재미있는 예가있다 ), 그것이 의미하는 바가 무엇이고 왜 그것이 문제가 될 수 있는지에 대한 직관적 인 생각이 있다고 생각한다.

다른 한편으로, “탐사 데이터 분석”은 적어도 그 제목 을 가진 이 여전히 고전적인 것으로 인용 된다는 사실에 의해 판단 할 때 통계에서 완벽하게 존경받을만한 절차 인 것 같습니다 .

내 업무 라인에서 나는 종종 “데이터 스누핑”처럼 보이는 것을 발견하거나 아마도 “데이터 고문 ” 으로 더 잘 설명 될 수 있지만, 그렇게하는 사람들은 완전히 합리적이고 문제가없는 “탐사와 동일한 활동을 보는 것처럼 보인다. “.

전형적인 시나리오는 다음과 같습니다 : (비교적 분석에 대한 많은 생각없이) 값 비싼 실험이 수행되고, 원래의 연구원들은 수집 된 데이터에서 “이야기”를 쉽게 식별 할 수 없으며, 누군가가 “통계적 마법사”를 적용하도록 가져옵니다. , 모든 방법으로 데이터를 자르고 자른 후 마침내 데이터에서 게시 가능한 “스토리”를 추출합니다.

물론, 최종 보고서 / 종이에는 통계적 분석이 최신 상태임을 보여주는 몇 가지 “유효성 검증”이 있지만, 그 뒤에 숨은 뻔뻔한 출판 태도는 모두 의심 스럽다.

불행히도, 데이터 분석의 유무에 대한 제한적인 이해는 그러한 모호한 의심을 넘어 가지 못하게합니다. 따라서 저의 보수적 인 반응은 기본적으로 그러한 발견을 무시하는 것입니다.

나는 탐사와 스누핑 / 고문의 구별에 대한 더 나은 이해뿐만 아니라, 그 선이 넘어 졌을 때를 탐지하는 원리와 기술을 더 잘 이해함으로써 그러한 발견을 평가할 수 있기를 희망한다. 최적화되지 않은 분석 절차를 합리적으로 설명 할 수있는 방법으로, 현재의 단순한 불신의 담요 불신에 대한 반응을 넘어 설 수 있습니다.


편집 : 매우 흥미로운 의견과 답변에 감사드립니다. 그들의 내용으로 판단 할 때, 나는 내 질문을 충분히 설명하지 못했다고 생각합니다. 이번 업데이트로 문제가 해결되기를 바랍니다.

여기에 내 질문이 너무 많은 것이 아니다 우려 내가 고문 방지하기 위해 어떻게해야 내가 그 결과를 생각 (또는 평가) 방법 :이 아니라 (이 또한 관심사 나있는 질문이지만) 데이터를 사실에 대해 내가 아는이 를 통해 도착 된이 그런 “데이터 고문.”

상황이 더욱 흥미로워 져서 (아주 드물지만) 출판을 위해 제출되기 전에 그러한 “발견”에 대한 의견을 제시 할 수있는 입장에 있습니다.

이 시점에서 내가 할 수 있는 가장 큰 것은 “이러한 연구 결과를 얻는 데 필요한 가정과 절차에 대해 알고있는 것을 감안할 때 이러한 연구 결과에 얼마나 많은 신뢰를 줄 수 있는지 모르겠습니다.”입니다. 이것은 말조차 할 가치가 너무 모호합니다. 그런 모호함을 넘어 가고 싶었던 것은 내 게시물의 동기였습니다.

공평하게 말해서, 여기의 의심은 의심스러워 보이는 통계적 방법보다 더 많은 것입니다. 사실, 나는 후자를 더 깊은 문제의 결과로 본다. 실험 설계에 대한 무심한 태도와 결과를 발표 할 때 (즉, 더 이상의 실험없이) 게시하려는 범주적인 약속과 결합한 것이다. 물론, 후속 프로젝트는 항상 상상하고 있지만 그것은 단순히 아웃 오브 질문 , 하나의 종이 말, 나올 것하지 않는 것이 “10 만 개 샘플로 가득 찬 냉장고.”

통계는이 최고의 목표를 달성하기위한 수단으로 만 제시됩니다. 통계 전체에 걸쇠를 두는 유일한 이유는 (전체 시나리오에서와 같이 2 차적 임) “모든 비용으로 출판”이라는 가정에 대한 정면 도전은 무의미하다는 것입니다.

실제로, 나는 그러한 상황에서 하나의 효과적인 반응 만 생각할 수 있습니다. 분석의 질을 실제로 테스트하는 통계 테스트 (추가 실험이 필요하지 않음)를 제안하는 것입니다. 그러나 나는 단지 통계에 대한 정보가 없습니다. 내 소망 (순진하게)은 내가 그러한 시험을 내놓을 수있는 것을 연구 할 수있는 것을 찾는 것이 었습니다 …

이 글을 쓸 때, 그것이 존재하지 않는다면, 세계는 “데이터 고문”을 탐지하고 노출시키기위한 기술에 전념하는 하나의 새로운 하위 브랜치 통계를 사용할 수 있습니다. (물론, 나는 “고문”은유에 의해 쫓겨 난다는 것을 의미하지는 않는다. 문제는 그 자체로 “데이터 고문”이 아니라, 그로 인한 가짜 “발견”이다.



답변

때때로 가설 생성 대 가설 검정 또는 탐색 적 분석 대 가설 검정 같은 충분한 관심을받지 못하는 구별이 있습니다. 당신은 세상의 모든 더러운 속임수가 당신의 아이디어 / 가설을 생각해 내도록 허용됩니다. 그러나 나중에 테스트 할 때는 무자비하게 사랑하는 사람을 죽여야합니다.

저는 항상 높은 처리량 데이터를 다루는 생물 학자입니다. 예, 저는이 “슬라이스와 다이 싱”을 자주 수행합니다. 실험이 수행 된 대부분의 사례는 신중하게 설계되지 않았습니다. 또는 계획 한 사람들이 모든 가능한 결과를 설명하지는 않았을 것입니다. 또는 계획 할 때의 일반적인 태도는 “무엇이 있는지 보자”였습니다. 우리는 값 비싸고 가치 있으며 그 자체로 흥미로운 데이터 세트로 끝납니다 .

그러나 그것은 단지 이야기 일뿐입니다 (취침 시간 가능). 몇 가지 흥미로운 각도를 선택한 후 여기에 중요한 점이 있습니다. 독립적 인 데이터 세트 또는 독립적 인 샘플뿐만 아니라 독립적 인 실험 시스템 인 독립적 인 접근 방식 으로이를 테스트해야합니다.

이 마지막 것 (독립적 인 측정 또는 샘플 세트뿐만 아니라 독립적 인 실험 설정)의 중요성은 종종 과소 평가됩니다. 그러나 30,000 개의 변수에 유의 한 차이가 있는지 검정 할 때 동일한 코호트의 유사한 (그러나 다른) 표본이 동일한 방법으로 분석되었지만 이전 세트를 기반으로 한 가설을 기각하지 않는 경우가 종종 있습니다. 그러나 우리는 또 다른 유형의 실험과 다른 집단에 의존하며, 그 발견은 방법 론적 편견의 결과로 나타나거나 적용 가능성이 제한되어 있습니다.

그렇기 때문에 우리는 종종 가설이나 모델을 받아들이 기 위해 여러 독립적 인 연구자들에 의해 여러 개의 논문이 필요한 이유입니다.

따라서 이러한 차이를 염두에두고 과학 프로세스의 어느 단계에서 수행하고 있는지 기억하는 한 그러한 데이터 고문은 괜찮다고 생각합니다. 독립적으로 데이터를 검증 하는 한 달의 위상을 사용하거나 2 + 2를 재정의 할 수 있습니다 . 사진에 붙이려면 :

불행히도, 몇 가지 실험이 완료된 후 논문을 반올림하기 위해 마이크로 어레이를 주문하는 사람들이 있으며, 높은 처리량 분석이 무언가를 보여주기를 희망합니다. 또는 전체 가설 검정 대 생성에 대해 혼란스러워합니다.


답변

대학원에서 가장 좋아하는 교수 인 허먼 프리드먼은

“놀라지 않으면 아무 것도 배우지 않은 것”

선험적으로 정의 된 가설에 대한 가장 엄격한 테스트를 제외한 모든 것을 엄격히 피하면 놀랄 수있는 능력이 심각하게 제한됩니다.

가장 중요한 것은 우리가하는 일에 정직 하다는 것입니다 . 우리가 고도 탐색 모드에 있다면 우리는 그렇게 말해야합니다. 반대로, 내가 아는 한 교수는 원래의 이론이 중요하지 않았기 때문에 학생에게 자신의 가설을 바꾸라고 말했다.


답변

몇 가지 사항을 추가하겠습니다.

  • 우선, 가설 생성은 과학의 중요한 부분입니다. 그리고 비 예측 (탐사 / 설명) 결과 게시 할 수 있습니다.

  • IMHO 문제는 데이터 탐색이 데이터 세트에서 사용되고 그 결과의 일부만 공개되는 것이 아닙니다. 문제는

    • 시도한 금액을 설명하지 않음
    • 연구가 일부 예측 모델 / 가설 테스트 연구에 대한 검증 연구 인 것처럼 결론을 도출
  • 과학 및 방법 개발은 단순한 가설 생성-테스트-새로운 가설 생성-테스트보다 훨씬 일반적인 방식으로 반복적 인 프로세스입니다. IMHO 어떤 단계에서 어떤 종류의 적절한 행동이 필요한지 전문가 판단의 문제입니다 (예제 참조) 이하).

내가하는 일 :

  • 사람들에게 결과에 대한 낙관적 편견을 알리도록 노력하십시오
    . 기회가있을 때 사람들에게 차이가 얼마나 있는지 보여 줍니다 (주로 동일한 문제의 낮은 수준에서 가능함). 예를 들어 환자 독립적으로 검증 된 데이터를 내부 성능과 비교 SVM 매개 변수에 대한 그리드 검색, PCA-LDA와 같은 “복합 모델”등과 같은 하이퍼 파라미터 최적화 루틴의 추정치 실제 데이터 준설에는 적합하지 않습니다. 현명한 규모의 연구의 실제 복제 …)
  • 내가 공동 저자 인 논문의 경우 : 결론의 한계에 대한 논의를 주장한다. 결론이 연구가 허용하는 것보다 더 일반적인 방식으로 공식화되지 않았는지 확인하십시오.
  • 동료가 연구 주제와 데이터 생성 프로세스에 대한 전문 지식을 사용 하여 비용이 많이 드는 (샘플 크기의 관점에서) 최적화를 수행하는 대신 데이터를 처리하는 방법을 결정 하도록 권장 합니다. 모델- “하이퍼”-파라미터 (사용할 전처리의 종류 등)
  • 병행하여 : Beleites, C. 및 Neugebauer와 같이이 최적화 비즈니스가 제대로 수행되면 (비용이 많이 들지 않는지 여부와 상관없이, 데이터 준설과 같은 유사한 결과를 얻을 수 있음),이 최적화 비즈니스가 얼마나 비용이 많이 드는지 사람들에게 알리십시오. , U. 및 Bocklitz, T. 및 Krafft, C. 및 Popp, J .: 분류 모델의 표본 크기 계획. Anal Chim Acta, 2013, 760, 25-33. DOI : 10.1016 / j.aca.2012.11.007
    arXiv에 허용되는 원고 : 1211.1323
  • 다음은이 시각 장애인이 주변도 시도 발견 한 연구는 예를 들어, 쓸데 자주의
    사전 처리 동향 속보? : J. 엥겔, J. Gerretzen, E. Szymańska, JJ 얀센, G. 다우니, L. BLANCHET, LMC Buydens 분석 화학에서의 TrAC 동향, 2013, 50, 96-106. DOI : 10.1016 / j.trac.2013.04.015
    (수많은 전처리 단계 조합을 시도했지만 전처리가없는 것보다 더 나은 모델로 이어지는 것이 거의 없음을 발견했습니다)

  • : 나는 필요 이상으로 내 데이터 고문 아니에요 강조
    :

    모든 전처리는 분광 지식을 사용하여 독점적으로 결정되었으며, 데이터 중심 전처리는 수행되지 않았습니다.

    후속 용지 (다른)이 이론 개발 판독 예제와 같은 데이터를 사용하여

    모든 전처리는 분광 지식에 의해 결정되었고, 데이터 구동 단계는 포함되지 않았으며 파라미터 최적화는 수행되지 않았다. 그러나, 우리는 LR 훈련을위한 전처리 과정에서 25 개의 잠재 변수에 대한 스펙트럼의 PLS 투영 [45]이 예측에서 약간의 변화를 야기하지 않았 음을 확인했다 (보충 그림 S.2 참조).

    그 동안 나는 (CILS 저널 편집자에 의한 회의에서) 모델을 PLS 전처리와 비교하도록 명시 적으로 요청 받았다.

  • 실용적 관점을 취하십시오 : 예를 들어 위에 링크 된 성상 세포종 연구에서 데이터를보고 난 후에도 여전히 몇 가지 사항을 결정했습니다 (예 : 강도 임계 값이 샘플 외부에서 측정 한 측정 값에 해당하는 경우). 내가 결정적이지 않은 다른 결정 (선형 대 이차 기준선 : 해당 유형의 데이터에 대한 나의 경험은 이것이 실제로 크게 변하지 않음을 시사합니다. 이는 Jasper Engel이 유사한 유형의 다른 데이터에서 찾은 것과 완벽하게 일치합니다. 데이터를 살펴보면서 기준선 유형을 결정하는 데 큰 편견이 없을 것으로 예상합니다 (논문은 그것이 합리적인 이유에 대한 논쟁을 제시합니다).
    우리가 수행 한 연구를 바탕으로 이제 다음에 해결해야 할 것과 변경해야 할 것을 말할 수 있습니다. 그리고 우리는 여전히 분석법 개발의 초기 단계 ( 생체 외 샘플을 보며 )에 있기 때문에, 실험법이 생체 내 에서 사용되기 전에 궁극적으로 필요할 모든 숙제를 거치는 것은 가치 가 없습니다 . 예를 들어, 성상 세포종 등급의 현재 단계에서 리샘플링 유효성 검사는 외부 테스트 세트보다 현명한 선택입니다. 일부 성능 특성은 그런 방식으로 만 측정 할 수 있기 때문에 어느 시점에서 진정한 외부 검증 연구가 필요하다고 강조합니다. 하지만 지금 우리가 여전히 ex-vivo를 가지고 노는 동안표본과 큰 문제의 다른 부분을 해결하고 있습니다 (관련 논문에서 : 경계선 사례를 다루는 방법), 적절한 생체 외 검증 연구 에서 유용한 지식을 얻는 것은 노력하는 동안 가치가 너무 낮습니다 (IMHO : 데이터 준설로 인한 바이어스를 측정하기 위해 수행되었습니다).

  • 나는 통계 및보고 표준에 대한 논쟁을 읽었고, 저를 설득 한 저널 (필요한 것을 기억하지 마십시오)에 필요한지 결정해야하는지 여부를 읽었습니다. 그 아이디어는 편집자들이 시도 할 필요가 없다고 표현했습니다. 다음과 같은 이유로 일부 표준에 동의하고이를 시행합니다.

    • 적절한 기술을 사용하는 사람은 일반적으로 그 사실을 잘 알고 / 자신감있게 행동하며, 따라서 무엇을했는지 상세하게보고해야합니다.
    • 특정 시점 (예 : 데이터 준설, 환자 수준과 무관 한 검증)이 명확하게 설명되어 있지 않은 경우 검토 자 / 독자에 대한 기본 가정은 연구가 해당 질문의 올바른 원칙을 준수하지 않았다는 것입니다. 더 잘 알고)

답변

때때로 “데이터 고문”으로 보이는 것이 실제로는 아닙니다. 실험을 통해 볼 때까지 실험의 진정한 결과라고 믿는 것을 제공하기 위해 데이터로 무엇을할지 정확히 미리 명확하지는 않습니다.

예를 들어, 의사 결정 작업에 대한 반응 시간 데이터를 사용하면 의사 결정과 관련이없는 시간 (예 : 너무 빨리 진행될 때 분명히 추측하고 결정하지 않음)을 거부하려고합니다. RT에 대한 결정의 정확성을 플롯하여 추측이 일반적으로 발생하는 위치를 확인할 수 있습니다. 그러나 특정 패러다임을 테스트하기 전까지는 컷오프의 위치를 ​​정확히 알 수있는 방법이 없습니다. 일부 관찰자들에게 그러한 절차는 데이터를 고문하는 것처럼 보이지만 가설 테스트와 직접 관련이없는 한 (테스트를 기반으로 조정하지 않음) 데이터를 고문하지 않습니다.

실험 중 데이터 스누핑은 올바르게 수행되는 한 괜찮습니다. 실험을 블랙 박스에 넣는 것은 비 윤리적 일 수 있으며 계획된 수의 피험자가 실행될 때만 분석을 수행합니다. 때로는 데이터를 볼 때까지 실험에 문제가 있다고 말하기가 어려우므로 가능한 빨리 조사해야합니다. 데이터 엿보기는 p <0.05인지 확인하고 계속하기로 결정했기 때문에 크게 왜곡됩니다. 그러나 오류율에 해를 끼치 지 않는 수집을 계속하기로 결정할 수있는 많은 기준이 있습니다.

분산 추정치가 알려진 가능한 범위 내에 있는지 확인하고 싶다고 가정하십시오. 작은 표본의 경우 분산 추정치가 거의 없기 때문에 표본이 더 대표적이라는 것을 알 때까지 추가 데이터를 수집합니다. 다음 시뮬레이션에서는 각 조건의 분산이 1이 될 것으로 예상합니다. 정말 미친 짓을하고 10 개의 샘플에 대해 각 그룹을 독립적으로 샘플링 한 다음 분산이 1에 가까워 질 때까지 주제를 추가합니다.

Y <- replicate(1000, {
    y1 <- rnorm(10)
    while(var(y1) < 0.9 | var(y1) > 1.1) y1 <- c(y1, rnorm(1))
    y2 <- rnorm(10)
    while(var(y2) < 0.9 | var(y2) > 1.1) y2 <- c(y2, rnorm(1))
    c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1), length(y2) )
    })
range(Y[2,]) #range of N's in group 1
[1]   10 1173
range(Y[3,]) #range of N's in group 2
[1]   10 1283
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.045

그래서, 나는 샘플링과 함께 bonkers를 갔고 분산을 예상과 가깝게 만들고 알파에 거의 영향을 미치지 않습니다 (0.05 미만). N과 같은 몇 가지 제약 조건은 각 그룹에서 동일해야하며 30을 초과 할 수 없으며 알파는 0.05에서 거의 맞습니다. 그러나 SE는 어떻습니까? 대신 SE를 특정 값으로 만들려고하면 어떻게합니까? CI의 너비를 미리 설정하지만 위치는 설정하지 않기 때문에 실제로는 정말 흥미로운 아이디어입니다.

se <- function(x) sqrt(var(x) / length(x))
Y <- replicate(1000, {
        y1 <- rnorm(10)
        y2 <- rnorm(10)
        while(se(y1) > 0.2 | se(y2) > 0.2) {
            y1 <- c(y1, rnorm(1)); y2 <- c(y2, rnorm(1))
        }
        c( t.test(y1, y2, var.equal = TRUE)$p.value, length(y1) )
        })
range(Y[2,]) #range of N's in group 1 and 2 (they're equal now)
[1] 10 46
sum(Y[1,] < 0.05) / ncol(Y)
[1] 0.053

데이터 스누핑을 기반으로 N이 원래 10에서 최대 46까지 로밍하도록 허용했지만 알파는 소량 변경되었습니다. 더 중요한 것은 SE는 모두 각 실험에서 좁은 범위에 속한다는 것입니다. 걱정이되는 경우이를 해결하기 위해 작은 알파 조정을 쉽게 수행 할 수 있습니다. 요점은 일부 데이터 스누핑은 거의 또는 전혀 해를 끼치 지 않으며 심지어 이점을 가져올 수 있다는 것입니다.

(BTW, 내가 보여주는 것은 마법의 총알이 아닙니다. 다양한 N의 시뮬레이션에 대한 검정력이 평균 N의 시뮬레이션과 거의 동일하기 때문에 실제로이 작업을 수행하는 장기적으로 피험자의 수를 줄이지는 않습니다. )

위의 어느 것도 실험이 시작된 후 피험자를 추가하는 것에 관한 최근의 문헌과 모순되지 않습니다. 이 연구에서는 p- 값을 낮추기 위해 가설 테스트를 수행 한 후 피험자를 추가 한 시뮬레이션을 살펴 보았습니다. 그것은 여전히 ​​나쁘고 비정상적으로 알파를 부 풀릴 수 있습니다. 또한 1 월과 Peter Flom의 답변이 정말 마음에 듭니다. 데이터를 수집하는 동안 데이터를보고, 수집하는 동안 계획된 N을 변경하더라도 반드시 나쁜 것은 아니라는 점을 지적하고 싶었습니다.


답변

이것은 출판의 편견이 긍정적 인 결과를 선호하게하는 경쟁적 사고의 문화적 문제이며, 우리의 경쟁적 성격으로 인해 편집자와 연구자들은 예를 들어 다른 사람의 결과를 반박합니다. 의학적 연구에서는 강제로 시험을 등록하고 폐기 된 시험에 대한 기록을 공개하여 공개함으로써이 문제를 해결하기위한 상당한 진전이 이루어지고있다. 나는 실패한 연구를 위해 저널에 출판하는 것이 실용적이지 않을 수 있기 때문에 공개적으로 이용 가능한 데이터베이스를 유지할 계획이 있다는 것을 이해한다. 복제 할 수없는 비정상적인 결과는 아마도 50의 경우와 같이 반드시 잘못된 행동의 결과 일 필요는 없습니다.

다른 방법을 사용하는 것도 해결책이 될 필요는 없습니다. 예를 들어, 어떤 화학자가 다른 조건에서 다른 방식으로 시약을 혼합하고 당연히 동일한 결과를 기대할 수 있습니까?


답변