음 이항 (NB) 분포 는 음이 아닌 정수로 정의되며 확률 질량 함수 k \ in \ mathbb N_0 을 x \ in \ mathbb R _ {\ ge 0}로
바꾸는 음이 아닌 실수에 대한 연속 분포를 고려하는 것이 합리적 입니까? 이항 계수는 (k + 1) \ cdot \ ldots \ cdot (k + r-1) 의 곱으로 다시 쓸 수 있으며 이는 실제 k에 대해 잘 정의되어 있습니다. 따라서 우리는 PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} .
보다 일반적으로 이항 계수를 감마 함수로 대체하여 정수가 아닌 r 값을 허용합니다 .
유효한 배포입니까? 이름이 있습니까? 용도가 있습니까? 아마 화합물입니까 아니면 혼합물입니까? 평균 및 분산 (및 PDF의 비례 상수)에 대한 공식이 닫혀 있습니까?
(현재 NB 혼합 모델 (고정
)을 사용하고 EM을 통해 적합 하는 논문을 연구 하고 있습니다. 그러나 데이터는 정규화 후 정수입니다. 즉 정수가 아닙니다. 그럼에도 불구하고 저자는 표준 NB 공식을 계산에 적용합니다. 가능성과 매우 합리적인 결과를 얻을 수 있으므로 모든 것이 잘 작동하는 것 같습니다. 매우 당혹 스럽습니다.이 질문은 NB GLM에 관한 것이 아닙니다 .)
답변
흥미로운 질문입니다. 저의 연구 그룹은 공개적으로 사용 가능한 생물 정보학 소프트웨어에서 몇 년 동안 참조한 배포판을 사용하고 있습니다. 내가 아는 한, 배포판에는 이름이 없으며 그것에 관한 문헌이 없습니다. Aksakal이 인용 한 Chandra et al (2012)의 논문은 밀접한 관련이 있지만, 그들이 고려하는 분포는 대한 정수 값으로 제한되는 것으로 보이며 pdf에 대한 명시적인 표현을 제공하지 않는 것 같습니다.
NB 분포는 게놈 연구에서 RNA-seq 및 관련 기술에서 발생하는 유전자 발현 데이터를 모델링하는 데 매우 많이 사용됩니다. 카운트 데이터는 각각의 유전자에 맵핑 될 수있는 생물학적 샘플로부터 추출 된 DNA 또는 RNA 서열 판독의 수로서 발생한다. 전형적으로, 각각의 생물학적 샘플로부터 약 25,000 개의 유전자에 매핑 된 수천만 개의 판독 값이 존재한다. 대안 적으로, 판독은 게놈 창에 매핑되는 DNA 샘플을 가질 수있다. 우리와 다른 사람들은 NB glms가 각 유전자의 염기 서열에 맞도록하는 접근법을 대중화했으며 경험적인 Bayes 방법을 사용하여 유전자 분산 추정량을 조정했습니다 (분산
). 이 접근법은 게놈 문헌에있는 수만 개의 저널 논문에서 인용되었으므로 얼마나 많이 사용되는지에 대한 아이디어를 얻을 수 있습니다.
우리 그룹은 edgeR R 소프트웨어 패키지를 관리합니다. 몇 년 전 우리는 NB pmf의 연속 버전을 사용하여 분수 단위로 작동하도록 전체 패키지를 수정했습니다. 우리는 단순히 NB pmf의 모든 이항 계수를 감마 함수의 비율로 변환하고 (혼합) 연속 pdf로 사용했습니다. 이것에 대한 동기는 (1) 전 사체 또는 게놈에 대한 판독의 모호한 맵핑 및 / 또는 (2) 기술적 효과를 교정하기위한 카운트의 정규화로 인해 서열 판독 카운트가 때때로 소수 일 수 있다는 것이었다. 따라서 카운트는 때때로 관측 카운트가 아닌 예상 카운트 또는 추정 카운트입니다. 물론 양의 확률로 판독 횟수는 정확히 0 일 수 있습니다. 우리의 접근 방식은 소프트웨어의 추론 결과가 카운트에서 연속적이며 추정 카운트가 정수일 때 이산 NB 결과와 정확하게 일치합니다.
내가 아는 한, pdf에는 정규화 상수에 대한 닫힌 형태가 없으며 평균 또는 분산에 대한 닫힌 형태도 없습니다. 적분
(Fransen-Robinson 상수)에 대해 닫힌 양식이 없다고 생각할 때
연속의 적분에 대한 적분이있을 수 없음이 분명합니다 NB pdf 중 하나. 그러나 NB에 대한 전통적인 평균 및 분산 공식은 계속 NB에 대한 좋은 근사치이어야합니다. 또한 정규화 상수는 모수에 따라 느리게 변해야하므로 최대 우도 계산에 무시할만한 영향을 미치는 것으로 무시할 수 있습니다.
수치 적분으로 이러한 가설을 확인할 수 있습니다. NB 분포는 포아송 분포의 감마 혼합물로서 생물 정보학에서 발생한다 ( 위키피디아 음성 이항 기사 또는 McCarthy et al 참조). 연속 NB 분포는 Poisson 분포를 연속 아날로그로 pdf
에 대한 , 예를 들면 1로 가정하자 밀도하여 통합을 보장하기위한 정규화 일정하게 . 포아송 분포는 음이 아닌 정수에 대해 위의 pdf와 pmf가 같고
푸 아송 평균과 분산은 10과 같습니다. 수치 적분은 이고 연속 분포의 평균과 분산은 10에서 약 4까지의 유효 숫자와 같습니다. 따라서 정규화 상수는 거의 1이고 평균과 분산은 이산 형 포아송 분포와 거의 동일합니다. 연속성 보정을 추가하여 0 대신 에서 통합하면 근사값이 훨씬 향상 됩니다. 연속성 보정을 사용하면 모든 것이 정확합니다 (정규화 상수는 1이고 모멘트는 불연속 포아송과 일치). 약 6 수치.
edgeR 패키지에서는 조건부 로그 우도 또는 로그 우도 차이로 항상 작업하고 델타 함수가 계산에서 취소되므로 질량이 0에 있다는 사실을 조정할 필요가 없습니다. 확률 분포가 혼합 된 glm의 일반적인 BTW입니다. 또는 분포가 0에 질량이 없지만 0이 아닌 -1/2에서 시작하는 것을 지원한다고 생각할 수 있습니다. 이론적 관점은 실제로 동일한 계산으로 이어집니다.
지속적인 NB 배포판을 적극적으로 사용하지만 명시 적으로 게시 한 것은 없습니다. 아래 인용 된 논문은 게놈 데이터에 대한 NB 접근 방식을 설명하지만 연속적인 NB 분포를 명시 적으로 논의하지는 않습니다.
요약하자면, 귀하가 연구하는 기사가 NB pdf의 지속적인 버전에서 합리적인 결과를 얻었음을 놀라지 않습니다. 그것이 우리의 경험이기도하기 때문입니다. 핵심 요구 사항은 우리가 평균과 분산을 정확하게 모델링해야하고, 정수에 관계없이 데이터가 NB 분포와 동일한 2 차 평균-분산 관계 형식을 나타내는 경우에는 괜찮을 것입니다.
참고 문헌
Robinson, M. 및 Smyth, GK (2008). SAGE 데이터에 응용하여 음성 이항 분산의 작은 샘플 추정 . 생물 통계학 9, 321-332.
Robinson, MD, Gmy Smyth (2007). 태그 풍부도의 차이를 평가하기위한 중재 된 통계 테스트 . 생물 정보학 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). 생물학적 변이에 대한 다 인자 RNA-Seq 실험의 차등 발현 분석 . 핵산 연구 40, 4288-4297.
Chen, Y, Lun, ATL 및 Smyth, GK (2014). edgeR을 사용한 복잡한 RNA-seq 실험의 차등 발현 분석. 에서 : 차세대 서열 데이터의 통계 분석, Somnath Datta 및 Daniel S Nettleton (eds), Springer, New York, 51–74 쪽. 프리 프린트
Lun, ATL, Chen, Y 및 Smyth, GK (2016). 그것은 de-licious입니다 : edgeR에서 유사 가능성 방법을 사용하여 RNA-seq 실험의 차등 발현 분석을위한 레시피. 분자 생물학 방법 1418, 391-416. 프리 프린트
Chen Y, Lun ATL 및 Smyth, GK (2016). 리드에서 유전자, 경로까지 : Rsubread 및 edgeR 유사 가능성 파이프 라인을 사용한 RNA-Seq 실험의 차등 발현 분석 . F1000 연구 5, 1438.
답변
찬드라, 니 마이 쿠마르, 딜립 로이의 논문을보십시오 . 음 이항 분포의 연속 버전입니다. 통계 72, No. 1 (2012) : 81 .
이 논문에서는 생존 함수로 정의되는데, 이는 이항 법이 신뢰성 분석에 도입 된 이후의 자연스러운 접근 방식입니다.
여기서 및 .