현재 family = gaussian
0보다 낮은 값을 가질 수 없으며 0으로 팽창하고 연속적 인 생물 다양성의 지표에 선형 모델 ( ) 을 적용하려고합니다 . 값의 범위는 0에서 0.25를 약간 상회합니다. 결과적으로, 내가 제거하지 못한 모델의 잔차에는 분명한 패턴이 있습니다.
누구든지 이것을 해결하는 방법에 대한 아이디어가 있습니까?
답변
제로 팽창 (반) 연속 분포의 경우에 대한 다양한 솔루션이 있습니다.
- Tobit regression : 데이터가 단일 기본 정규 분포에서 나온 것으로 가정하지만 음수 값은 0으로 검열되고 누적됩니다 (예 : censReg package )
- 허들 또는 “2 단계”모델 : 이항 모형을 사용하여 값이 0인지> 0인지를 예측 한 다음 선형 모델 (또는 감마 또는 잘린 법선 또는 로그-정규)을 사용하여 관찰 된 0이 아닌 값을 모델링합니다.
- Tweedie 분포 : 주어진 범위의 모양 모수 ( ) 에 대해 지수 군의 분포는 0에서 점 질량을 가지며 대한 비대칭 분포 (예 : tweedie , cplm 패키지)
또는 데이터 구조가 충분히 단순하면 선형 모델을 사용하고 순열 테스트 또는 다른 강력한 접근 방식을 사용하여 흥미로운 데이터 분포로 인해 추론이 엉망이되지 않도록 할 수 있습니다.
대부분의 경우에 사용할 수있는 R 패키지 / 솔루션이 있습니다.
SE에 제로 팽창 (반) 연속 데이터 (예 : here , here 및 here ) 에 대한 다른 질문이 있지만 명확한 일반적인 대답을 제공하지 않는 것 같습니다 ...
개요는 Min & Agresti, 2002, Clumping at Zero : A Survey 를 이용한 음이 아닌 데이터 모델링 : 조사 를 참조하십시오.