태그 보관물: data-transformation

data-transformation

카운트 데이터에 왜 제곱근 변환이 권장됩니까? 할 때 로그는

카운트 데이터가있을 때 제곱근을 취하는 것이 종종 권장됩니다. (CV에 대한 몇 가지 예는 @HarveyMotulsky의 대답은 여기 또는 @whuber의 대답은 여기를 참조하십시오 .) 반면 포아송으로 분포 된 반응 변수가있는 일반화 된 선형 모형을 피팅 할 때 로그는 정식 링크 입니다. 이것은 응답 데이터의 로그 변환을 수행하는 것과 비슷합니다 (더 정확하게 는 응답 분포를 제어하는 ​​매개 변수 인 의 로그 변환을 수행함 ). 따라서이 둘 사이에는 약간의 긴장이 있습니다.

λ

  • 이 (명확한) 불일치를 어떻게 조정합니까?
  • 왜 제곱근이 대수보다 낫습니까?


답변

제곱근은 포아송에 대해 거의 분산 안정화입니다 . 제곱근에는 을 추가하는

38

등의 속성을 향상시키는 여러 변형이 있습니다.

X+X+1

여기에 이미지 설명을 입력하십시오

23

여기에 이미지 설명을 입력하십시오

Poisson의 매개 변수가 실제로 작지 않은 한 특히 정규 근방을 원하고 이분산성을 신경 쓰지 않고 조정할 수있는 경우 시도하십시오.

23

정식 링크는 일반적으로 포아송 데이터에 대해 특히 좋은 변환이 아닙니다 . log zero는 특정 문제입니다 (또 다른 것은 이분산성입니다. 0이없는 경우에도 왼쪽 왜곡을 얻을 수 있습니다). 가장 작은 값이 0에 너무 가까우면 평균을 선형화하는 데 유용 할 수 있습니다. 여러 상황에서 Poisson 의 조건부 모집단 평균 에 대한 좋은 ‘변형’ 이지만 항상 Poisson 데이터의 것은 아닙니다. 그러나 변환하려는 경우 하나의 일반적인 전략은 상수 를 추가하는 것입니다.

y=log(y+c)

0

c

0.4

0.5

μ

12

0.43

사람들이 왜 다른 것을 선택하거나 다른 것보다 하나의 변환을 선택하는지에 관해서는-그것이 실제로 달성하기 위해 무엇을하고 있는지의 문제입니다.

[1] : “일반화 된 선형 모형 및 변환 된 잔차”유인물에서 Henrik Bengtsson의 음모에 따라 패턴 된 도표는 여기를 참조하십시오
(p4의 첫 번째 슬라이드 참조). 나는 약간의 y 지터를 추가하고 라인을 생략했습니다.


답변