태그 보관물: generalized-linear-model

generalized-linear-model

비율 데이터 변환 : arcsin square root가 충분하지 않은 경우 %의 배수로 엔 다우먼트의 0-100 %를 투자

백분율 / 비율 데이터에 대한 아크 신 제곱근 변환에 대한 (강한?) 대안이 있습니까? 현재 작업중 인 데이터 세트 에서이 변환을 적용한 후에도 현저한 이분산성이 남아 있습니다. 즉 잔차 대 적합치의 플롯은 여전히 ​​마름모꼴입니다.

의견에 응답하기 위해 편집 : 데이터는 10 %의 배수로 엔 다우먼트의 0-100 %를 투자 할 수있는 실험 참가자의 투자 결정입니다. 또한 서수 로지스틱 회귀를 사용하여 이러한 데이터를 살펴 보았지만 유효한 glm이 생성하는 결과를보고 싶습니다. 또한 arcsin square root가 내 분야의 모든 솔루션에 단일 크기로 사용되는 것으로 보이며 채용 된 대안을 찾지 못했기 때문에 미래의 작업에 유용한 대답을 볼 수있었습니다.



답변

확실한. John Tukey는 EDA 에서 (증가, 일대일) 변환 패밀리를 설명합니다 . 다음 아이디어를 기반으로합니다.

  1. 매개 변수에 의해 제어되는대로 테일 (0과 1을 향하여)을 확장 할 수 있습니다.

  2. 그럼에도 불구하고 중간 (

    1/2

    ) 근처의 원래 (변환되지 않은) 값을 일치 시키므로 변환을보다 쉽게 ​​해석 할 수 있습니다.

  3. 약 재 발현 대칭하려면

    1/2.

    경우이고

    p

    재 표현 인

    f(p)

    1p

    재 표현 될 것이다

    f(p)

    .

당신이 어떤 증가 단조 함수로 시작하는 경우

g:(0,1)R

에서 미분

1/2

는 두 번째와 세 번째 기준을 충족 조정할 수 있습니다 : 단지 정의

f(p)=g(p)g(1p)2g(1/2).

p1 p로 바꾸면 빼기가 역전 되므로 분자는 명시 적으로 대칭 (기준

(3)

) 입니다. 있는지 ( 2 ) 분모 만들기에 필요한 인자 정확하게 만족하고, 주 F ( 1 / 2 ) = 1 리콜 그 유도체 리니어하게 근사화 된 함수와 함수의 로컬 동작; 의 기울기 1 = 1 : 1이 되어 있음을 의미 F ( )

p

1p

(2)

f(1/2)=1.

1=1:1

f(p)p

(플러스 정수

1/2

)

p

충분히 확대하는 것이다

1/2.

이 원래의 값이되는 감각 “중앙 근방 일치입니다.”

Tukey는 이것을 “폴딩 된”

g

버전이라고 부릅니다 . 그의 가족은 전원 구성 및 변환 로그

g(p)=pλ

때,

λ=0

, 우리가 고려

g(p)=log(p)

.

몇 가지 예를 살펴 보겠습니다. 하면

λ=1/2

우리가 접힌 루트 또는 GET “froot를”

f(p)=1/2(p1p)

. 하면

λ=0

우리가 절첩 대수 또는 “매질”

f(p)=(log(p)log(1p))/4.

분명히 이것은 단지 정수 배수 인로짓변환,

log(p1p)

.

람다 = 1, 1/2, 0 및 아크 신 그래프

이 그래프에서 파란 선은 대응하는

λ=1

, 중간에 적색 라인

λ=1/2

및 행 극단적 녹색 라인

λ=0

. 점선으로 된 금선은 아크 사인 변환입니다.

arcsin(2p1)/2=arcsin(p)arcsin(1/2)

. 기울기 (기준

(2)

)의 “일치”는모든 그래프가p=1/2근처에서 일치하도록합니다.

p=1/2.

매개 변수

λ

의 가장 유용한 값은

1

0

사이 입니다. (음수 값이

λ

인 경우 꼬리를 더 무겁게 만들 수는 있지만이 용도는 드.니다.)

λ=1

은 최근 값 (

f(p)=p1/2

)을 제외하고는 아무것도하지 않습니다 . 으로

λ

0에 가까워 정신과의 꼬리쪽으로 더 당겨받을

±

. 이것은 기준 # 1을 만족시킵니다. 따라서 적절한

λ

값을 선택 하면 꼬리에서이 재 표현의 “강도”를 제어 할 수 있습니다.


답변

포함하는 한 가지 방법은 인덱스 변환을 포함시키는 것입니다. 한 가지 일반적인 방법은 그래서, 어떤 대칭 (역) 누적 분포 함수를 사용하는 F ( X는 ) = 1 F ( X ) . 한 예는 자유도 가 ν 인 표준 학생 분포 입니다. 매개 변수 v 는 변환 된 변수가 얼마나 빨리 무한대로 방황하는지 제어합니다. v = 1 을 설정 하면 arctan 변환이 있습니다.

F(0)=0.5

F(x)=1F(x)

ν

v

v=1

x=arctan(π[2p1]2)

이것은 아크 사인보다 훨씬 더 극단적이고 로짓 변환보다 더 극단적입니다. 과 t- 분포를 사용하면 로짓 변환을 대략적으로 근사 할 수 있습니다 . 따라서 어떤 식 으로든 로짓과 프로 빗 ( ν = ) 변환 사이의 대략적인 링크와 더 극단적 인 변환으로의 확장을 제공합니다.

ν8

ν=

이러한 변환의 문제점 은 관찰 된 비율이 1 또는 0 를 제공한다는 것 입니다. 따라서 어떤 식 으로든 축소해야합니다. 가장 간단한 방법은 + 1 “성공”및 + 1 “실패”입니다.

±

1

0

+1

+1


답변