백분율 / 비율 데이터에 대한 아크 신 제곱근 변환에 대한 (강한?) 대안이 있습니까? 현재 작업중 인 데이터 세트 에서이 변환을 적용한 후에도 현저한 이분산성이 남아 있습니다. 즉 잔차 대 적합치의 플롯은 여전히 마름모꼴입니다.
의견에 응답하기 위해 편집 : 데이터는 10 %의 배수로 엔 다우먼트의 0-100 %를 투자 할 수있는 실험 참가자의 투자 결정입니다. 또한 서수 로지스틱 회귀를 사용하여 이러한 데이터를 살펴 보았지만 유효한 glm이 생성하는 결과를보고 싶습니다. 또한 arcsin square root가 내 분야의 모든 솔루션에 단일 크기로 사용되는 것으로 보이며 채용 된 대안을 찾지 못했기 때문에 미래의 작업에 유용한 대답을 볼 수있었습니다.
답변
확실한. John Tukey는 EDA 에서 (증가, 일대일) 변환 패밀리를 설명합니다 . 다음 아이디어를 기반으로합니다.
-
매개 변수에 의해 제어되는대로 테일 (0과 1을 향하여)을 확장 할 수 있습니다.
-
그럼에도 불구하고 중간 (
) 근처의 원래 (변환되지 않은) 값을 일치 시키므로 변환을보다 쉽게 해석 할 수 있습니다.
-
약 재 발현 대칭하려면
경우이고
재 표현 인
후
재 표현 될 것이다
.
당신이 어떤 증가 단조 함수로 시작하는 경우
에서 미분
는 두 번째와 세 번째 기준을 충족 조정할 수 있습니다 : 단지 정의
p 를 1 – p로 바꾸면 빼기가 역전 되므로 분자는 명시 적으로 대칭 (기준
) 입니다. 있는지 ( 2 ) 분모 만들기에 필요한 인자 정확하게 만족하고, 주 F ‘ ( 1 / 2 ) = 1 리콜 그 유도체 리니어하게 근사화 된 함수와 함수의 로컬 동작; 의 기울기 1 = 1 : 1이 되어 있음을 의미 F ( 쪽 ) ≈ 쪽
(플러스 정수
)
충분히 확대하는 것이다
이 원래의 값이되는 감각 “중앙 근방 일치입니다.”
Tukey는 이것을 “폴딩 된”
버전이라고 부릅니다 . 그의 가족은 전원 구성 및 변환 로그
때,
, 우리가 고려
.
몇 가지 예를 살펴 보겠습니다. 하면
우리가 접힌 루트 또는 GET “froot를”
. 하면
우리가 절첩 대수 또는 “매질”
분명히 이것은 단지 정수 배수 인로짓변환,
.
이 그래프에서 파란 선은 대응하는
, 중간에 적색 라인
및 행 극단적 녹색 라인
. 점선으로 된 금선은 아크 사인 변환입니다.
. 기울기 (기준
)의 “일치”는모든 그래프가p=1/2근처에서 일치하도록합니다.
매개 변수
의 가장 유용한 값은
과
사이 입니다. (음수 값이
인 경우 꼬리를 더 무겁게 만들 수는 있지만이 용도는 드.니다.)
은 최근 값 (
)을 제외하고는 아무것도하지 않습니다 . 으로
0에 가까워 정신과의 꼬리쪽으로 더 당겨받을
. 이것은 기준 # 1을 만족시킵니다. 따라서 적절한
값을 선택 하면 꼬리에서이 재 표현의 “강도”를 제어 할 수 있습니다.
답변
포함하는 한 가지 방법은 인덱스 변환을 포함시키는 것입니다. 한 가지 일반적인 방법은 그래서, 어떤 대칭 (역) 누적 분포 함수를 사용하는 및 F ( X는 ) = 1 – F ( – X ) . 한 예는 자유도 가 ν 인 표준 학생 분포 입니다. 매개 변수 v 는 변환 된 변수가 얼마나 빨리 무한대로 방황하는지 제어합니다. v = 1 을 설정 하면 arctan 변환이 있습니다.
이것은 아크 사인보다 훨씬 더 극단적이고 로짓 변환보다 더 극단적입니다. 과 t- 분포를 사용하면 로짓 변환을 대략적으로 근사 할 수 있습니다 . 따라서 어떤 식 으로든 로짓과 프로 빗 ( ν = ∞ ) 변환 사이의 대략적인 링크와 더 극단적 인 변환으로의 확장을 제공합니다.
이러한 변환의 문제점 은 관찰 된 비율이 1 또는 0 일 때 를 제공한다는 것 입니다. 따라서 어떤 식 으로든 축소해야합니다. 가장 간단한 방법은 + 1 “성공”및 + 1 “실패”입니다.