태그 보관물: data-transformation

data-transformation

주요 관심 대상이 아닌 모든 변수를 로그 변환하지 않는 이유는 무엇입니까? 의존하고 예측 변수의 정규성은 회귀의 가정이

책과 토론에는 종종 예측 변수에 문제가있을 때 (몇 가지가 있음) 로그 변환이 가능하다는 내용이 있습니다. 저는 이것이 분포에 의존하고 예측 변수의 정규성은 회귀의 가정이 아니라는 것을 이해합니다. 그러나 로그 변환은 데이터의 균일 성을 높이고 특이 치의 영향을 덜받습니다.

나는 주요 interesr가 아닌 모든 연속 변수, 즉 내가 조정하는 변수를 로그 변환하는 것에 대해 생각했습니다.

그게 잘못이야? 좋은? 쓸모없는?



답변

이제 예측 변수의 분포와 정규성에 따라 달라집니다

로그 변환은 데이터를보다 균일하게 만듭니다

일반적인 주장으로, 이것은 거짓입니다. — 그렇더라도 균일 성 이 중요한 이유는 무엇입니까?

예를 들어,

i) 1과 2의 값만 취하는 이진 예측 변수 로그를 취하면 0과 로그 2의 값만 취하는 이진 예측 변수로 남게됩니다.이 예측 변수와 관련된 항의 절편과 스케일링을 제외하고는 실제로 영향을 미치지 않습니다. 적합치와 마찬가지로 예측 변수의 p- 값도 변경되지 않습니다.

ii) 왼쪽으로 치우친 예측자를 고려하십시오. 이제 통나무를 가져 가라. 일반적으로 왼쪽으로 치우칩니다.

iii) 균일 한 데이터가 왼쪽으로 치우친 다

(그러나 종종 그렇게 극단적 인 변화는 아닙니다)

특이 치의 영향을 덜 받음

일반적인 주장으로, 이것은 거짓입니다. 예측 변수에서 낮은 특이 치를 고려하십시오.

주요 관심사가 아닌 모든 연속 변수를 로그로 변환하는 것에 대해 생각했습니다.

끝까지? 원래 관계가 선형 인 경우 더 이상 관계가 없습니다.

그리고 그들이 이미 구부러져 있다면, 이것을 자동으로 수행하면 더 나빠지거나 더 구부러 질 수 있습니다.

예측 변수 (일차 관심사에 관계없이)를 기록하는 것이 때때로 적합 할 수도 있지만 항상 그렇지는 않습니다.


답변

제 생각에는 로그 변환 (및 그 문제에 대한 모든 데이터 변환) 을 수행하는 것이 의미가 없습니다 . 이전 답변에서 언급했듯이 데이터에 따라 일부 변환은 유효하지 않거나 쓸모가 없습니다 . 내가보기 엔 다음과 같은 이럴 우수한 읽어보실 것을 추천 소개 자료 에 대한 데이터 변환 : http://fmwww.bc.edu/repec/bocode/t/transint.html를 . 이 문서의 코드 예제는 Stata 언어로 작성 되었지만 그렇지 않은 경우이 문서 는 일반적 이므로 Staa 이외의 사용자에게도 유용합니다.

정규성 부족 , 특이 치혼합 분포 와 같은 일반적인 데이터 관련 문제 를 처리 하기 위한 몇 가지 간단한 기술과 도구이 기사 에서 찾을 수 있습니다 ( 혼합 분포를 다루는 접근법으로서의 계층화 는 가장 간단한 것임). 이에 대한보다 일반적이고 복잡한 접근 방식 은 유한 혼합물 모델 이라고도하는 혼합물 분석 이며 , 이에 대한 설명은이 답변의 범위를 벗어납니다. 박스 콕스 변환위의 두 참조에서 간략하게 언급 한 것처럼, 특히 비정규 데이터 (일부 경고가있는 경우)의 경우 중요한 데이터 변환입니다. Box-Cox 변환에 대한 자세한 내용은이 소개 기사 를 참조 하십시오 .


답변

로그 변환이 항상 개선되지는 않습니다. 분명히 0 또는 음수 값을 달성하는 변수는 로그 변환 할 수 없으며, 0을 포옹하는 양수 변수는 로그 변환 된 경우 음수 이상 치가 나올 수 있습니다.

일상적으로 모든 것을 기록해야 할뿐만 아니라 모형을 피팅하기 전에 선택한 양성 예측 변수 (적절하게는 종종 로그이지만 다른 것)를 변환하는 것이 좋습니다. 반응 변수도 마찬가지입니다. 주제 지식도 중요합니다. 물리학 또는 사회학의 이론이나 자연스럽게 특정 변형을 초래할 수있는 모든 이론. 일반적으로 양으로 치우친 변수가 있으면 로그 (또는 제곱근 또는 역수)가 도움이 될 수 있습니다.

일부 회귀 텍스트는 변환을 고려하기 전에 진단 그림을 봐야한다고 제안하지만, 나는 동의하지 않습니다. 모델을 설치하기 전에 이러한 선택을 할 수있는 최선의 작업을 수행하는 것이 가장 좋다고 생각합니다. 그런 다음 진단을보고 조정해야하는지 확인하십시오.


답변

1) 카운트 데이터 (y> 0)-> log (y) 또는 y = exp (b0 + biXi) 2) 카운트 데이터 + 제로 (y> = 0)-> 허들 모델 (이항 + 카운트 등록) 3) 모두 다중 효과 (& 오류)는 가산 적입니다 4) 분산 ~ 평균-> log (y) 또는 y = exp (b0 + biXi) 5) …


답변