5 개의 변수가 있고 0 ~ 70 범위 내에 있어야하는 대상 변수를 예측하려고합니다.
이 정보를 사용하여 대상을 더 잘 모델링하려면 어떻게해야합니까?
답변
반드시 아무것도 할 필요는 없습니다. 예측자가 잘 작동 할 수 있습니다. 하더라도 범위 가능성 (사용하고있는 범위 예측 클램핑 외부 값으로 예측 외삽 대신 ) 할 것이다 잘. 이 모델이 작동하는지 확인하기 위해 모델을 교차 검증하십시오.
max(0,min(70,y^))y^
그러나 제한된 범위는 종속 변수 ( )와 독립 변수 ( x_i ) 간의 비선형 관계 가능성을 높 입니다. 이에 대한 추가 지표는 다음과 같습니다.
yxi
-
y^
가 범위의 중간에있을 때 범위의 양쪽 끝에있는 잔차의 변동과 비교하여 잔차 값의 변동이 더 큽니다 .
-
특정 비선형 관계에 대한 이론적 이유.
-
모델의 잘못된 사양의 증거 (일반적인 방법으로 획득).
-
에서 차 또는 상위 용어의 의의
xi.
이러한 조건 중 하나라도 유지되는 경우 y 의 비선형 재 표현을 고려하십시오
y.
x_i 와 더 선형적인 관계를 만들기 위해 y 를 다시 표현하는 방법에는 여러 가지가 있습니다 . 예를 들어, 간격 [0,70] 에 정의 된 증가 함수 f를 “접힘”하여 y \ to f (y)-f (70-y) 를 통해 대칭 증가 함수를 만들 수 있습니다 . 경우 f는 그 인수에 접근함에 따라 임의로 크고 마이너스가 0 의 절첩 버전 F를 매핑한다 [0,70] 모든 실수로한다. 이러한 함수의 예에는 로그와 음의 힘이 포함됩니다. 로그를 사용하는 것은 @ user603에서 권장하는 “logit link”와 같습니다. 또 다른 방법은 G가
yxi
f
[0,70]
y→f(y)−f(70−y)
f
0
f
[0,70]
G
확률 분포의 역 CDF이고
f(y)=G(y/70). 정규 분포를 사용하면 “프로 빗”변환이 제공됩니다.
가능성이 변환을 시도, 변환의 빠른 회귀 수행 : 변환의 가족을 악용하는 한 가지 방법은 실험하는 것입니다 에 대한 잔류, 그리고 테스트 : 그들은의 예측 값의 독립이 의심되는 (homoscedastic와 상관) . 이는 독립 변수와 선형 관계의 징후입니다. 역변환 된 예측 값 의 잔차 가 작을 경우에도 도움이됩니다 . 이는 변환이 적합도를 개선했음을 나타냅니다. 특이 치의 영향을 방지하려면 반복적으로 가중 된 최소 제곱 과 같은 강력한 회귀 방법을 사용하십시오 .x i y
yxi
y
답변
값이 0-70 범위에 속하는 이유 를 고려해야 합니다. 예를 들어, 70 개 질문에 대한 정답 수인 경우과 분산 된 이항 회귀와 같은 “성공 수”변수에 대한 모형을 고려해야합니다. 다른 이유로 인해 다른 솔루션으로 이어질 수 있습니다.
답변
데이터 변환 : 에 있도록 데이터의 크기를 조정 하고 로짓 링크가있는 glm 모델을 사용 하여 데이터를 모델링하십시오.
[0,1]편집 : 벡터를 다시 스케일 할 때 (즉, 모든 요소를 가장 큰 항목으로 나눕니다) 일반적으로 그렇게하기 전에 특이 치에 대한 스크린 (눈알)을 만드십시오.
최신 정보
R에 액세스 할 수 있다고 가정하면 강력한 glm 루틴으로 모델링 부분을 수행 할 것 입니다. 패키지의 참조하십시오 .
glmrob()robustbase