경계 타겟 변수를 모델링하는 방법은 무엇입니까? 범위 내에 있어야하는 대상

5 개의 변수가 있고 0 ~ 70 범위 내에 있어야하는 대상 변수를 예측하려고합니다.

이 정보를 사용하여 대상을 더 잘 모델링하려면 어떻게해야합니까?



답변

반드시 아무것도 할 필요는 없습니다. 예측자가 잘 작동 할 수 있습니다. 하더라도 범위 가능성 (사용하고있는 범위 예측 클램핑 외부 값으로 예측 외삽 대신 ) 할 것이다 잘. 이 모델이 작동하는지 확인하기 위해 모델을 교차 검증하십시오.

max(0,min(70,y^))

y^

그러나 제한된 범위는 종속 변수 ( )와 독립 변수 ( x_i ) 간의 비선형 관계 가능성을 높 입니다. 이에 대한 추가 지표는 다음과 같습니다.

y

xi
  • y^

    가 범위의 중간에있을 때 범위의 양쪽 끝에있는 잔차의 변동과 비교하여 잔차 값의 변동이 더 큽니다 .

  • 특정 비선형 관계에 대한 이론적 이유.

  • 모델의 잘못된 사양의 증거 (일반적인 방법으로 획득).

  • 에서 차 또는 상위 용어의 의의

    xi

    .

이러한 조건 중 하나라도 유지되는 경우 y 의 비선형 재 표현을 고려하십시오

y

.

x_i 와 더 선형적인 관계를 만들기 위해 y 를 다시 표현하는 방법에는 여러 가지가 있습니다 . 예를 들어, 간격 [0,70] 에 정의 된 증가 함수 f를 “접힘”하여 y \ to f (y)-f (70-y) 를 통해 대칭 증가 함수를 만들 수 있습니다 . 경우 f는 그 인수에 접근함에 따라 임의로 크고 마이너스가 0 의 절첩 버전 F를 매핑한다 [0,70] 모든 실수로한다. 이러한 함수의 예에는 로그와 음의 힘이 포함됩니다. 로그를 사용하는 것은 @ user603에서 권장하는 “logit link”와 같습니다. 또 다른 방법은 G가

y

xi

f

[0,70]

y→f(y)−f(70−y)

f

0

f

[0,70]

G

확률 분포의 역 CDF이고

f(y)=G(y/70)

. 정규 분포를 사용하면 “프로 빗”변환이 제공됩니다.

가능성이 변환을 시도, 변환의 빠른 회귀 수행 : 변환의 가족을 악용하는 한 가지 방법은 실험하는 것입니다 에 대한 잔류, 그리고 테스트 : 그들은의 예측 값의 독립이 의심되는 (homoscedastic와 상관) . 이는 독립 변수와 선형 관계의 징후입니다. 역변환 된 예측 값 의 잔차 가 작을 경우에도 도움이됩니다 . 이는 변환이 적합도를 개선했음을 나타냅니다. 특이 치의 영향을 방지하려면 반복적으로 가중 된 최소 제곱 과 같은 강력한 회귀 방법을 사용하십시오 .x i y

y

xi

y


답변

값이 0-70 범위에 속하는 이유 를 고려해야 합니다. 예를 들어, 70 개 질문에 대한 정답 수인 경우과 분산 된 이항 회귀와 같은 “성공 수”변수에 대한 모형을 고려해야합니다. 다른 이유로 인해 다른 솔루션으로 이어질 수 있습니다.


답변

데이터 변환 : 에 있도록 데이터의 크기를 조정 하고 로짓 링크가있는 glm 모델을 사용 하여 데이터를 모델링하십시오.

[0,1]

편집 : 벡터를 다시 스케일 할 때 (즉, 모든 요소를 ​​가장 큰 항목으로 나눕니다) 일반적으로 그렇게하기 전에 특이 치에 대한 스크린 (눈알)을 만드십시오.

최신 정보

R에 액세스 할 수 있다고 가정하면 강력한 glm 루틴으로 모델링 부분을 수행 할 것 입니다. 패키지의 참조하십시오 .

glmrob()

robustbase