선형 회귀를 사용하여 고객의 로그 (지출)를 예측하는 문제에 대해 생각하고 있습니다.
입력으로 사용할 기능을 고려하고 변수의 백분위 수를 입력으로 사용할 수 있는지 궁금합니다.
예를 들어 회사 수입을 입력으로 사용할 수 있습니다. 내가 궁금한 것은 회사 매출 백분위 수를 대신 사용할 수 있는지 여부입니다.
또 다른 예는 범주 형 산업 분류기 (NAICS)입니다. NAICS 코드 당 평균 지출을보고 각 NAICS 코드를 ‘NAICS Percentile’에 할당하려는 경우 사용할 수있는 유효한 설명 변수가 있습니까?
백분위 수를 사용할 때 알아야 할 문제가 있는지 궁금하십니까? 어떤 방식으로 기능 스케일링 유형과 동등합니까?
답변
모델에 확고한 수익이 발생하면 백분위 수를 사용할 수 있습니다. 로그 백분위 수가 더 의미있는 것처럼 보이거나 Quantile은 선형 적으로 가치가 없을 것입니다.
이 스토리에는 관찰 회사에서 수익이있는 회사의 ln (%)이 포함됩니다. 이야기는 매출이 높을수록 수익이 낮은 회사보다 평판이 좋고 “경쟁보다 더 많은 것”이라는 관계는 수익 자체가 아니라 관련이 있다는 것입니다. 나는 이것을 회사의 인정과 브랜딩의 중요한 부분으로 볼 수있었습니다.