태그 보관물: regression

regression

가격을 모델링하는 방법? 대해서도 듣고 싶습니다. 내가 시도한 것 지금까지 실험해온

나는 matemathics stackexchange site 에서이 질문 을했고 여기에서 물어볼 것을 권장했다.

취미 프로젝트를 진행 중이며 다음 문제에 대한 도움이 필요합니다.

약간의 맥락

기능과 가격에 대한 설명이있는 항목 모음이 있다고 가정 해 봅시다. 자동차와 가격 목록을 상상해보십시오. 모든 자동차에는 엔진 크기, 색상, 마력, 모델, 연도 등 기능 목록이 있습니다. 각 제조업체마다 다음과 같은 기능이 있습니다.

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

더 나아가서 가격이 표시된 자동차 목록은 시간 간격으로 게시되므로 과거 가격 데이터에 액세스 할 수 있습니다. 항상 정확히 같은 자동차를 포함 할 수는 없습니다.

문제

이 기본 정보를 기반으로 자동차의 가격을 모델링하는 방법을 이해하고 싶습니다. 가장 중요한 것은 초기 목록에없는 자동차입니다.

Ford, v6, red, automatic, 130hp, 2009

위의 자동차의 경우 목록의 자동차와 거의 동일하며 마력과 연도가 약간 다릅니다. 가격을 책정하려면 무엇이 필요합니까?

내가 찾고있는 것은 실용적이고 간단한 것이지만, 이와 같은 것을 모델링하는 방법에 대한 더 복잡한 접근법에 대해서도 듣고 싶습니다.

내가 시도한 것

지금까지 실험해온 내용은 ​​다음과 같습니다.

1) 자동차 X 조회에 이력 데이터 사용. 찾을 수없는 경우 가격이 없습니다. 이것은 물론 매우 제한적이며 시간이 지남에 따라 알려진 자동차의 가격을 변경하기 위해 약간의 시간 감퇴와 함께 이것을 사용할 수 있습니다.

2) 가격이 책정 된 샘플 자동차와 함께 자동차 기능 가중치 체계를 사용합니다. 기본적으로 기본 가격이 있으며 기능은 일부 요인으로 변경합니다. 이를 기반으로 모든 자동차 가격이 도출됩니다.

첫 번째는 충분하지 않으며 두 번째는 항상 정확하지는 않았으며 가중치를 사용하는 가장 좋은 방법은 없었습니다. 이것은 또한 가중치를 유지하는 데 약간 무거운 것으로 보이므로 역사적인 데이터를 통계로 사용하여 가중치를 얻거나 다른 것을 얻을 수있는 방법이 있다고 생각합니다. 어디서부터 시작해야할지 모르겠습니다.

다른 중요한 측면들

  • 내가 가지고있는 소프트웨어 프로젝트에 통합하십시오. 기존 라이브러리를 사용하거나 알고리즘을 직접 작성하십시오.
  • 새로운 과거 데이터가 들어올 때 빠른 재 계산.

이와 같은 문제에 어떻게 접근 할 수 있습니까? 모든 아이디어는 환영 이상입니다.

미리 감사 드리며 귀하의 제안을 기다리겠습니다!



답변

“실용적”과 “간단한”은 최소 제곱 회귀를 제안 합니다. 많은 소프트웨어 (R, Excel, Mathematica, 모든 통계 패키지)를 사용하여 설정하기 쉽고, 쉽게 해석 할 수 있으며, 얼마나 정확한지, 얼마나 힘든지에 따라 여러 가지 방법으로 확장 할 수 있습니다. 일을 할 의지.

이 접근 방식은 본질적으로 “가중 구성표”(2)이지만 가중치를 쉽게 찾고 가능한 한 많은 정확도를 보장하며 쉽고 빠르게 업데이트 할 수 있습니다. 있습니다 부하 최소 제곱 계산을 수행하는 라이브러리는.

목록에 나열된 변수 (엔진 유형, 동력 등)뿐만 아니라 자동차 수명 도 포함시키는 데 도움이됩니다 . 또한 인플레이션에 대한 가격을 조정하십시오.


답변

@whuber에 동의합니다. 선형 회귀 분석은 갈 길이지만 결과를 해석 할 때는주의를 기울여야합니다. 문제는 경제학에서 가격은 항상 수요와 관련이 있다는 것입니다. 수요가 증가하면 가격이 상승하고 수요가 감소하면 가격이 하락합니다. 따라서 가격은 수요에 의해 결정되고 대가는 가격에 의해 결정됩니다. 따라서 수요가없는 일부 속성에서 회귀로 가격을 모형화하면 변수 편차생략 되어 회귀 추정값이 잘못 될 위험이 있습니다 .


답변

내가 찾고있는 것은 실용적이고 간단한 것이지만, 이와 같은 것을 모델링하는 방법에 대한 더 복잡한 접근법에 대해서도 듣고 싶습니다.

일종의 토론 후, 여기에 대한 나의 완전한 견해가 있습니다.

문제

목표 : 더 나은 방법으로 자동차 가격을 책정하는 방법 이해

상황 : 의사 결정 과정에서 사람들은 몇 가지 질문을 해결합니다. 자동차가 필요하다면 내가 가장 선호하는 속성 (가격 포함, 합리적인 가격, 최고의 품질 / 가격 비율의 자동차를 원하기 때문에 가격 포함)이 필요한가요? 서로 다른 자동차 사이의 속성 수를 비교하고 함께 평가하는 것을 선택하십시오 .

판매자 입장에서 가능한 한 높은 가격을 설정하고 가능한 한 빨리 자동차를 판매하고 싶습니다. 따라서 가격을 너무 높게 설정하고 몇 개월을 기다리는 경우 시장에서 요구되지 않은 것으로 간주 될 수 있으며 매우 요구되는 속성 세트와 비교하여 0으로 표시됩니다.

관찰 : 특정 자동차의 속성을 협상 과정 내에서 설정된 가격과 관련시키는 실제 거래 (이전의 언급과 관련하여 거래를 설정하는 데 걸리는 시간을 아는 것이 중요 함).

장점 : 실제로 시장에서 구입 한 것을 관찰하므로 예약 가격이 높은 사람이 특정 자동차를 사고 싶어하는지 추측하지 않습니다.

단점 :

  1. 당신의 가정은 시장이 효율적이며, 관찰 한 가격이 균형에 가깝다는 것을 의미합니다
  2. 구매하지 않았거나 거래를 설정하는 데 너무 오래 걸린 자동차 속성의 변형을 무시하므로 통찰력 이 편향됩니다. 하므로 실제로 잠재 변수 모델로 작업합니다.
  3. 데이터를 오랫동안 관찰하면 수축을 줄여야하지만, 자동차 연령을 포함하면이를 보완 할 수 있습니다.

솔루션 방법

whuber가 제안한 첫 번째 것은 고전 최소 제곱 회귀 모델입니다.

장점 :

  1. 실제로 계량 경제학의 주역 인 가장 간단한 솔루션

단점 :

  1. 불완전하게 사물을 관찰한다는 것을 무시합니다 ( 잠재적 변수 )
  2. 기본 모델은 당신이 좋아하는 수 있다는 사실은 무시하도록 회귀 변수는 다른 독립적 인 하나의 역할을 파란색 포드를 다르게 파란색 벤츠를 하지만 파란색과 포드에서 오는 한계 영향의 합이 아니다

고전적 회귀의 경우 자유도에 제한이 없으므로 다른 교호 작용 항도 시도해보십시오.

따라서 더 복잡한 솔루션은 tobit 또는 Heckman 모델입니다 . AC Cameron 및 PK Trivedi Microeconometrics : 방법 및 응용 프로그램 을 참조하십시오 . 입니다. 핵심 방법에 대한 자세한 내용은 을 참조하십시오.

장점 :

  1. 사람들이 일부 속성 세트를 전혀 좋아하지 않거나 일부 속성 세트가 실제 가격 설정 에서 구입할 가능성이 적다는 사실을 분리 합니다
  2. 결과가 치우 치지 않습니다 (또는 적어도 첫 번째 경우보다 작음)
  3. Heckman의 경우 특정 차량을 구매하려는 동기를이 차량에 대해 얼마를 지불하고 싶은지 결정하는 가격 결정과 분리합니다.

단점 :

  1. 두 모델 모두 데이터 가 더 탐욕적입니다 . 즉, 요청과 입찰 사이의 시간 길이를 균등화하기 위해 (1이 아닌 경우 0), 시장이 무시한 세트를 관찰해야합니다.

마지막으로 가격이 구매 확률에 어떻게 영향을 미치는지에 관심이 있다면 어떤 종류의 로짓 모델을 사용할 수 있습니다.

문맥과 관측 값이 다르기 때문에 합동 분석 이 적합하지 않다는 데 동의했습니다 .

행운을 빕니다.


답변

그것은 선형 회귀 문제처럼 보이지만 K 가장 가까운 이웃 KNN 은 어떻 습니까 ? 각 차량 사이의 거리 공식을 생각해보고 가장 가까운 K (예 : 3) 사이의 평균으로 가격을 계산할 수 있습니다. 원거리의 차이와 문의 차이, 마력의 차이 등과 같은 거리 공식은 유클리드가 될 수 있습니다.

선형 회귀 분석을 사용하면 몇 가지 사항을 제안합니다.

  • 인플레이션을 설명하기 위해 달러 가치를 현대까지 확대하십시오.
  • 데이터를 시대로 나눕니다. 예를 들어 ww2 이전과 ww2 이후에 하나의 모델이 필요하다는 것을 알게 될 것입니다. 이것은 단지 직감입니다.
  • 과도한 피팅을 피하기 위해 모델을 교차 검증하십시오. 데이터를 5 개의 청크로 나눕니다. 4를 훈련시키고 5 번째 청크에서 모델을 움직입니다. 오류를 정리하고 헹구고 다른 덩어리에 대해 반복하십시오.

또 다른 아이디어는 모델간에 하이브리드를 만드는 것입니다. regresion과 KNN을 모두 데이터 포인트로 사용하고 최종 가격을 가중 평균 또는 무언가로 만듭니다.


답변

이미 언급 된 내용과는 달리 이미 제시된 제안과 크게 다르지 않은 경우, hedonic 가격 모델 에 대한 방대한 문헌을 살펴볼 수 있습니다. 입니다. 요약하자면, 복합재 가격을 속성의 함수로 설명하려는 회귀 모델이 있습니다.

이를 통해 샘플에 정확히 유사한 속성 조합이없는 경우에도 속성 (마력, 크기, 브랜드 등)을 알고있는 자동차의 가격을 책정 할 수 있습니다. 실제 상태 속성과 같이 본질적으로 복제 할 수없는 자산을 평가하는 데 가장 널리 사용되는 방법입니다. “고혈압 모델”에 대해 Google을 사용한다면 많은 참고 문헌과 예제를 찾을 수 있습니다.


답변