데이터 과학자 인터뷰 질문 : 선형 회귀가 낮은 및 무엇을 하시겠습니까? 불구하고 모델에

면접관이 귀하의 가 가격 탄력성 모델에 대해 매우 낮다고 (5-10 % 사이) 가정 한 작업에 대한 인터뷰 질문에 직면했습니다 . 이 질문을 어떻게 해결 하시겠습니까?

R2

무엇이 잘못되었거나 선형이 아닌 방법을 적용해야하는지 확인하기 위해 회귀 진단을 수행한다는 사실 이외의 다른 생각은 할 수 없었습니다. 어떻게 든 면접관이 내 대답에 만족하지 않았다고 생각합니다. 가 낮음에도 불구하고 모델에 적합하고 생산 수준 예측에 사용하기 위해 이러한 시나리오에서 수행되는 다른 작업이 있습니까?

R2

편집 : 나중 단계에서 그들은 인터뷰 중에 문제를 모델링하는 데 필요한 데이터를 제공했으며 지연 된 변수, 경쟁사 가격의 영향, 계절성 인형을 추가하여 차이가 있는지 확인했습니다. 는 17.6 %로 떨어졌고 홀드 아웃 샘플의 성능은 떨어졌습니다. 개인적으로 나는 잘못된 결과를 제공하고 고객 손실을 초래할 수있는 라이브 환경에서 예측을 위해 그러한 모델을 배치하는 것이 비 윤리적이라고 생각합니다 (귀하의 회사 수익에 대한 그러한 모델의 가격 제안을 사용하여 상상하십시오!). 모든 사람들이 알아야 할 너무 명백한 시나리오에서 수행되는 다른 것이 있습니까? 내가 모르는 것, ‘은 총알’이라고 말하고 싶은 유혹이 있습니까?

R2

또한 외인성 변수 를 추가 한 후 2 % 더 개선 한 후이 시나리오에서 수행 할 수있는 작업을 상상해보십시오 . 모델링 프로젝트를 폐기해야합니까, 아니면 홀드 아웃 샘플의 성능으로 표시되는 생산 수준 품질 모델을 개발할 희망이 있습니까?

R2

Edit2 : 나는 경제학 의 관점 에서이 문제를 이해하기 위해 경제학 .stackexchange.com 포럼 에이 질문을 게시 했습니다.



답변

이 관점에서 문제를 보면 어떨까요? 가격 탄력성은 수요와 제품 가격 간의 관계입니다.

이 상황에서 r-square가 낮 으면 특정 제품에 대한 가격과 수요의 관계가 강력하지 않다는 것을 암시 할 수 있습니다.

가격 측면에서 볼 때 수요에 큰 영향을 미치지 않고 임의로 가격을 책정 할 수있는 제품을 찾거나 차등 가격에도 불구하고 수요가 매우 불규칙하다는 것을 알 수 있습니다.

Veblen 제품 을 보면 탄성이 반대의 예입니다. 가격이 상승함에 따라 수요가 증가합니다.

반면에, r- 제곱이 낮 으면 이는 단순히 수요가 발생할 때 가격이 상대적으로 중요하지 않은 제품 범주를 의미 할 수 있습니다. 내 머리 꼭대기에서 암 약물은이 속성을 고수 할 수있는 것일 수 있습니다. 의약품의 중요성이 가격을 능가하는 경우, 이는 수요량에 영향을 미치지 않습니다.

결론적으로, 나는 면접관의 의도가 더 높은 r-square로 더 나은 모델을 만드는 방법을 찾는 대신 낮은 r-square의 의미가 무엇을 의미하는지 판단하는 것이었을 수도 있다고 가정합니다.


답변

나는 면접관이 무엇을했는지 확실하지 않지만, 불충분 한 사전 형성 모델에 직면 할 때 이것들은 내가 고려한 것들이며, 면접관으로서 청문회를 듣고 싶어하는 답이다 (이후 몇 년 동안 면담이 있었다).

  1. 더 많은 데이터 얻기 : 항상 도움이되는 것은 아니지만이 솔루션 효과를 평가하는 데 도움이되는 몇 가지 사항이 있습니다.

    • 다른 표본 크기로 모델을 실행하십시오. 더 많은 데이터로 결과가 개선되면 더 많은 데이터를 얻는 것이 모델 성능을 계속 향상 시킨다고 가정하는 것이 합리적입니다.
    • 기능 대 샘플 비율-기능을 선택한 후 각 기능 값당 충분한 샘플이 있는지 이해하십시오. 이 주제에 대한 답변을 참조하십시오 .
    • 누락 된 목표 값-다른 가격대에서 탄력성이 유사하게 작동하지 않을 수 있습니다. 표본 데이터가 특정 범위로 편향되어있는 상황에서는 일반화 할 수 없을 가능성이 높습니다 (예 : 표본의 90 %는 0-10 사이의 가격에 대한 것이고 다른 10 %는 사이에 가격에 대한 것입니다) 1000-10000). 더 많은 데이터를 얻는 것 이외의 다른 방법으로이 문제를 해결할 수 있습니다 (모델 학습 분할, 회귀 사용 안 함)
  2. 더 나은 기능 엔지니어링 : 충분한 데이터가 있고 딥 러닝에 대해 알고 있다면 이것은 관련이 없습니다. 언급 된 기준에 맞지 않는 경우이 기준에 노력을 집중하십시오. 사용자 행동 모델에는 기계 교육 모델보다 인간 직관이 더 잘 이해되는 많은 관계가 있습니다.
    두 가지 더 많은 기능을 설계하고 모델 성능을 크게 향상시킨 경우와 같습니다. 이 단계에는 일반적으로 논리 기반 코드 (If Elses / 수학 공식)가 포함되므로 오류가 발생하기 쉽습니다.

  3. 더 나은 모델 선택 : 제안한 바와 같이 비선형 모델이 더 잘 작동 할 수 있습니다. 데이터가 균일합니까? 교차 특성이 가격 탄력성을 더 잘 설명 할 것이라고 믿을만한 이유가 있습니까? (계절 * 경쟁사 가격).

  4. 하이퍼 매개 변수 튜닝 : 그리드 검색 모델의 하이퍼 매개 변수 (+ 교차 유효성 검사 결과)는 좋은 습관이지만 내 경험으로는 성능을 크게 향상시키지 않습니다 (확실히 5 %에서 90 %가 아님).

할 수있는 일이 더 있지만, 이러한 점은 충분히 일반적입니다.


답변

@DaFanat 및 @Arun이 제안한 것 외에도 시각적 검사가 도움이 될 수 있다고 덧붙이고 싶습니다.

예를 들어 일부 특이 치가 영향을주는 경우가 있습니다 . 매출 관리 문제를 해결하면서 영향력있는 포인트 를 지속적으로 조사해야했습니다 . 종종 특이 치가 프로모션 캠페인, 할인 등과 같은 특정 일회성 이벤트와 관련이있었습니다.

R2