내 질문은 다음 사실에서 비롯됩니다. 나는 기계 학습에 관한 책뿐만 아니라 게시물, 블로그, 강의를 읽었습니다. 기계 학습 전문가들이 통계 학자 / 경제학자들이 관심을 갖는 많은 것들에 무관심한 것 같습니다. 특히 머신 러닝 전문가는 추론보다 예측 정확도를 강조합니다.
코스타 에서 Andrew Ng의 기계 학습 을 수행 할 때 그러한 예가 발생했습니다 . 단순 선형 모형에 대해 논의 할 때 추정량의 BLUE 특성 또는 이분산성이 신뢰 구간을 “무효화하는”방법에 대해서는 언급하지 않았습니다. 대신, 그라디언트 디센트 구현 및 교차 검증 / ROC 곡선의 개념에 중점을 둡니다. 이 주제는 계량 경제학 / 통계 수업에서 다루지 않았습니다.
Kaggle 대회에 참가했을 때 또 다른 예가 발생했습니다. 다른 사람들의 코드와 생각을 읽고있었습니다. 참가자의 많은 부분이 모든 것을 SVM / 랜덤 포레스트 / XGBoost에 넣습니다.
또 다른 예는 단계적 모델 선택에 관한 것입니다. 이 기술은 적어도 온라인과 Kaggle에서 널리 사용됩니다. 통계 학습 소개와 같은 많은 고전적인 기계 학습 교과서에서도 다루고 있습니다. 그러나이 답변 에 따르면 (단계적으로 설득력있는) 단계적 모델 선택은 특히 “진정한 모델 발견”과 관련하여 많은 문제에 직면합니다. 머신 러닝 전문가는 문제를 단계별로 알지 못하거나 신경 쓰지 않지만 두 가지 가능성 만있는 것 같습니다.
내 질문은 다음과 같습니다.
- (일반적으로) 머신 러닝 실무자들이 예측에 초점을 맞추고 통계 학자 / 경제학자들이 신경 쓰는 많은 것들에 관심이없는 것이 사실입니까?
- 그것이 사실이라면 그 이유는 무엇입니까? 어떤 의미에서는 추론이 더 어렵 기 때문입니까?
- 온라인 머신 러닝 (또는 예측)에 관한 많은 자료가 있습니다. 그러나 추론 수행에 관심이있는 경우 온라인에서 상담 할 수있는 리소스는 무엇입니까?
업데이트 : 방금 “추론”이라는 단어가 많은 것을 의미 할 수 있다는 것을 깨달았습니다. “추론”의 의미는 다음과 같은 질문을 말합니다.
-
-
“모든 모델이 잘못되었으므로”모델이 실제 모델에서 “잘못된”것은 무엇입니까?
-
표본의 정보가 주어지면 모집단에 대해 무엇을 말할 수 있고 어떻게 확신 할 수 있습니까?
통계 지식이 매우 제한되어 있기 때문에 이러한 질문이 통계 영역에 속하는지 확실하지 않습니다. 그러나 이것들은 기계 학습 실무자들이 신경 쓰지 않는 질문 유형입니다. 아마도 통계학 자도 신경 쓰지 않습니까? 모르겠어요
답변
먼저 머신 러닝에 대한 관점이 다릅니다. Andrew Ng의 Coursera 강의와 Kaggle 경쟁은 기계 학습의 100 %가 아니라 실제 응용 프로그램을 목표로 한 일부 지점입니다. 실제 머신 러닝 연구는 통계 / 수학에 상당히 가까운 랜덤 포레스트 / SVM / 그라디언트 부스팅 모델을 발명 한 작업이어야합니다.
기계 학습 전문가들이 통계 학자 / 경제학자와 비교하여 정확성에 더 중점을 둔다는 데 동의합니다. 사람들이 “진정한 분포에 대한 추론”보다는 더 나은 정확도를 얻는 데 관심이있는 이유가 있습니다. 가장 큰 이유는 우리가 데이터를 수집하고 사용하는 방식이 지난 수십 년 동안 변경되었습니다.
통계는 수백 년 동안 확립되었지만 과거에는 교육을위한 수십억 개의 데이터와 테스트를위한 수십억 개의 데이터가 있다고 생각할 사람이 없었습니다. (예를 들어 인터넷의 이미지 수). 따라서 상대적으로 적은 양의 데이터가 있으면 작업을 수행하기 위해 도메인 지식의 가정이 필요합니다. 또는 모델을 “정규화”하려고 생각할 수 있습니다. 일단 가정이 이루어지면 “진정한”분포에 대한 추론 문제가 있습니다.
그러나 신중하게 생각한다면 이러한 가정이 사실이고 추론이 유효한지 확인할 수 있습니까? George Box를 인용하고 싶습니다.
모든 모델이 잘못되었지만 일부 모델이 유용합니다
이제 가정 / 추론보다 정확성에 더 중점을 두는 실용적인 접근 방식에 대해 다시 생각해 봅시다. 많은 양의 데이터가있을 때 좋은 접근 방법입니다.
모든 이미지가 픽셀 수준의 사람 얼굴을 포함하는 모델을 구축한다고 가정 해 봅시다. 첫째, 수십억 개의 이미지에 대한 픽셀 수준의 가정을 제안하는 것은 매우 어렵습니다. 둘째, 우리는 데이터에 맞는 모든 가능한 방법에 대해 생각할 수 있으며, 데이터가 크기 때문에 모든 모델이 충분하지 않을 수 있습니다 (거의 적합하지 않을 수는 거의 없음).
이것이 바로 “딥 러닝 / 신경망”이 다시 인기를 얻은 이유이기도합니다. 빅 데이터의 조건 하에서, 우리는 정말 복잡한 모델 하나를 골라서 최대한 잘 맞출 수 있지만 계산 리소스가 제한되어 있기 때문에 여전히 괜찮을 수도 있습니다.
마지막으로, 우리가 구축 한 모델이 거대한 테스트 데이터 세트에 적합하다면, 밑줄 가정이나 실제 분포를 알지 못할지라도 훌륭하고 가치가 있습니다.
나는 “추론”이라는 단어가 다른 공동체에서 다른 의미를 가지고 있음을 지적하고 싶습니다.
- 통계 커뮤니티에서는 일반적으로 실제 분포에 대한 정보를 모수 적 또는 비모수 적 방식으로 얻는 것을 의미합니다.
- 기계 학습 커뮤니티에서 일반적으로 주어진 분포에서 특정 확률을 계산하는 것을 의미합니다. 예제는 Murphy의 그래픽 모델 자습서 를 참조하십시오 .
- 기계 학습에서 사람들은 “학습”이라는 단어를 사용하여 통계 커뮤니티의 “추론”과 유사한 “실제 분포의 매개 변수 얻기”를 나타냅니다.
기계 학습에 많은 사람들이 “추론”을하고 있음을 알 수 있습니다.
또한, 학계의 사람들이 “일을 다시 브랜딩하고 재판매”하는 것을 좋아할 수도 있습니다. 새로운 용어를 제시하면 연구의 참신함을 보여주는 데 도움이 될 수 있습니다. 실제로 인공 지능, 데이터 마이닝 및 기계 학습에는 많은 중복이 있습니다. 또한 통계 및 알고리즘 설계와 밀접한 관련이 있습니다. “추론”을 수행하는 것과 관련하여 명확한 경계가 없습니다.