선형 회귀 분석은 언제 “기계 학습”이라고해야합니까? 주장했습니다. 대화하는 동안

최근 콜로키움에서 발표자의 초록은 머신 러닝을 사용한다고 주장했습니다. 대화하는 동안 머신 러닝과 관련된 유일한 것은 데이터에 대해 선형 회귀를 수행한다는 것입니다. 5D 파라미터 공간에서 최적 계수를 계산 한 후 한 시스템의 이러한 계수를 다른 시스템의 최고 계수와 비교했습니다.

단순히 최적의 라인을 찾는 것과는 달리 선형 회귀 머신 러닝 은 언제 입니까? (연구자의 추상적 인 오해의 소지가 있었습니까?)

최근 머신 러닝에 대한 관심이 높아지면서 이러한 구분을하는 것이 중요해 보입니다.

내 질문처럼 이 하나 광산은 선형 회귀 (다양한 애플리케이션 수를 가지고있는) 적절하게 “기계 학습”호출 할 수 있습니다 때 요구하는 반면 그 질문은, “선형 회귀”의 정의를 요구하는 것을 제외하고.

설명

선형 회귀가 기계 학습과 같은지 묻지 않습니다. 일부 사람들이 지적했듯이 단일 알고리즘은 연구 분야를 구성하지 않습니다. 알고리즘을 사용할 때 기계 학습을하는 것이 올바른지 간단히 묻는 것입니다. 단순한 회귀입니다.

모든 농담은 제쳐두고 (댓글 참조), 이것이 내가 요구하는 이유 중 하나는 실제로 기계 학습을 하지 않는 경우 이름에 금색 별 몇 개를 추가하기 위해 기계 학습을하는 것이 비 윤리적이기 때문 입니다. (많은 과학자들이 자신의 작업에 가장 적합한 유형의 선을 계산하지만 이것이 머신 러닝을하고 있다는 것을 의미하지는 않습니다.) 한편, 선형 회귀 머신 러닝의 일부로 사용되는 상황이 분명히 있습니다 . 이러한 상황을 분류하는 데 도움이되는 전문가를 찾고 있습니다. 😉



답변

질문과 질문에 대답 : 정확히 기계 학습은 무엇인가? 트레버 해 스티, 로버트 팁쉬 라니와 제롬 프리드먼의 통계 학습의 요소 에, 케빈 P. 머피 기계 학습 확률 관점 에서, 크리스토퍼 비숍 패턴 인식 및 기계 학습 에서, 이안 Goodfellow, 요 수아 벤 지오와 아론 Courville 깊은 학습 및 숫자의 다른 기계 학습 “성경”은 기계 학습 “알고리즘”중 하나로서 선형 회귀를 언급합니다. 머신 러닝은 부분적으로 적용되는 통계에 대한 전문 용어이며 통계와 머신 러닝의 구분은 종종 모호합니다.


답변

선형 회귀는 기계 학습에 사용할 수있는 알고리즘입니다. 그러나 reductio ad absurdum : Excel 사본을 가진 사람은 누구나 선형 모형에 적합 할 수 있습니다.

선형 모델로 제한하더라도 머신 러닝을 논의 할 때 고려해야 할 사항이 몇 가지 더 있습니다.

  • 비즈니스 문제에 대한 기계 학습에는 더 많은 데이터가 필요할 수 있습니다. 유행어를 사용하려면 ” 빅 데이터 “. 데이터 정리 및 준비는 실제 모델링보다 더 많은 작업이 필요할 수 있습니다. 그리고 데이터의 양이 단일 기계의 처리 용량을 초과하면 엔지니어링 문제는 통계 문제만큼이나 중요합니다. 엄지 손가락 규칙 : 메인 메모리에 들어가면 빅 데이터가 아닙니다.
  • 기계 학습에는 종종 기존 통계 모델보다 더 많은 설명 변수 (기능)가 포함됩니다. 아마도 수십 개, 때로는 수백 개가 있으며, 그 중 일부는 여러 수준의 범주 형 변수가 될 것입니다. 이러한 기능이 상호 작용할 수있는 경우 (예 : 교차 효과 모델에서) 적합 할 수있는 잠재적 인 모델 수가 빠르게 증가합니다.
  • 머신 러닝 전문가는 일반적으로 개별 기능의 중요성에 대한 관심이 적고 기능의 조합을 사용하여 모델에서 가능한 많은 예측력을 압박하는 데 더 관심이 있습니다. (P- 값은 예측이 아니라 설명과 관련이 있습니다.)
  • 많은 기능과 이러한 기능을 엔지니어링하는 다양한 방법으로 수작업으로 모델을 선택할 수 없습니다. 제 생각에, 머신 러닝의 실질적인 과제 는 기능자동 선택 (피처 엔지니어링) 및 모델 사양의 다른 측면입니다. 선형 모델에는 일반적으로 무차별 대변인의 변형을 수행하는 다양한 방법이 있습니다. 단계적 회귀, 역 제거 등을 포함하여 모두 상당한 컴퓨팅 성능이 필요합니다. 두 번째 원칙 : 손으로 기능을 선택하는 경우 머신 러닝이 아닌 통계를 수행하는 것입니다.
  • 많은 기능이있는 많은 모델을 자동으로 맞추면 과적 합이 심각한 잠재적 문제입니다. 이 문제를 다루는 것은 종종 어떤 형태의 교차 검증 을 필요로합니다.

내 관점에서 볼 때 짧은 대답은 전통적인 통계 모델링에서 기계 학습이 벗어난 곳에서 특히 대량의 데이터와 설명 변수가 많은 도메인에서 모델 선택에 대한 무차별 대입 및 수치 적 접근 방식을 적용한다는 것입니다 예측력에 중점을두고 모델 검증을위한보다 무차별 한 힘을가했습니다.


답변

미첼의 정의는 일종의 첫 번째 원칙 인 머신 러닝에 대한 논의를 뒷받침하는 유용한 방법을 제공한다고 생각합니다. Wikipedia에서 재현 한대로 :

컴퓨터 프로그램은 P에 의해 측정 된 바와 같이 T에서의 작업에서의 성능이 경험 E로 개선 될 경우 일부 등급의 작업 T 및 성능 측정 P와 관련하여 경험 E로부터 학습한다고한다.

이것은 몇 가지 방법으로 도움이됩니다. 첫째, 즉각적인 질문 : 회귀는 작업 이 일부 응용 프로그램의 예측 기능에서 추정 값을 제공하는 경우의 기계 학습 입니다. 더 많은 데이터를 경험할 때 오류를 유발 한 평균 제곱 (또는 절대 값 등)으로 측정 할 때 성능이 향상되어야합니다.

둘째, 관련 용어에서 기계 학습을 설명하고 마케팅 용어로 사용하는 데 도움이됩니다. 위의 작업을 표준 추론 회귀와 대조하십시오. 분석가는 중요한 관계에 대한 계수를 해석합니다. 여기서 프로그램은 계수, p- 값 등의 요약을 반환합니다. 프로그램은 경험을 통해이 성능을 향상시킬 수 없습니다. 작업은 정교한 계산입니다.

마지막으로, 기계 학습 서브 필드, 강화 학습 또는 밀도 추정과 같은 다른 사람들과 함께 입문 박람회 (감독, 비 감독)에서 공통적으로 사용되는 머신 러닝 하위 필드를 통합하는 데 도움이됩니다. (각각 당신이 충분히 생각한다면 과제, 성과 측정 및 경험 개념이 있습니다.) 필자는 두 분야를 불필요하게 줄이지 않고 묘사하는 데 도움이되는 더 풍부한 정의를 제공한다고 생각합니다. 예를 들어 “ML은 예측 용, 추론에 대한 통계”는 감독 학습 외부의 기계 학습 기술과 예측에 중점을 둔 통계 기술을 모두 무시합니다.


답변

캐비닛 제조업체가 배럴 제조업체의 톱을 사용할 수 없다고 말하는 법은 없습니다.

기계 학습과 통계는 모호한 레이블이지만, 잘 정의 된 경우 통계와 기계 학습간에 많은 부분이 중복됩니다. 그리고 이것은이 두 영역의 방법뿐만 아니라이 두 영역으로 자신 을 표시하는 사람들 을 위한 입니다. 그러나 수학이 진행되는 한 기계 학습은 전적으로 통계 분야에 속합니다.

선형 회귀는 매우 잘 정의 된 수학적 절차입니다. 나는 그것을 통계 영역 및 자신을 ‘통계 학자’라고 부르는 사람들 및 ‘통계’와 같은 레이블을 가진 학술 프로그램에서 나온 사람들과 연관시키는 경향이 있습니다. SVM (Support Vector Machines)도 마찬가지로 모든 유사한 입력 및 출력을 가지며 유사한 문제를 해결하는 매우 잘 정의 된 수학적 절차입니다. 그러나 나는 그것을 컴퓨터 학습의 영역 및 컴퓨터 과학자 또는 인공 지능 또는 기계 학습에서 일하는 사람들을 컴퓨터 과학의 한 분야로 간주하는 사람들과 연관시키는 경향이 있습니다.

그러나 일부 통계학자는 SVM을 사용하고 일부 AI 사람들은 로지스틱 회귀를 사용합니다. 분명히 통계학 자나 인공 지능 연구원이 실제로 사용하는 것보다 방법을 개발할 가능성이 더 큽니다 .

나는 머신 러닝의 모든 방법을 통계 영역 안에 넣었다. 딥 러닝, RNN, CNN, LSTM, CRF와 같은 최근의 것들조차도. 적용된 통계 학자 (생물 통계 학자, 농학자)는 익숙하지 않을 수 있습니다. 이것들은 모두 일반적으로 ‘머신 러닝’이라는 라벨이 붙어 있고 통계와 거의 관련이없는 예측 모델링 방법입니다. 그러나 그들은 되어 그들이 통계적 방법을 이용하여 판단 할 수있는 여유와, 예측 모델.

결국 로지스틱 회귀 기계 학습의 일부로 간주 되어야합니다 .

그러나 그렇습니다. 나는이 단어들을 잘못 적용한 것에 대한 당신의 열망을보고 자주 공유합니다. 선형 회귀는 통계라는 것의 기본 부분으로, ‘머신 러닝’이라고 부르는 것은 매우 이상하고 오해의 소지가 있습니다 .

설명하기 위해 로지스틱 회귀는 숨겨진 노드가없고 딥 러닝 네트워크와 수학적으로 동일하며 로지스틱 기능은 단일 출력 노드의 활성화 함수입니다. 로지스틱 회귀를 기계 학습 방법이라고 부르지는 않지만 기계 학습 컨텍스트에서 확실히 사용됩니다.

그것은 주로 기대의 문제입니다.

A : “심장 수술 후 병원에 재 입원을 예측하기 위해 기계 학습을 사용했습니다.”

B : “아 그래? 딥 러닝? 랜덤 포레스트?!?”

A : “아, 아니, 그다지 화려하지는 않지만 단지 로지스틱 회귀”입니다.

B : 매우 실망한 표정 .

양자 화학을 사용하는 물로 창을 씻을 때와 같습니다. 글쎄, 그건 기술적으로 잘못되지 않았지만 필요한 것보다 훨씬 많은 것을 암시하고 있습니다.

하지만 실제로는, 즉 정확하게 물질의 차이 대 문화 차이. 단어의 의미와 사람들과의 연관성 (LR은 완전히 ML이 아닙니다!) 대 수학 및 응용 프로그램 (LR은 완전히 ML입니다!)입니다.


답변

일반적인 관점은 4 가지 영역으로 구성된 머신 러닝입니다.

1) 차원 축소

2) 클러스터링

3) 분류

4) 회귀

선형 회귀는 회귀입니다. 일단 모델이 훈련되면 다른 산림 랜덤 랜덤 회귀와 같은 예측에 사용될 수 있습니다.


답변

선형 회귀는 기술이지만 기계 학습은 다른 수단과 기술을 통해 달성 할 수있는 목표입니다.

따라서 회귀 성능은 예상 라인 / 곡선에 얼마나 가까운 지에 따라 측정되는 반면, 머신 러닝은 필요한 방법을 통해 특정 문제를 얼마나 잘 해결할 수 있는지에 의해 측정됩니다.


답변

머신 러닝과 통계적 추론의 차이점이 명확하다고 주장합니다. 요컨대, 기계 학습 = 미래 관측치 예측 ; 통계 = 설명.

여기 내 관심 분야 (의료)의 예가 있습니다. 약물을 개발할 때, 우리는 약물로 약물을 목표로 목표로 질병 상태를 가장 잘 설명하는 유전자를 검색합니다. 우리는이를 위해 통계를 사용합니다. 대조적으로, 예를 들어 약물이 환자에게 도움이 될지 예측하는 진단 테스트를 개발할 때, 목표는 그것이 많은 유전자를 포함하고 이해하기에는 너무 복잡하더라도 미래 결과에 대한 최상의 예측자를 찾는 것입니다. 우리는이를 위해 머신 러닝을 사용합니다. 약물 표적의 존재가 치료 결과를 잘 예측하지 못하여 구별되는 것을 보여주는 다수의 공개 된 예 [1], [2], [3], [4]가 있습니다.

이를 바탕으로, 목표가 미래 / 이전에는 보이지 않은 관찰 결과를 엄격하게 예측할 때 머신 러닝을하고 있다고 말할 수 있습니다. 목표가 특정 현상을 이해하는 것이라면 이것이 기계 학습이 아니라 통계적 추론입니다. 다른 사람들이 지적했듯이, 이것은 관련된 방법에 관계없이 사실입니다.

귀하의 질문에 대답하기 위해 : 당신이 묘사 한 특정 연구에서 과학자들은 모델 정확도를 비교하지 않고 다른 선형 회귀 모델에서 요인 역할 (무게)을 비교하고있었습니다. 따라서 추론 기계 학습을 호출하는 것은 정확하지 않습니다.

[1] Messersmith WA, Ahnen DJ. 결장 직장암에서 EGFR을 표적으로한다. 뉴 잉글랜드 의학 저널; 2008; 359; 17.

Pogue-Geile KL et al. NSABP 시험 B-31의 보조제 트라 스투 주맙으로부터의 혜택 정도 예측. J Natl Cancer Inst; 2013; 105 : 1782-1788.

[3] Vemurafenib에 대한 Pazdur R. FDA 승인.
https://www.cancer.gov/about-cancer/treatment/drugs/fda-vemurafenib . 2013 년 7 월 3 일에 업데이트되었습니다.

[4] Ray T. 2 개의 ASCO 연구에 따르면 NSCLC 약물 시험에서 MET 신호를 예측 마커로 사용하는 데 어려움이 있습니다. GenomeWeb, 2014 년 6 월 11 일.