나는 현재 분류를 수행하는 방법을 스스로 가르치고 있으며, 특히 벡터 머신, 신경망 및 로지스틱 회귀를 지원하는 세 가지 방법을 찾고 있습니다. 내가 이해하려고하는 것은 로지스틱 회귀가 다른 두 가지보다 더 나은 성능을 보이는 이유입니다.
로지스틱 회귀에 대한 이해에서 로지스틱 함수를 전체 데이터에 맞추는 것이 아이디어입니다. 따라서 내 데이터가 이진 인 경우 레이블이 0 인 내 데이터는 모두 값 0에 매핑되어야하고 값이 1 인 모든 데이터는 값 1에 매핑되어야합니다 (또는 데이터에 가까워 야 함). 이제 로지스틱 함수가 연속적이고 매끄 럽기 때문에이 회귀를 수행하려면 모든 데이터가 곡선에 맞아야합니다. 의사 결정 경계 근처의 데이터 포인트에는 더 이상 중요하지 않으며, 모든 데이터 포인트는 다른 양만큼 손실에 기여합니다.
그러나 서포트 벡터 머신과 신경망에서는 결정 경계 근처의 데이터 포인트 만 중요합니다. 데이터 포인트가 의사 결정 경계의 같은쪽에있는 한 동일한 손실에 기여합니다.
따라서 왜 결정에 관련된 어려운 데이터에만 초점을 맞추기보다는 많은 중요하지 않은 (쉽게 분류 할 수있는) 데이터에 곡선을 맞추려고 할 때 “자원 낭비”라는 점에서 로지스틱 회귀가 지원 벡터 시스템이나 신경망보다 성능이 우수한 이유는 무엇입니까? 경계?
답변
“소비”된 것으로 간주되는 리소스는 사실 로지스틱 회귀에 의해 제공되는 정보 획득입니다. 당신은 잘못된 전제로 시작했습니다. 로지스틱 회귀는 분류자가 아닙니다. 확률 / 위험 추정기입니다. SVM과 달리 “클로즈 콜”을 허용하고 기대합니다. 예측 신호를 속여서 관측을 분류 할 때마다 암시적인 유틸리티 기능을 통합하려고 시도하지 않기 때문에 최적의 의사 결정으로 이어질 것입니다. 최대 우도 추정을 사용한 로지스틱 회귀의 목표는 Prob 의 최적 추정치를 제공하는 것 입니다. 결과는 리프트 곡선, 신용 리스크 점수 등 여러 가지 방식으로 사용됩니다 . 확률 론적 추론을지지하는 강력한 논거에 대해서는 Nate Silver의 책 Signal and the Noise 를 참조하십시오 .
로지스틱 회귀 분석 의 종속 변수 는 0/1, A / B, yes / no 등 원하는 방식으로 코딩 할 수 있습니다.
로지스틱 회귀 분석의 기본 가정은 가 실제로 이진이라는 것입니다. 예를 들어 기본 서수 또는 연속 반응 변수에서 도출되지 않았습니다. 분류 방법과 마찬가지로, 그것은 전혀 또는 전혀없는 현상을위한 것입니다.
일부 분석가는 로지스틱 회귀 분석이 로그 확률 척도에 대한 예측 변수의 선형성을 가정한다고 생각합니다. DR Cox가 1958 년에 회귀 스플라인과 같은 도구를 사용하여 모델을 확장 할 수있는 컴퓨팅을 사용할 수 없었던 당시 로지스틱 모델을 발명했을 때만 사실이었습니다. 로지스틱 회귀 분석의 유일한 약점은 모형에서 허용 할 교호 작용을 지정해야한다는 것입니다. 대부분의 데이터 세트에서 부가적인 주 효과는 일반적으로 상호 작용보다 훨씬 강력한 예측 변수이므로 상호 작용에 우선 순위가 동일한 머신 러닝 방법은 불안정하고 해석하기 어려우며 예측하기 위해 로지스틱 회귀보다 큰 표본 크기가 필요할 수 있기 때문에 이는 강도로 바뀝니다. 잘.
답변
종종 논리 회귀 분석은 분류기로서 (특히 다른 알고리즘과 비교할 때) 제대로 수행되지 않습니다. 그러나 이것이 로지스틱 회귀가 잊혀져서는 안된다는 의미는 아니며 두 가지 큰 장점이 있습니다.
-
확률 적 결과. 프랭크 하렐 (Frank Harrell) (+ 1)은 그의 대답에서 이것을 잘 설명했다.
-
다른 독립 변수를 제어하면서 독립 변수가 종속 변수에 미치는 영향을 이해할 수 있습니다. 예를 들어, (의 확률이 얼마나 더 많은 시간 비 조건부 확률에 대한 추정 및 표준 오차를 제공 때 대신 채 상수).