머신 러닝에서 Pearson의 상관 계수를 최적화 목표로 사용 제곱 오차 (MSE) 또는 평균 절대 오차

기계 학습 (회귀 문제의 경우)에서 나는 종종 평균 제곱 오차 (MSE) 또는 평균 절대 오차 (MAE)가 최소화하기 위해 오류 함수로 사용됩니다 (정규화 항). 상관 계수를 사용하는 것이 더 적합한 상황이 있는지 궁금합니다. 이러한 상황이 존재하면 다음을 수행하십시오.

  1. 어떤 상황에서 상관 계수가 MSE / MAE에 비해 더 나은 지표입니까?
  2. 이러한 상황에서 MSE / MAE는 여전히 유용한 프록시 비용 기능입니까?
  3. 상관 계수 최대화가 직접 가능합니까? 이것은 안정적인 객관적인 기능입니까?

상관 계수가 최적화의 목적 함수로 직접 사용되는 경우를 찾을 수 없습니다. 사람들이이 분야의 정보를 알려줄 수 있다면 감사하겠습니다.



답변

상관 관계를 최대화하면 출력에 노이즈가 많은 경우에 유용합니다. 다시 말해, 입력과 출력 사이의 관계는 매우 약합니다. 이러한 경우 MSE를 최소화하면 출력 오류가 0에 가까워 지므로 예측 오류가 훈련 출력의 분산과 동일합니다.

그래디언트 디센트 방식에서는 상관 관계를 객관 함수로 직접 사용할 수 있습니다 (간단히 상관 관계를 최소화하도록 변경). 그러나 비용 함수와 그라디언트에는 모든 교육 샘플의 출력이 포함되므로 SGD 접근 방식으로 최적화하는 방법을 모르겠습니다.

상관 관계를 최대화하는 다른 방법은 출력 분산이 훈련 출력 분산과 동일하도록 제한하여 MSE를 최소화하는 것입니다. 그러나 제약 조건에는 모든 출력이 포함되므로 SGD 옵티 마이저를 활용할 방법이 없습니다 (제 생각에는).

편집 : 신경망의 최상위 계층이 선형 출력 계층 인 경우 MSE를 최소화 한 다음 선형 계층의 가중치와 바이어스를 조정하여 상관 관계를 최대화 할 수 있습니다. 조정은 CCA와 유사하게 수행 할 수 있습니다 ( https://en.wikipedia.org/wiki/Canonical_analysis ).


답변

우리는 연구에서 Pearson의 상관 관계를 사용하며 잘 작동합니다. 우리의 경우에는 매우 안정적입니다. 변환 및 스케일 불변 측정이므로 정확한 값이 아닌 모양을 예측하려는 경우에만 유용합니다. 따라서 대상이 모델의 솔루션 공간에 있는지 모르고 모양에만 관심이있는 경우 유용합니다. 반대로 MSE는 예측과 목표 간의 평균 거리를 줄이므로 가능한 한 데이터를 맞추려고합니다. 아마도 정확한 값을 예측하는 데 관심이 있기 때문에 MSE가 더 널리 사용되는 이유 일 것입니다. MSE를 최소화하면 상관 관계가 증가합니다.