카테고리 보관물: stats

stats

logloss에 대한 직관적 인 설명 false positive / negative rate 대신에 이것을

몇몇 kaggle 경쟁에서 점수는 “logloss”에 기초합니다. 분류 오류와 관련이 있습니다.

여기에 기술적 답변이 있지만 직관적 인 답변을 찾고 있습니다. 나는 Mahalanobis 거리에 대한 이 질문 에 대한 답변을 정말로 좋아 했지만 PCA는 logloss가 아닙니다.

분류 소프트웨어가 제공하는 가치를 사용할 수 있지만 실제로 이해하지는 못합니다. 우리는 왜 true / false positive / negative rate 대신에 이것을 사용합니까? 할머니 나 현장의 초보자에게 이것을 설명 할 수 있도록 도와 주실 수 있습니까?

나는 또한 인용문을 좋아하고 동의합니다.

당신은 당신의 할머니에게 설명 할 수 없다면 정말로 무언가를 이해하지 못합니다
-Albert Einstein

여기에 게시하기 전에 스스로 답변을 시도했습니다.

내가 직관적이지 않거나 실제로 도움이되지 않는 링크는 다음과 같습니다.

유익하고 정확합니다. 그들은 기술적 인 청중을위한 것입니다. 그들은 간단한 그림을 그리거나 간단하고 접근하기 쉬운 예를 제공하지 않습니다. 그들은 할머니를 위해 쓰여지지 않았습니다.



답변

로그 로스는 모든 확률의 곱에 대한 로그입니다. 앨리스가 예측했다고 가정하자.

  • 0.2 확률로 John은 Jack을 죽일 것입니다.
  • 확률 0.001로 Mary는 John과 결혼합니다.
  • 확률이 0.01 인 Bill은 살인자입니다.

마리아는 요한과 결혼하지 않았으며, 빌은 살인자가 아니라 요한은 잭을 죽였습니다. Alice에 따르면 확률의 곱은 0.2 * 0.999 * 0.99 = 0.197802입니다.

밥은 예측했다 :

  • 존이 잭을 죽일 확률 0.5
  • 확률 0.5로 Mary는 John과 결혼합니다.
  • 확률이 0.5 인 Bill은 살인자입니다.

제품은 0.5 * 0.5 * 0.5 = 0.125입니다.

앨리스는 밥보다 더 나은 예측 자입니다.


답변