이 질문 은 수식의 관점에서 교차 엔트로피의 정량적 정의를 제공합니다.
위키피디아는보다 명쾌한 정의를 찾고 있습니다.
정보 이론에서, 두 확률 분포 사이의 교차 엔트로피 는 “진정한”분포 p가 아니라 주어진 확률 분포 q에 기초하여 코딩 방식이 사용되는 경우, 가능성 세트로부터 이벤트를 식별하는데 필요한 평균 비트 수를 측정한다 .
나는 이것을 이해하는데 어려움을 겪는 부분을 강조했다. Entropy에 대한 별도의 (기존) 이해가 필요없는 멋진 정의를 원합니다.
답변
확률 발생하는 이벤트를 인코딩하려면 최소한 log 2 ( 1 / p ) 비트가 필요합니다 (왜? “섀넌의 엔트로피에서 로그의 역할은 무엇입니까 ? “에 대한 내 대답 참조 ).
따라서 최적의 인코딩에서 인코딩 된 메시지의 평균 길이는
즉원래 확률 분포의Shannon 엔트로피.
그러나 확률 분포 경우 다른 확률 분포 Q에 최적 인 인코딩을 사용하는 경우 인코딩 된 메시지의 평균 길이는
∑ i p i code_length ( i ) = ∑ i p i log 2 ( 1
인크로스 엔트로피보다 크면,Σ의난의페이지나기록(2)(1
그런 다음 최적으로 인코딩하려면 A를 0으로, B를 1로 인코딩하므로 한 문자 당 1 비트의 인코딩 된 메시지를 얻습니다. (그리고 그것은 우리의 확률 분포의 Shannon Shannon 엔트로피입니다.)
그런 다음 문자 당 2 비트를 얻습니다 (예 : A는 00, B는 01, C는 10, D는 11로 인코딩합니다).