태그 보관물: optimization

optimization

Elo 등급 시스템이 왜 잘못된 업데이트 규칙을 사용합니까? eπ제이이자형π나는+ 전자π제이+ ν이자형π나는+ π제이2qj(w)=eπjeπi+eπj+νeπi+πj2 q_j(w)=\frac{

Elo 등급 시스템은 쌍 비교에서 결과의 예상 확률과 관측 확률 사이의 교차 엔트로피 손실 함수의 경사 하강 최소화 알고리즘을 사용합니다. 일반적인 손실 함수를 다음과 같이 작성할 수 있습니다.

E=−∑n,ipiLog(qi)

여기서 합계는 모든 결과 및 모든 상대 됩니다.
는 이벤트 의 관측 된 주파수 이고 는 예상 된 주파수입니다.n p i i q i

i

n

pi

i

qi

두 가지 가능한 결과 (승리 또는 느슨한)와 한 명의 상대의 경우

E=−pLog(q)−(1−p)Log(1−q)

경우

πi

하여 플레이어의 순위가되고

i

πj

하여 플레이어의 순위입니다

j

우리는 기대 확률 구축 할 수
qj=e π j

qi=eπieπi+eπj


qj=eπjeπi+eπj


그라디언트 하강 업데이트 규칙에 따라 사용

πi′=πi−η(qi−pi)

πj′=πj−η(qj−pj)

여기서

qi

pi

는 플레이어 j 에 대한 플레이어 i 의 예상 및 관측 된 승률입니다 . 이것이 업데이트 규칙입니다.

i

j

two outcomes

추첨이 존재하면 위의 모델을 포함하여 세 번째 결과를 확률로 일반화 할 수 있습니다

qi(w)=eπi

q(d)=νeπi+πj2eπi+eπj+νeπi+πj2


의 QJ(w)=EπJ

qi(w)=eπieπi+eπj+νeπi+πj2


qj(w)=eπjeπi+eπj+νeπi+πj2

그리고 Loss 함수를

E=−p(w)Log(q(w))−(1−p(w)−p(d))Log(q(l))−p(d)Log(q(d))

여기서 각각의 관측 가능성이있는 , 그리고 및 의 예상 가능성 , 및 . 후자의 경우 업데이트 규칙은q ( w ) , q ( l ) , q ( d )

p(w),p(l),p(d)

winloosedraw

q(w),q(l),q(d)

winloosedraw

πi′=πi−η(qi(w)+qi(d)2−pi(w)−pi(d)2)

πj′=πj−η(qj(w)+qj(d)2−pj(w)−pj(d)2)

여기서 및 는 플레이어 가 플레이어 에 대해 이길 수 있는 예상 확률입니다 . 그리고 여기서 및 는 플레이어 가 플레이어 에 대해 이길 수 있는 관측 된 확률입니다 . 이것이 업데이트 규칙입니다.q j ( d ) i j p i ( w ) p i ( d

qj(w)

qj(d)

i

j

pi(w)

일본

pi(d)

i

j

three outcome

문제는 Elo 등급 시스템 two outcomes이 무승부 상황에서도 업데이트 규칙을 사용하는 이유 는 무엇입니까?



답변

결정적인 결과를 얻는 것과는 대조적으로 인발 확률은 Elo 시스템에 명시 되어 있지 않습니다 . 대신 예상 성능과 경기 결과 모두 무승부로 간주됩니다.

Wikipedia의 Elo 페이지 의 예 : “플레이어의 예상 점수는 승리 확률과 그의 추첨 확률의 절반입니다. 따라서 예상 점수 0.75는 75 %의 승리 확률, 25 %의 패배 확률 및 0 % 확률을 나타낼 수 있습니다 다른 극단적 인 경우 50 %의 이길 확률, 0 %의 이길 확률 및 50 %의 가능성을 나타냅니다. “

내가 말한 것처럼 그림의 확률은 지정되지 않았 으며 간단한 two outcome업데이트 규칙 , 이므로 단일 경기 후 (승) 또는 (무승부, ) 또는 (손실)입니다.S = 1 ( N w + 0.5 N D ) + 0 ( 0.5 N D + N L ) S = 1 S = 0.5 S A = 0

RA′=RA+K(SA−EA)

SA=1⋅(nw+0.5⋅nd)+0⋅(0.5⋅nd+nl)

SA=1

SA=0.5

SA=0

Elo와 마찬가지로 Glicko 시스템은 무승부를 모델링하지 않지만 (플레이어 당) 승리 및 손실의 평균으로 업데이트합니다. 대신, TrueSkill 순위 시스템에서 “드로우는 특정 게임의 성능 차이가 작은 것으로 가정하여 추첨을 모델링합니다. 따라서 추첨의 기회는 두 플레이어의 플레이 강도 차이에 따라 달라집니다. 그러나 게임에서 경험적인 결과 “초보자보다 프로 선수들 사이에서 무승부가 더 가능성이 높다는 것을 보여줍니다. 따라서 그리기의 가능성도 기술 수준에 달려있는 것 같습니다.”

이 접근 방식은 모든 게임에 대해 서로 다른 특정 모델링이 필요하며 TrueSkill은 몇 가지 Microsoft Xbox 게임에 적용되므로 Elo 및 Glicko (체스만을 위해 설계됨)에 적합하며 다목적 순위 시스템 인 순위 에 적합 하지 않습니다 .


답변