일반적인 보상 분배를위한 다중 무장 적기 후회를 보증하는

보상 분배에 대한 정보가없는 다중 무기 산적 문제를 해결하고 있습니다.

나는 알려진 바운드가있는 배포판과 [0,1]에서 지원하는 일반적인 배포판에 대한 후회를 보증하는 많은 논문을 발견했다.

보상 배분이 지원에 대한 보증이없는 환경에서 잘 수행 할 수있는 방법이 있는지 알고 싶습니다. 비모수 공차 한계를 계산하려고 시도하고이 숫자를 사용하여 보상 분포를 조정하여이 백서에 지정된 알고리즘 2를 사용할 수 있습니다 ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). 누구 든지이 접근법이 효과가 있다고 생각합니까?

그렇지 않다면 누구든지 올바른 지점을 가리킬 수 있습니까?

무리 감사!



답변

O(log⁡(T))

ϵ

언급 한 간단한 톰슨 샘플링 알고리즘조차도 Bernoulli 분산 보상이 필요하며 심지어 로그 후회 바운드를 입증하는 데 80 년이 걸렸습니다!

[0,1]

S

S

S:=2S

또한 언급 한 Thompson 샘플링 알고리즘에는 Bernoulli 시험판이 필요하므로 임의의 지속적인 보상을 사용할 수 없습니다. 베타 대신 가우시안 사후 분포에 맞출 수 있지만, 이는 이전에 선택한 것에 약간 민감하므로 매우 평평하게 설정할 수 있습니다. 구현에 대해 아무것도 증명하지 않으려는 경우 아마도 잘 작동합니다.


답변