×

随机多武装盗贼问题弱一致策略的下界和选择性。 (英语) Zbl 1320.91041号

综述:本文致力于研究随机多武装土匪经典模型中的后悔下界。Lai和Robbins的一个著名结果被Burnetas和Katehakis推广,为所有一致的政策建立了对数界。我们放宽了一致性的概念,并对边界进行了推广。我们还研究了一般情况下以及Hannan一致性情况下对数界的存在性。此外,我们证明了不可能设计出一种自适应策略来利用环境的特性从两种算法中选择最佳的算法。为了得到这些结果,我们研究了流行的置信上限(UCB)策略的变体。

MSC公司:

91A60型 概率博弈;赌博
62升05 顺序统计设计
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接