的一部分神经信息处理系统的进展24(NIPS 2011)
亚辛·阿巴斯·亚德科里(Yasin Abbasi-yadkori)、达维德·帕尔(Dávid Pál)、塞佩斯瓦里(Csaba Szepesvari)
我们改进了随机多武装匪徒问题和线性随机多武装歹徒问题的理论分析和算法的经验性能。特别地,我们证明了对Auer的UCB算法(Auer,2002)进行简单修改可以获得高概率的恒定后悔。更重要的是,我们修改并改进了Auer(2002)、Dani等人(2008)、Rusmevichientong和Tsitsiklis(2010)、Li等人(2010)研究的线性随机土匪问题的算法分析。我们的修改提高了对数因子的遗憾界限,尽管实验表明有了很大的改进。在这两种情况下,改进都源于构建较小的置信集。对于向量值鞅,我们使用了一个新的尾部不等式来构造它们。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。