线性随机带宽的改进算法

的一部分神经信息处理系统的进展24(NIPS 2011)

Biptex公司 元数据 纸类 聚光灯幻灯片 补充的

作者

亚辛·阿巴斯·亚德科里(Yasin Abbasi-yadkori)、达维德·帕尔(Dávid Pál)、塞佩斯瓦里(Csaba Szepesvari)

摘要

我们改进了随机多武装匪徒问题和线性随机多武装歹徒问题的理论分析和算法的经验性能。特别地,我们证明了对Auer的UCB算法(Auer,2002)进行简单修改可以获得高概率的恒定后悔。更重要的是,我们修改并改进了Auer(2002)、Dani等人(2008)、Rusmevichientong和Tsitsiklis(2010)、Li等人(2010)研究的线性随机土匪问题的算法分析。我们的修改提高了对数因子的遗憾界限,尽管实验表明有了很大的改进。在这两种情况下,改进都源于构建较小的置信集。对于向量值鞅,我们使用了一个新的尾部不等式来构造它们。