文件Zbl 1293.62161-zbMATH Open

奥利维尔·卡佩;奥雷连·加里维尔;梅拉德，奥德利克·安布罗姆;雷米·穆诺斯;斯托尔茨，吉勒斯

最优序列分配的Kullback-Leibler置信上限。（英语） Zbl 1293.62161号

《美国统计年鉴》。 41，第3期，1516-1541（2013）.

摘要：我们在所谓的随机多臂强盗模型的背景下考虑最优顺序分配。我们描述了一个通用索引策略J.C.吉廷斯[J.R.Stat.Soc.，Ser.B 41，148-177（1979年；Zbl 0411.62055号)]，基于使用Kullback-Leibler散度计算的公平交易回报的置信上限。我们考虑了两类分布，并分析了这一一般思想的实例：kl-UCB算法是为单参数指数族设计的，经验kl-UCB算法则是为有界分布和有限支持分布设计的。我们的主要贡献是对这些算法的遗憾进行了统一的有限时间分析，这些算法渐近匹配T.L.赖和H.罗宾斯【高级应用数学6，4–22（1985；Zbl 0568.62074号)]和A.N.伯内塔斯和M.N.Katehakis先生【高级应用数学17，第2期，122–142页（1996年；Zbl 0854.60032号)]分别是。我们还研究了这些算法与一般有界奖励一起使用时的行为，特别表明它们比最先进的算法有了显著的改进。

引用于33文件

MSC公司：

62升10	顺序统计分析
62升12	序贯估计
68T05型	人工智能中的学习和自适应系统

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司欧几里得

参考文献：

[1]	Agrawal，R.（1995）。针对多武装匪徒问题的基于平均值的后悔指数策略示例。申请中的预付款。普罗巴伯。27 1054-1078. ·Zbl 0840.90129号 ·doi:10.2307/1427934
[2]	Audibert，J.-Y.和Bubeck，S.（2010年）。部分监控下的回归界和极小极大策略。J.Mach。学习。第11号决议2785-2836·Zbl 1242.91034号
[3]	Audibert，J.-Y.、Munos，R.和Szepesvári，C.（2009年）。在多武装土匪中使用方差估计进行勘探-勘探权衡。理论。计算。科学。410 1876-1902. ·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[4]	Auer，P.、Cesa-Bianchi，N.和Fischer，P.（2002）。多武器土匪问题的有限时间分析。机器学习47 235-256·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[5]	Bubeck，S.和Cesa-Bianchi，N.（2012年）。随机和非随机多武器盗贼问题的遗憾分析。机器学习的基础和趋势5 1-122·Zbl 1281.91051号
[6]	Burnetas，A.N.和Katehakis，M.N.（1996年）。序列分配问题的最优自适应策略。申请中的预付款。数学。17 122-142. ·Zbl 0854.60032号 ·doi:10.1006/aama.1996.007
[7]	Burnetas，A.N.和Katehakis，M.N.（1997年）。马尔可夫决策过程的最优自适应策略。数学。操作。第22号决议222-255·Zbl 0871.90103号 ·doi:10.1287/门22.1.222
[8]	Burnetas，A.N.和Katehakis，M.N.（2003）。有限时域单臂带束问题的渐近Bayes分析。普罗巴伯。工程通知。科学。17 53-82. ·Zbl 1013.62081号 ·doi:10.1017/S0269964803171045
[9]	Cappé，O.、Garivier，A.和Kaufmann，E.（2012年）。py/maBandits:Matlab和Python软件包，用于多武装匪徒。可从获取。
[10]	Cappé，O.、Garivier，A.、Maillard，O.-A.、Munos，R.和Stoltz，G.（2013）。补充“最优顺序分配的Kullback-Leibler置信上限”·Zbl 1293.62161号
[11]	Chang，F.和Lai，T.L.（1987）。最佳停止和动态分配。申请中的预付款。普罗巴伯。19 829-853·Zbl 0638.60062号 ·doi:10.2307/1427104
[12]	Chow，Y.S.和Teicher，H.（1988年）。《概率论：独立性，互换性，鞅》，第二版，纽约斯普林格出版社·Zbl 0652.60001号
[13]	Dembo，A.和Zeitouni，O.（1998年）。大偏差技术与应用，第二版，数学应用（纽约）38。纽约州施普林格·Zbl 0896.60013号
[14]	Filippi，S.、Cappé，O.和Garivier，A.（2010年）。强化学习中的乐观主义和Kullback-Leibler发散。第48届Allerton通信、控制和计算年会论文集。新泽西州皮斯卡塔韦IEEE出版社。
[15]	Garivier，A.和Cappé，O.（2011年）。KL-UCB算法用于有界随机土匪及其他情况。第24届学习理论年会论文集。JMLR C&WP公司。
[16]	Gittins，J.C.（1979年）。Bandit进程和动态分配指数（讨论）。J.R.统计社会服务。B统计方法。41 148-177. ·Zbl 0411.62055号
[17]	Gittins，J.、Glazebrook，K.和Weber，R.（2011）。多武器匪徒分配指数。纽约威利·Zbl 1401.90257号
[18]	霍夫丁（1963）。有界随机变量和的概率不等式。J.Amer。统计师。协会58 13-30·Zbl 0127.10602号 ·doi:10.2307/2282952
[19]	Honda，J.和Takemura，A.（2010年）。有界支持模型的渐近最优土匪算法。第23届学习理论年会论文集。威斯康星州麦迪逊的Omnipress·Zbl 1237.91037号
[20]	Honda，J.和Takemura，A.（2011年）。多武装匪徒问题中有限支持模型的渐近最优策略。机器学习85 361-391·Zbl 1237.91037号 ·doi:10.1007/s10994-011-5257-4
[21]	Honda，J.和Takemura，A.（2012年）。半有界支持模型土匪算法的有限时间后悔界。可从获取。1202.2277
[22]	Kaufmann，E.、Cappé，O.和Garivier，A.（2012年）。关于强盗问题的贝叶斯置信上限。第15届国际人工智能与统计会议论文集22 592-600。JMLR W&CP公司。
[23]	Kaufmann，E.、Korda，N.和Munos，R.（2012年）。汤普森抽样：渐近最优有限时间分析。第23届算法学习理论国际会议论文集199-213。纽约州施普林格·Zbl 1386.91055号
[24]	Lai，T.L.和Robbins，H.（1985）。渐进有效的自适应分配规则。申请中的预付款。数学。6 4-22. ·Zbl 0568.62074号 ·doi:10.1016/0196-8858（85）90002-8
[25]	Lehmann，E.L.和Casella，G.（1998年）。点估计理论，第二版，纽约斯普林格出版社·兹比尔0916.62017
[26]	Maillard，O.-A.、Munos，R.和Stoltz，G.（2011年）。具有Kullback-Leibler发散的多武器强盗问题的有限时间分析。第24届学习理论年会论文集。JMLR C&WP公司。
[27]	马萨特，P.（2007）。集中不等式与模型选择。数学讲义。1896 . 柏林施普林格·Zbl 1170.60006号
[28]	欧文，A.B.（2001）。经验可能性。查普曼和霍尔/CRC，佛罗里达州博卡拉顿·Zbl 0989.62019
[29]	Robbins，H.（1952年）。序贯设计实验的一些方面。牛市。阿默尔。数学。社会（N.S.）58 527-535·Zbl 0049.37009号 ·doi:10.1090/S0002-9904-1952-09620-8
[30]	汤普森，W.R.（1933）。从两个样本的证据来看，一个未知概率超过另一个未知概率的可能性。生物特征25 285-294。
[31]	汤普森，W.R.（1935）。关于分摊理论。阿默尔。数学杂志。57 450-456. ·Zbl 0011.21804号 ·doi:10.2307/2371219
[32]	范德法特，A.W.（2000）。渐进统计。剑桥大学出版社，剑桥·Zbl 0910.62001号
[33]	Wainwright，M.J.和Jordan，M.I.（2008）。图形模型、指数族和变分推理。机器学习基础与趋势1 1-305·Zbl 1193.62107号 ·数字对象标识代码：10.1561/220000001
[34]	Wald，A.（1945年）。统计假设的顺序检验。安。数学。统计师。16 117-186. ·Zbl 0060.30207号 ·doi:10.1214/aoms/1177731118
[35]	韦伯，R.（1992）。关于多武装匪徒的Gittins指数。附录申请。普罗巴伯。2 1024-1033. ·Zbl 0763.60021号 ·doi:10.1214/aoap/1177005588
[36]	Whittle，P.（1980）。多武器匪徒和基廷斯指数。J.R.统计社会服务。B统计方法。42 143-149. ·Zbl 0439.90096号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

最优序列分配的Kullback-Leibler置信上限。（英语） Zbl 1293.62161号

MSC公司：

关键词：

引文：

软件：

参考文献：

示例

领域

操作员

最优序列分配的Kullback-Leibler置信上限。 （英语） Zbl 1293.62161号

MSC公司：

关键词：

引文：

软件：

参考文献：

最优序列分配的Kullback-Leibler置信上限。（英语） Zbl 1293.62161号