×

最优序列分配的Kullback-Leibler置信上限。 (英语) Zbl 1293.62161号

摘要:我们在所谓的随机多臂强盗模型的背景下考虑最优顺序分配。我们描述了一个通用索引策略J.C.吉廷斯[J.R.Stat.Soc.,Ser.B 41,148-177(1979年;Zbl 0411.62055号)],基于使用Kullback-Leibler散度计算的公平交易回报的置信上限。我们考虑了两类分布,并分析了这一一般思想的实例:kl-UCB算法是为单参数指数族设计的,经验kl-UCB算法则是为有界分布和有限支持分布设计的。我们的主要贡献是对这些算法的遗憾进行了统一的有限时间分析,这些算法渐近匹配T.L.赖H.罗宾斯【高级应用数学6,4–22(1985;Zbl 0568.62074号)]和A.N.伯内塔斯M.N.Katehakis先生【高级应用数学17,第2期,122–142页(1996年;Zbl 0854.60032号)]分别是。我们还研究了这些算法与一般有界奖励一起使用时的行为,特别表明它们比最先进的算法有了显著的改进。

MSC公司:

62升10 顺序统计分析
62升12 序贯估计
68T05型 人工智能中的学习和自适应系统

软件:

py/ma班迪特
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agrawal,R.(1995)。针对多武装匪徒问题的基于平均值的后悔指数策略示例。申请中的预付款。普罗巴伯。27 1054-1078. ·Zbl 0840.90129号 ·doi:10.2307/1427934
[2] Audibert,J.-Y.和Bubeck,S.(2010年)。部分监控下的回归界和极小极大策略。J.Mach。学习。第11号决议2785-2836·Zbl 1242.91034号
[3] Audibert,J.-Y.、Munos,R.和Szepesvári,C.(2009年)。在多武装土匪中使用方差估计进行勘探-勘探权衡。理论。计算。科学。410 1876-1902. ·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[4] Auer,P.、Cesa-Bianchi,N.和Fischer,P.(2002)。多武器土匪问题的有限时间分析。机器学习47 235-256·Zbl 1012.68093号 ·doi:10.1023/A:1013689704352
[5] Bubeck,S.和Cesa-Bianchi,N.(2012年)。随机和非随机多武器盗贼问题的遗憾分析。机器学习的基础和趋势5 1-122·Zbl 1281.91051号
[6] Burnetas,A.N.和Katehakis,M.N.(1996年)。序列分配问题的最优自适应策略。申请中的预付款。数学。17 122-142. ·Zbl 0854.60032号 ·doi:10.1006/aama.1996.007
[7] Burnetas,A.N.和Katehakis,M.N.(1997年)。马尔可夫决策过程的最优自适应策略。数学。操作。第22号决议222-255·Zbl 0871.90103号 ·doi:10.1287/门22.1.222
[8] Burnetas,A.N.和Katehakis,M.N.(2003)。有限时域单臂带束问题的渐近Bayes分析。普罗巴伯。工程通知。科学。17 53-82. ·Zbl 1013.62081号 ·doi:10.1017/S0269964803171045
[9] Cappé,O.、Garivier,A.和Kaufmann,E.(2012年)。py/maBandits:Matlab和Python软件包,用于多武装匪徒。可从获取。
[10] Cappé,O.、Garivier,A.、Maillard,O.-A.、Munos,R.和Stoltz,G.(2013)。补充“最优顺序分配的Kullback-Leibler置信上限”·Zbl 1293.62161号
[11] Chang,F.和Lai,T.L.(1987)。最佳停止和动态分配。申请中的预付款。普罗巴伯。19 829-853·Zbl 0638.60062号 ·doi:10.2307/1427104
[12] Chow,Y.S.和Teicher,H.(1988年)。《概率论:独立性,互换性,鞅》,第二版,纽约斯普林格出版社·Zbl 0652.60001号
[13] Dembo,A.和Zeitouni,O.(1998年)。大偏差技术与应用,第二版,数学应用(纽约)38。纽约州施普林格·Zbl 0896.60013号
[14] Filippi,S.、Cappé,O.和Garivier,A.(2010年)。强化学习中的乐观主义和Kullback-Leibler发散。第48届Allerton通信、控制和计算年会论文集。新泽西州皮斯卡塔韦IEEE出版社。
[15] Garivier,A.和Cappé,O.(2011年)。KL-UCB算法用于有界随机土匪及其他情况。第24届学习理论年会论文集。JMLR C&WP公司。
[16] Gittins,J.C.(1979年)。Bandit进程和动态分配指数(讨论)。J.R.统计社会服务。B统计方法。41 148-177. ·Zbl 0411.62055号
[17] Gittins,J.、Glazebrook,K.和Weber,R.(2011)。多武器匪徒分配指数。纽约威利·Zbl 1401.90257号
[18] 霍夫丁(1963)。有界随机变量和的概率不等式。J.Amer。统计师。协会58 13-30·Zbl 0127.10602号 ·doi:10.2307/2282952
[19] Honda,J.和Takemura,A.(2010年)。有界支持模型的渐近最优土匪算法。第23届学习理论年会论文集。威斯康星州麦迪逊的Omnipress·Zbl 1237.91037号
[20] Honda,J.和Takemura,A.(2011年)。多武装匪徒问题中有限支持模型的渐近最优策略。机器学习85 361-391·Zbl 1237.91037号 ·doi:10.1007/s10994-011-5257-4
[21] Honda,J.和Takemura,A.(2012年)。半有界支持模型土匪算法的有限时间后悔界。可从获取。1202.2277
[22] Kaufmann,E.、Cappé,O.和Garivier,A.(2012年)。关于强盗问题的贝叶斯置信上限。第15届国际人工智能与统计会议论文集22 592-600。JMLR W&CP公司。
[23] Kaufmann,E.、Korda,N.和Munos,R.(2012年)。汤普森抽样:渐近最优有限时间分析。第23届算法学习理论国际会议论文集199-213。纽约州施普林格·Zbl 1386.91055号
[24] Lai,T.L.和Robbins,H.(1985)。渐进有效的自适应分配规则。申请中的预付款。数学。6 4-22. ·Zbl 0568.62074号 ·doi:10.1016/0196-8858(85)90002-8
[25] Lehmann,E.L.和Casella,G.(1998年)。点估计理论,第二版,纽约斯普林格出版社·兹比尔0916.62017
[26] Maillard,O.-A.、Munos,R.和Stoltz,G.(2011年)。具有Kullback-Leibler发散的多武器强盗问题的有限时间分析。第24届学习理论年会论文集。JMLR C&WP公司。
[27] 马萨特,P.(2007)。集中不等式与模型选择。数学讲义。1896 . 柏林施普林格·Zbl 1170.60006号
[28] 欧文,A.B.(2001)。经验可能性。查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 0989.62019
[29] Robbins,H.(1952年)。序贯设计实验的一些方面。牛市。阿默尔。数学。社会(N.S.)58 527-535·Zbl 0049.37009号 ·doi:10.1090/S0002-9904-1952-09620-8
[30] 汤普森,W.R.(1933)。从两个样本的证据来看,一个未知概率超过另一个未知概率的可能性。生物特征25 285-294。
[31] 汤普森,W.R.(1935)。关于分摊理论。阿默尔。数学杂志。57 450-456. ·Zbl 0011.21804号 ·doi:10.2307/2371219
[32] 范德法特,A.W.(2000)。渐进统计。剑桥大学出版社,剑桥·Zbl 0910.62001号
[33] Wainwright,M.J.和Jordan,M.I.(2008)。图形模型、指数族和变分推理。机器学习基础与趋势1 1-305·Zbl 1193.62107号 ·数字对象标识代码:10.1561/220000001
[34] Wald,A.(1945年)。统计假设的顺序检验。安。数学。统计师。16 117-186. ·Zbl 0060.30207号 ·doi:10.1214/aoms/1177731118
[35] 韦伯,R.(1992)。关于多武装匪徒的Gittins指数。附录申请。普罗巴伯。2 1024-1033. ·Zbl 0763.60021号 ·doi:10.1214/aoap/1177005588
[36] Whittle,P.(1980)。多武器匪徒和基廷斯指数。J.R.统计社会服务。B统计方法。42 143-149. ·Zbl 0439.90096号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。