文件Zbl 1503.90085-zbMATH Open

针对具有昂贵采样的盗贼问题，提出了一种相对精度的PAC算法。（英语） Zbl 1503.90085号

数学。方法操作。物件。 96，第2期，161-185（2022）。

摘要：本文考虑有限集上期望函数最大化问题，即有限臂盗贼问题。我们首先提出了一种朴素的随机土匪算法，用于获得该离散优化问题的相对精度近似正确（PAC）解，即解决该优化问题的概率高，相对误差小于规定的容差。我们还提出了一种自适应随机土匪算法，该算法提供了具有相同保证的PAC求解。自适应算法在生成样本数方面优于朴素算法的平均复杂度，特别适合于采样成本高的应用。

引用于1文件

MSC公司：

90立方厘米

随机规划

关键词：

土匪算法;可能是近似正确的算法;相对精度;集中不等式;蒙特卡洛估计

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Audibert JY、Bubeck S、Munos R（2010）《多武装匪徒的最佳手臂识别》。在：学习理论年会（COLT）
[2]	Audibert JY，Bubeck S，Munos R（2011）Bandit对噪声优化的看法。Optim Mach学习431
[3]	奥迪伯特，JY；穆诺斯，R。；Szepesvári，C.，《在多武装匪徒中使用方差估计进行勘探-开采权衡》，《理论计算科学》，410、19、1876-1902（2009）·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[4]	Beyer，HG；Sendhoff，B.，《稳健优化——综合调查》，《计算方法应用机械工程》，196，33-34，3190-3218（2007）·Zbl 1173.74376号 ·doi:10.1016/j.cma.2007.03003
[5]	Bubeck，S。；穆诺斯，R。；Stoltz，G.，《有限武装和连续武装匪徒的纯粹探索》，《理论计算科学》，412191832-1852（2011）·Zbl 1214.62082号 ·doi:10.1016/j.tcs.2010.12.059
[6]	杜帕，V。；Herkenrath，U.，离散集上的随机逼近和多臂，Seq Anal，1,1,1-25（1982）·Zbl 0483.62071号
[7]	Even-Dar E，Mannor S，Mansour Y（2002）多武器强盗和马尔可夫决策过程的Pac界。参加：计算学习理论国际会议。斯普林格，pp 255-270（2002）·Zbl 1050.68059号
[8]	Garivier A，CappéO（2011）KL-UCB算法，适用于有界随机盗贼及其他情况。摘自：第24届学习理论年会论文集，第359-376页
[9]	龚，WB；Ho，YC；翟伟，带估计的离散优化随机比较算法，SIAM J Optim，1,2384-404（2000）·Zbl 0957.60075号 ·doi:10.1137/S1052623495290684
[10]	Kalyanakrishnan S、Tewari A、Auer P、Stone P（2012）《随机多武装匪徒中的Pac子集选择》。In:ICML，第12卷，第655-662页
[11]	卡诺，H。；本田，J。；Sakamaki，K。；Matsuura，K。；Nakamura，A。；Sugiyama，M.，《通过强盗反馈进行良好的手臂识别》，《马赫学习》，第108、5、721-745页（2019年）·兹比尔1491.68160 ·doi:10.1007/s10994-019-05784-4
[12]	考夫曼，E。；O·卡佩。；Garivier，A.，《关于多武器强盗模型中最佳武器识别的复杂性》，J Mach Learn Res，17，1，1-42（2016）·Zbl 1360.62433号
[13]	Kaufmann E，Kalyanakrishnan S（2013）土匪子集选择中的信息复杂性。参加：学习理论会议。PMLR，第228-251页
[14]	Kuleshov V，Precup D（2014）《多武装匪徒问题的算法》。arXiv预打印arXiv:1402.6028
[15]	Lattimore，T。；Szepesvári，C.，Bandit algorithms（2020），剑桥：剑桥大学出版社，剑桥·Zbl 1439.68002号 ·数字对象标识代码：10.1017/9781108571401
[16]	Locatelli A，Gutzeit M，Carpentier A（2016）阈值强盗问题的最优算法。1690-1698年国际机器学习会议
[17]	Mnih V（2008）《高效停车规则》。阿尔伯塔大学博士论文
[18]	Mnih V，Szepesvári C，Audibert JY（2008）《实证伯恩斯坦停止》。摘自：第25届机器学习国际会议记录，第672-679页
[19]	Mukherjee S、Naveen KP、Sudarsanam N、Ravindran B（2017年）《使用增援UCB打击强盗》。国际人工智能联合会议。
[20]	内米洛夫斯基，A。；朱迪茨基，A。；兰·G。；Shapiro，A.，随机规划的稳健随机近似方法，SIAM J Optim，19，4，1574-1609（2009）·兹比尔1189.90109 ·doi:10.1137/070704277
[21]	萨顿，RS；Barto，AG，《强化学习：简介》（2018），剑桥：麻省理工学院出版社，剑桥·Zbl 1407.68009号
[22]	Tao C，Blanco S，Peng J，Zhou Y（2019）《以最优总后悔率打击盗贼》。主题：神经信息处理系统的进展，第11664-11673页
[23]	Yan，D。；Mukai，H.，随机离散优化，SIAM J Control Optim，30，3，594-612（1992）·Zbl 0764.90066号 ·数字对象标识代码：10.1137/0330034

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

针对具有昂贵采样的盗贼问题，提出了一种相对精度的PAC算法。（英语） Zbl 1503.90085号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

针对具有昂贵采样的盗贼问题，提出了一种相对精度的PAC算法。 （英语） Zbl 1503.90085号

MSC公司：

关键词：

参考文献：

针对具有昂贵采样的盗贼问题，提出了一种相对精度的PAC算法。（英语） Zbl 1503.90085号