×

针对具有昂贵采样的盗贼问题,提出了一种相对精度的PAC算法。 (英语) Zbl 1503.90085号

摘要:本文考虑有限集上期望函数最大化问题,即有限臂盗贼问题。我们首先提出了一种朴素的随机土匪算法,用于获得该离散优化问题的相对精度近似正确(PAC)解,即解决该优化问题的概率高,相对误差小于规定的容差。我们还提出了一种自适应随机土匪算法,该算法提供了具有相同保证的PAC求解。自适应算法在生成样本数方面优于朴素算法的平均复杂度,特别适合于采样成本高的应用。

MSC公司:

90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Audibert JY、Bubeck S、Munos R(2010)《多武装匪徒的最佳手臂识别》。在:学习理论年会(COLT)
[2] Audibert JY,Bubeck S,Munos R(2011)Bandit对噪声优化的看法。Optim Mach学习431
[3] 奥迪伯特,JY;穆诺斯,R。;Szepesvári,C.,《在多武装匪徒中使用方差估计进行勘探-开采权衡》,《理论计算科学》,410、19、1876-1902(2009)·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[4] Beyer,HG;Sendhoff,B.,《稳健优化——综合调查》,《计算方法应用机械工程》,196,33-34,3190-3218(2007)·Zbl 1173.74376号 ·doi:10.1016/j.cma.2007.03003
[5] Bubeck,S。;穆诺斯,R。;Stoltz,G.,《有限武装和连续武装匪徒的纯粹探索》,《理论计算科学》,412191832-1852(2011)·Zbl 1214.62082号 ·doi:10.1016/j.tcs.2010.12.059
[6] 杜帕,V。;Herkenrath,U.,离散集上的随机逼近和多臂,Seq Anal,1,1,1-25(1982)·Zbl 0483.62071号
[7] Even-Dar E,Mannor S,Mansour Y(2002)多武器强盗和马尔可夫决策过程的Pac界。参加:计算学习理论国际会议。斯普林格,pp 255-270(2002)·Zbl 1050.68059号
[8] Garivier A,CappéO(2011)KL-UCB算法,适用于有界随机盗贼及其他情况。摘自:第24届学习理论年会论文集,第359-376页
[9] 龚,WB;Ho,YC;翟伟,带估计的离散优化随机比较算法,SIAM J Optim,1,2384-404(2000)·Zbl 0957.60075号 ·doi:10.1137/S1052623495290684
[10] Kalyanakrishnan S、Tewari A、Auer P、Stone P(2012)《随机多武装匪徒中的Pac子集选择》。In:ICML,第12卷,第655-662页
[11] 卡诺,H。;本田,J。;Sakamaki,K。;Matsuura,K。;Nakamura,A。;Sugiyama,M.,《通过强盗反馈进行良好的手臂识别》,《马赫学习》,第108、5、721-745页(2019年)·兹比尔1491.68160 ·doi:10.1007/s10994-019-05784-4
[12] 考夫曼,E。;O·卡佩。;Garivier,A.,《关于多武器强盗模型中最佳武器识别的复杂性》,J Mach Learn Res,17,1,1-42(2016)·Zbl 1360.62433号
[13] Kaufmann E,Kalyanakrishnan S(2013)土匪子集选择中的信息复杂性。参加:学习理论会议。PMLR,第228-251页
[14] Kuleshov V,Precup D(2014)《多武装匪徒问题的算法》。arXiv预打印arXiv:1402.6028
[15] Lattimore,T。;Szepesvári,C.,Bandit algorithms(2020),剑桥:剑桥大学出版社,剑桥·Zbl 1439.68002号 ·数字对象标识代码:10.1017/9781108571401
[16] Locatelli A,Gutzeit M,Carpentier A(2016)阈值强盗问题的最优算法。1690-1698年国际机器学习会议
[17] Mnih V(2008)《高效停车规则》。阿尔伯塔大学博士论文
[18] Mnih V,Szepesvári C,Audibert JY(2008)《实证伯恩斯坦停止》。摘自:第25届机器学习国际会议记录,第672-679页
[19] Mukherjee S、Naveen KP、Sudarsanam N、Ravindran B(2017年)《使用增援UCB打击强盗》。国际人工智能联合会议。
[20] 内米洛夫斯基,A。;朱迪茨基,A。;兰·G。;Shapiro,A.,随机规划的稳健随机近似方法,SIAM J Optim,19,4,1574-1609(2009)·兹比尔1189.90109 ·doi:10.1137/070704277
[21] 萨顿,RS;Barto,AG,《强化学习:简介》(2018),剑桥:麻省理工学院出版社,剑桥·Zbl 1407.68009号
[22] Tao C,Blanco S,Peng J,Zhou Y(2019)《以最优总后悔率打击盗贼》。主题:神经信息处理系统的进展,第11664-11673页
[23] Yan,D。;Mukai,H.,随机离散优化,SIAM J Control Optim,30,3,594-612(1992)·Zbl 0764.90066号 ·数字对象标识代码:10.1137/0330034
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。