×

贝叶斯乐观的Kullback-Leibler探索。 (英语) Zbl 1493.68304号

摘要:我们考虑使用贝叶斯方法进行基于模型的强化学习,其中代理使用环境模型的分布来找到最佳权衡勘探和开发的行动。不幸的是,除了有限的情况外,很难找到问题的贝叶斯最优解。在本文中,我们提出了BOKLE,这是一种简单的算法,它使用Kullback-Leibler散度来约束似是而非的模型集,以指导勘探。我们提供了一个形式化的分析,证明该算法是接近贝叶斯最优的高概率算法。我们还展示了BOKLE所追求的解决方案与一种名为贝叶斯探索奖金的著名算法之间的渐近关系。最后,我们展示了实验结果,清楚地证明了该算法的探索效率。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62磅10英寸 信息理论主题的统计方面
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Araya-López,M.、Thomas,V.和Buffet,O.(2012年)。使用乐观局部转换的近最优BRL。第29届机器学习国际会议论文集(第97-104页)。
[2] Asmuth,J.、Li,L.、Littman,M.L.、Nouri,A.和Wingate,D.(2009年)。强化学习中探索的贝叶斯抽样方法。《第25届人工智能不确定性会议论文集》(第19-26页)。
[3] Asmuth,J.T.(2013)。基于模型的广义先验贝叶斯强化学习。罗格斯大学研究生院-新不伦瑞克分校博士论文。
[4] 奥迪伯特,Jy;穆诺斯,R。;Szepesvári,C.,《在多武装匪徒中使用方差估计进行勘探-开采权衡》,理论计算机科学,4101876-1902(2009)·Zbl 1167.68059号 ·doi:10.1016/j.tcs.2009.01.016
[5] 博伊德,S。;Vandenberghe,L.,凸优化(2004),剑桥:剑桥大学出版社,剑桥·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[6] Ri Brafman;Tennenholtz,M.,R-MAX——一种用于近似最优强化学习的通用多项式时间算法,《机器学习研究杂志》,31213-231(2002)·Zbl 1088.68694号
[7] Dearden,R.、Friedman,N.和Russell,S.(1998年)。贝叶斯Q学习。第十五届全国人工智能会议记录(第761-768页)。
[8] Duff,M.O.(2002)。最佳学习:贝叶斯自适应马尔可夫决策过程的计算程序。马萨诸塞大学阿默斯特分校博士论文。
[9] Filippi,S.、Cappé,O.和Garivier,A.(2010年)。强化学习中的乐观主义和Kullback-Leibler发散。第48届Allerton通信、控制和计算年会(Allerton)(第115-122页)。
[10] Garivier,A.和Cappé,O.(2011)有界随机土匪及其后的KL-UCB算法。在第24届学习理论年会上(第359-376页)。
[11] Jaksch,T。;Ortner,R。;Auer,P.,强化学习的近似最优后悔边界,《机器学习研究杂志》,11,1563-1600(2010)·Zbl 1242.68229号
[12] Kaufmann,E.、Cappé,O.和Garivier,A.(2012年)。关于强盗问题的贝叶斯置信上限。第十五届国际人工智能和统计会议(第592-600页)。
[13] Kearns,M.和Singh,S.(1998),多项式时间内的近最优强化学习。第十五届机器学习国际会议论文集(第260-268页)。
[14] 卡恩斯,M。;Singh,S.,多项式时间内的近最优强化学习,机器学习,49,209-232(2002)·Zbl 1014.68071号 ·doi:10.1023/A:1017984413808
[15] Kolter,J.Z.和Ng,A.Y.(2009年)。多项式时间的近贝叶斯探索。第26届机器学习国际会议论文集(第513-520页)。
[16] Ortner,R.和Ryabko,D.(2012年)。在线后悔界,用于未折扣的持续强化学习。《第25届神经信息处理系统国际会议论文集》(第1763-1771页)。
[17] Osband,I.、Roy,B.V.和Russo,D.(2013年)。(更多)通过后验抽样进行有效强化学习。《第26届神经信息处理系统国际会议论文集》(第3003-2011页)。
[18] Poupart,P.、Vlassis,N.、Hoey,J.和Regan,K.(2006年)。离散贝叶斯强化学习的解析解。第23届机器学习国际会议论文集(第697-704页)。
[19] Puterman,MI,Markov决策过程:离散随机动态规划(2005),纽约:Wiley-Interscience,纽约·Zbl 1184.90170号
[20] Ross,S.、Chaib draa,B.和Pineau,J.(2007年)。贝叶斯自适应POMDP。《第20届神经信息处理系统国际会议论文集》(第1225-1232页)。
[21] Sorg,J.、Singh,S.和Lewis,R.L.(2010年)。基于方差的近似贝叶斯强化学习奖励。第26届人工智能不确定性会议论文集。
[22] Strehl,A.L.和Littman,M.L.(2005)基于模型的区间估计的理论分析。第22届机器学习国际会议论文集(第856-863页)。
[23] 斯特雷尔(Al Strehl);Littman,MI,马尔可夫决策过程基于模型的区间估计分析,计算机与系统科学杂志,741309-1331(2008)·Zbl 1157.68059号 ·doi:10.1016/j.jss.2007.08.009
[24] 斯特伦斯,M.(2000年)。强化学习的贝叶斯框架。第17届机器学习国际会议论文集(第943-950页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。