×

通过随机值函数进行深入探索。 (英语) Zbl 1434.68515号

摘要:我们研究了在强化学习中使用随机值函数来指导深度探索。这为将统计和计算效率的探索与价值函数学习的常用实用方法相结合提供了一种优雅的方法。我们提出了几种利用随机值函数的强化学习算法,并通过计算研究证明了其有效性。我们还证明了一个遗憾界,它用表格表示建立了统计效率。

MSC公司:

68T07型 人工神经网络与深度学习
2015年1月62日 贝叶斯推断
62升10 顺序统计分析
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Yasin Abbasi-Yadkori和Csaba Szepesv´ari。线性二次系统自适应控制的遗憾界。机器学习研究杂志-会议记录跟踪,19:1-262011。
[2] Sander Adam、Lucian Busoniu和Robert Babuska。实时强化学习控制的体验回放。IEEE系统、人与控制论汇刊,C部分(应用与评论),42(2):201-2122012。
[3] 希普拉·阿格拉瓦尔和纳文·戈亚尔。多武器强盗问题的汤普森抽样分析。InConference on Learning Theory,第39-1页,2012年。
[4] 希普拉·阿格拉瓦尔和纳文·戈亚尔。Thompson抽样的进一步最优遗憾界。《人工智能与统计》,第99-107页,2013a·Zbl 1426.68293号
[5] 希普拉·阿格拉瓦尔和纳文·戈亚尔。汤普森抽样调查具有线性回报的背景盗贼。第30届国际机器学习年会论文集,第127-135页,2013b。
[6] 彼得·奥尔和罗纳德·奥尔特纳。未折现强化学习的对数在线遗憾界限。神经信息处理系统进展19,第49-56页,2006年。
[7] Mohammad Gheshlaghi Azar、Ian Osband和R´emi Munos。强化学习的最小遗憾边界。2017年第34届国际机器学习年会论文集。
[8] Kamyar Azizzadenesheli、Emma Brunskill和Animashree Anandkumar。通过贝叶斯深度q-networks.arXiv预印本arXiv:1802.04412018进行有效探索。
[9] Peter L.Bartlett和Ambuj Tewari。REGAL:弱通信MDP中基于正则化的强化学习算法。《第25届人工智能不确定性会议论文集》(UAI2009),第35-42页,2009年6月。
[10] Peter L Bartlett、Dylan J Foster和Matus J Telgarsky。神经网络的谱规范化边界。神经信息处理系统进展30,第6241-6250页,2017年。
[11] 马克·贝勒马尔(Marc Bellemare)、斯里拉姆·斯里尼瓦桑(Sriram Srinivasan)、乔治·奥斯特洛夫斯基(Georg Ostrovski)、汤姆·绍尔(Tom Schaul)、大卫·萨克斯顿(David Saxton)和雷米·穆诺斯(Remi Munos)。统一基于国家的探索和内在动机。神经信息处理系统进展29,第1471-1479页。2016
[12] Marc G Bellemare、Will Dabney和R´emi Munos。强化学习的分布视角。神经信息处理系统研究进展302017。
[13] 迪米特里·伯特塞卡斯和约翰·齐齐克利斯。神经动力学编程。雅典娜科技,1996年9月·Zbl 0924.68163号
[14] 彼得·比克尔(Peter J Bickel)和大卫·A·弗里德曼(David A Freedman)。引导的一些渐近理论。《统计年鉴》,第1196-1217页,1981年·兹比尔0449.62034
[15] 大卫·布莱克威尔。折扣动态编程。《数理统计年鉴》,36(1):226-2351965·Zbl 0133.42805号
[16] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[17] Ronen I.Brafman和Moshe Tennenholtz。R-max-一种用于近似最优强化学习的通用多项式时间算法。机器学习研究杂志,3:213-2312002·Zbl 1088.68694号
[18] Christoph Dann和Emma Brunskill。情景固定水平强化学习的样本复杂性。神经信息处理系统进展28,第2818-2826页。2015
[19] 理查德·迪尔登(Richard Dearden)、尼尔·弗里德曼(Nir Friedman)和斯图亚特·罗素(Stuart J.Russell)。贝叶斯Q学习。InAAAI人工智能会议,第761-768页,1998年。
[20] Marc Peter Deisenroth、Gerhard Neumann、Jan Peters等人。机器人政策搜索调查。机器人学基础与趋势®,2(1-2):1-1422013。
[21] 迪安·埃克尔斯和莫里斯·卡普斯坦。行为科学中的Bootstrap-thompson抽样和序列决策问题。SAGE公开赛,9(2):21582440198516752019年。
[22] 布拉德利·埃夫隆。折刀、引导和其他重采样计划,第38卷。SIAM,1982年·Zbl 0496.62036号
[23] Bradley Efron和Robert J Tibshirani。引导程序简介。CRC出版社,1994年。57 ·Zbl 0835.62038号
[24] 迈尔·福图纳托(Meire Fortunato)、穆罕默德·盖什拉基·阿扎尔(Mohammad Gheshlaghi Azar)、比拉尔·皮奥(Bilal Piot)、雅各布·梅尼克(Jacob Menick)、马特奥·赫塞尔(Matteo Hessel)、伊恩·奥斯班德(Ian Osband)、亚历克斯·格雷夫斯(Alex Graves)、沃洛德米尔·姆尼(Volodymy。用于探索的嘈杂网络。2018年国际学习代表大会。
[25] Fushiki Tadayoshi。错误模型下的Bootstrap预测和贝叶斯预测。伯努利,第747-758页,2005年·Zbl 1092.62042号
[26] 泽维尔·格洛洛特和约舒亚·本吉奥。了解训练深度前馈神经网络的困难。《第13届人工智能与统计国际会议论文集》,第249-256页,2010年。
[27] Aditya Gopalan和Shie Mannor。用于学习参数化马尔可夫决策过程的汤普森抽样。2015年第28届学习理论年会论文集。
[28] 约瑟夫·哈达尔和威廉·R·罗素。订购不确定前景的规则。《美国经济评论》,第25-34页,1969年。
[29] G Hanoch和H Levy。涉及风险的选择的效率分析。《经济研究评论》,36(3):335-3461969年·Zbl 0184.45202号
[30] Imanol Arrieta Ibarra、Bernardo Ramos和Lars Roemheld。愤怒的小鸟:贝叶斯强化学习。arXiv预印本arXiv:1601.012972016。
[31] 莫特扎·易卜拉希米(Morteza Ibrahimi)、阿德尔·贾马德(Adel Javanmard)和本杰明·罗伊(Benjamin V Roy)。高维线性二次系统的高效强化学习。神经信息处理系统进展25,第2636-2644页,2012年。
[32] 托马斯·雅克什(Thomas Jaksch)、罗纳德·奥尔特纳(Ronald Ortner)和彼得·奥尔(Peter Auer)。强化学习的近似最优后悔边界。机器学习研究杂志,11:1563-16002010·Zbl 1242.68229号
[33] 沙姆·卡卡德。强化学习的样本复杂性。博士论文,伦敦大学学院,2003年。
[34] 迈克尔·卡恩斯(Michael J.Kearns)和达芙妮·科勒(Daphne Koller)。因子化MDP中的高效强化学习。InIJCAI,第740-747页,1999年。
[35] 迈克尔·卡恩斯(Michael J.Kearns)和萨汀德·辛格(Satinder P.Singh)。多项式时间内的近最优强化学习。机器学习,49(2-3):209-2322002·Zbl 1014.68071号
[36] 李丽红和迈克尔·利特曼。将强化学习减少为kwik在线回归。数学与人工智能年鉴,58(3-4):217-2372010·Zbl 1207.68243号
[37] 李丽红、迈克尔·L·利特曼和托马斯·J·沃尔什。知道它所知道的:一个自我意识学习的框架。第25届机器学习国际会议论文集,第568-575页。ACM,2008年·Zbl 1237.68154号
[38] Zachary Lipton、Xiujun Li、Jianfeng Gao、Lihong Li、Faisal Ahmed和Li Deng。BBQ网络:有效探索任务导向对话系统的深度强化学习。2018年AAAI人工智能会议。
[39] 卢秀元和本杰明·范·罗伊。集合采样。在I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑的《神经信息处理系统进展》30,第3258-3266页。2017
[40] 马克·马奇纳和约翰·普拉特。增加风险:一些直接施工。风险与不确定性杂志,14(2):103-1271997·Zbl 0886.90052号
[41] Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A Rusu、Joel Veness、Marc G Bellemare、Alex Graves、Martin Riedmiller、Andreas K Fidjeland、Georg Ostrovski等,通过深度强化学习实现人本控制。《自然》杂志,518(7540):529-5332015。
[42] 雷米·穆诺斯(Réemi Munos)、汤姆·斯特普顿(Tom Stepleton)、安娜·哈鲁图扬扬(Anna Harutyunyan)和马克·贝勒马尔(Marc Bellemare)。安全高效的非政策强化学习。《神经信息处理系统进展》29,第1046-1054页,2016年·Zbl 1466.68067号
[43] 布伦丹·奥多诺霍(Brendan O'Donoghue)、伊恩·奥斯班德(Ian Osband)、雷米·穆诺斯(Remi Munos)和沃洛德米尔·姆尼(Volodymyr Mnih)。不确定性贝尔曼方程及其探索。2017年第35届国际机器学习年会论文集。
[44] 罗纳德·奥尔特纳和丹尼尔·里亚布科。在线后悔界,用于未折扣的持续强化学习。神经信息处理系统进展25,第1763-1771页,2012年。
[45] 伊恩·奥斯班德(Ian Osband)。通过随机值函数进行深入探索。斯坦福大学博士论文,2016年·Zbl 1434.68515号
[46] 伊恩·奥斯班德和本杰明·范罗伊。基于模型的强化学习和规避维度。《神经信息处理系统进展》27,第1466-1474页,2014a。
[47] 伊恩·奥斯班德和本杰明·范罗伊。因子化MDP中的近最优强化学习。《神经信息处理系统进展》27,第604-612页,2014b。
[48] 伊恩·奥斯班德和本杰明·范罗伊。自举汤普森采样和深度探索。arXiv预印本arXiv:1507.00300,2015。
[49] 伊恩·奥斯班德和本杰明·范罗伊。关于强化学习中后悔的下限。arXiv预印本arXiv:1608.027322016。
[50] 伊恩·奥斯班德和本杰明·范罗伊。为什么后验抽样比乐观主义更适合强化学习?《第34届机器学习国际会议论文集》,第2701-2710页,2017年。
[51] 伊恩·奥斯班德(Ian Osband)、德奈尔·拉索(Dnaiel Russo)和本杰明·范罗伊(Benjamin Van Roy)。(更多)通过后验抽样进行有效强化学习。神经信息处理系统进展26,第3003-3011页。2013
[52] 伊恩·奥斯班德、查尔斯·布伦德尔、亚历山大·普里策尔和本杰明·范·罗伊。通过引导DQN进行深入探索。神经信息处理系统研究进展29,第4026-4034页,2016a。
[53] 伊恩·奥斯班德(Ian Osband)、本杰明·范罗伊(Benjamin Van Roy)和郑文(Zheng Wen)。通过随机值函数进行推广和探索。第33届机器学习国际会议论文集,第2377-2386页,2016b。
[54] 伊恩·奥斯班德(Ian Osband)、约翰·阿斯兰尼德斯(John Aslanides)和阿尔宾·卡西尔(Albin Cassirer)。深度强化学习的随机先验函数。在S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.CesaBianchi和R.Garnett编辑的《神经信息处理系统进展》31,第8625-8637页。2018
[55] 亚特·欧文和迪安·埃克尔斯。引导任意顺序的数据数组。《应用统计年鉴》,第895-927页,2012年·Zbl 1454.62131号
[56] 杰森·帕齐斯和罗纳德·帕尔。连续空间马尔可夫决策过程中的PAC最优探索。InAAAI人工智能会议。Citeser,2013年。
[57] 马提亚斯·普拉佩特。深度强化学习中探索的参数空间噪声。卡尔斯鲁厄理工学院博士论文,2017年。
[58] 沃伦·鲍威尔和伊利亚·里佐夫。最佳学习。约翰·威利父子公司,2011年。
[59] Doina Precup、Richard Sutton和Sanjoy Dasgupta。函数逼近的非策略时间差分学习。《第18届机器学习国际会议论文集》,第417-4242001页。
[60] 丹尼尔·拉索(Daniel Russo)。通过随机值函数进行探索的最坏情况后悔界。arXiv预印arXiv:1906.028702019。
[61] 丹尼尔·拉索和本杰明·范罗伊。规避维度和乐观探索的样本复杂性。神经信息处理系统进展26,第2256-2264页。2013
[62] 丹尼尔·拉索和本杰明·范罗伊。通过后验抽样学习优化。运筹学数学,39(4):1221-12432014a·Zbl 1310.93091号
[63] 丹尼尔·拉索和本杰明·范罗伊。学习通过信息导向采样进行优化。神经信息处理系统进展27,第1583-1591页。2014年b·Zbl 1458.90497号
[64] 丹尼尔·拉索和詹姆斯·邹。你的数据探索超额了多少?通过信息使用控制偏差。arXiv预印本arXiv:1511.052192015·兹比尔1433.94041
[65] Daniel J Russo、Benjamin Van Roy、Abbas Kazerouni、Ian Osband、Zheng Wen等人。汤普森采样教程。机器学习基础与趋势®,11(1):1-962018·Zbl 1409.62024号
[66] Tom Schaul、John Quan、Ioannis Antonoglou和David Silver。优先体验重播。CoRR,abs/1511.059522015年。
[67] David Silver、Aja Huang、Chris J Maddison、Arthur Guez、Laurent Sifre、George Van Den Driessche、Julian Schrittwieser、Ioannis Antonoglou、Veda Panneershelvam、Marc Lanctot等。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587):484-4892016。
[68] David Silver、Julian Schrittwiser、Karen Simonyan、Ioannis Antonoglou、Aja Huang、Arthur Guez、Thomas Hubert、Lucas Baker、Matthew Lai、Adrian Bolton等。在人类不知情的情况下掌握围棋游戏。《自然》,550(7676):3542017年。
[69] 亚历山大·斯特雷尔。强化学习中的探索可能大致正确(PAC)。2007年,新不伦瑞克罗格斯大学研究生院博士论文。
[70] Alexander L.Strehl、Lihong Li、Eric Wiewiora、John Langford和Michael L.Littman。PAC无模型强化学习。2006年第23届国际机器学习年会论文集,第881-888页。
[71] 理查德·萨顿和安德鲁·巴托。强化学习:导论,第二版。麻省理工学院出版社,2018年·Zbl 1407.68009号
[72] Richard Sutton、Hamid Reza Maei、Doina Precup、Shalabh Bhatnagar、David Silver、Csaba Szepesv´ari和Eric Wiewiora。线性函数近似下时间差分学习的快速梯度衰减方法。第26届国际机器学习年会论文集,993-1000页。ACM,2009年。
[73] 理查德·萨顿(Richard S Sutton)。学习通过时间差异的方法进行预测。机器学习,3(1):9-441988。
[74] Csaba Szepesv´ari.强化学习算法。人工智能和机器学习综合讲座。摩根&克莱普尔出版社,2010年·Zbl 1205.68320号
[75] 唐浩然(Haoran Tang)、雷恩·霍索夫(Rein Houthooft)、戴维斯·富特(Davis Foote)、亚当·斯托克(Adam Stooke)、西陈(Xi Chen)、严端(Yan Duan)、约翰·舒尔曼(John Schulman)、菲利普·德图尔克(Filip De#探索:基于计数的深度强化学习探索研究。CoRR,abs/1611.047172016年。
[76] 马修·泰勒和彼得·斯通。强化学习领域的迁移学习:一项调查。机器学习研究杂志,10(7月):1633-16852009·兹比尔1235.68196
[77] 杰拉尔德·泰索罗(Gerald Tesauro)。时间差异学习和TD-gammon。ACM通讯,38(3):58-681995。
[78] 威廉·R·汤普森。考虑到两个样本的证据,一个未知概率超过另一个的可能性。《生物特征》,25(3/4):285-2941933年·JFM 59.1159.03号文件
[79] 约翰·齐齐克利斯(John N Tsitsiklis)和本杰明·范罗伊(Benjamin Van Roy)。函数逼近的时间差分学习分析。IEEE自动控制汇刊,42(5):674-6901997·Zbl 0914.93075号
[80] 郑文。具有值函数泛化的高效强化学习。斯坦福大学博士论文,2014年。
[81] 郑文和本杰明·范罗伊。确定性系统中的有效探索和值函数泛化。神经信息处理系统研究进展26,第3021-3029页,2013年。
[82] Daan Wierstra、Tom Schaul、Jan Peters和Juergen Schmidhuber。自然进化策略。InEvolutionary Computation,2008年。CEC 2008(IEEE计算智能世界大会)。IEEE大会,第3381-3387页。IEEE,2008年。
[83] 张志远(Chiyuan Zhang)、萨米·本吉奥(Samy Bengio)、莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和奥里奥·维尼亚尔(Oriol Vinyals)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。