跳到主要内容
10.5555/3600270.3602844指导程序文章/章节视图摘要出版物页面钳口会议记录会议集合
研究论文

递归强化学习

出版:2024年4月3日 出版历史

摘要

递归是有限描述潜在无限对象的基本范式。由于最先进的强化学习(RL)算法无法直接推理递归,因此它们必须依靠从业者的独创性来设计合适的环境“平面”表示。由此产生的手动特征构造和近似非常繁琐且容易出错;它们缺乏透明度,妨碍了可扩展性。为了克服这些挑战,我们开发了RL算法,能够在描述为马尔可夫决策过程(MDP)集合的环境中计算最优策略,这些决策过程可以递归地相互调用。每个组成MDP的特征是有几个入口和出口点,它们对应于这些调用的输入和输出值。这些递归MDP(或RMDP)在表达上等同于概率下推系统(调用堆栈扮演下推堆栈的角色),并且可以使用递归过程调用对概率程序进行建模。我们介绍递归Q学习-提出了一种适用于RMDP的无模型RL算法,并证明了该算法在温和假设下对有限、单出口和确定性多出口RMDP收敛。

补充材料

其他材料 (3600270.3602844_支持.pdf)
补充材料。

工具书类

[1]
Alekh Agarwal、Nan Jiang、Sham M Kakade和Wen Sun。强化学习:理论和算法。CS部门,西雅图大学西雅图分校,华盛顿州西雅图,美国,技术代表, 2019.
[2]
Rajeev Alur、Sampath Kannan和Mihalis Yannakakis。通信分层状态机。编辑吉里·维德曼(Jiri Wiedermann)、彼得·范·埃姆德·博阿斯(Peter van Emde Boas)和莫根斯·尼尔森(Mogens Nielsen),自动机、语言和编程第169-178页,柏林,海德堡,1999年。施普林格-柏林-海德堡。
[3]
David Andre和Stuart J.Russell。可编程强化学习代理的状态抽象。第十八届全国人工智能会议第119-125页,美国,2002年。美国人工智能协会。
[4]
托马斯·鲍尔和斯里拉姆·拉贾马尼。Bebop:用于布尔程序的符号模型检查器。软件模型检查国际SPIN研讨会第113-130页。斯普林格,2000年。
[5]
托马斯·鲍尔和斯里拉姆·拉贾马尼。SLAM工具包。2001年CAV会议记录(第13届计算机辅助验证会议)第2102卷,第260-264页,2000年。
[6]
Andrew G Barto和Sridhar Mahadevan。分层强化学习的最新进展。离散事件动态系统, 13(1-2):41-77, 2003.
[7]
Dimitri P Bertsekas和John N Tsitsiklis。随机最短路径问题的分析。运筹学数学, 16(3):580-595, 1991.
[8]
Vivek S Borkar和Sean P Meyn。随机逼近和强化学习收敛的ode方法。SIAM控制与优化杂志, 38(2):447-469, 2000.
[9]
G.Brockman、V.Cheung、L.Pettersson、J.Schneider、J.舒尔曼、J.Tang和W.Zaremba。OpenAI健身房。CoRR公司,abs/1606.0154016。
[10]
迈克尔·科尔巴利斯(Michael C.Corballis)。递归思维:人类语言、思想和文明的起源。普林斯顿大学出版社,2014年。
[11]
托马斯·科尔曼(Thomas H Cormen)、查尔斯·雷瑟森(Charles E Leiserson)、罗纳德·里维斯特(Ronald L Rivest)和克利福德·斯坦(Clifford Stein)。算法简介。麻省理工学院出版社,2022年。
[12]
托马斯·迪吉斯和奥利维尔·西高德。因子马尔可夫决策过程。人工智能中的马尔可夫决策过程,第99-126页,2013年。
[13]
托马斯·迪特里奇(Thomas G Dietterich)。最大值函数分解的分层强化学习。人工智能研究杂志, 13:227-303, 2000.
[14]
哈维尔·埃斯帕尔扎(Javier Esparza)、大卫·汉塞尔(David Hansel)、彼得·罗斯马尼思(Peter Rossmanith)和斯特凡·施温(Stefan Schwoon)。用于模型检查下推系统的有效算法。计算机辅助核查国际会议,第232-247页。斯普林格,2000年。
[15]
库沙·埃特萨米(Kousha Etessami)、多米尼克·沃伊特扎克(Dominik Wojtczak)和米哈利斯·扬纳卡基斯(Mihalis Yannakakakis)。具有正报酬的递归随机博弈。西奥。计算。科学。, 777:308-328, 2019.
[16]
库沙·埃特萨米和米哈利斯·扬纳卡基斯。递归概率系统的模型检验。ACM事务处理。计算。日志。, 13(2):12:1-12:40, 2012.
[17]
库沙·埃特萨米和米哈利斯·扬纳卡基斯。递归马尔可夫决策过程和递归随机对策。美国临床医学杂志, 62(2):11:1-11:69, 2015.
[18]
伊恩·古德费罗、约舒亚·本吉奥、亚伦·库维尔和约舒亚·本吉奥。深度学习,第1卷。麻省理工学院出版社,2016年。
[19]
安德烈亚斯·格雷斯迈耶(Andreas Griesmayer)、罗德里克·布隆姆(Roderick Bloem)和拜伦·库克(Byron Cook)。应用于c.In的布尔程序修复计算机辅助核查国际会议第358-371页。斯普林格,2006年。
[20]
卡洛斯·盖斯特林(Carlos Guestrin)、达芙妮·科勒(Daphne Koller)、罗纳德·帕尔(Ronald Parr)和肖巴·文卡塔拉曼(Shobha Venkataraman)。因子化mdp的高效求解算法。人工智能研究杂志, 19:399-468, 2003.
[21]
Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi、Ashutosh Trivedi和Dominik Wojtczak。分支马尔可夫决策过程的无模型强化学习。编辑Alexandra Silva和K.Rustan M.Leino,计算机辅助验证——第33届国际会议,CAV 2021,虚拟事件,2021年7月20日至23日,会议记录,第二部分,第12760卷,共页计算机科学讲义,第651-673页。施普林格,2021年。
[22]
西奥多·爱德华·哈里斯,分支过程理论。技术报告R-381-PR,兰德公司,1964年5月。
[23]
罗德里戈·托罗·伊卡特(Rodrigo Toro Icarte)、托林·克拉森(Toryn Klassen)、理查德·瓦伦扎诺(Richard Valenzano)和希拉·麦克莱思(Sheila McIlraith)。在强化学习中使用奖励机器进行高级任务规范和分解。编辑Jennifer Dy和Andreas Krause,第35届机器学习国际会议论文集,第80卷,共80卷机器学习研究进展,第2107-2116页。PMLR,2018年7月10日至15日。
[24]
罗德里戈·托罗·伊卡特(Rodrigo Toro Icarte)、托林·克拉森(Toryn Q.Klassen)、理查德·安东尼·瓦伦扎诺(Richard Anthony Valenzano)和希拉·麦克莱思(Sheila A.McIlraith)。奖励机器:在强化学习中开发奖励功能结构。J.阿蒂夫。智力。物件。, 73:173-208, 2022.
[25]
埃戈尔·克拉夫。用于分子优化的语法和强化学习。CoRR公司,abs/1811.112222018年。
[26]
Karim Lari和Steve J Young。使用内外算法估计随机上下文无关文法。计算机语音和语言, 4(1):35-56, 1990.
[27]
Omid Madani、Steve Hanks和Anne Condon。概率规划及其相关随机优化问题的不确定性。人工智能, 147(1):5-34, 2003. 具有不确定性和不完整信息的规划。
[28]
克里斯托弗·曼宁和辛里克·舒茨。统计自然语言处理基础。麻省理工学院出版社,1999年。
[29]
詹姆斯·梅斯(James D Meiss)。微分动力系统。SIAM,2007年。
[30]
V.Mnih、K.Kavukcouglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski、S.Petersen、C.Beattie、A.Sadik、I.Antonoglou、H.King、D.Kumaran、D.Wierstra、S.Legg和D.Hassabis。通过强化学习实现人类层面的控制。性质,518:529-5332015年2月。
[31]
罗纳德·帕尔和斯图亚特·罗素。使用机器层次结构强化学习。神经信息处理系统研究进展,第1043-1049页,1998年。
[32]
M.L.Puterman先生。马尔可夫决策过程:离散随机动态规划。John Wiley&Sons,Inc.,美国纽约州纽约市,1994年。
[33]
D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.van den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot、S.Dieleman、D.Grewe、J.Nham、N.Kalchbrenner、I.Sutskever、T.Lillicrap、M.Leach、K.Kavukcuoglu、T.Graepel和D.Hassabis。通过深度神经网络和树搜索掌握围棋游戏。性质2016年1月,529:484-489。
[34]
Thoralf Skolem。Begründung der elementaren Arithmetik durch die rekurrierende Denkweise ohne Anwendung scheinbarer Veränderlichen mit unedlichem Ausdehnungsbereich的元素计算。Dybusach,1923年。
[35]
罗伯特·索尔。图灵可计算性:理论与应用。斯普林格,2016年。
[36]
R.S.Sutton和A.G.Barto。强化学习:导论。麻省理工学院出版社,第二版,2018年。
[37]
理查德·萨顿(Richard S Sutton)、多伊娜·普雷科普(Doina Precup)和萨汀德·辛格(Satinder Singh)。介于mdps和半mdps之间:强化学习中的时间抽象框架。人工智能, 112(1-2):181-211, 1999.
[38]
弗拉基米尔·瓦图丁(Vladimir A Vatutin)和安德烈·祖布科夫(Andrei M Zubkov)。分支流程。ii、。苏联数学杂志, 67(6):3407-3485, 1993.
[39]
Oriol Vinyals、Igor Babuschkin、Wojciech M Czarnecki、Michaöl Mathieu、Andrew Dudzik、Junyoung Chung、David H Choi、Richard Powell、Timo Ewalds和Petko Georgiev。《星际争霸2》大师级使用多智能体强化学习。性质, 575(7782):350-354, 2019.
[40]
Christopher JCH Watkins和Peter Dayan。Q学习。机器学习, 8(3):279-292, 1992.
[41]
克里斯托弗·约翰·科尼什·赫拉比·沃特金斯(Christopher John Cornish Hellaby Watkins)。从延迟的奖励中学习。英国剑桥大学国王学院博士论文,1989年。
[42]
周振鹏、史蒂文·卡恩斯、李丽、理查德·扎尔和帕特里克·莱利。通过深度强化学习优化分子。科学报告, 9(1):1-10, 2019.

建议

评论

信息和贡献者

问询处

发布于

封面图片指南会议记录
NIPS’22:第36届神经信息处理系统国际会议记录
2022年11月
39114页
国际标准图书编号:9781713871088

出版商

Curran Associates公司。

美国纽约州Red Hook

出版历史

出版:2024年4月3日

限定符

  • 研究文章
  • 研究
  • 推荐有限公司

贡献者

其他指标

文献计量学和引文

文献计量学

文章指标

  • 0
    引文总数
  • 0
    总下载次数
  • 下载次数(过去12个月)0
  • 下载次数(最近6周)0
反映截至2024年9月19日的下载量

其他指标

引文

视图选项

查看选项

媒体

数字

其他

桌子

分享

分享

共享此出版物链接

在社交媒体上分享