研究论文

递归强化学习

作者:

恩斯特·莫里茨哈恩,

马特奥佩雷斯,

斯文 Schewe公司,

法维奥索门齐,

阿舒托什特里维迪,

多米尼克沃伊特恰克作者信息和声明

NIPS’22：第36届神经信息处理系统国际会议记录

文章编号：2574，页数35519-35532

出版:2024年4月3日出版历史

发布者网站

摘要

递归是有限描述潜在无限对象的基本范式。由于最先进的强化学习（RL）算法无法直接推理递归，因此它们必须依靠从业者的独创性来设计合适的环境“平面”表示。由此产生的手动特征构造和近似非常繁琐且容易出错；它们缺乏透明度，妨碍了可扩展性。为了克服这些挑战，我们开发了RL算法，能够在描述为马尔可夫决策过程（MDP）集合的环境中计算最优策略，这些决策过程可以递归地相互调用。每个组成MDP的特征是有几个入口和出口点，它们对应于这些调用的输入和输出值。这些递归MDP（或RMDP）在表达上等同于概率下推系统（调用堆栈扮演下推堆栈的角色），并且可以使用递归过程调用对概率程序进行建模。我们介绍递归Q学习-提出了一种适用于RMDP的无模型RL算法，并证明了该算法在温和假设下对有限、单出口和确定性多出口RMDP收敛。

补充材料

其他材料（3600270.3602844_支持.pdf）

补充材料。

下载
284.60 KB

工具书类

[1]

Alekh Agarwal、Nan Jiang、Sham M Kakade和Wen Sun。强化学习：理论和算法。CS部门，西雅图大学西雅图分校，华盛顿州西雅图，美国，技术代表, 2019.

[2]

Rajeev Alur、Sampath Kannan和Mihalis Yannakakis。通信分层状态机。编辑吉里·维德曼（Jiri Wiedermann）、彼得·范·埃姆德·博阿斯（Peter van Emde Boas）和莫根斯·尼尔森（Mogens Nielsen），自动机、语言和编程第169-178页，柏林，海德堡，1999年。施普林格-柏林-海德堡。

[3]

David Andre和Stuart J.Russell。可编程强化学习代理的状态抽象。在第十八届全国人工智能会议第119-125页，美国，2002年。美国人工智能协会。

数字图书馆

[4]

托马斯·鲍尔和斯里拉姆·拉贾马尼。Bebop：用于布尔程序的符号模型检查器。在软件模型检查国际SPIN研讨会第113-130页。斯普林格，2000年。

[5]

托马斯·鲍尔和斯里拉姆·拉贾马尼。SLAM工具包。在2001年CAV会议记录（第13届计算机辅助验证会议）第2102卷，第260-264页，2000年。

[6]

Andrew G Barto和Sridhar Mahadevan。分层强化学习的最新进展。离散事件动态系统, 13(1-2):41-77, 2003.

[7]

Dimitri P Bertsekas和John N Tsitsiklis。随机最短路径问题的分析。运筹学数学, 16(3):580-595, 1991.

[8]

Vivek S Borkar和Sean P Meyn。随机逼近和强化学习收敛的ode方法。SIAM控制与优化杂志, 38(2):447-469, 2000.

数字图书馆

[9]

G.Brockman、V.Cheung、L.Pettersson、J.Schneider、J.舒尔曼、J.Tang和W.Zaremba。OpenAI健身房。CoRR公司，abs/1606.0154016。

[10]

迈克尔·科尔巴利斯（Michael C.Corballis）。递归思维：人类语言、思想和文明的起源。普林斯顿大学出版社，2014年。

[11]

托马斯·科尔曼（Thomas H Cormen）、查尔斯·雷瑟森（Charles E Leiserson）、罗纳德·里维斯特（Ronald L Rivest）和克利福德·斯坦（Clifford Stein）。算法简介。麻省理工学院出版社，2022年。

[12]

托马斯·迪吉斯和奥利维尔·西高德。因子马尔可夫决策过程。人工智能中的马尔可夫决策过程，第99-126页，2013年。

[13]

托马斯·迪特里奇（Thomas G Dietterich）。最大值函数分解的分层强化学习。人工智能研究杂志, 13:227-303, 2000.

[14]

哈维尔·埃斯帕尔扎（Javier Esparza）、大卫·汉塞尔（David Hansel）、彼得·罗斯马尼思（Peter Rossmanith）和斯特凡·施温（Stefan Schwoon）。用于模型检查下推系统的有效算法。在计算机辅助核查国际会议，第232-247页。斯普林格，2000年。

[15]

库沙·埃特萨米（Kousha Etessami）、多米尼克·沃伊特扎克（Dominik Wojtczak）和米哈利斯·扬纳卡基斯（Mihalis Yannakakakis）。具有正报酬的递归随机博弈。西奥。计算。科学。, 777:308-328, 2019.

数字图书馆

[16]

库沙·埃特萨米和米哈利斯·扬纳卡基斯。递归概率系统的模型检验。ACM事务处理。计算。日志。, 13(2):12:1-12:40, 2012.

数字图书馆

[17]

库沙·埃特萨米和米哈利斯·扬纳卡基斯。递归马尔可夫决策过程和递归随机对策。美国临床医学杂志, 62(2):11:1-11:69, 2015.

数字图书馆

[18]

伊恩·古德费罗、约舒亚·本吉奥、亚伦·库维尔和约舒亚·本吉奥。深度学习，第1卷。麻省理工学院出版社，2016年。

数字图书馆

[19]

安德烈亚斯·格雷斯迈耶（Andreas Griesmayer）、罗德里克·布隆姆（Roderick Bloem）和拜伦·库克（Byron Cook）。应用于c.In的布尔程序修复计算机辅助核查国际会议第358-371页。斯普林格，2006年。

数字图书馆

[20]

卡洛斯·盖斯特林（Carlos Guestrin）、达芙妮·科勒（Daphne Koller）、罗纳德·帕尔（Ronald Parr）和肖巴·文卡塔拉曼（Shobha Venkataraman）。因子化mdp的高效求解算法。人工智能研究杂志, 19:399-468, 2003.

数字图书馆

[21]

Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi、Ashutosh Trivedi和Dominik Wojtczak。分支马尔可夫决策过程的无模型强化学习。编辑Alexandra Silva和K.Rustan M.Leino，计算机辅助验证——第33届国际会议，CAV 2021，虚拟事件，2021年7月20日至23日，会议记录，第二部分，第12760卷，共页计算机科学讲义，第651-673页。施普林格，2021年。

数字图书馆

[22]

西奥多·爱德华·哈里斯，分支过程理论。技术报告R-381-PR，兰德公司，1964年5月。

[23]

罗德里戈·托罗·伊卡特（Rodrigo Toro Icarte）、托林·克拉森（Toryn Klassen）、理查德·瓦伦扎诺（Richard Valenzano）和希拉·麦克莱思（Sheila McIlraith）。在强化学习中使用奖励机器进行高级任务规范和分解。编辑Jennifer Dy和Andreas Krause，第35届机器学习国际会议论文集，第80卷，共80卷机器学习研究进展，第2107-2116页。PMLR，2018年7月10日至15日。

[24]

罗德里戈·托罗·伊卡特（Rodrigo Toro Icarte）、托林·克拉森（Toryn Q.Klassen）、理查德·安东尼·瓦伦扎诺（Richard Anthony Valenzano）和希拉·麦克莱思（Sheila A.McIlraith）。奖励机器：在强化学习中开发奖励功能结构。J.阿蒂夫。智力。物件。, 73:173-208, 2022.

数字图书馆

[25]

埃戈尔·克拉夫。用于分子优化的语法和强化学习。CoRR公司，abs/1811.112222018年。

[26]

Karim Lari和Steve J Young。使用内外算法估计随机上下文无关文法。计算机语音和语言, 4(1):35-56, 1990.

[27]

Omid Madani、Steve Hanks和Anne Condon。概率规划及其相关随机优化问题的不确定性。人工智能, 147(1):5-34, 2003. 具有不确定性和不完整信息的规划。

数字图书馆

[28]

克里斯托弗·曼宁和辛里克·舒茨。统计自然语言处理基础。麻省理工学院出版社，1999年。

数字图书馆

[29]

詹姆斯·梅斯（James D Meiss）。微分动力系统。SIAM，2007年。

[30]

V.Mnih、K.Kavukcouglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski、S.Petersen、C.Beattie、A.Sadik、I.Antonoglou、H.King、D.Kumaran、D.Wierstra、S.Legg和D.Hassabis。通过强化学习实现人类层面的控制。性质，518:529-5332015年2月。

[31]

罗纳德·帕尔和斯图亚特·罗素。使用机器层次结构强化学习。在神经信息处理系统研究进展，第1043-1049页，1998年。

[32]

M.L.Puterman先生。马尔可夫决策过程：离散随机动态规划。John Wiley&Sons，Inc.，美国纽约州纽约市，1994年。

[33]

D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.van den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot、S.Dieleman、D.Grewe、J.Nham、N.Kalchbrenner、I.Sutskever、T.Lillicrap、M.Leach、K.Kavukcuoglu、T.Graepel和D.Hassabis。通过深度神经网络和树搜索掌握围棋游戏。性质2016年1月，529:484-489。

[34]

Thoralf Skolem。Begründung der elementaren Arithmetik durch die rekurrierende Denkweise ohne Anwendung scheinbarer Veränderlichen mit unedlichem Ausdehnungsbereich的元素计算。Dybusach，1923年。

[35]

罗伯特·索尔。图灵可计算性：理论与应用。斯普林格，2016年。

[36]

R.S.Sutton和A.G.Barto。强化学习：导论。麻省理工学院出版社，第二版，2018年。

数字图书馆

[37]

理查德·萨顿（Richard S Sutton）、多伊娜·普雷科普（Doina Precup）和萨汀德·辛格（Satinder Singh）。介于mdps和半mdps之间：强化学习中的时间抽象框架。人工智能, 112(1-2):181-211, 1999.

数字图书馆

[38]

弗拉基米尔·瓦图丁（Vladimir A Vatutin）和安德烈·祖布科夫（Andrei M Zubkov）。分支流程。ii、。苏联数学杂志, 67(6):3407-3485, 1993.

[39]

Oriol Vinyals、Igor Babuschkin、Wojciech M Czarnecki、Michaöl Mathieu、Andrew Dudzik、Junyoung Chung、David H Choi、Richard Powell、Timo Ewalds和Petko Georgiev。《星际争霸2》大师级使用多智能体强化学习。性质, 575(7782):350-354, 2019.

[40]

Christopher JCH Watkins和Peter Dayan。Q学习。机器学习, 8(3):279-292, 1992.

[41]

克里斯托弗·约翰·科尼什·赫拉比·沃特金斯（Christopher John Cornish Hellaby Watkins）。从延迟的奖励中学习。英国剑桥大学国王学院博士论文，1989年。

[42]

周振鹏、史蒂文·卡恩斯、李丽、理查德·扎尔和帕特里克·莱利。通过深度强化学习优化分子。科学报告, 9(1):1-10, 2019.

索引术语

递归强化学习

索引项已通过自动分类分配给内容。

建议

随时间强化学习
AAAI'97/IAAI'97：第十四届全国人工智能会议和第九届人工智能创新应用会议记录

本文从强化学习问题的标准无穷视界公式出发，考虑有限视界问题的更简单情况。虽然有限时域问题可以通过使用无限时域学习算法来解决，但是。。。
分层平均奖励强化学习

层次强化学习（HRL）是一个通用框架，通过使用任务（或动作）结构限制策略空间，将强化学习（RL）扩展到具有较大状态和动作空间的问题。HRL之前的工作。。。
部分可观测环境下的逆强化学习

反向强化学习（IRL）是从专家行为中恢复潜在奖励函数的问题。现有的大多数IRL算法都假设环境被建模为马尔可夫决策过程（MDP），尽管它。。。

评论

信息和贡献者

问询处

发布于

封面图片指南会议记录

NIPS’22：第36届神经信息处理系统国际会议记录

2022年11月

39114页

国际标准图书编号：9781713871088

版权所有©2022神经信息处理系统基金会。

出版商

Curran Associates公司。

美国纽约州Red Hook

出版历史

出版：2024年4月3日

限定符

研究文章
研究
推荐有限公司

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

反映截至2024年9月19日的下载量

其他指标

查看作者指标

引文

视图选项

查看选项

媒体

数字

其他

桌子