研究论文

部分可观测性下基于屏蔽的安全强化学习

作者:

史蒂文卡尔,

塞巴斯蒂安荣格斯、和

乌富克托普朱作者信息和声明

AAAI'23/IAAI'23/EAAI'23：第三十七届AAAI人工智能会议记录和第三十五届人工智能创新应用会议记录以及第十三届人工智能教育进展研讨会

2023年2月

文章编号：1654，页数14748-14756

https://doi.org/10.1609/aaai.v37i12.26723

出版:2023年2月7日出版历史

发布者网站

摘要

安全探索是强化学习（RL）中的一个常见问题，其目的是防止代理在探索环境时做出灾难性的决策。解决此问题的一系列方法以该环境的（部分）模型的形式假设领域知识，以决定操作的安全性。所谓的屏蔽迫使RL代理只选择安全操作。然而，对于在各种应用中的采用，必须超越执行安全性，并确保RL具有良好的性能。我们通过与最先进的深度RL紧密集成来扩展屏蔽的适用性，并在部分可观测性下，在具有挑战性的稀疏奖励环境中提供了广泛的实证研究。我们表明，仔细集成的屏蔽可以确保安全性，并可以提高RL代理的收敛速度和最终性能。我们进一步表明，屏蔽可以用于引导最先进的RL代理：在屏蔽环境中初始学习后，它们仍然是安全的，允许我们最终禁用可能过于保守的屏蔽。

工具书类

[1]

Alshiekh，M。；布隆，R。；埃勒斯，R。；科尼霍费尔，B。；Niekum，S。；和Topcu，U.2018。通过屏蔽进行安全加固学习。在AAAI公司AAAI出版社。

[2]

拜尔，C。；和Katoen，J.-P.2008。模型检查原理麻省理工学院出版社。

数字图书馆

[3]

Bertoli，P。；Cimatti，A。；和Pistore，M.，2006年。部分可观测下的强循环规划。在ICAPS公司, 354-357. AAAI公司。

[4]

布顿，M。；卡尔森，J。；Nakhaei，A。；藤村，K。；M.J.Kochenderfer。；和Tumova，J.2019。自主驾驶的概率保证强化学习。CoRR公司，abs/1904.07189。

[5]

卡尔·S。；Jansen，N。；和Topcu，U.2021。部分可观测马尔可夫决策过程的基于任务软件可验证RNN的策略。人工智能研究杂志, 72: 819-847.

数字图书馆

[6]

查特吉，K。；Chmelik，M。；和Davies，J.，2016年。POMDP中一种基于符号SAT的小策略下最安全可达性算法。在AAAI公司, 3225-3232. AAAI出版社。

[7]

克里斯托杜鲁，P.2019。离散动作设置的Soft Actor-Critic。CoRR公司，abs/1910.07207。

[8]

库布特佩，M。；Jansen，N。；Junges，S。；马兰迪，A。；Suilen，M。；和Topcu，U.2021。不确定POMDP的鲁棒有限状态控制器。在AAAI公司, 11792-11800. AAAI出版社。

[9]

Dräger，K.博士。；Forejt，V.公司。；Kwiatkowska，M.Z。；帕克，D。；和Ujma，M.，2015年。概率系统的许可控制器综合。LMCS公司, 11(2).

[10]

富尔顿，N。；和Platzer，A.2018。通过正式方法进行安全强化学习：通过证明和学习实现安全控制。在AAAI公司AAAI出版社。

[11]

加西亚，J。；和Fernández，F.2015。安全强化学习综合调查。机器学习研究杂志, 16(1): 1437-1480.

数字图书馆

[12]

瓜达拉马，S。；科拉提卡拉，A。；O.拉米雷斯。；卡斯特罗，P。；霍莉，E。；菲什曼，S。；王凯。；Gonina，E。；Wu，N。；Kokiopoulou，E。；Sbaiz，L。；史密斯，J。；巴托克，G。；贝伦特，J。；哈里斯，C。；Vanhoucke，V。；和Brevdo，E.2018。TF-Agents:TensorFlow中的强化学习库。https://github.com/tensorflow/agents。访问时间：2022-10-22。

[13]

哈桑贝格，M。；阿巴特，A。；和Kroening，D.2020。具有逻辑约束的谨慎强化学习。在美国原子能机构, 483-491. 国际自治代理和多代理系统基金会。

[14]

Hausknecht，M.J。；和Stone，P.2015。部分可观测MDP的深度递归Q学习。在AAAI公司, 29-37. AAAI出版社。

[15]

亨塞尔，C。；Junges，S。；卡托恩，J。；夸特曼，T。；和Volk，M.2022。概率模型检查器Storm。Int.J.软件。技术工具。Transf公司。, 24(4): 589-610.

数字图书馆

[16]

Hlynsson，H.D。；和Wiskott，L.2021。表象学习与奖励形成的奖励预测。在国际JCCI, 267-276. 科学出版社。

[17]

Jansen，N。；Könighfer，B。；Junges，S。；塞族人，A。；和Bloem，R.2020。使用概率屏蔽进行安全强化学习（特邀论文）。在同意，第171卷，共页LIPIcs公司, 3:1-3:16. 达格斯图尔宫（Schloss Dagstuhl）——莱布尼茨-泽特鲁姆（Leibniz-Zentrum）皮毛信息馆（Informatik）。

[18]

Junges，S。；Jansen，N。；Dehnert，C。；托普库，美国。；和Katoen，J.，2016年。MDP的安全约束强化学习。在墨西哥玉米饼.

[19]

Junges，S。；Jansen，N。；和Seshia，S.A.2021。在POMDP中实施最安全可达性。在腔静脉，第12760卷，共页LNCS公司, 602-625. 斯普林格。

[20]

Kaelbling，L.P。；利特曼，M.L。；和Cassandra，A.R.1998。在部分可观测的随机域中进行规划和行动。人工智能, 101(1): 99-134.

[21]

卡茨，G。；巴雷特，C。；Dill，D.L。；朱利安，K。；和Kochenderfer，M.J.，2017年。Reluplex：用于验证深层神经网络的高效SMT求解器。在腔静脉, 97-117. 斯普林格。

[22]

Kim，H。；Lim，W。；Lee，K。；Noh，Y。；和Kim，K.，2015年。基于模型的贝叶斯强化学习的奖励形成。在AAAI公司, 3548-3555. AAAI出版社。

[23]

Kober，J。；Bagnell，J.A。；和Peters，J.，2013年。机器人强化学习：一项调查。国际机器人研究杂志。, 32(11): 1238-1274.

数字图书馆

[24]

Kolobov，A。；毛萨姆；和Weld，D.S.2012。有死胡同的面向目标MDP理论。在阿拉伯联合酋长国, 438-447. AUAI出版社。

[25]

科尼霍费尔，B。；Alshiekh，M。；布隆，R。；汉弗莱，L。；科尼霍费尔，R。；托普库，美国。；和Wang，C.2017。屏蔽合成。系统设计中的形式化方法, 51(2): 332-361.

数字图书馆

[26]

Laud，A。；和DeJong，G.2003。奖励对强化学习速度的影响：成型分析。在ICML公司, 440-447. AAAI出版社。

[27]

O.马达尼。；汉克斯，S。；和Condon，A.1999。关于概率规划和无限域部分可观测马尔可夫决策问题的不可解性。在AAAI公司, 541-548. AAAI出版社。

[28]

Mnih，V。；Kavukcuoglu，K。；西尔弗·D。；格雷夫斯，A。；安东尼奥卢，I。；Wierstra，D。；和Riedmiller，M.A.，2013年。使用深度强化学习玩Atari。CoRR公司，abs/1312.5602。

[29]

Mnih，V。；Kavukcuoglu，K。；西尔弗·D。；Rusu，A.A。；Veness，J。；Bellemare，M.G。；格雷夫斯，A。；Riedmiller，医学硕士。；Fidjeland，A。；奥斯特罗夫斯基，G。；彼得森，S。；比蒂，C。；萨迪克，A。；安东尼奥卢，I。；金·H。；库马兰，D。；Wierstra，D。；腿，S。；和Hassabis，D.2015。通过深度强化学习进行人性化控制。自然, 518(7540): 529-533.

[30]

摩尔多瓦，T.M。；和Abbeel，P.2012。马尔可夫决策过程中的安全探索。在ICML公司.icml.cc/全媒体。

[31]

彼得斯，J。；和Schaal，S.2006。机器人的策略梯度方法。在IROS公司, 2219-2225. 电气与电子工程师协会。

[32]

Pnueli，A.1977年。程序的时序逻辑。在计算机科学基础, 46-57. 电气与电子工程师协会。

数字图书馆

[33]

普赖尔，L。；和Collins，G.1996。应急计划：一种基于决策的方法。J.阿蒂夫。智力。物件。, 4: 287-339.

数字图书馆

[34]

Puterman，M.L.1994年。马尔可夫决策过程约翰·威利父子公司。

[35]

Raskin，J。；查特吉，K。；Doyen，L。；和Henzinger，T.A.2007。信息不完全的欧米茄规则博弈算法。日志。方法计算。科学。, 3(3).

[36]

Sallab，A.E。；Abdou，M。；佩罗，E。；和Yogamani，S.K.，2017年。自动驾驶的深度强化学习框架。CoRR公司，abs/1704.02532。

[37]

舒尔曼，J。；沃尔斯基，F。；Dhariwal，P。；Radford，A。；和Klimov，O.，2017年。近似策略优化算法。CoRR公司，abs/1707.06347。

[38]

Shperberg，S.S。；刘，B。；和Stone，P.2022。从灾难性行动效果中学习防护：永远不要重复同样的错误。CoRR公司，abs/2202.09516。

[39]

西尔弗·D。；黄，A。；Maddison，C.J。；A.盖兹。；西夫雷，L。；van den Driessche，G。；Schrittwieser，J。；安东尼奥卢，I。；Panneershelvam，V。；Lanctot，M。；迪尔曼，S。；格雷，D。；Nham，J。；Kalchbrenner，N。；Sutskever，I。；Lillicrap，T.P。；利奇，M。；Kavukcuoglu，K。；Graepel，T。；和Hassabis，D.2016。通过深度神经网络和树搜索掌握围棋游戏。自然, 529(7587): 484-489.

[40]

史密斯，T。；和Simmons，R.2004。POMDP的启发式搜索值迭代。在阿拉伯联合酋长国, 520-527. AUAI出版社。

数字图书馆

[41]

Sutton，R.S。；和Barto，A.G.1998。强化学习：简介麻省理工学院出版社。

数字图书馆

[42]

陶，F。；张，H。；刘，A。；和Nee，A.Y.C.2019。工业中的数字孪生兄弟：最新技术。IEEE传输。工业信息学, 15(4): 2405-2415.

[43]

van Hasselt，H。；A.盖兹。；和Silver，D.2016。双Q学习深度强化学习。在AAAI公司, 2094-2100. AAAI出版社。

数字图书馆

[44]

Wierstra，D。；Förster，A。；彼得斯，J。；和Schmidhuber，J.2007。使用递归策略梯度解决深内存POMDP。在ICANN公司, 697-706. 斯普林格。

[45]

Williams，R.J.1992年。连接强化学习的简单统计梯度跟随算法。机器学习, 8: 229-256.

数字图书馆

引用人

布罗霍尔特A詹森·P拉森K洛伯F先令C(2023)混合系统的屏蔽强化学习缩小人工智能与现实之间的差距10.1007/978-3-031-46002-9_3(33-54)在线发布日期：2023年10月23日
https://dl.acm.org/doi/10.1007/978-3-031-46002-9_3

建议

通过屏蔽实现安全多智能体强化学习
AAMAS’21：第20届自主智能体和多智能体系统国际会议论文集

多智能体强化学习（MARL）已越来越多地用于广泛的安全关键应用，这些应用需要在学习过程中保证安全（例如，从未访问过不安全状态）。不幸的是，目前的MARL。。。
阅读更多信息
通过屏蔽安全强化学习
AAAI'18/IAAI'18/EAAI'18：第三十二届AAAI人工智能会议和第三十届人工智能创新应用会议论文集以及第八届AAAI-人工智能教育进展研讨会

强化学习算法可以发现最大化回报的策略，但不一定保证学习或执行阶段的安全。我们引入了一种新的方法来学习最优策略，同时执行以时间表示的属性。。。
阅读更多信息
多目标安全强化学习：多目标强化学习与安全强化学习的关系
摘要
强化学习（RL）是一种基于尝试和错误学习行为的学习方法。最近，多目标强化学习（MORL）和安全强化学习（SafeRL）得到了研究。传统RL的目标是。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片指南会议记录

AAAI'23/IAAI'23/EAAI'23：第三十七届AAAI人工智能会议记录和第三十五届人工智能创新应用会议记录以及第十三届人工智能教育进展研讨会

2023年2月

16496页

国际标准图书编号：978-1-57735-880-0

版权所有©2023人工智能促进协会。

赞助商

人工智能促进协会

出版商

AAAI出版社

出版历史

出版：2023年2月7日

限定符

研究文章
研究
推荐有限公司

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

1
引文总数
查看引文
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

其他指标

查看作者指标

引文

引用人

布罗霍尔特A詹森·P拉森K洛伯F先令C(2023)混合系统的屏蔽强化学习缩小人工智能与现实之间的差距10.1007/978-3-031-46002-9_3(33-54)在线发布日期：2023年10月23日
https://dl.acm.org/doi/10.1007/978-3-031-46002-9_3

视图选项

查看选项

媒体

数字

其他

桌子