跳到主要内容
10.1609/aaai.v37i12.26723指导程序文章/章节视图摘要出版物页面会议记录acm-pubtype公司
研究论文

部分可观测性下基于屏蔽的安全强化学习

出版:2023年2月7日 出版历史
  • 获取引文提醒
  • 摘要

    安全探索是强化学习(RL)中的一个常见问题,其目的是防止代理在探索环境时做出灾难性的决策。解决此问题的一系列方法以该环境的(部分)模型的形式假设领域知识,以决定操作的安全性。所谓的屏蔽迫使RL代理只选择安全操作。然而,对于在各种应用中的采用,必须超越执行安全性,并确保RL具有良好的性能。我们通过与最先进的深度RL紧密集成来扩展屏蔽的适用性,并在部分可观测性下,在具有挑战性的稀疏奖励环境中提供了广泛的实证研究。我们表明,仔细集成的屏蔽可以确保安全性,并可以提高RL代理的收敛速度和最终性能。我们进一步表明,屏蔽可以用于引导最先进的RL代理:在屏蔽环境中初始学习后,它们仍然是安全的,允许我们最终禁用可能过于保守的屏蔽。

    工具书类

    [1]
    Alshiekh,M。;布隆,R。;埃勒斯,R。;科尼霍费尔,B。;Niekum,S。;和Topcu,U.2018。通过屏蔽进行安全加固学习。AAAI公司AAAI出版社。
    [2]
    拜尔,C。;和Katoen,J.-P.2008。模型检查原理麻省理工学院出版社。
    [3]
    Bertoli,P。;Cimatti,A。;和Pistore,M.,2006年。部分可观测下的强循环规划。ICAPS公司, 354-357. AAAI公司。
    [4]
    布顿,M。;卡尔森,J。;Nakhaei,A。;藤村,K。;M.J.Kochenderfer。;和Tumova,J.2019。自主驾驶的概率保证强化学习。CoRR公司,abs/1904.07189。
    [5]
    卡尔·S。;Jansen,N。;和Topcu,U.2021。部分可观测马尔可夫决策过程的基于任务软件可验证RNN的策略。人工智能研究杂志, 72: 819-847.
    [6]
    查特吉,K。;Chmelik,M。;和Davies,J.,2016年。POMDP中一种基于符号SAT的小策略下最安全可达性算法。AAAI公司, 3225-3232. AAAI出版社。
    [7]
    克里斯托杜鲁,P.2019。离散动作设置的Soft Actor-Critic。CoRR公司,abs/1910.07207。
    [8]
    库布特佩,M。;Jansen,N。;Junges,S。;马兰迪,A。;Suilen,M。;和Topcu,U.2021。不确定POMDP的鲁棒有限状态控制器。AAAI公司, 11792-11800. AAAI出版社。
    [9]
    Dräger,K.博士。;Forejt,V.公司。;Kwiatkowska,M.Z。;帕克,D。;和Ujma,M.,2015年。概率系统的许可控制器综合。LMCS公司, 11(2).
    [10]
    富尔顿,N。;和Platzer,A.2018。通过正式方法进行安全强化学习:通过证明和学习实现安全控制。AAAI公司AAAI出版社。
    [11]
    加西亚,J。;和Fernández,F.2015。安全强化学习综合调查。机器学习研究杂志, 16(1): 1437-1480.
    [12]
    瓜达拉马,S。;科拉提卡拉,A。;O.拉米雷斯。;卡斯特罗,P。;霍莉,E。;菲什曼,S。;王凯。;Gonina,E。;Wu,N。;Kokiopoulou,E。;Sbaiz,L。;史密斯,J。;巴托克,G。;贝伦特,J。;哈里斯,C。;Vanhoucke,V。;和Brevdo,E.2018。TF-Agents:TensorFlow中的强化学习库。https://github.com/tensorflow/agents。访问时间:2022-10-22。
    [13]
    哈桑贝格,M。;阿巴特,A。;和Kroening,D.2020。具有逻辑约束的谨慎强化学习。美国原子能机构, 483-491. 国际自治代理和多代理系统基金会。
    [14]
    Hausknecht,M.J。;和Stone,P.2015。部分可观测MDP的深度递归Q学习。AAAI公司, 29-37. AAAI出版社。
    [15]
    亨塞尔,C。;Junges,S。;卡托恩,J。;夸特曼,T。;和Volk,M.2022。概率模型检查器Storm。Int.J.软件。技术工具。Transf公司。, 24(4): 589-610.
    [16]
    Hlynsson,H.D。;和Wiskott,L.2021。表象学习与奖励形成的奖励预测。国际JCCI, 267-276. 科学出版社。
    [17]
    Jansen,N。;Könighfer,B。;Junges,S。;塞族人,A。;和Bloem,R.2020。使用概率屏蔽进行安全强化学习(特邀论文)。同意,第171卷,共页LIPIcs公司, 3:1-3:16. 达格斯图尔宫(Schloss Dagstuhl)——莱布尼茨-泽特鲁姆(Leibniz-Zentrum)皮毛信息馆(Informatik)。
    [18]
    Junges,S。;Jansen,N。;Dehnert,C。;托普库,美国。;和Katoen,J.,2016年。MDP的安全约束强化学习。墨西哥玉米饼.
    [19]
    Junges,S。;Jansen,N。;和Seshia,S.A.2021。在POMDP中实施最安全可达性。腔静脉,第12760卷,共页LNCS公司, 602-625. 斯普林格。
    [20]
    Kaelbling,L.P。;利特曼,M.L。;和Cassandra,A.R.1998。在部分可观测的随机域中进行规划和行动。人工智能, 101(1): 99-134.
    [21]
    卡茨,G。;巴雷特,C。;Dill,D.L。;朱利安,K。;和Kochenderfer,M.J.,2017年。Reluplex:用于验证深层神经网络的高效SMT求解器。腔静脉, 97-117. 斯普林格。
    [22]
    Kim,H。;Lim,W。;Lee,K。;Noh,Y。;和Kim,K.,2015年。基于模型的贝叶斯强化学习的奖励形成。AAAI公司, 3548-3555. AAAI出版社。
    [23]
    Kober,J。;Bagnell,J.A。;和Peters,J.,2013年。机器人强化学习:一项调查。国际机器人研究杂志。, 32(11): 1238-1274.
    [24]
    Kolobov,A。;毛萨姆;和Weld,D.S.2012。有死胡同的面向目标MDP理论。阿拉伯联合酋长国, 438-447. AUAI出版社。
    [25]
    科尼霍费尔,B。;Alshiekh,M。;布隆,R。;汉弗莱,L。;科尼霍费尔,R。;托普库,美国。;和Wang,C.2017。屏蔽合成。系统设计中的形式化方法, 51(2): 332-361.
    [26]
    Laud,A。;和DeJong,G.2003。奖励对强化学习速度的影响:成型分析。ICML公司, 440-447. AAAI出版社。
    [27]
    O.马达尼。;汉克斯,S。;和Condon,A.1999。关于概率规划和无限域部分可观测马尔可夫决策问题的不可解性。AAAI公司, 541-548. AAAI出版社。
    [28]
    Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;格雷夫斯,A。;安东尼奥卢,I。;Wierstra,D。;和Riedmiller,M.A.,2013年。使用深度强化学习玩Atari。CoRR公司,abs/1312.5602。
    [29]
    Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,A.A。;Veness,J。;Bellemare,M.G。;格雷夫斯,A。;Riedmiller,医学硕士。;Fidjeland,A。;奥斯特罗夫斯基,G。;彼得森,S。;比蒂,C。;萨迪克,A。;安东尼奥卢,I。;金·H。;库马兰,D。;Wierstra,D。;腿,S。;和Hassabis,D.2015。通过深度强化学习进行人性化控制。自然, 518(7540): 529-533.
    [30]
    摩尔多瓦,T.M。;和Abbeel,P.2012。马尔可夫决策过程中的安全探索。ICML公司.icml.cc/全媒体。
    [31]
    彼得斯,J。;和Schaal,S.2006。机器人的策略梯度方法。IROS公司, 2219-2225. 电气与电子工程师协会。
    [32]
    Pnueli,A.1977年。程序的时序逻辑。计算机科学基础, 46-57. 电气与电子工程师协会。
    [33]
    普赖尔,L。;和Collins,G.1996。应急计划:一种基于决策的方法。J.阿蒂夫。智力。物件。, 4: 287-339.
    [34]
    Puterman,M.L.1994年。马尔可夫决策过程约翰·威利父子公司。
    [35]
    Raskin,J。;查特吉,K。;Doyen,L。;和Henzinger,T.A.2007。信息不完全的欧米茄规则博弈算法。日志。方法计算。科学。, 3(3).
    [36]
    Sallab,A.E。;Abdou,M。;佩罗,E。;和Yogamani,S.K.,2017年。自动驾驶的深度强化学习框架。CoRR公司,abs/1704.02532。
    [37]
    舒尔曼,J。;沃尔斯基,F。;Dhariwal,P。;Radford,A。;和Klimov,O.,2017年。近似策略优化算法。CoRR公司,abs/1707.06347。
    [38]
    Shperberg,S.S。;刘,B。;和Stone,P.2022。从灾难性行动效果中学习防护:永远不要重复同样的错误。CoRR公司,abs/2202.09516。
    [39]
    西尔弗·D。;黄,A。;Maddison,C.J。;A.盖兹。;西夫雷,L。;van den Driessche,G。;Schrittwieser,J。;安东尼奥卢,I。;Panneershelvam,V。;Lanctot,M。;迪尔曼,S。;格雷,D。;Nham,J。;Kalchbrenner,N。;Sutskever,I。;Lillicrap,T.P。;利奇,M。;Kavukcuoglu,K。;Graepel,T。;和Hassabis,D.2016。通过深度神经网络和树搜索掌握围棋游戏。自然, 529(7587): 484-489.
    [40]
    史密斯,T。;和Simmons,R.2004。POMDP的启发式搜索值迭代。阿拉伯联合酋长国, 520-527. AUAI出版社。
    [41]
    Sutton,R.S。;和Barto,A.G.1998。强化学习:简介麻省理工学院出版社。
    [42]
    陶,F。;张,H。;刘,A。;和Nee,A.Y.C.2019。工业中的数字孪生兄弟:最新技术。IEEE传输。工业信息学, 15(4): 2405-2415.
    [43]
    van Hasselt,H。;A.盖兹。;和Silver,D.2016。双Q学习深度强化学习。AAAI公司, 2094-2100. AAAI出版社。
    [44]
    Wierstra,D。;Förster,A。;彼得斯,J。;和Schmidhuber,J.2007。使用递归策略梯度解决深内存POMDP。ICANN公司, 697-706. 斯普林格。
    [45]
    Williams,R.J.1992年。连接强化学习的简单统计梯度跟随算法。机器学习, 8: 229-256.

    引用人

    查看全部

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片指南会议记录
    AAAI'23/IAAI'23/EAAI'23:第三十七届AAAI人工智能会议记录和第三十五届人工智能创新应用会议记录以及第十三届人工智能教育进展研讨会
    2023年2月
    16496页
    国际标准图书编号:978-1-57735-880-0

    赞助商

    • 人工智能促进协会

    出版商

    AAAI出版社

    出版历史

    出版:2023年2月7日

    限定符

    • 研究文章
    • 研究
    • 推荐有限公司

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)0
    • 下载次数(最近6周)0

    其他指标

    引文

    引用人

    查看全部

    视图选项

    查看选项

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享