×

端到端强化学习的可验证安全探索。 (英语) 兹伯利07807687

2021年5月19日至21日,美国田纳西州纳什维尔,第24届ACM混合系统国际会议论文集:计算与控制,HSCC 2021,CPS-IoT周的一部分。纽约州纽约市:计算机协会(ACM)。第14号论文,第11页(2021年)。

MSC公司:

65年第68季度 形式语言和自动机
60年第68季度 规范和验证(程序逻辑、模型检查等)
93立方 由微分方程以外的函数关系控制的控制/观测系统(例如混合系统和开关系统)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 约书亚·阿基姆、大卫·赫尔德、阿维夫·塔马尔和彼得·阿比耶。2017年,受限政策优化。在机器学习国际会议(ICML 2017)(机器学习研究论文集,第70卷)上,Doina Precup和Yee Whye Teh(编辑)。PMLR,22-31。
[2] Mohammed Alshiekh、Roderick Bloem、Rüdiger Ehlers、Bettina Könighfer、Scott Niekum和Ufuk Topcu。2018.通过屏蔽进行安全加固学习。在AAAI人工智能会议上。
[3] 费利克斯·博肯坎普(Felix Berkenkamp)、马蒂奥·图切塔(Matteo Turchetta)、安吉拉·斯科利格(Angela Schoellig)和安德烈亚斯·克劳斯(Andreas Krause)。2017年。基于安全模型的强化学习,具有稳定性保证。神经信息处理系统进展。908-918.
[4] 理查德·程(Richard Cheng)、加博尔·奥罗斯(Gábor Orosz)、理查德·穆雷(RichardM Murray)和乔尔·波迪克(Joel W Burdick)。2019.通过屏障功能进行安全关键持续控制任务的端到端安全强化学习。《AAAI人工智能会议论文集》,第33卷。3387-3395.
[5] Edmund M.Clarke、Thomas A.Henzinger、Helmut Veith和Roderick Bloem(编辑)。2018.模型检查手册。斯普林格·Zbl 1390.68001号
[6] Gal Dalal、Krishnamurthy Dvijotham、Matej Vecerik、Todd Hester、Cosmin Paduraru和Yuval Tassa。2018年,在持续行动空间中进行安全探索。arXiv预印arXiv:1801.08757(2018)。
[7] 朱塞佩·德贾科莫(Giuseppe De Giacomo)、卢卡·约基(Luca Iocchi)、马可·法弗利托(Marco Favorito)和法比奥·帕特里齐(Fabio Patrizi)。2019.约束螺栓基础:LTLf/LDLf约束规范的加固学习。在自动化规划和调度国际会议(ICAPS 2019)上。
[8] 内森·富尔顿(Nathan Fulton)、斯特凡·米奇(Stefan Mitsch)、布兰登·博勒(Brandon Bohrer)和安德烈·普拉泽(AndréPlatzer)。2017.Bellerophon:混合系统的战术定理证明。在交互式定理证明国际会议上·Zbl 1483.68191号
[9] Nathan Fulton、Stefan Mitsch、Jan David Quesel、Marcus Völp和AndréPlatzer。2015.KeYmaera X:混合系统公理化战术定理证明器。在CADE·Zbl 1465.68281号
[10] 内森·富尔顿和安德烈·普拉泽。2018年,通过正式方法进行安全强化学习:通过证明和学习实现安全控制。在AAAI人工智能会议上。
[11] 内森·富尔顿和安德烈·普拉泽。2019.可验证的安全脱模强化学习。在TACAS 2019(计算机科学讲义,第11427卷)中,Tomás Vojnar和Lijun Zhang(编辑)。施普林格,413-430。10.1007/978-3-030-17462-0_28
[12] 哈维尔·加西亚和费尔南多·费尔南德斯。2015年,安全强化学习综合调查。《机器学习研究杂志》(2015)·Zbl 1351.68209号
[13] Marta Garnelo、Kai Arulkumaran和Murray Shanahan。2016.深入符号强化学习。arXiv预印arXiv:1609.05518(2016)。
[14] Vikash Goel、Jameson Weng和Pascal Poupart。2018.用于深度强化学习的无监督视频对象分割。神经信息处理系统进展。
[15] Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi、Ashutosh Trivedi和Dominik Wojtczak。2019.无模型强化学习中的欧米茄规则目标。2019年TACAS·Zbl 1517.68331号
[16] Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2018年,逻辑约束强化学习。arXiv预印arXiv:1801.08099(2018)·兹比尔1455.68190
[17] Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2018年,逻辑正确的强化学习。CoRR abs/1801.08099(2018)。arXiv:1801.08099·Zbl 1455.68190号
[18] Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2019.通过逻辑指导的强化学习认证。CoRR abs/1902.00778(2019)。arXiv:1902.000778年http://arxiv.org/abs/1902.00778 ·兹比尔1455.68190
[19] Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2020年,在逻辑约束下谨慎强化学习。arXiv预印arXiv:2002.12156(2020)·Zbl 1455.68190号
[20] Mohammadhosein Hasanbeig、Yiannis Kantaros、Alessand ro Abate、Daniel Kroening、George J.Pappas和Insup Lee。2019.具有概率满意度保证的时序逻辑控制合成强化学习。arXiv电子版,文章arXiv:1909.05304(2019年9月),arXiv:1909.05304页。arXiv:1909.05304[cs.LO]
[21] 何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770-778.
[22] Nathan Hunt、Nathan Fulton、Sara Magliabane、Nghia Hoang、Subhro Das和Armando Solar-Lezama。2020年,为端到端强化学习进行可验证的安全探索。arXiv:2007.01223[cs.AI]
[23] ISO-26262。2011年,国际标准化组织26262辆道路车辆——功能安全。(2011).
[24] 尼迪·卡拉和苏珊·M·帕多克。2016.安全驾驶:证明自动驾驶汽车的可靠性需要行驶多少英里?兰德公司。
[25] 托尔斯滕·科勒(Torsten Koller)、费利克斯·博肯坎普(Felix Berkenkamp)、马特奥·图切塔(Matteo Turchetta)和安德烈亚斯·克劳斯(Andreas Krause)。2018年,基于学习的模型预测控制用于安全勘探。2018年IEEE决策与控制会议(CDC)。IEEE,6059-6066。
[26] 黑洛和贾登。2018年,Cornernet:将物体作为配对关键点进行检测。在欧洲计算机视觉会议上。
[27] 李月章、Katia Sycara和Rahul Iyer。2018.对象敏感深度强化学习。arXiv预印arXiv:1809.06064(2018)。
[28] 梁俊奇(Junchi Liang)和布利亚斯(Abdeslam Boularias)。2018.第一人称射击游戏的任务相关对象发现和分类。arXiv预印arXiv:1806.06392(2018)。
[29] 林宗毅(Tung-Yi Lin)、戈亚尔(Priya Goyal)、吉希克(Ross Girshick)、何开明(Kaiming He)和多拉(Piotr Dollár)。2017.密集目标检测的焦点丢失。在IEEE计算机视觉国际会议上。
[30] 卢克廷、张世奇、彼得·斯通和陈小平。2018年,机器人利用强化学习中的知识进行表示和推理。arXiv预印本arXiv:1809.11074(2018)。
[31] 刘道明、杨方凯、刘波和史蒂文·古斯塔夫森。2019.SDRL:利用符号规划进行可解释且数据高效的深度强化学习。在AAAI’19·Zbl 07453114号
[32] Stefan Mitsch、Khalil Ghorbal和AndréPlatzer。2013年,关于自动机器人地面车辆的安全避障。保罗·纽曼(Paul Newman)、迪特尔·福克斯(Dieter Fox)和大卫·徐(David Hsu)主编的《机器人:科学与系统》(Robotics:Science and Systems)。
[33] 斯特凡·米奇(Stefan Mitsch)和安德烈·普拉泽(AndréPlatzer)。2016.ModelPlex:验证的网络物理系统模型的验证运行时验证。形式方法系统。设计。49, 1 (2016), 33-74. RV'14精选论文特刊·Zbl 1380.68282号
[34] 沃洛德米尔·姆尼赫(Volodymyr Mnih)、科雷·卡武科古奥格鲁(Koray Kavukcuoglu)、大卫·西尔弗(David Silver)、亚历克斯·格雷夫斯(Alex Graves)、伊奥尼斯·安东诺格鲁(Ioannis Antonoglou)、达安·维。2013年,通过深度强化学习玩Atari。NIPS深度学习研讨会。
[35] Dung Phan、Nicola Paoletti、Radu Grosu、Nils Jansen、Scott A.Smolka和Scott D.Stoller。2019.神经单纯形架构。(2019).
[36] 安德烈·普拉泽。2008。混合系统的差分动态逻辑。J.汽车。推理。41, 2 (2008), 143-189. ·Zbl 1181.03035号
[37] 安德烈·普拉泽。混合系统的逻辑分析:复杂动力学的证明定理。海德堡施普林格·Zbl 1211.68412号
[38] 安德烈·普拉泽。2012.动力系统逻辑。在LICS中。IEEE,13-24·Zbl 1362.68178号
[39] 安德烈·普拉泽。2015.微分动态逻辑的统一替代演算。在CADE·Zbl 1465.03056号
[40] 安德烈·普拉泽。2017.微分动态逻辑的完整统一替代演算。J.汽车。推理。59, 2 (2017), 219-266. ·Zbl 1437.03119号
[41] 安德烈·普拉泽(AndréPlatzer)和埃德蒙·克拉克(Edmund M.Clarke),2007年。混合系统模型检验中的图像计算问题。在HSCC(LNCS,第4416卷)中,Alberto Bemporad、Antonio Bicchi和Giorgio Buttazzo(编辑)。施普林格,473-486。10.1007/978-3-540-71493-4_37 ·Zbl 1221.93118号
[42] 詹·戴维德·奎塞尔(Jan-Diid Quesel)、斯特凡·米奇(Stefan Mitsch)、萨拉·卢斯(Sarah M.Loos)、尼科斯·阿雷奇加(Nikos Arechiga)和安德烈·普拉泽(AndréPlatzer)。2016.如何使用KeYmaera对混合系统进行建模和验证:安全指南。STTT 18,1(2016),67-91。
[43] 亚历克斯·雷(Alex Ray)、约书亚·阿基姆(Joshua Achiam)和达里奥·阿莫迪(Dario Amodei)。2019.深度强化学习中的安全探索标杆管理。(2019).
[44] 约翰·舒尔曼(John Schulman)、谢尔盖·莱文(Sergey Levine)、彼得·阿比尔(Pieter Abbeel)、迈克尔·乔丹(Michael I.Jordan)和菲利普·莫里茨(Philipp Moritz)。2015年,信托区域政策优化。在第32届国际机器学习会议(ICML 2015)(JMLR研讨会和会议记录,第37卷)的会议记录中,Francis R.Bach和David M.Blei(编辑)。1889-1897.
[45] 约翰·舒尔曼(John Schulman)、菲利普·沃尔斯基(Filip Wolski)、普拉福拉·达里瓦尔(Prafulla Dhariwal)、亚历克·拉德福德(Alec Radford)和奥列格·克里莫夫(Oleg Klimov)。2017.近似策略优化算法。(2017). arXiv公司:1707.06347http://arxiv.org/abs/1707.06347
[46] 理查德·萨顿(Richard S.Sutton)和安德鲁·巴托(Andrew G.Barto)。1998年,强化学习:导论。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 1407.68009号
[47] 项伟明、帕特里克·穆索、阿亚娜·怀尔德、迭戈·曼扎纳斯·洛佩兹、纳撒尼尔·汉密尔顿、杨晓东、乔尔·罗森菲尔德和泰勒·T·约翰逊。2018.机器学习、自主性和神经网络调查验证。arXiv(2018)。
[48] 杨芳凯、史蒂文·古斯塔夫森、亚历山大·埃尔科利、刘道明和刘波。2019.利用符号规划和强化学习的机器学习管道程序搜索。遗传编程理论与实践十六。
[49] 杨芳凯、吕道明、刘波和史蒂文·古斯塔夫森。2018.Peorl:集成符号规划和层次强化学习,实现稳健决策。arXiv预印arXiv:1804.07779(2018)。
[50] 周兴义(Xingyi Zhou)、王德全(Dequan Wang)和菲利普·克伦布(Philipp Krähenbühl)。2019.对象作为点。arXiv预印本arXiv:1904.07850(2019)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。