文件Zbl 07807687-zbMATH打开

内森·亨特;内森·富尔顿;萨拉·马格里亚坎;Hoang，Trong Nghia村;Das、Subhro;Solar Lezama，阿曼多

端到端强化学习的可验证安全探索。（英语）兹伯利07807687

2021年5月19日至21日，美国田纳西州纳什维尔，第24届ACM混合系统国际会议论文集：计算与控制，HSCC 2021，CPS-IoT周的一部分。纽约州纽约市：计算机协会（ACM）。第14号论文，第11页（2021年）。

MSC公司：

65年第68季度	形式语言和自动机
60年第68季度	规范和验证（程序逻辑、模型检查等）
93立方	由微分方程以外的函数关系控制的控制/观测系统（例如混合系统和开关系统）

关键词：

微分动态逻辑;形式验证;混合系统;神经网络;强化学习;安全人工智能

软件：

人民;贝勒罗芬;凯伊迈拉X;ModelPlex公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	约书亚·阿基姆、大卫·赫尔德、阿维夫·塔马尔和彼得·阿比耶。2017年，受限政策优化。在机器学习国际会议（ICML 2017）（机器学习研究论文集，第70卷）上，Doina Precup和Yee Whye Teh（编辑）。PMLR，22-31。
[2]	Mohammed Alshiekh、Roderick Bloem、Rüdiger Ehlers、Bettina Könighfer、Scott Niekum和Ufuk Topcu。2018.通过屏蔽进行安全加固学习。在AAAI人工智能会议上。
[3]	费利克斯·博肯坎普（Felix Berkenkamp）、马蒂奥·图切塔（Matteo Turchetta）、安吉拉·斯科利格（Angela Schoellig）和安德烈亚斯·克劳斯（Andreas Krause）。2017年。基于安全模型的强化学习，具有稳定性保证。神经信息处理系统进展。908-918.
[4]	理查德·程（Richard Cheng）、加博尔·奥罗斯（Gábor Orosz）、理查德·穆雷（RichardM Murray）和乔尔·波迪克（Joel W Burdick）。2019.通过屏障功能进行安全关键持续控制任务的端到端安全强化学习。《AAAI人工智能会议论文集》，第33卷。3387-3395.
[5]	Edmund M.Clarke、Thomas A.Henzinger、Helmut Veith和Roderick Bloem（编辑）。2018.模型检查手册。斯普林格·Zbl 1390.68001号
[6]	Gal Dalal、Krishnamurthy Dvijotham、Matej Vecerik、Todd Hester、Cosmin Paduraru和Yuval Tassa。2018年，在持续行动空间中进行安全探索。arXiv预印arXiv:1801.08757（2018）。
[7]	朱塞佩·德贾科莫（Giuseppe De Giacomo）、卢卡·约基（Luca Iocchi）、马可·法弗利托（Marco Favorito）和法比奥·帕特里齐（Fabio Patrizi）。2019.约束螺栓基础：LTLf/LDLf约束规范的加固学习。在自动化规划和调度国际会议（ICAPS 2019）上。
[8]	内森·富尔顿（Nathan Fulton）、斯特凡·米奇（Stefan Mitsch）、布兰登·博勒（Brandon Bohrer）和安德烈·普拉泽（AndréPlatzer）。2017.Bellerophon:混合系统的战术定理证明。在交互式定理证明国际会议上·Zbl 1483.68191号
[9]	Nathan Fulton、Stefan Mitsch、Jan David Quesel、Marcus Völp和AndréPlatzer。2015.KeYmaera X：混合系统公理化战术定理证明器。在CADE·Zbl 1465.68281号
[10]	内森·富尔顿和安德烈·普拉泽。2018年，通过正式方法进行安全强化学习：通过证明和学习实现安全控制。在AAAI人工智能会议上。
[11]	内森·富尔顿和安德烈·普拉泽。2019.可验证的安全脱模强化学习。在TACAS 2019（计算机科学讲义，第11427卷）中，Tomás Vojnar和Lijun Zhang（编辑）。施普林格，413-430。10.1007/978-3-030-17462-0_28
[12]	哈维尔·加西亚和费尔南多·费尔南德斯。2015年，安全强化学习综合调查。《机器学习研究杂志》（2015）·Zbl 1351.68209号
[13]	Marta Garnelo、Kai Arulkumaran和Murray Shanahan。2016.深入符号强化学习。arXiv预印arXiv:1609.05518（2016）。
[14]	Vikash Goel、Jameson Weng和Pascal Poupart。2018.用于深度强化学习的无监督视频对象分割。神经信息处理系统进展。
[15]	Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi、Ashutosh Trivedi和Dominik Wojtczak。2019.无模型强化学习中的欧米茄规则目标。2019年TACAS·Zbl 1517.68331号
[16]	Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2018年，逻辑约束强化学习。arXiv预印arXiv:1801.08099（2018）·兹比尔1455.68190
[17]	Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2018年，逻辑正确的强化学习。CoRR abs/1801.08099（2018）。arXiv:1801.08099·Zbl 1455.68190号
[18]	Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2019.通过逻辑指导的强化学习认证。CoRR abs/1902.00778（2019）。arXiv:1902.000778年http://arxiv.org/abs/1902.00778 ·兹比尔1455.68190
[19]	Mohammadhosein Hasanbeig、Alessandro Abate和Daniel Kroening。2020年，在逻辑约束下谨慎强化学习。arXiv预印arXiv:2002.12156（2020）·Zbl 1455.68190号
[20]	Mohammadhosein Hasanbeig、Yiannis Kantaros、Alessand ro Abate、Daniel Kroening、George J.Pappas和Insup Lee。2019.具有概率满意度保证的时序逻辑控制合成强化学习。arXiv电子版，文章arXiv:1909.05304（2019年9月），arXiv:1909.05304页。arXiv:1909.05304[cs.LO]
[21]	何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770-778.
[22]	Nathan Hunt、Nathan Fulton、Sara Magliabane、Nghia Hoang、Subhro Das和Armando Solar-Lezama。2020年，为端到端强化学习进行可验证的安全探索。arXiv:2007.01223[cs.AI]
[23]	ISO-26262。2011年，国际标准化组织26262辆道路车辆——功能安全。(2011).
[24]	尼迪·卡拉和苏珊·M·帕多克。2016.安全驾驶：证明自动驾驶汽车的可靠性需要行驶多少英里？兰德公司。
[25]	托尔斯滕·科勒（Torsten Koller）、费利克斯·博肯坎普（Felix Berkenkamp）、马特奥·图切塔（Matteo Turchetta）和安德烈亚斯·克劳斯（Andreas Krause）。2018年，基于学习的模型预测控制用于安全勘探。2018年IEEE决策与控制会议（CDC）。IEEE，6059-6066。
[26]	黑洛和贾登。2018年，Cornernet：将物体作为配对关键点进行检测。在欧洲计算机视觉会议上。
[27]	李月章、Katia Sycara和Rahul Iyer。2018.对象敏感深度强化学习。arXiv预印arXiv:1809.06064（2018）。
[28]	梁俊奇（Junchi Liang）和布利亚斯（Abdeslam Boularias）。2018.第一人称射击游戏的任务相关对象发现和分类。arXiv预印arXiv:1806.06392（2018）。
[29]	林宗毅（Tung-Yi Lin）、戈亚尔（Priya Goyal）、吉希克（Ross Girshick）、何开明（Kaiming He）和多拉（Piotr Dollár）。2017.密集目标检测的焦点丢失。在IEEE计算机视觉国际会议上。
[30]	卢克廷、张世奇、彼得·斯通和陈小平。2018年，机器人利用强化学习中的知识进行表示和推理。arXiv预印本arXiv:1809.11074（2018）。
[31]	刘道明、杨方凯、刘波和史蒂文·古斯塔夫森。2019.SDRL：利用符号规划进行可解释且数据高效的深度强化学习。在AAAI’19·Zbl 07453114号
[32]	Stefan Mitsch、Khalil Ghorbal和AndréPlatzer。2013年，关于自动机器人地面车辆的安全避障。保罗·纽曼（Paul Newman）、迪特尔·福克斯（Dieter Fox）和大卫·徐（David Hsu）主编的《机器人：科学与系统》（Robotics:Science and Systems）。
[33]	斯特凡·米奇（Stefan Mitsch）和安德烈·普拉泽（AndréPlatzer）。2016.ModelPlex：验证的网络物理系统模型的验证运行时验证。形式方法系统。设计。49, 1 (2016), 33-74. RV'14精选论文特刊·Zbl 1380.68282号
[34]	沃洛德米尔·姆尼赫（Volodymyr Mnih）、科雷·卡武科古奥格鲁（Koray Kavukcuoglu）、大卫·西尔弗（David Silver）、亚历克斯·格雷夫斯（Alex Graves）、伊奥尼斯·安东诺格鲁（Ioannis Antonoglou）、达安·维。2013年，通过深度强化学习玩Atari。NIPS深度学习研讨会。
[35]	Dung Phan、Nicola Paoletti、Radu Grosu、Nils Jansen、Scott A.Smolka和Scott D.Stoller。2019.神经单纯形架构。(2019).
[36]	安德烈·普拉泽。2008。混合系统的差分动态逻辑。J.汽车。推理。41, 2 (2008), 143-189. ·Zbl 1181.03035号
[37]	安德烈·普拉泽。混合系统的逻辑分析：复杂动力学的证明定理。海德堡施普林格·Zbl 1211.68412号
[38]	安德烈·普拉泽。2012.动力系统逻辑。在LICS中。IEEE，13-24·Zbl 1362.68178号
[39]	安德烈·普拉泽。2015.微分动态逻辑的统一替代演算。在CADE·Zbl 1465.03056号
[40]	安德烈·普拉泽。2017.微分动态逻辑的完整统一替代演算。J.汽车。推理。59, 2 (2017), 219-266. ·Zbl 1437.03119号
[41]	安德烈·普拉泽（AndréPlatzer）和埃德蒙·克拉克（Edmund M.Clarke），2007年。混合系统模型检验中的图像计算问题。在HSCC（LNCS，第4416卷）中，Alberto Bemporad、Antonio Bicchi和Giorgio Buttazzo（编辑）。施普林格，473-486。10.1007/978-3-540-71493-4_37 ·Zbl 1221.93118号
[42]	詹·戴维德·奎塞尔（Jan-Diid Quesel）、斯特凡·米奇（Stefan Mitsch）、萨拉·卢斯（Sarah M.Loos）、尼科斯·阿雷奇加（Nikos Arechiga）和安德烈·普拉泽（AndréPlatzer）。2016.如何使用KeYmaera对混合系统进行建模和验证：安全指南。STTT 18，1（2016），67-91。
[43]	亚历克斯·雷（Alex Ray）、约书亚·阿基姆（Joshua Achiam）和达里奥·阿莫迪（Dario Amodei）。2019.深度强化学习中的安全探索标杆管理。(2019).
[44]	约翰·舒尔曼（John Schulman）、谢尔盖·莱文（Sergey Levine）、彼得·阿比尔（Pieter Abbeel）、迈克尔·乔丹（Michael I.Jordan）和菲利普·莫里茨（Philipp Moritz）。2015年，信托区域政策优化。在第32届国际机器学习会议（ICML 2015）（JMLR研讨会和会议记录，第37卷）的会议记录中，Francis R.Bach和David M.Blei（编辑）。1889-1897.
[45]	约翰·舒尔曼（John Schulman）、菲利普·沃尔斯基（Filip Wolski）、普拉福拉·达里瓦尔（Prafulla Dhariwal）、亚历克·拉德福德（Alec Radford）和奥列格·克里莫夫（Oleg Klimov）。2017.近似策略优化算法。(2017). arXiv公司：1707.06347http://arxiv.org/abs/1707.06347
[46]	理查德·萨顿（Richard S.Sutton）和安德鲁·巴托（Andrew G.Barto）。1998年，强化学习：导论。麻省理工学院出版社，马萨诸塞州剑桥·Zbl 1407.68009号
[47]	项伟明、帕特里克·穆索、阿亚娜·怀尔德、迭戈·曼扎纳斯·洛佩兹、纳撒尼尔·汉密尔顿、杨晓东、乔尔·罗森菲尔德和泰勒·T·约翰逊。2018.机器学习、自主性和神经网络调查验证。arXiv（2018）。
[48]	杨芳凯、史蒂文·古斯塔夫森、亚历山大·埃尔科利、刘道明和刘波。2019.利用符号规划和强化学习的机器学习管道程序搜索。遗传编程理论与实践十六。
[49]	杨芳凯、吕道明、刘波和史蒂文·古斯塔夫森。2018.Peorl:集成符号规划和层次强化学习，实现稳健决策。arXiv预印arXiv:1804.07779（2018）。
[50]	周兴义（Xingyi Zhou）、王德全（Dequan Wang）和菲利普·克伦布（Philipp Krähenbühl）。2019.对象作为点。arXiv预印本arXiv:1904.07850（2019）。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

端到端强化学习的可验证安全探索。（英语）兹伯利07807687

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

端到端强化学习的可验证安全探索。 （英语） 兹伯利07807687

MSC公司：

关键词：

软件：

参考文献：

端到端强化学习的可验证安全探索。（英语）兹伯利07807687