×

学习安全神经网络控制器与障碍证书。 (英语) Zbl 07388000

摘要:针对具有安全特性的非线性连续动态系统,我们提供了一种新的控制器综合方法。控制器基于神经网络。为了证明安全性能,我们使用了屏障函数,这些函数也由NNs表示。同时对控制器神经网络和障碍神经网络进行训练,实现了在环验证综合。我们提供了一个原型工具nn控制器有很多案例研究。实验结果验证了该方法的可行性和有效性。

理学硕士:

68-XX号 计算机科学
PDF格式 BibTeX公司 XML 引用

参考文献:

[1] Ames AD,Coogan S,Egerstedt M,Notomista G,Sreenath K,Tabuada P(2019)控制屏障函数:理论与应用。在:2019年第18届欧洲控制会议(ECC),第3420-3431页
[2] Ahmadi M,Singletary A,Burdick JW,Ames AD(2019),《基于离散时间屏障函数的多智能体POMDP安全策略综合》。在:2019年IEEE第58届决策与控制会议(CDC)。IEEE,第4797-4803页
[3] Berkenkamp F、Turchetta M、Schoellig AP、Krause A(2017)基于安全模型的强化学习,具有稳定性保证。在:第31届神经信息处理系统国际会议论文集,NIPS'17。Curran Associates Inc.,Red Hook,NY,USA,pp 908-919
[4] Choi J,Fernando C,Tomlin CJ,Sreenath K(2020),模型不确定性下安全关键控制的强化学习,使用控制Lyapunov函数和控制屏障函数。https://arxiv.org/abs/2004.07584
[5] Cheng R,Orosz G,Murray RM,Burdick JW(2019),通过屏障功能进行安全关键连续控制任务的端到端安全强化学习。在:第三十三届AAAI人工智能会议,AAAI 2019。AAAI出版社,檀香山,夏威夷,美国,2019年1月27日至2月1日,pp 3387-3395
[6] Chang Y-C,Roohi N,Gao S(2019)神经-李雅普诺夫控制。In:神经信息处理系统的进展32.Curran Associates Inc.,第3245-3254页
[7] Duan Y,Chen X,Houthooft R,Schulman J,Abbeel P(2016)《持续控制的深度强化学习标杆管理》。在:第33届机器学习国际会议记录,ICML 2016,纽约市,美国,2016年6月19日至24日,JMLR研讨会和会议记录第48卷,pp 1329-1338.JMLR.org
[8] Dutta S,Chen X,Sankaranarayanan S(2019),使用回归多项式规则推理的神经反馈系统可达性分析。第22届ACM混合动力系统国际会议论文集:计算与控制,HSCC,第157-168页·Zbl 07120151
[9] Dreossi T,Fremont DJ,Ghosh S,Kim E,Ravanbakhsh H,Vazquez Chanlatte M,Seshia SA(2019)VerifAI:基于人工智能系统的正式设计和分析工具包。计算机辅助验证。斯普林格国际出版社,432-442页
[10] 戴,L。;甘,T。;夏乙。;Zhan,N.,重新审查了屏障证书。J Symb计算机,8062-86(2017)·Zbl 1357.68110号
[11] Dutta S,Jha S,Sankaranarayanan S,Tiwari A(2018)使用前馈神经网络学习和验证反馈控制系统。IFAC论文第51(16)行:151-156。第六届IFAC混合动力系统分析与设计会议ADHS 2018
[12] Dutta S,Jha S,Sankaranarayanan S,Tiwari A(2018)《深度前馈神经网络的输出范围分析》。美国宇航局正式方法。斯普林格国际出版社,第121-138页
[13] Deshmukh JV,Kapinski J,Yamaguchi T,Prokhorov D(2019)《具有安全保证的动力系统学习深度神经网络控制器:邀请论文》。在:2019年IEEE/ACM国际计算机辅助设计会议(ICCAD),第1-7页
[14] Fulton N,Platzer A(2018)《通过形式化方法进行安全强化学习:通过证明和学习实现安全控制》。在:第三十二届AAAI人工智能会议论文集(AAAI-18)。AAAI出版社,美国路易斯安那州新奥尔良,2018年2月2日至7日,第6485-6492页
[15] 古德费罗,我。;本吉奥,Y。;Courville,A.,深度学习(2016),麻省理工学院出版社·Zbl 1373.68009
[16] Hespanha JP(2018)线性系统理论。普林斯顿大学出版社,第二版·Zbl 1381.93001号
[17] Ivanov R,Carpenter TJ,Weimer J,Alur R,Pappas GJ,Lee I(2020)案例研究:使用神经网络控制器验证自动赛车的安全性。在:HSCC'20:23 ACM混合系统国际会议:计算和控制,悉尼,新南威尔士,澳大利亚,2020年4月21-24日。ACM,pp 28:1-28:7·Zbl 07300869
[18] Ivanov R,Weimer J,Alur R,Pappas GJ,Lee I(2019)Verisig:用神经网络控制器验证混合系统的安全性能。第22届ACM混合动力系统国际会议论文集:计算与控制,HSCC 2019。第169-178页·中银07120152
[19] Jordan M,Dimakis AG(2020)精确计算ReLU网络的局部Lipschitz常数。https://arxiv.org/abs/2003.01219
[20] Katz G,Barrett C,Dill DL,Julian K,Kochenderfer MJ(2017)Reluplex:用于验证深层神经网络的有效smt解算器。国际计算机辅助验证会议。斯普林格,第97-117页
[21] Kong H,He F,Song X,Hung WNN,Gu M(2013)《混合动力系统安全验证的指数条件屏障证书生成》。第25届计算机辅助验证国际会议论文集。斯普林格,242-257页·Zbl 1357.68113
[22] Lillicrap TP,Hunt JJ,Pritzel A,Heess N,Erez T,Tassa Y,Silver D,Wierstra D(2016)《深度强化学习持续控制》。在:第四届国际学习代表大会,2016年ICLR,波多黎各圣胡安,2016年5月2日至4日,会议记录
[23] 莱什诺,M。;林,维;平库斯,A。;Schocken,S.,具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络,6,6861-867(1993)
[24] 李杰,刘杰,杨平,陈莉,黄X,张L(2019)用符号传播分析深层神经网络:迈向更高精度和更快验证。In:静态分析。斯普林格国际出版社,第296-319页
[25] Mittal M,Gallieri M,Quaglino A,Salehian SSM,Koutník J(2020)神经李雅普诺夫模型预测控制。https://arxiv.org/abs/2002.10451
[26] Nguyen T,Antonopoulos T,Ruef A,Hicks M(2017)寻找数值不变量的反例引导方法。在:2017年软件工程基础第11次联席会议记录,ESEC/FSE 2017。美国纽约州纽约市计算机械协会,第605-615页
[27] Peruffo A,Ahmed D,Abate A(2020)动力学模型神经屏障证书的自动和形式化综合。https://arxiv.org/abs/2007.03251 ·Zbl 1467.68091
[28] 波兹尼亚克。;桑切斯,英语;于伟.鲁棒非线性控制的微分神经网络(2001),世界科学
[29] 般若。;贾巴耶,A。;Pappas,GJ,使用屏障证书进行最坏情况和随机安全验证的框架,IEEE Trans Autom Control,52,8,1415-1429(2007)·Zbl 1366.93711号
[30] Pulina L,Tachella A(2010)人工神经网络验证的抽象精化方法。In:计算机辅助验证,243-257页
[31] Ray A,Achiam J,Amodei D(2019年),《深度强化学习中的安全探索基准》。https://cdn.openai.com/safexp-short.pdf
[32] Ratschan,S.,安全和屏障证书的逆定理,IEEE Trans Autom Control,63,8,2628-2632(2018)·Zbl 1423.93107
[33] Richards SM,Berkenkamp F,Krause A(2018),lyapunov神经网络:动态系统安全学习的自适应稳定性证明。http://arxiv.org/abs/1808.00924
[34] Ratschan,S。;She,Z.,基于约束传播的抽象精化对混合系统的安全性验证,ACM Trans-Embed Comput Syst,6,1,1-23(2007)
[35] Ratschan,S。;She,Z.,通过计算类Lyapunov函数为多项式系统的目标区域提供吸引域,SIAM J Control Optim,48,7,4377-4394(2010)·Zbl 1215.65188
[36] 拉万巴克什,H。;Sankaranarayanan,S.,从反例和演示中学习控制Lyapunov函数,Auton机器人,43,2,275-307(2019年)
[37] Sogokon A、Ghorbal K、Tan YK、Platzer A(2018)病媒屏障证书和比较系统。In:形式方法,第418-437页·Zbl 1460.93012
[38] Sun X,Khedr H,Shoukry Y(2019)神经网络控制自主系统的形式化验证。第22届ACM混合动力系统国际会议论文集:计算与控制,HSCC 2019。第147-156页·Zbl 07120150
[39] She Z,Li M(2020)进化函数级数表示可达集的上下近似。IEEE传输自动控制·Zbl 07352095
[40] Sloth C,Pappas GJ,Wisniewski R(2012)《使用屏障证书的成分安全分析》。在:混合系统:计算和控制(HSCC)论文集。ACM,第15-24页·Zbl 1362.68185
[41] Taylor AJ,Dorobantu VD,Le Hoang M,Yue Y,Ames AD(2019),《不确定机器人系统的控制Lyapunov函数的情景学习》。在:2019年IEEE/RSJ智能机器人和系统国际会议(IROS),第6878-6884页
[42] Telgarsky M(2017)神经网络和有理函数。第34届机器学习国际会议论文集第70卷,ICML'17,pp 3387-3393.JMLR.org
[43] Tuncali CE、Kapinski J、Ito H、Deshmukh JV(2018)邀请:关于自主网络物理系统中学习型组件安全性的推理。在:2018年第55届ACM/ESDA/IEEE设计自动化会议(DAC),第1-6页
[44] Taylor A、Singletary A、Yue Y、Ames A(2019年)《具有控制屏障功能的安全关键控制学习》。https://arxiv.org/abs/1912.10099
[45] Tran H-D,Yang X,Lopez DM,Musau P,Nguyen LV,Xiang W,Bak S,Johnson TT(2020)NNV:用于深层神经网络和学习的网络物理系统的神经网络验证工具。计算机辅助验证。斯普林格国际出版社,第3-17页
[46] 威斯尼夫斯基,R。;Sloth,C.,逆向屏障证书定理,IEEE Trans Autom Control,61,5,1356-1361(2016)·Zbl 1359.93130
[47] Weng T-W,Zhang H,Chen H,Song Z,Hsieh C-J,Daniel L,Boning DS,Dhillon IS(2018),relu网络认证鲁棒性的快速计算。In:第35届机器学习国际会议论文集,ICML 2018,第5273-5282页
[48] 向伟。;Tran,H-D;Johnson,TT,多层神经网络的输出可达集估计与验证,IEEE跨神经网络学习系统,29,11,5777-5783(2018)
[49] Yaghoubi S,Fainekos G,Sankaranarayanan S(2020),在存在干扰时使用控制屏障函数训练神经网络控制器。https://arxiv.org/abs/2001.08088
[50] Zhu H,Xiong Z,Magill S,Jagannathan S(2019),可验证强化学习的归纳综合框架。在:第40届ACM SIGPLAN编程语言设计与实现大会论文集,PLDI 2019,美国计算机械协会,纽约,纽约,美国,pp 686-701
[51] 赵H,曾X,陈T,刘Z,伍德考克J(2020)学习安全神经网络控制器与障碍证书。在:可靠的软件工程。理论、工具和应用。斯普林格国际出版社,查姆,177-185页
[52] 赵浩,曾X,陈T,刘茨(2020)神经网络合成障碍证书。见:HSCC'20.ACM,第25:1-25:11页·Zbl 07300866
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。