悉尼·M·卡茨。;凯尔·D·朱利安。;克里斯托弗·斯特朗。;Mykel J.Kochenderfer。 为神经网络控制器生成概率安全保证。 (英语) Zbl 1518.68211号 机器。学习。 112,第8期,2903-2931(2023). 概述:由于神经网络具有表达策略的能力,因此它在各种复杂的环境中都可以充当有效的控制器。然而,神经网络的复杂性使得其输出难以验证和预测,这限制了其在安全关键应用中的使用。虽然仿真可以深入了解神经网络控制器的性能,但它们不足以保证控制器在所有情况下都能安全运行。为了解决这个问题,最近的工作集中在验证神经网络输出特性的形式化方法上。对于神经网络控制器,我们可以使用动力学模型来确定控制器安全运行必须保持的输出特性。在这项工作中,我们开发了一种方法,利用神经网络验证工具的结果为神经网络控制器提供概率安全保证。我们开发了一种自适应验证方法,以有效地生成神经网络策略的过度逼近。接下来,我们修改了马尔可夫决策过程模型检验的传统公式,以保证给定的随机动力学模型的超逼近策略。最后,我们在状态抽象中引入了一些技术,以减少模型检查过程中的过度逼近错误。我们表明,我们的方法能够为飞机防撞神经网络生成有意义的概率安全保证,这些神经网络松散地受到机载防撞系统X(ACAS X)的启发,ACAS X是一系列防撞系统,将问题公式化为部分可观察的马尔可夫决策过程(POMDP)。 MSC公司: 60年第68季度 规范和验证(程序逻辑、模型检查等) 68T05年 人工智能中的学习和自适应系统 93C40型 自适应控制/观测系统 93C83号 涉及计算机的控制/观察系统(过程控制等) 关键词:神经网络控制器;验证;模型检查;安全 软件:马拉布;Reluplex公司 PDF格式BibTeX公司 XML格式引用 \textit{S.M.Katz}等人,马赫。学习。112,第8号,2903--2931(2023;Zbl 1518.68211) 全文: 内政部 arXiv公司 参考文献: [1] Akintund,M.、Lomuscio,A.、Maganti,L.和Pirovano,E.(2018年)。神经-智能体-环境系统的可达性分析。在知识表示和推理原则国际会议上,第184-193页。 [2] Akintund,M.E.、Botoeva,E.、Kouvaros,P.和Lomuscio,A.(2020年)。非确定性环境中神经代理的形式化验证。AAMAS,第25-33页。 [3] 拜尔,C。;Katoen,JP,《模型检验原理》(2008),麻省理工学院出版社·Zbl 1179.68076号 [4] Bastani,O.、Pu,Y.和Solar-Lezama,A.(2018年)。通过策略提取进行可验证的强化学习。arXiv预印arXiv:180508328。 [5] Bellman,R.,《动态规划理论》,《美国国家科学院院刊》,38,8,716(1952)·Zbl 0047.13802号 ·doi:10.1073/pnas.38.8.716 [6] Bouton,M.(2020年)。不确定性下的安全可扩展规划,用于自动驾驶。斯坦福大学博士论文,https://purl.stanford.edu/dy440kv7606。 [7] Bouton,M.、Tumova,J.和Kochenderfer,M.J.(2020年)。部分可观测马尔可夫决策过程中基于点的模型检查方法。在AAAI人工智能会议上,https://aaai.org/Papers/aaai/2020 GB/aaai-BoutonM.9314.pdf。 [8] Carr,S.、Jansen,N.和Topcu,U.(2020年)。pomdps在时序逻辑约束下基于rnn的可验证策略。arXiv预打印arXiv:200205615。 [9] Clavière,A.、Asselin,E.、Garion,C.和Pagetti,C.(2020年)。神经网络控制系统的安全性验证。arXiv预打印arXiv:201105174。 [10] Dutta,S.、Chen,X.和Sankaranarayanan,S.(2019年)。使用回归多项式规则推理的神经反馈系统的可达性分析。在ACM混合系统国际会议:计算和控制,第157-168页·Zbl 07120151号 [11] D’argenio,P.R,Jeannet,B.,Jensen,H.E.和Larsen,K.G.(2001年)。通过连续细化对概率系统进行可达性分析。关于过程代数和概率方法、性能建模和验证的联合国际研讨会,Springer,第39-56页·Zbl 1007.68131号 [12] 黄,C。;范,J。;李伟(Li,W.)。;陈,X。;Zhu,Q.,ReachNN:神经网络控制系统的可达性分析,ACM嵌入式计算系统事务(TECS),18,5,1-22(2019)·doi:10.1145/3358228 [13] Ivanov,R.、Weimer,J.、Alur,R.,Pappas,G.J.和Lee,I.(2019年)。验证:用神经网络控制器验证混合系统的安全特性。在ACM混合系统国际会议:计算和控制,第169-178页·Zbl 07120152号 [14] K.D.朱利安和M.J.科钦德费尔(2019a)。确保基于神经网络的飞机防撞系统的安全。在数字航空电子系统会议(dasc)中。doi:10.1109/DASC43569.2019.9081748。arXiv:org/abs/1912.07084。 [15] K.D.朱利安和M.J.科钦德费尔(2019b)。用深度神经网络控制器验证动态系统的可达性方法(1903.00520),arXiv:org/abs/1903.00520。 [16] 杜兰特·朱利安;洛佩兹,J。;刷子,JS;议员欧文;MJ Kochenderfer,《飞机防撞系统的政策压缩》,数字航空电子系统会议(2016)·doi:10.1109/DASC.2016.7778091 [17] 杜兰特·朱利安;MJ Kochenderfer;Owen,MP,飞机防撞系统的深度神经网络压缩,AIAA制导、控制和动力学杂志,42,3,598-608(2019)·doi:10.2514/1.G003724 [18] Julian,K.D、Sharma,S.、Jeannin,J.B.和Kochenderfer,M.J.(2019b)。通过安全区域的线性近似验证飞机防撞神经网络。在AIAA春季研讨会上,arXiv:org/abs/1903.00762。 [19] Katz,G.、Barrett,C.、Dill,D.L.、Julian,K.D.和Kochenderfer,M.J.(2017年)。Reluplex:用于验证深层神经网络的高效SMT求解器。在计算机辅助验证国际会议上。arXiv:org/abs/1702.01135·兹比尔1494.68167 [20] Katz,G.,Huang,D.A.,Ibeling,D.,Julian,K.D.,Lazarus,C.,Lim,R.,Shah,P.,Thakoor,S,Wu,H.,&Zeljić,A.,Dill,D.L.(2019年)。用于验证和分析深层神经网络的marabou框架。在计算机辅助验证国际会议上。施普林格,第443-452页。 [21] MJ Kochenderfer,《不确定性下的决策:理论与应用》(2015),麻省理工出版社·兹比尔1341.68003 ·数字对象标识码:10.7551/mitpress/10187.001.001 [22] Kochenderfer,M.J.和Chryssanthacopoulos,J.(2011年)。通过动态编程实现稳健的空中避碰。麻省理工学院林肯实验室,项目报告ATC-371。 [23] Kochenderfer,M.J.、Holland,J.E.和Chryssanthacopoulos,J.P.(2012)。下一代机载防撞系统。马萨诸塞州理工学院-美国列克星敦林肯实验室:技术代表。 [24] Koul,A.、Greydanus,S.和Fern,A.(2018年)。学习递归策略网络的有限状态表示。arXiv预印arXiv:181112530。 [25] Lahijanian,M.、Andersson,S.和Belta,C.(2011年)。根据PCTL规范控制马尔可夫决策过程。在美国控制会议上,IEEE,第311-316页。 [26] 刘,C。;Arnon,T。;拉扎勒斯,C。;强,C。;巴雷特,C。;Kochenderfer,MJ,验证深层神经网络的算法,优化的基础和趋势,4,3-4,244-404(2021)·doi:10.1561/24000035 [27] Lopez,D.M.、Johnson,T.、Tran,H.D.、Bak,S.、Chen,X.和Hobbs,K.L.(2021年)。验证具有星集可达性的ACAS Xu查找表的神经网络压缩。在AIAA科学技术论坛上。第0995页。 [28] Mnih,V。;Kavukcuoglu,K。;西尔弗·D。;Rusu,AA;Veness,J。;MG Bellemare公司;格雷夫斯,A。;里德米勒,M。;AK州Fidjeland;Ostrovski,G.,《通过深度强化学习实现人类层面的控制》,《自然》,518,7540,529-533(2015)·doi:10.1038/nature14236 [29] 穆诺斯,R。;Moore,A.,最优控制中的可变分辨率离散化,机器学习,49,2-3,291-323(2002)·Zbl 1005.68086号 ·doi:10.1023/A:1017992615625 [30] Olson,W.A.(2015年)。机载防撞系统X。技术代表,麻省理工学院-美国列克星敦林肯实验室。 [31] Owen,M.P.、Panken,A.、Moss,R.、Alvarez,L.和Leeper,C.(2019年)。ACAS Xu:UAS的集成防撞、检测和规避能力。IEEE/AIAA数字航空电子系统会议(DASC),第1-10页。 [32] Pan,Y.、Cheng,C.A.、Saigol,K.、Lee,K.,Yan,X.、Theodorou,E.和Boots,B.(2017)。使用端到端深度模拟学习的敏捷自动驾驶。arXiv预打印arXiv:170907174。 [33] Sidrane,C.和Kochenderfer,M.J.(2019年)。OVERT:通过过度逼近用神经网络控制器验证非线性动力学系统。在安全机器学习研讨会上,学习表征国际会议。 [34] Tjeng,V.、Xiao,K.和Tedrake,R.(2017)。用混合整数规划评价神经网络的鲁棒性。arXiv预打印arXiv:171107356。 [35] Wang,S.、Pei,K.、Whitehouse,J.、Yang,J.和Jana,S.(2018年)。使用符号区间对神经网络进行形式化安全分析。在USENIX安全研讨会上。,第1599-1614页,https://www.usenix.org/conference/usenixsecurity18/presentation/wang-shiqi。 [36] Xiang,W.,&Johnson,T.T.(2018)。神经网络控制系统的可达性分析和安全验证。arXiv预打印arXiv:180509944。 [37] Xiang,W.,Tran,H.D.,Rosenfeld,J.A.,&Johnson,T.T.(2018年)。带神经网络控制器的分段线性系统可达集估计与安全性验证。在美国控制会议上,第1574-1579页。 [38] Xiang,W.,Lopez,D.M.,Musau,P.,&Johnson,T.T.(2019年)。非线性动态系统神经网络模型的可达集估计与验证。在安全、自主和智能车辆中。施普林格,第123-144页。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。