{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2023,9,9]]，“日期时间”：“2023-09-09T14:33:12Z”，“时间戳”：1694269992844}，“出版商位置”：“查姆”，“引用计数”：41，“出版者”：“斯普林格国际出版”，“isbn-type”：[{“值”：“9783030816841”，“类型”：”打印“}，{“值”：“9783030816858”，“type”：“electronic”}]，“license”：[{“start”：{“date-parts”：[2021,1,1]]，“date-time”：“2021-01-01T00:00:00Z”，“timestamp”：1609459200000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“https:\/\/creativecommons.org\/licenses\/by\/4.0”}5T00:00:00Z“，”timestamp“：162630720000}，”content-version“：“vor”，“delay-in-days”：195，“URL”：“https:\/\/creativecommons.org\/licenses\/by\/4.0”}]，“内容域”：{“域”：[“link.springer.com”]，“crossmark-restriction”：false}，“short-container-title”：[]，“published-print”：{“date-parts”：[2021]}，”abstract“：”摘要<\/jats:title>本文针对具有安全约束的非线性系统，提出了一种安全强化学习方法来综合深度神经网络（DNN）控制器。该方法采用迭代方案，其中学习者<\/jats:italic>和验证器进行交互以合成安全的DNN控制器。这个学习者<\/jats:italic>通过深度强化学习训练DNN控制器验证器基于多项式抽象和双线性矩阵不等式求解，通过计算最大安全初始区域及其相应的障碍证明来证明所学习的控制器。与现有的验证在位综合方法相比，我们的迭代框架是控制器和障碍证书的顺序综合方案，它可以学习具有自适应障碍证书的安全控制器，而不是用户定义的安全控制器。我们实现了工具SRLBC，并通过一组基准示例评估了其性能。实验结果表明，即使对于维数为\u00a0~12的非线性系统，我们的方法也能有效地合成安全的DNN控制器。<\/jats:p>“，”DOI“：”10.1007\/978-3-030-81685-8_22“，”type“：”book-chapter“，”created“：{”date-parts“：[2021,7,17]]，”date-time“：”2021-07-17T00:02:35Z“，”timestamp“：”162648015500}，“page”：“467-490”，“update-policy“：”http://\/dx.doi.org\/10.1007\/springer_crossmark_policy，“source”：“Crossref”，“is-referenced-by-count”：3，“title”：[“通过屏障证书生成实现非线性系统安全强化学习的迭代方案”]，“prefix”：“10.1007”，”author“：[{”given“：“Zhengfeng”，“family”：“Yang”，”sequence“：”first“，”affiliation“：[]}，{“给定“：”一旦“，”家庭“：”张“，”序列“：”附加“，”从属“：[]}，{“给定”：”王“，”家族“：”林“，”顺序“：”额外“，”隶属“：[]}，”给定“：“夏”，“家庭”：“曾”，“序列”：“附加”，“从属”：[]{，“家族”：“曾”，“序列”：“additional”，“affiliation”：[]｝，｛“given”：“Zhiming”，“family”：“Liu”，“sequence”：“additional”，“affiliation”：[]｝]，“member”：“297”，“在线发布”：｛“date parts”：[[2021,7,15]]｝，“reference”：[｛“key”：“22_CR1”，“doi asserted by”：“crossref”，“nonstructured”：“Ahmadi，M.，Singletary，A.，Burdick，J.W.，Ames，A.D.：通过离散时间屏障函数在多代理POMDP中进行安全策略合成。摘自：IEEE第58届决策与控制会议（CDC）会议记录，第4797\u20134803页。IEEE（2019）“，“DOI”：“10.1109\/CDC40024.2019.9030241”}，{“key”：“22_CR2”，“DOI-asserted-by”：“crossref”，“unstructured”：“Ames，A.D.，Coogan，S.，Egerstedt，M.，Notomista，G.，Sreenath10.23919\/ECC.2019.8796030“}，{“问题”：“5”，“密钥”：“22_CR3”，“doi-asserted-by”：“发布者”，“首页”：“834”，“doi”：“10.1109\/TSMC.1983.6313077”，“卷”：“13”，“作者”：“AG Barto”，“年份”：“1983”，“非结构化”：“Barto，A.G.，Sutton，R.S.，Anderson，C.W.：神经元样自适应元件，可以解决困难的学习控制问题。IEEE传输。系统。人类网络。13（5），834\u2013846（1983）“，“期刊标题”：“IEEE Trans。系统。人类网络。}，{“key”：“22_CR4”，“doi-asserted-by”：“crossref”，“unstructured”：“Bouissou，O.，Chapoutot，A.，Djaballah，A.，Kieffer，M.：使用区间分析计算动力系统的参数障碍函数。见：第53届IEEE决策与控制会议（CDC）论文集，第753\u2013758页。IEEE（2014）“，“DOI”：“10.1109\/CDC.2014.7039472”}，{“key”：“22_CR5”，“unstructured”：“Chang，Y.C.，Roohi，N.，Gao，S.：Neural Lyapunov control.In:the Proceedings of the Annual Conference on Advances on Neur Information Processing Systems（NeurIPS），pp.3245\u201332541846”，“DOI”：“10.1109 \/TAC.2004.835589”，“volume”：“49”，“author”：“G Chesi”，“year”：“2004”，“unstructured”：“Chesi，G.：计算输出反馈控制器以扩大多项式系统的吸引域。IEEE传输。自动。控制49（10），1846\u20131853（2004）“，“日志标题”：“IEEE Trans。自动。Control“}，{”key“：”22_CR7“，”unstructured“：”Davis，P.J.：插值和近似。Dover Books on Mathematics。Dover Publications，New York（1975）“}”，{“key”：“22_CR8”，“doi-asserted-by”：“crossref”，“unstructure”：“Deshmukh，J.V.、Kapinski，J.、Yamaguchi，T.、Prokhorov，D.：学习具有安全保证的动态系统的深层神经网络控制器：特邀论文。摘自：IEEE/ACM国际计算机辅助设计会议（ICCAD）论文集，第1\u20137页（2019年）“，”DOI“：”10.1109“/ICCAD45719.2019.8942130”}，{“问题”：“1”，“关键”：“22_CR9”，“第一页”：“99”，“卷”：“49”，“作者”：“M Ducho\u0148”，“年份”：“2011”，“非结构化”：“Ducho\u 0148，M.：广义伯恩斯坦近似定理。塔特拉山。数学。出版物。49（1），99\u2013109（2011）“，“新闻标题”：“塔特拉山数学。出版物。“}，{”key“：”22_CR10“，”doi-asserted-by“：”crossref“，”unstructured“：”Dutta，S.，Chen，X.，JhaDOI“：”10.1145\/3302504.3313351“}，{“key”：“22_CR11”，“DOI-asserted-by”：“crossref”，“unstructured”：“Dutta，S.，Chen，X.，Sankaranarayanan，S.：使用回归多项式规则推理对神经反馈系统进行可达性分析。摘自：第22届ACM混合系统国际会议论文集：计算与控制（HSCC）第157\u2013168（2019）页“，”DOI“：”10.1145\/3302504.3311807“}，{”issue“：”16“，”key“：”22_CR12“，”DOI-asserted-by“：”publisher“，”first page“：“151”，“DOI”：“10.1016\/j.ifacol.2018.026”，“volume”：“51”，“author”：“S Dutta”，“year”：“2018”，“unstructured”：“Dutta，S.，Jha，S.、Sankaranarayanan，S.和Tiwari，A.：使用前馈神经网络学习和验证反馈控制系统。IFAC-PapersOnLine 51（16），151\u2013156（2018）“，”杂志标题“：”IFAC-PopersOnLine}，{“key”：“22_CR13”，“series-title”：“计算机科学讲义”，“doi-asserted-by”：“publisher”，“first page”：”121“，”doi“：”10.1007\/978-3319-77935-5_9“，”volume-title“：”NASA Formal Methods“，”作者：“S Dutta”，“年份”：“2018”，“非结构化”：“Dutta，S.，Jha，S.、Sankaranarayanan，S.和Tiwari，A.：深度前馈神经网络的输出范围分析。收录：Dutle，A.，Mu\u00f1oz，C.，Narkawicz，A.（编辑）NFM 2018。LNCS，第10811卷，第121\u2013138页。查姆施普林格（2018）。https:\/\/doi.org\/10007\/978-3-319-77935-5_9“}，{“key”：“22_CR14”，“unstructured”：“Fazlyab，M.，Robey，A.，Hassani，H.，Morari，M.、Pappas，G.J.：深度神经网络lipschitz常数的高效准确估计。arXiv预印本arXiv:1906.04893Fulton，N.和Platzer，A.：通过正式方法进行安全强化学习：通过证明和学习实现安全控制。摘自：《第三十二届AAAI人工智能会议（AAAI）论文集》，第6485\u20136492页（2018）“，”DOI“：”10.1609\/AAAI.v32i1.12107“}，{“key”：“22_CR16”，“unstructured”：“Gao，S.：Quadcopter model.https:\/\/github.com\/dreal\/bequickmarks”}，“issue”：“42”，“key“：”22_CR17“，”首页：“1437”，“volume”：”16“，“author”：“J Gar”c\u00eda“，”年份“：”2015年，“非结构化”：“Garc\u00eda，J.，o Fern\u00e1ndez，F.，et al.：关于安全强化学习的综合调查。J.马赫。学习。第16（42）号决议，1437\u20131480（2015）“，“期刊标题”：“J.Mach。学习。Res.“}，{”issue“：”5s“，”key“：”22_CR18“，”doi-asserted-by“：”publisher“，”first page“：“106:1”，“doi”：“10.1145\/3358228”，“volume”：“18”，“author”：“C Huang”，”year“：”2019“，”unstructured“：”Huang，C.，Fan，J.，Li，W.，Chen，X.，Zhu，Q.：ReachNN:神经网络控制系统的可达性分析。ACM Trans.嵌入式计算系统。18（5s），106:1-106:22（2019）“，“新闻标题”：“ACM Trans。嵌入式计算。系统。“｝，｛”key“：”22_CR19“，”doi asserted by“：”crossref“，”nonstructured“：”Ivanov，R.，Weimer，J.，Alur，R.，Pappas，G.J.，Lee，I.：Verisig:用神经网络控制器验证混合系统的安全特性。在：《第22届美国计算机学会混合系统国际会议论文集：计算与控制》（HSCC），pp.169\u2013178（2019）“，”doi“：”10.1145\/3302504.3311806“}，{“key”：“22_CR20”，“unstructured”：“Jarvis-Loszek，Z.：使用平方和优化的多项式系统基于Lyapunov的分析和控制器综合。加利福尼亚大学博士论文（2003）”}，“key“：”22_CR21“，”doi-asserted-by“：”crossref“，”unstructure“：”Klipp，E.，Herwig，R.，Kowald，A.，Wierling，C.，Lehrach，H.：《实践中的系统生物学：概念》。《实施与应用》，Wiley-Blackwell（2005）“，“DOI”：“10.1002\/3527603603”}，{“key”：“22_CR22”，“unstructured”：“Ko\u010dvara，M.，Stingl，M.：PENBMI用户\u2019s指南（2.0版）（2005）。http:\/\/www.penopt.com”}Lillicrap，T.P.等人：通过深度强化学习进行持续控制。摘自：《第四届国际学习表征会议论文集》（2016）“}，{“key”：“22_CR24”，“unstructured”：“Liu，W.，Mehdipour，N.，Belta，C.：受安全约束的信号时序逻辑规范的递归神经网络控制器（2020）。https:\/\/arxiv.org\/abs\/2009.11468”}非结构化”：“Mittal，M.、Gallieri，M.，Quaglino，A.、Salehian，S.S.M.、Koutn\u00edk，J.：神经Lyapunov模型预测控制（2020）。https://arxiv.org/abs\/2002.10451“｝，｛“issue”：“8”，“key”：“22_CR26”，“doi asserted by”：“publisher”，“first page”：“1415”，“doi”：“10.1109\/TAC.2007.902736”，“volume”：“52”，“author”：“S Prajna”，“year”：“2007”，“nonstructured”：“Prajna，S.、Jadbabaie，A.、Pappas，G.J.：使用屏障证书进行最坏情况和随机安全验证的框架。IEEE传输。自动。控制52（8），1415\u20131429（2007）“，“日志标题”：“IEEE Trans。自动。Control“}，{”issue“：”2“，”key“：”22_CR27“，”doi-asserted-by“：”publisher“，”first page“：“310”，“doi”：“10.1109\/TAC.2003.823000”，“volume”：“49”，“author”：“S Prajna”，“year”：“2004”，“unstructured”：“Prajna，S.，Parrilo，P.A.，Rantzer，A.：凸优化的非线性控制综合。IEEE Trans.Autom.Control 49（2），310\u2013314（2004）”，“journal al标题“：”IEEE传输。自动。Control“}，{“key”：“22_CR28”，“doi-asserted-by”：“crossref”，“unstructured”：“Pylorof，D.，Bakolas，E.：使用半定规划优化的输入约束系统非线性控制器的分析与综合。摘自：《2016年美国控制会议（ACC）论文集》，第6959\u20136964页（2016）”，“doi”：“10.1109\/ACC.2016.7526769”}，}“issue”：“2”，“key”：“22_CR29”，“doi asserted by”：“publisher”，“first page”：“275”，“doi”：“10.1007\\s10514-018-9791-9”，“volume”：“43”，“author”：“H Ravanbakhsh”，“year”：“2019”，“nonstructured”：“Ravanbakhsh，H.，Sankaranarayanan，S.：从反例和演示中学习控制Lyapunov函数。自动。罗布。43（2），275\u2013307（2019）“，“新闻标题”：“汽车。罗布。“}，{”key“：”22_CR30“，”unstructured“：”Richards，S.M.，Berkenkamp，F.，Krause，A.：Lyapunov神经网络：动态系统安全学习的自适应稳定性认证（2018）。http://\/arxiv.org\/abs\/1808.00924“}”，{“key”：“22_CR31”，“doi-asserted-by”：“crossref”，“unstructure”：“”Ruan，W.，Huang，X.，Kwiatkowska，M.：具有可证明保证的深度神经网络的可达性分析。摘自：第二十七届国际人工智能联合会议（IJCAI）论文集，第2651\u20132659页（2018）“，“DOI”：“10.24963\/IJCAI.2018\/368”}，{“key”：“22_CR32”，“unstructured”：“Sassi，M.A.B.，Sankaranarayanan，S.：基于bernstein多项式的线性规划多项式动力系统的稳定性（2015）.arXiv预印本arXiv:1501.04578“}，{“key”：“22_CR33”，“doi-asserted-by”：“crossref”，“unstructured”：“Squires，E.，Pierpaoli，P.，Egerstedt，M.：用于固定翼飞机防撞的构造屏障证书。摘自：IEEE控制技术与应用会议（CCTA）论文集，第1656\u20131661页（2018）“，”DOI“：”10.1109\/CCTA.2018.8511342“}，{”key“：”22_CR34“，”unstructured“：”Szegedy，C.，et al.：神经网络的有趣特性。In:Proceedings of the 2nd International Conference on Learning Representations（ICLR）（2014）“}”，{“key”：“22_CR35”，“DOI-asserted-by”：“crossref”，“unstructure”：“Tuncali，C.E.，Kapinski，J.，Ito，H.，Deshmukh，J.V.：关于自主网络物理系统中学习型组件安全性的推理。摘自：第55届设计自动化年会（DAC）论文集，第30:1\u201330:6页（2018）“，”DOI“：”10.1145\/3195970.3199852“}，{“key”：“22_CR36”，“unstructured”：“Turchetta，M.，Kolobov，A.，Shah，S.，Krause，A.，Agarwal，A.：通过课程导入安全强化学习。摘自：《神经信息处理系统进展年度会议论文集》，pp.12151\u201312162（2020）“}，{“key”：“22_CR37”，“doi-asserted-by”：“crossref”，“unstructured”：“Xiang，W.，Tran，H.D.，Rosenfeld，J.A.，Johnson，T.T.：带神经网络控制器的分段线性系统的可达集估计和安全验证。摘自：美国年度控制会议（ACC）会议记录，第1574\u20131579页（2018）“，“DOI”：“10.23919\/ACC.2018.8431048”}，{“key”：“22_CR38”，“DOI-asserted-by”：“crossref”，“unstructured”：“Zeng，X.、Lin，W.、Yang，Z.、Chen，X.和Wang，L.：非线性混合系统安全验证的Darboux型屏障证书。摘自：2016年嵌入式软件国际会议（EMSOFT）论文集，第1\u201310页（2016）“，”DOI“：”10.1145\/29668478.29688484“}，{“key”：“22_CR39”，“DOI-asserted-by”：“crossref”，“unstructured”：“Zhao，H.，Zeng，X.，Chen，T.，Liu，Z.，Woodcock，J.：学习具有屏障证书的安全神经网络控制器。摘自：可靠软件工程国际研讨会论文集。理论、工具和应用（SETTA），第177\u2013185页（2020）“，“DOI”：“10.1007\/978-3-030-62822-2_11”}，{“key”：“22_CR40”，“DOI-asserted-by”：“publisher”，“unstructured”：“Zhao，H.，Zeng，X.，Chen，T。Liu，Z.，Woodcock，J.：学习具有屏障证书的安全神经网络控制器。形式方面计算。，2013年1月19日（2021年）。https:\/\/doi.org\/10.1007\/s00165-021-00544-5“，”doi“：”10.1007\/s001650-021-00554-5“}，{“key”：“22_CR41”，“doi-asserted-by”：“crossref”，“unstructured”：“Zhu，H.，Xiong，Z.，Magill，S.，Jagannathan，S.：可验证强化学习的归纳综合框架。摘自：第40届ACM SIGPLAN编程语言设计与实现会议（PLDI）论文集，第686\u2013701页（2019）“，“DOI”：“10.1145\/3314221.3314638”}]，“container-title”：[“计算机辅助验证”，“计算机科学讲义”]，“原文标题”：[]，“链接”：[{“URL”：“https:\/\/link.springer.com/content\/pdf\/10.1007\/978-3-030-81685-8_22，“content-type”：“未指定”，“content-version”：“vor”，“intended-application”：“相似性检查”}]，“存放”：{“date-parts”：[[2023,1,4]]，“日期时间”：“2023-01-04T18:43:18Z”，“时间戳”：1672857798000}，“分数”：1，“资源”：{-“主要”：{“URL”：“https:\/\/link.springer.com/10.1007\/978-3-030-81685-8_22“}}，”副标题“：[]，”短标题“：[]，”已发布“：{”日期部分“：[2021]]}，“ISBN”：[“9783030816841”，“978330816858”]，”引用计数“：41，”URL“http://\/dx.doi.org\/10.1007\/9783-030-81685-8-8_22”，“关系”：{}，“：[”0302-9743“，”1611-3349“]，“ISSN-type”：[{“value”：“0302-974”，“type”:“print”}，{”value”：“1611-3349”，“type”：“electronic”}]，“subject”：[]，“published”：｛“date parts”：[[2021]]}，“assertion”：[｛“value”：“2021年7月15日”，“order”：1，“name”：“first_online”，“label”：“first online”，“group”：｛“name”：“ChapterHistory”，“label”：“ChapterHistory”｝，｛“组”：｛“名称”：ConferenceInfo“，”label“：”ConferenceInformation“}}，{”value“：”计算机辅助验证国际会议“，”order“：2，”name“：”Conference_name“，”标签“：”会议名称“，”group“：ConferenceInfo“，”label“：”ConferenceInformation“}}，{”value“：”2021年7月20“，”order“：7，”name“：”Conference_start_date“，“label”：“会议开始日期”，“group”：{“name”：“ConferenceInfo”，“lable”：“Meeting Information”}，“value”：“2021年6月23日”，“order”：8，“name”:“Conference_end_date”，”lable“：”会议结束日期“，”group“：{“”标签“：”会议信息“}}，{“value”：“33”，“order”：9，“name”：“Conference_number”，“label”：“ConferenceNumber”，“group”：{“name”:“ConferenceInfo”，”标签“：“Confection Information”}}：“http://\/i-cav.org\/2021\/“，”order“：11，”name“：”conference_url“，”label“：”会议url“，”group“：，{“value“：”EasyChair“，”order“：2，”name“：”conference_management_system“，”label“：”会议管理系统“，”group“：发送供审阅的提交数“，”group“：{”name“：”ConfEventPeerReviewInformation“，”label“：”同行审阅信息（由会议组织者提供）“}}，{”value“：”63“，”order“：4，”name“:”Number_of_full_papers_accepted“，”标签“：”接受的全文数“同行评审信息（由会议组织者提供）“｝｝，｛”value“：”0“，”order“：5，”name“：”number_of_short_papers_accepted“，”label“：”接受的短文数量“，”group“：｛”name“：”ConfEventPeerReviewInformation“，”label“：”同行评审信息（由会议组织者提供）“｝｝，｛”value“：”22%-该值由等式“接受的完整论文数”/“提交供审查的论文数*100”计算，然后四舍五入为整数。“，”order“：6，”name“：”acceptance_rate_of_full_papers“，”label“：”全文接受率“，”group“：ConfEventPeerReviewInformation“，”label“：”同行评议信息（由会议组织者提供）“}}，{“value”：“12”，“order”：8，“name”：“average_number_of_papers_per_reviewer”，“label”：“每个审阅者的平均论文数”，“group”：}，{“value”：“Yes”，“order”：9，“name”：“external_reviewers_involved”，“label”：“external reviewers involved”，“label”：“审阅过程的附加信息”，“group”：{“name”：“ConfEventPeerReviewInformation”，“lable”：“同行审阅信息（由会议组织者提供）”}}]}}