×

基于形式化抽象的非高斯噪声动态系统鲁棒控制。 (英语) Zbl 1508.93279号

概要:在安全关键设置下运行的动态系统的控制器必须考虑随机干扰。在动态系统中,此类干扰通常被建模为过程噪声,常见的假设是潜在分布已知和/或高斯分布。然而,在实践中,这些假设可能是不切实际的,并可能导致真实噪声分布的近似值较差。我们提出了一种新的控制器综合方法,它不依赖于噪声分布的任何显式表示。特别是,我们解决了计算控制器的问题,该控制器在安全到达目标时提供概率保证,同时还避免了状态空间中的不安全区域。首先,我们将连续控制系统抽象为有限状态模型,该模型通过离散状态之间的概率转换捕获噪声。作为一项关键贡献,我们使用场景方法中的工具,基于有限数量的噪声样本计算这些转移概率的可能近似正确(PAC)界。我们在所谓的区间马尔可夫决策过程(iMDP)的转移概率区间中捕获这些边界。该iMDP具有用户指定的置信概率,对转换概率的不确定性是鲁棒的,并且概率区间的紧密性可以通过样本的数量来控制。我们使用最先进的验证技术为iMDP提供保证,并计算一个控制器,这些保证将传递到原始控制系统。此外,我们开发了一个定制的计算方案,降低了在iMDP上合成这些保证的复杂性。现实控制系统的基准显示了我们方法的实际适用性,即使iMDP有数亿次转换。

MSC公司:

93E03型 控制理论中的随机系统(一般)
93B35型 灵敏度(稳健性)
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abate,A.、Katoen,J.、Lygeros,J.和Prandini,M.(2010年)。随机混合系统的近似模型检验。《欧洲控制杂志》,16(6),624-641·兹比尔1216.93091
[2] Abate,A.(2011年)。一般状态空间马尔可夫过程基于概率互模拟的近似度量:综述。InHybrid自治系统@ETAPS《理论计算机科学电子笔记》第297卷,第3-25页。爱思唯尔·Zbl 1334.68128号
[3] Abate,A.、Prandini,M.、Lygeros,J.和Sastry,S.(2008年)。受控离散时间随机混合系统的概率可达性和安全性。自动化,44(11),2724-2734·Zbl 1152.93051号
[4] Alur,R.、Henzinger,T.A.、Lafferierre,G.和Pappas,G.J.(2000)。混合系统的离散抽象。IEEE学报,88(7),971-984。
[5] Anderson,B.D.和Moore,J.B.(2007年)。最优控制:线性二次型方法。Courier公司。
[6] Ashok,P.、Kretínskín sk,J.和Weininger,M.(2019年)。马尔可夫决策过程和随机博弈的PAC统计模型检验。InCAV(1),《计算机科学讲义》第11561卷,第497-519页。斯普林格。
[7] 奥斯特罗姆,K.J.和穆雷,R.m.(2010)。反馈系统:科学家和工程师入门。普林斯顿大学出版社。
[8] Badings,T.S.、Abate,A.、Jansen,N.、Parker,D.、Poonawala,H.A.和Stoelinga,M.(2022a)。具有非高斯噪声的自治系统的基于采样的鲁棒控制。InAAAI,第9669-9678页。AAAI出版社。
[9] Badings,T.S.、Cubuktepe,M.、Jansen,N.、Junges,S.、Katoen,J.和Topcu,U.(2022b)。基于场景的不确定参数mdps验证。国际期刊软件。技术工具。传输。,24(5), 803-819.
[10] Badings,T.S.、Jansen,N.、Junges,S.、Stoelinga,M.和Volk,M.(2022c)。基于抽样的不确定率ctmcs验证。InCAV(2),《计算机科学讲义》第13372卷,第26-47页。斯普林格·Zbl 1514.68117号
[11] Badings,T.S.、Jansen,N.、Poonawala,H.A.和Stoelinga,M.(2021)。基于过滤器的抽象,具有在不确定性下进行规划的正确性保证。钴铬钴合金,abs/2103.02398。
[12] Badings,T.S.、Romao,L.、Abate,A.和Jansen,N.(2022年)。概率是不够的:具有认知不确定性的随机动力学模型的形式化控制器综合。CoRR,abs/2210.05989。
[13] Baier,C.和Katoen,J.(2008)。模型检查原则。麻省理工学院出版社·Zbl 1179.68076号
[14] Bansal,S.、Chen,M.、Herbert,S.L.和Tomlin,C.J.(2017年)。哈密尔顿-雅可比可达性:简要概述和最新进展。InCDC,第2242-253页。电气与电子工程师协会。
[15] Ben-Tal,A.、Ghaoui,L.E.和Nemirovski,A.(2009年)。稳健优化,普林斯顿应用数学系列第28卷。普林斯顿大学出版社·Zbl 1221.90001号
[16] Berkenkamp,F.、Turchetta,M.、Schoellig,A.P.和Krause,A.(2017)。基于安全模型的强化学习,具有稳定性保证。InNIPS,第908-918页。
[17] Bertsimas,D.、Brown,D.B.和Caramanis,C.(2011年)。稳健优化理论与应用。SIAM版本,53(3),464-501·Zbl 1233.90259号
[18] Blackmore,L.、Ono,M.、Bektassov,A.和Williams,B.C.(2010年)。机会约束随机预测控制的概率粒子控制近似。IEEE传输。机器人学,26(3),502-517。
[19] Böhn,E.、Coates,E.M.、Moe,S.和Johansen,T.A.(2019年)。基于近端策略优化的固定翼无人机深度强化学习姿态控制。InICUAS,第523-533页。电气与电子工程师协会。
[20] Boucheron,S.、Lugosi,G.和Massart,P.(2013)。集中不等式-非渐近独立理论。牛津大学出版社·Zbl 1279.60005号
[21] Boyd,S.P.和Vandenberghe,L.(2014)。凸优化。剑桥大学出版社。
[22] Brafman,R.I.和Tennenholtz,M.(2002年)。R-MAX-用于近最优强化学习的通用多项式时间算法。J.马赫。学习。决议,3,213-231·兹比尔1088.68694
[23] Brunke,L.,Greeff,M.,Hall,A.W.,Yuan,Z.,Zhou,S.,Panerati,J.,&Schoellig,A.P.(2022)。机器人安全学习:从基于学习的控制到安全强化学习。《控制、机器人和自治系统年度回顾》,5(1),411-444。
[24] Calafiore,G.C.和Campi,M.C.(2005)。不确定凸规划:随机解和置信水平。数学。程序。,102(1), 25-46. ·Zbl 1177.90317号
[25] Campi,M.C.、Carè,A.和Garatti,S.(2021)。情景方法:一种服务于数据驱动决策的工具。年。版本控制。,52, 1-17.
[26] Campi,M.C.和Garatti,S.(2008年)。不确定凸规划随机解的精确可行性。SIAM J.Optim.公司。,19(3), 1211-1230. ·Zbl 1180.90235号
[27] Campi,M.C.和Garatti,S.(2011年)。机会约束优化的抽样和离散方法:可行性和最优化。J.优化。理论应用。,148(2), 257-280. ·Zbl 1211.90146号
[28] Campi,M.C.和Garatti,S.(2018年)。情景方法简介。暹罗·Zbl 1426.90151号
[29] Casella,G.和Berger,R.L.(2021年)。统计推断。圣智学习。
[30] Cauchi,N.和Abate,A.(2018年)。网络物理系统基准:建筑自动化系统的模块化模型库(扩展版)。CoRR,abs/1803.06315。
[31] Cauchi,N.和Abate,A.(2019年)。Stochy:随机过程的自动验证和综合。InTACAS(2),《计算机科学讲义》第11428卷,第247-264页。斯普林格。
[32] Cauchi,N.、Laurenti,L.、Lahijanian,M.、Abate,A.、Kwiatkowska,M.和Cardelli,L.(2019年)。通过不确定性实现效率:随机混合系统的可扩展形式综合。在HSCC中,第240-251页。ACM公司·Zbl 07120160号
[33] Chen,X.、Al brahám,E.和Sankaranarayanan,S.(2013年)。流量*:非线性混合系统分析仪。InCAV,《计算机科学讲义》第8044卷,第258-263页。斯普林格。
[34] Ciesinski,F.和Größer,M.(2004)。关于概率计算树逻辑。《随机系统的验证》,计算机科学讲义第2925卷,第147-188页。斯普林格·Zbl 1203.68096号
[35] Clohessy,W.和Wiltshire,R.(1960年)。卫星交会的终端制导系统。《航空航天科学杂志》,27(9),653-658·Zbl 0095.18002号
[36] Desharnais,J.、Edalat,A.和Panangaden,P.(2002年)。标记马尔可夫过程的互模拟。信息计算。,179(2), 163-193. ·Zbl 1096.68103号
[37] D'Inocenzo,A.、Abate,A.和Katoen,J.(2012)。强大的PCTL模型检查。在HSCC中,第275-286页。ACM公司。
[38] Dryden,H.L.(1943)。湍流统计理论综述。应用数学季刊,1(1),7-42·兹比尔0061.45701
[39] Esfahani,P.M.和Kuhn,D.(2018年)。使用wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新设计。数学。程序。,171(1-2), 115-166. ·Zbl 1433.90095
[40] Fan,C.、Qin,Z.、Mathur,U.、Ning,Q.、Mitra,S.和Viswanathan,M.(2022年)。具有可达无效规范的线性系统的控制器综合。IEEE传输。自动。控制。,67(4), 1713-1727. ·Zbl 07564794号
[41] Ferns,N.、Panangaden,P.和Precup,D.(2004)。有限马尔可夫决策过程的度量。InAAAI,第950-951页。AAAI出版社/麻省理工学院出版社。
[42] Ferns,N.、Precup,D.和Knight,S.(2014年)。通过函数表达式族对马尔可夫决策过程进行互模拟。InHorizons of the Mind,《计算机科学讲义》第8464卷,第319-342页。斯普林格·Zbl 1408.68100号
[43] Fisac,J.F.、Akametalu,A.K.、Zeilinger,M.N.、Kaynama,S.、Gillula,J.H.和Tomlin,C.J.(2019年)。不确定机器人系统中基于学习控制的通用安全框架。IEEE传输。自动。控制。,64(7), 2737-2752. ·Zbl 1482.93720号
[44] Fu,J.和Topcu,U.(2014年)。可能是带有时序逻辑约束的近似正确的MDP学习和控制。机器人学:科学与系统。
[45] Garatti,S.和Campi,M.C.(2022)。场景优化中的风险和复杂性。数学。程序。,191(1),243-279·Zbl 1491.90104号
[46] García,J.和Fernández,F.(2015)。安全强化学习综合调查。J.马赫。学习。第16号决议,1437-1480·Zbl 1351.68209号
[47] Givan,R.、Dean,T.L.和Greig,M.(2003)。马尔可夫决策过程中的等价概念和模型最小化。Artif公司。智力。,147(1-2),163-223·Zbl 1082.68801号
[48] Givan,R.、Leach,S.M.和Dean,T.L.(2000)。有界参数马尔可夫决策过程。Artif公司。智力。,122(1-2), 71-109. ·Zbl 0948.68171号
[49] Goh,J.和Sim,M.(2010年)。分布稳健优化及其可处理近似。运筹学,58(4-part-1),902-917·Zbl 1228.90067号
[50] Haesaert,S.、Soudjani,S.和Abate,A.(2017年)。通过近似相似关系和策略精化验证一般马尔可夫决策过程。SIAM控制与优化杂志,55(4),2333-2367·Zbl 1367.93615号
[51] Hahn,E.M.、Hashemi,V.、Hermanns,H.、Lahijanian,M.和Turrini,A.(2017)。区间马尔可夫决策过程的多目标鲁棒策略综合。InQEST,《计算机科学讲义》第10503卷,第207-223页。斯普林格·Zbl 1421.90160号
[52] Hahn,E.M.、Hashemi,V.、Hermanns,H.和Turrini,A.(2016)。开发区间概率互模拟的鲁棒优化。InQEST,《计算机科学讲义》第9826卷,第55-71页。斯普林格·Zbl 1377.68132号
[53] Hansson,H.和Jonsson,B.(1994年)。推理时间和可靠性的逻辑。形式方面计算。,6(5), 512-535. ·Zbl 0820.68113号
[54] Hashemi,V.、Hatefi,H.和Krcál,J.(2014)。间隔mdps的PCTL模型检查的概率互模拟(扩展版本)。InSynCoP,第145卷《电子技术和计算机科学》,第19-33页·Zbl 1464.68206号
[55] Hashemi,V.、Hermanns,H.、Song,L.、Subramani,K.、Turrini,A.和Wojciechowski,P.(2016)。区间马尔可夫决策过程的组合互模拟最小化。InLATA,《计算机科学讲义》第9618卷,第114-126页。斯普林格·Zbl 1435.68197号
[56] Haussler,D.(1990)。大概是正确的学习。InAAAI,第1101-1108页。AAAI出版社/麻省理工学院出版社。
[57] Herbert,S.L.、Chen,M.、Han,S.、Bansal,S.,Fisac,J.F.和Tomlin,C.J.(2017)。Fastrack:一个模块化框架,用于快速且有保证的安全动作规划。美国疾病控制与预防中心,第1517-1522页。电气与电子工程师协会。
[58] Hermanns,H.、Parma,A.、Segala,R.、Wachter,B.和Zhang,L.(2011年)。概率逻辑表征。信息与计算,209(2),154-172·Zbl 1210.68072号
[59] Hewing,L.、Kabzan,J.和Zeilinger,M.N.(2020年)。使用高斯过程回归的谨慎模型预测控制。IEEE传输。控制。系统。技术。,28(6), 2736-2743.
[60] Jewison,C.和Erwin,R.S.(2016年)。用于混合控制和估计的航天器基准问题。InCDC,第3300-3305页。电气与电子工程师协会。
[61] Kearns,M.J.和Singh,S.P.(2002年)。多项式时间内的近最优强化学习。机器。学习。,49(2-3), 209-232. ·Zbl 1014.68071号
[62] Koller,T.、Berkenkamp,F.、Turchetta,M.和Krause,A.(2018年)。安全勘探中基于学习的模型预测控制。InCDC,第6059-6066页。电气与电子工程师协会。
[63] Kulakowski,B.T.、Gardner,J.F.和Shearer,J.L.(2007)。工程系统的动态建模和控制。剑桥大学出版社·Zbl 1146.93005号
[64] Kwiatkowska,M.Z.、Norman,G.和Parker,D.(2011年)。PRISM 4.0:概率实时系统验证。InCAV,《计算机科学讲义》第6806卷,第585-591页。斯普林格。
[65] Kwiatkowska,M.Z.和Parker,D.(2013)。概率系统的自动验证和策略综合。InATVA,《计算机科学讲义》第8172卷,第5-22页。斯普林格·Zbl 1410.68233号
[66] Lahijanian,M.、Andersson,S.B.和Belta,C.(2015)。离散随机系统的形式化验证与综合。IEEE传输。自动。控制。,60(8), 2031-2045. ·Zbl 1360.93650号
[67] Larsen,K.G.和Skou,A.(1991年)。通过概率测试进行相互模拟。信息计算。,94(1), 1-28. ·Zbl 0756.68035号
[68] Lavaei,A.、Soudjani,S.、Abate,A.和Zamani,M.(2022)。随机混合系统的自动验证和综合:综述。自动化,146110617·Zbl 1504.93389号
[69] Lesser,K.、Oishi,M.M.K.和Erwin,R.S.(2013年)。航天器相对运动控制的随机可达性。InCDC,第4705-4712页。电气与电子工程师协会。
[70] Lun,Y.Z.、Wheatley,J.、D'Innocenzo,A.和Abate,A.(2018年)。具有区间决策过程的马尔可夫链的近似抽象。在ADHS中,IFACPapersOnLine第51卷,第91-96页。爱思唯尔。
[71] Margellos,K.、Goulart,P.和Lygeros,J.(2014)。在稳健优化和机会约束优化问题的场景方法之间的道路上。IEEE自动控制汇刊,59(8),2258-2263·Zbl 1360.90179号
[72] Moos,J.、Hansel,K.、Abdulsamad,H.、Stark,S.、Clever,D.和Peters,J.(2022年)。稳健强化学习:基础和最新进展综述。机器。学习。知识。外部。,4(1), 276-315.
[73] Morimoto,J.和Doya,K.(2005年)。强大的强化学习。神经计算。,17(2), 335-359.
[74] Nilim,A.和Ghaoui,L.E.(2005年)。转移矩阵不确定的马尔可夫决策过程的鲁棒控制。操作。决议,53(5),780-798·Zbl 1165.90674号
[75] Ogata,K.等人(2010年)。现代控制工程,第5卷。新泽西州普伦蒂斯·霍尔上鞍河。
[76] Park,S.、Serpedin,E.和Qaraqe,K.A.(2013)。高斯假设:最不利但最有用的[课堂讲稿]。IEEE信号处理。Mag.,30(3),183-186。
[77] Peng,X.B.、Andrychowicz,M.、Zaremba,W.和Abbeel,P.(2018)。使用动力学随机化实现机器人控制的模拟到实际转移。InICRA,第1-8页。电气与电子工程师协会。
[78] Pinto,L.、Davidson,J.、Sukthankar,R.和Gupta,A.(2017年)。强大的对手强化学习。InICML,《机器学习研究进展》第70卷,第2817-2826页。PMLR公司。
[79] Puggelli,A.、Li,W.、Sangiovanni-Vincentelli,A.L.和Seshia,S.A.(2013)。具有凸不确定性的mdp PCTL特性的多项式时间验证。InCAV,《计算机科学讲义》第8044卷,第527-542页。斯普林格·兹比尔1435.68202
[80] Puterman,M.L.(1994)。马尔可夫决策过程:离散随机动态规划。概率统计威利级数。威利·Zbl 0829.90134号
[81] Reissig,G.、Weber,A.和Rungger,M.(2017年)。符号控制器综合的反馈细化关系。IEEE传输。自动。控制。,62(4), 1781-1796. ·Zbl 1366.93363号
[82] Reist,P.、Preiswerk,P.和Tedrake,R.(2016)。使用基于仿真的lqr树进行反馈运动规划。《国际机器人研究杂志》,35(11),1393-1416。
[83] Romao,L.、Papachristodoulou,A.和Margellos,K.(2022)。关于带丢弃约束的凸场景规划的精确可行性。IEEE自动控制事务处理,待发布。
[84] Rosolia,U.、Singletary,A.和Ames,A.D.(2022年)。统一多速率控制:从低级驱动到高级规划。IEEE自动控制汇刊,67(12),6627-6640·Zbl 07742155号
[85] Sartipizadeh,H.、Vinod,A.P.、Açikemen,B.和Oishi,M.(2019年)。线性系统快速抽样随机可达性计算中基于Voronoi分区的场景约简。InACC,第37-44页。电气与电子工程师协会。
[86] Shmarov,F.和Zuliani,P.(2015)。Probreach:验证随机混合系统的概率增量可访问性。在HSCC中,第134-139页。ACM公司·Zbl 1366.68183号
[87] Smith,A.(2013)。序贯蒙特卡罗方法在实践中的应用。施普林格科技与商业媒体。
[88] Soudjani,S.E.Z.和Abate,A.(2013)。随机过程抽象和验证的自适应和顺序网格程序。SIAM J.应用。动态。系统。,12(2),921-956·Zbl 1278.93243号
[89] Sullivan,T.J.(2015)。不确定性量化导论,第63卷。斯普林格·Zbl 1336.60002号
[90] Taylor,A.J.、Singletary,A.、Yue,Y.和Ames,A.D.(2020)。学习使用控制屏障功能进行安全关键控制。InL4DC,机器学习研究进展第120卷,第708-717页。PMLR公司。
[91] Tedrake,R.、Manchester,I.R.、Tobenkin,M.M.和Roberts,J.W.(2010年)。Lqr-树:通过平方和验证反馈运动规划。《国际机器人研究杂志》,29(8),1038-1052。
[92] Tkachev,I.和Abate,A.(2014)。马尔可夫过程上无限时域规范的刻画与计算。理论计算机科学,515,1-18·兹比尔1293.68194
[93] Vinitsky,E.、Du,Y.、Parvate,K.、Jang,K.、Abbeel,P.和Bayen,A.M.(2020)。使用敌对群体的稳健强化学习。CoRR,abs/2008.01825。
[94] Vinod,A.P.、Gleason,J.D.和Oishi,M.M.K.(2019年)。Sreachtools:MATLAB随机可达性工具箱。在HSCC中,第33-38页。ACM公司·Zbl 07120138号
[95] Wiesemann,W.、Kuhn,D.和Sim,M.(2014)。分布稳健凸优化。操作。研究,62(6),1358-1376·Zbl 1327.90158号
[96] Wolff,E.M.、Topcu,U和Murray,R.M.(2012)。具有时序逻辑规范的不确定马尔可夫决策过程的鲁棒控制。InCDC,第3372-3379页。电气与电子工程师协会。
[97] Xu,H.和Mannor,S.(2010年)。分布稳健的马尔可夫决策过程。InNIPS,第2505-2513页。Curran Associates公司。
[98] Zikelic,D.、Lechner,M.、Henzinger,T.A.和Chatterjee,K.(2022年)。具有可达无效保证的随机系统的学习控制策略。CoRR,abs/2210.05308
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。