文件Zbl 1508.93279-zbMATH Open

汤姆·巴丁斯;利西奥·罗芒;亚历山德罗·阿巴特;大卫·帕克;哈桑·普纳瓦拉（Hasan A.Poonawala）。;玛丽尔·斯托琳加;尼尔斯·詹森

基于形式化抽象的非高斯噪声动态系统鲁棒控制。（英语） Zbl 1508.93279号

J.阿蒂夫。智力。研究（JAIR） 76, 341-391 (2023).

概要：在安全关键设置下运行的动态系统的控制器必须考虑随机干扰。在动态系统中，此类干扰通常被建模为过程噪声，常见的假设是潜在分布已知和/或高斯分布。然而，在实践中，这些假设可能是不切实际的，并可能导致真实噪声分布的近似值较差。我们提出了一种新的控制器综合方法，它不依赖于噪声分布的任何显式表示。特别是，我们解决了计算控制器的问题，该控制器在安全到达目标时提供概率保证，同时还避免了状态空间中的不安全区域。首先，我们将连续控制系统抽象为有限状态模型，该模型通过离散状态之间的概率转换捕获噪声。作为一项关键贡献，我们使用场景方法中的工具，基于有限数量的噪声样本计算这些转移概率的可能近似正确（PAC）界。我们在所谓的区间马尔可夫决策过程（iMDP）的转移概率区间中捕获这些边界。该iMDP具有用户指定的置信概率，对转换概率的不确定性是鲁棒的，并且概率区间的紧密性可以通过样本的数量来控制。我们使用最先进的验证技术为iMDP提供保证，并计算一个控制器，这些保证将传递到原始控制系统。此外，我们开发了一个定制的计算方案，降低了在iMDP上合成这些保证的复杂性。现实控制系统的基准显示了我们方法的实际适用性，即使iMDP有数亿次转换。

MSC公司：

93E03型	控制理论中的随机系统（一般）
93B35型	灵敏度（稳健性）
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

马尔可夫决策过程;概率推理;不确定性

软件：

S每个工具;流量*;棱镜;斯托克Hy;ProbReach公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Abate，A.、Katoen，J.、Lygeros，J.和Prandini，M.（2010年）。随机混合系统的近似模型检验。《欧洲控制杂志》，16（6），624-641·兹比尔1216.93091
[2]	Abate，A.（2011年）。一般状态空间马尔可夫过程基于概率互模拟的近似度量：综述。InHybrid自治系统@ETAPS《理论计算机科学电子笔记》第297卷，第3-25页。爱思唯尔·Zbl 1334.68128号
[3]	Abate，A.、Prandini，M.、Lygeros，J.和Sastry，S.（2008年）。受控离散时间随机混合系统的概率可达性和安全性。自动化，44（11），2724-2734·Zbl 1152.93051号
[4]	Alur，R.、Henzinger，T.A.、Lafferierre，G.和Pappas，G.J.（2000）。混合系统的离散抽象。IEEE学报，88（7），971-984。
[5]	Anderson，B.D.和Moore，J.B.（2007年）。最优控制：线性二次型方法。Courier公司。
[6]	Ashok，P.、Kretínskín sk，J.和Weininger，M.（2019年）。马尔可夫决策过程和随机博弈的PAC统计模型检验。InCAV（1），《计算机科学讲义》第11561卷，第497-519页。斯普林格。
[7]	奥斯特罗姆，K.J.和穆雷，R.m.（2010）。反馈系统：科学家和工程师入门。普林斯顿大学出版社。
[8]	Badings，T.S.、Abate，A.、Jansen，N.、Parker，D.、Poonawala，H.A.和Stoelinga，M.（2022a）。具有非高斯噪声的自治系统的基于采样的鲁棒控制。InAAAI，第9669-9678页。AAAI出版社。
[9]	Badings，T.S.、Cubuktepe，M.、Jansen，N.、Junges，S.、Katoen，J.和Topcu，U.（2022b）。基于场景的不确定参数mdps验证。国际期刊软件。技术工具。传输。，24(5), 803-819.
[10]	Badings，T.S.、Jansen，N.、Junges，S.、Stoelinga，M.和Volk，M.（2022c）。基于抽样的不确定率ctmcs验证。InCAV（2），《计算机科学讲义》第13372卷，第26-47页。斯普林格·Zbl 1514.68117号
[11]	Badings，T.S.、Jansen，N.、Poonawala，H.A.和Stoelinga，M.（2021）。基于过滤器的抽象，具有在不确定性下进行规划的正确性保证。钴铬钴合金，abs/2103.02398。
[12]	Badings，T.S.、Romao，L.、Abate，A.和Jansen，N.（2022年）。概率是不够的：具有认知不确定性的随机动力学模型的形式化控制器综合。CoRR，abs/2210.05989。
[13]	Baier，C.和Katoen，J.（2008）。模型检查原则。麻省理工学院出版社·Zbl 1179.68076号
[14]	Bansal，S.、Chen，M.、Herbert，S.L.和Tomlin，C.J.（2017年）。哈密尔顿-雅可比可达性：简要概述和最新进展。InCDC，第2242-253页。电气与电子工程师协会。
[15]	Ben-Tal，A.、Ghaoui，L.E.和Nemirovski，A.（2009年）。稳健优化，普林斯顿应用数学系列第28卷。普林斯顿大学出版社·Zbl 1221.90001号
[16]	Berkenkamp，F.、Turchetta，M.、Schoellig，A.P.和Krause，A.（2017）。基于安全模型的强化学习，具有稳定性保证。InNIPS，第908-918页。
[17]	Bertsimas，D.、Brown，D.B.和Caramanis，C.（2011年）。稳健优化理论与应用。SIAM版本，53（3），464-501·Zbl 1233.90259号
[18]	Blackmore，L.、Ono，M.、Bektassov，A.和Williams，B.C.（2010年）。机会约束随机预测控制的概率粒子控制近似。IEEE传输。机器人学，26（3），502-517。
[19]	Böhn，E.、Coates，E.M.、Moe，S.和Johansen，T.A.（2019年）。基于近端策略优化的固定翼无人机深度强化学习姿态控制。InICUAS，第523-533页。电气与电子工程师协会。
[20]	Boucheron，S.、Lugosi，G.和Massart，P.（2013）。集中不等式-非渐近独立理论。牛津大学出版社·Zbl 1279.60005号
[21]	Boyd，S.P.和Vandenberghe，L.（2014）。凸优化。剑桥大学出版社。
[22]	Brafman，R.I.和Tennenholtz，M.（2002年）。R-MAX-用于近最优强化学习的通用多项式时间算法。J.马赫。学习。决议，3，213-231·兹比尔1088.68694
[23]	Brunke，L.，Greeff，M.，Hall，A.W.，Yuan，Z.，Zhou，S.，Panerati，J.，&Schoellig，A.P.（2022）。机器人安全学习：从基于学习的控制到安全强化学习。《控制、机器人和自治系统年度回顾》，5（1），411-444。
[24]	Calafiore，G.C.和Campi，M.C.（2005）。不确定凸规划：随机解和置信水平。数学。程序。，102(1), 25-46. ·Zbl 1177.90317号
[25]	Campi，M.C.、Carè，A.和Garatti，S.（2021）。情景方法：一种服务于数据驱动决策的工具。年。版本控制。，52, 1-17.
[26]	Campi，M.C.和Garatti，S.（2008年）。不确定凸规划随机解的精确可行性。SIAM J.Optim.公司。，19(3), 1211-1230. ·Zbl 1180.90235号
[27]	Campi，M.C.和Garatti，S.（2011年）。机会约束优化的抽样和离散方法：可行性和最优化。J.优化。理论应用。，148(2), 257-280. ·Zbl 1211.90146号
[28]	Campi，M.C.和Garatti，S.（2018年）。情景方法简介。暹罗·Zbl 1426.90151号
[29]	Casella，G.和Berger，R.L.（2021年）。统计推断。圣智学习。
[30]	Cauchi，N.和Abate，A.（2018年）。网络物理系统基准：建筑自动化系统的模块化模型库（扩展版）。CoRR，abs/1803.06315。
[31]	Cauchi，N.和Abate，A.（2019年）。Stochy：随机过程的自动验证和综合。InTACAS（2），《计算机科学讲义》第11428卷，第247-264页。斯普林格。
[32]	Cauchi，N.、Laurenti，L.、Lahijanian，M.、Abate，A.、Kwiatkowska，M.和Cardelli，L.（2019年）。通过不确定性实现效率：随机混合系统的可扩展形式综合。在HSCC中，第240-251页。ACM公司·Zbl 07120160号
[33]	Chen，X.、Al brahám，E.和Sankaranarayanan，S.（2013年）。流量*：非线性混合系统分析仪。InCAV，《计算机科学讲义》第8044卷，第258-263页。斯普林格。
[34]	Ciesinski，F.和Größer，M.（2004）。关于概率计算树逻辑。《随机系统的验证》，计算机科学讲义第2925卷，第147-188页。斯普林格·Zbl 1203.68096号
[35]	Clohessy，W.和Wiltshire，R.（1960年）。卫星交会的终端制导系统。《航空航天科学杂志》，27（9），653-658·Zbl 0095.18002号
[36]	Desharnais，J.、Edalat，A.和Panangaden，P.（2002年）。标记马尔可夫过程的互模拟。信息计算。，179(2), 163-193. ·Zbl 1096.68103号
[37]	D'Inocenzo，A.、Abate，A.和Katoen，J.（2012）。强大的PCTL模型检查。在HSCC中，第275-286页。ACM公司。
[38]	Dryden，H.L.（1943）。湍流统计理论综述。应用数学季刊，1（1），7-42·兹比尔0061.45701
[39]	Esfahani，P.M.和Kuhn，D.（2018年）。使用wasserstein度量的数据驱动分布式稳健优化：性能保证和易处理的重新设计。数学。程序。，171(1-2), 115-166. ·Zbl 1433.90095
[40]	Fan，C.、Qin，Z.、Mathur，U.、Ning，Q.、Mitra，S.和Viswanathan，M.（2022年）。具有可达无效规范的线性系统的控制器综合。IEEE传输。自动。控制。，67(4), 1713-1727. ·Zbl 07564794号
[41]	Ferns，N.、Panangaden，P.和Precup，D.（2004）。有限马尔可夫决策过程的度量。InAAAI，第950-951页。AAAI出版社/麻省理工学院出版社。
[42]	Ferns，N.、Precup，D.和Knight，S.（2014年）。通过函数表达式族对马尔可夫决策过程进行互模拟。InHorizons of the Mind，《计算机科学讲义》第8464卷，第319-342页。斯普林格·Zbl 1408.68100号
[43]	Fisac，J.F.、Akametalu，A.K.、Zeilinger，M.N.、Kaynama，S.、Gillula，J.H.和Tomlin，C.J.（2019年）。不确定机器人系统中基于学习控制的通用安全框架。IEEE传输。自动。控制。，64(7), 2737-2752. ·Zbl 1482.93720号
[44]	Fu，J.和Topcu，U.（2014年）。可能是带有时序逻辑约束的近似正确的MDP学习和控制。机器人学：科学与系统。
[45]	Garatti，S.和Campi，M.C.（2022）。场景优化中的风险和复杂性。数学。程序。，191（1），243-279·Zbl 1491.90104号
[46]	García，J.和Fernández，F.（2015）。安全强化学习综合调查。J.马赫。学习。第16号决议，1437-1480·Zbl 1351.68209号
[47]	Givan，R.、Dean，T.L.和Greig，M.（2003）。马尔可夫决策过程中的等价概念和模型最小化。Artif公司。智力。，147（1-2），163-223·Zbl 1082.68801号
[48]	Givan，R.、Leach，S.M.和Dean，T.L.（2000）。有界参数马尔可夫决策过程。Artif公司。智力。，122(1-2), 71-109. ·Zbl 0948.68171号
[49]	Goh，J.和Sim，M.（2010年）。分布稳健优化及其可处理近似。运筹学，58（4-part-1），902-917·Zbl 1228.90067号
[50]	Haesaert，S.、Soudjani，S.和Abate，A.（2017年）。通过近似相似关系和策略精化验证一般马尔可夫决策过程。SIAM控制与优化杂志，55（4），2333-2367·Zbl 1367.93615号
[51]	Hahn，E.M.、Hashemi，V.、Hermanns，H.、Lahijanian，M.和Turrini，A.（2017）。区间马尔可夫决策过程的多目标鲁棒策略综合。InQEST，《计算机科学讲义》第10503卷，第207-223页。斯普林格·Zbl 1421.90160号
[52]	Hahn，E.M.、Hashemi，V.、Hermanns，H.和Turrini，A.（2016）。开发区间概率互模拟的鲁棒优化。InQEST，《计算机科学讲义》第9826卷，第55-71页。斯普林格·Zbl 1377.68132号
[53]	Hansson，H.和Jonsson，B.（1994年）。推理时间和可靠性的逻辑。形式方面计算。，6(5), 512-535. ·Zbl 0820.68113号
[54]	Hashemi，V.、Hatefi，H.和Krcál，J.（2014）。间隔mdps的PCTL模型检查的概率互模拟（扩展版本）。InSynCoP，第145卷《电子技术和计算机科学》，第19-33页·Zbl 1464.68206号
[55]	Hashemi，V.、Hermanns，H.、Song，L.、Subramani，K.、Turrini，A.和Wojciechowski，P.（2016）。区间马尔可夫决策过程的组合互模拟最小化。InLATA，《计算机科学讲义》第9618卷，第114-126页。斯普林格·Zbl 1435.68197号
[56]	Haussler，D.（1990）。大概是正确的学习。InAAAI，第1101-1108页。AAAI出版社/麻省理工学院出版社。
[57]	Herbert，S.L.、Chen，M.、Han，S.、Bansal，S.，Fisac，J.F.和Tomlin，C.J.（2017）。Fastrack：一个模块化框架，用于快速且有保证的安全动作规划。美国疾病控制与预防中心，第1517-1522页。电气与电子工程师协会。
[58]	Hermanns，H.、Parma，A.、Segala，R.、Wachter，B.和Zhang，L.（2011年）。概率逻辑表征。信息与计算，209（2），154-172·Zbl 1210.68072号
[59]	Hewing，L.、Kabzan，J.和Zeilinger，M.N.（2020年）。使用高斯过程回归的谨慎模型预测控制。IEEE传输。控制。系统。技术。，28(6), 2736-2743.
[60]	Jewison，C.和Erwin，R.S.（2016年）。用于混合控制和估计的航天器基准问题。InCDC，第3300-3305页。电气与电子工程师协会。
[61]	Kearns，M.J.和Singh，S.P.（2002年）。多项式时间内的近最优强化学习。机器。学习。，49(2-3), 209-232. ·Zbl 1014.68071号
[62]	Koller，T.、Berkenkamp，F.、Turchetta，M.和Krause，A.（2018年）。安全勘探中基于学习的模型预测控制。InCDC，第6059-6066页。电气与电子工程师协会。
[63]	Kulakowski，B.T.、Gardner，J.F.和Shearer，J.L.（2007）。工程系统的动态建模和控制。剑桥大学出版社·Zbl 1146.93005号
[64]	Kwiatkowska，M.Z.、Norman，G.和Parker，D.（2011年）。PRISM 4.0：概率实时系统验证。InCAV，《计算机科学讲义》第6806卷，第585-591页。斯普林格。
[65]	Kwiatkowska，M.Z.和Parker，D.（2013）。概率系统的自动验证和策略综合。InATVA，《计算机科学讲义》第8172卷，第5-22页。斯普林格·Zbl 1410.68233号
[66]	Lahijanian，M.、Andersson，S.B.和Belta，C.（2015）。离散随机系统的形式化验证与综合。IEEE传输。自动。控制。，60(8), 2031-2045. ·Zbl 1360.93650号
[67]	Larsen，K.G.和Skou，A.（1991年）。通过概率测试进行相互模拟。信息计算。，94(1), 1-28. ·Zbl 0756.68035号
[68]	Lavaei，A.、Soudjani，S.、Abate，A.和Zamani，M.（2022）。随机混合系统的自动验证和综合：综述。自动化，146110617·Zbl 1504.93389号
[69]	Lesser，K.、Oishi，M.M.K.和Erwin，R.S.（2013年）。航天器相对运动控制的随机可达性。InCDC，第4705-4712页。电气与电子工程师协会。
[70]	Lun，Y.Z.、Wheatley，J.、D'Innocenzo，A.和Abate，A.（2018年）。具有区间决策过程的马尔可夫链的近似抽象。在ADHS中，IFACPapersOnLine第51卷，第91-96页。爱思唯尔。
[71]	Margellos，K.、Goulart，P.和Lygeros，J.（2014）。在稳健优化和机会约束优化问题的场景方法之间的道路上。IEEE自动控制汇刊，59（8），2258-2263·Zbl 1360.90179号
[72]	Moos，J.、Hansel，K.、Abdulsamad，H.、Stark，S.、Clever，D.和Peters，J.（2022年）。稳健强化学习：基础和最新进展综述。机器。学习。知识。外部。，4(1), 276-315.
[73]	Morimoto，J.和Doya，K.（2005年）。强大的强化学习。神经计算。，17(2), 335-359.
[74]	Nilim，A.和Ghaoui，L.E.（2005年）。转移矩阵不确定的马尔可夫决策过程的鲁棒控制。操作。决议，53（5），780-798·Zbl 1165.90674号
[75]	Ogata，K.等人（2010年）。现代控制工程，第5卷。新泽西州普伦蒂斯·霍尔上鞍河。
[76]	Park，S.、Serpedin，E.和Qaraqe，K.A.（2013）。高斯假设：最不利但最有用的[课堂讲稿]。IEEE信号处理。Mag.，30（3），183-186。
[77]	Peng，X.B.、Andrychowicz，M.、Zaremba，W.和Abbeel，P.（2018）。使用动力学随机化实现机器人控制的模拟到实际转移。InICRA，第1-8页。电气与电子工程师协会。
[78]	Pinto，L.、Davidson，J.、Sukthankar，R.和Gupta，A.（2017年）。强大的对手强化学习。InICML，《机器学习研究进展》第70卷，第2817-2826页。PMLR公司。
[79]	Puggelli，A.、Li，W.、Sangiovanni-Vincentelli，A.L.和Seshia，S.A.（2013）。具有凸不确定性的mdp PCTL特性的多项式时间验证。InCAV，《计算机科学讲义》第8044卷，第527-542页。斯普林格·兹比尔1435.68202
[80]	Puterman，M.L.（1994）。马尔可夫决策过程：离散随机动态规划。概率统计威利级数。威利·Zbl 0829.90134号
[81]	Reissig，G.、Weber，A.和Rungger，M.（2017年）。符号控制器综合的反馈细化关系。IEEE传输。自动。控制。，62(4), 1781-1796. ·Zbl 1366.93363号
[82]	Reist，P.、Preiswerk，P.和Tedrake，R.（2016）。使用基于仿真的lqr树进行反馈运动规划。《国际机器人研究杂志》，35（11），1393-1416。
[83]	Romao，L.、Papachristodoulou，A.和Margellos，K.（2022）。关于带丢弃约束的凸场景规划的精确可行性。IEEE自动控制事务处理，待发布。
[84]	Rosolia，U.、Singletary，A.和Ames，A.D.（2022年）。统一多速率控制：从低级驱动到高级规划。IEEE自动控制汇刊，67（12），6627-6640·Zbl 07742155号
[85]	Sartipizadeh，H.、Vinod，A.P.、Açikemen，B.和Oishi，M.（2019年）。线性系统快速抽样随机可达性计算中基于Voronoi分区的场景约简。InACC，第37-44页。电气与电子工程师协会。
[86]	Shmarov，F.和Zuliani，P.（2015）。Probreach：验证随机混合系统的概率增量可访问性。在HSCC中，第134-139页。ACM公司·Zbl 1366.68183号
[87]	Smith，A.（2013）。序贯蒙特卡罗方法在实践中的应用。施普林格科技与商业媒体。
[88]	Soudjani，S.E.Z.和Abate，A.（2013）。随机过程抽象和验证的自适应和顺序网格程序。SIAM J.应用。动态。系统。，12（2），921-956·Zbl 1278.93243号
[89]	Sullivan，T.J.（2015）。不确定性量化导论，第63卷。斯普林格·Zbl 1336.60002号
[90]	Taylor，A.J.、Singletary，A.、Yue，Y.和Ames，A.D.（2020）。学习使用控制屏障功能进行安全关键控制。InL4DC，机器学习研究进展第120卷，第708-717页。PMLR公司。
[91]	Tedrake，R.、Manchester，I.R.、Tobenkin，M.M.和Roberts，J.W.（2010年）。Lqr-树：通过平方和验证反馈运动规划。《国际机器人研究杂志》，29（8），1038-1052。
[92]	Tkachev，I.和Abate，A.（2014）。马尔可夫过程上无限时域规范的刻画与计算。理论计算机科学，515，1-18·兹比尔1293.68194
[93]	Vinitsky，E.、Du，Y.、Parvate，K.、Jang，K.、Abbeel，P.和Bayen，A.M.（2020）。使用敌对群体的稳健强化学习。CoRR，abs/2008.01825。
[94]	Vinod，A.P.、Gleason，J.D.和Oishi，M.M.K.（2019年）。Sreachtools:MATLAB随机可达性工具箱。在HSCC中，第33-38页。ACM公司·Zbl 07120138号
[95]	Wiesemann，W.、Kuhn，D.和Sim，M.（2014）。分布稳健凸优化。操作。研究，62（6），1358-1376·Zbl 1327.90158号
[96]	Wolff，E.M.、Topcu，U和Murray，R.M.（2012）。具有时序逻辑规范的不确定马尔可夫决策过程的鲁棒控制。InCDC，第3372-3379页。电气与电子工程师协会。
[97]	Xu，H.和Mannor，S.（2010年）。分布稳健的马尔可夫决策过程。InNIPS，第2505-2513页。Curran Associates公司。
[98]	Zikelic，D.、Lechner，M.、Henzinger，T.A.和Chatterjee，K.（2022年）。具有可达无效保证的随机系统的学习控制策略。CoRR，abs/2210.05308

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于形式化抽象的非高斯噪声动态系统鲁棒控制。（英语） Zbl 1508.93279号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于形式化抽象的非高斯噪声动态系统鲁棒控制。 （英语） Zbl 1508.93279号

MSC公司：

关键词：

软件：

参考文献：

基于形式化抽象的非高斯噪声动态系统鲁棒控制。（英语） Zbl 1508.93279号