×

随机系统分布鲁棒安全规范的动态博弈方法。 (英语) Zbl 1400.93336号

摘要:本文提出了一种新的安全规范方法,该方法对干扰概率分布中的误差具有鲁棒性。我们提出的分布鲁棒安全策略最大化了系统始终保持在期望集中的概率,并使其受到模糊集中最坏可能的干扰分布的影响。我们提出了一个构造此类策略的动态博弈公式,并确定了非随机马尔可夫策略最优的条件。基于这一存在性结果,我们开发了一种实用的设计方法,用于具有有限扰动分布信息的安全导向随机控制器。然而,相关的Bellman方程涉及无穷维极小极大优化问题,因为扰动分布可能具有连续密度。为了缓解计算问题,我们提出了一种基于对偶性的重新构造方法,该方法将无穷维极大极小问题转换为半无限程序,可以使用现有收敛算法求解。我们证明了不存在对偶缺口,并且这种方法因此保持了最优性。数值试验结果表明,该方法对扰动分布误差具有鲁棒性,而标准随机安全验证工具则不具有鲁棒性。

MSC公司:

93E20型 最优随机控制
91A25型 动态游戏
93E03型 控制理论中的随机系统(一般)
90立方厘米 动态编程
90立方厘米 半无限规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿巴特,A。;Prandini,M。;Lygeros,J。;Sastry,S.,受控离散时间随机混合系统的概率可达性和安全性,Automatica,44,11,2724-2734,(2008)·Zbl 1152.93051号
[2] 阿尔托夫,M。;Le Guernic,C。;Krogh,B.H.,不确定时变线性系统的可达集计算,(混合系统:计算与控制,(2011),Springer),93-102·Zbl 1362.93013号
[3] Ben-Tal,A。;Den Hertog,D。;De Waegenaere,A。;梅伦伯格,B。;Rennen,G.,受不确定概率影响的优化问题的稳健解,《管理科学》,59,2,341-357,(2013)
[4] Bertsekas,D.P。;Rhodes,I.B.,《关于目标集和目标管的最小最大可达性》,Automatica,7,2,233-247,(1971)·Zbl 0215.21801号
[5] Calafiore,G。;Campi,M.C.,《不确定凸规划:随机解和置信水平》,《数学规划》。A、 102,25-46,(2005年)·Zbl 1177.90317号
[6] Cardaliaguet,P。;Quincampoix,医学博士。;Saint-Pierre,P.,最优控制和微分对策的集值数值分析,(随机和微分对策,(1999),Birkhäuser),177-247·Zbl 0982.91014号
[7] Chen,M.、Herbert,S.L.、Vashishtha,M.S.、Bansal,S.和Tomlin,C.J.(2016)。一种计算可达集和可达管的通用系统分解方法。arXiv预打印arXiv:1611.00122;Chen,M.、Herbert,S.L.、Vashishtha,M.S.、Bansal,S.和Tomlin,C.J.(2016)。一种计算可达集和可达管的通用系统分解方法。arXiv预打印arXiv:1611.00122·Zbl 1423.93053号
[8] Delage,E。;Ye,Y.,矩不确定性下的分布稳健优化及其在数据驱动问题中的应用,运筹学,58,3,595-612,(2010)·Zbl 1228.90064号
[9] 丁,J。;坎加普尔,M。;萨默斯,S。;阿巴特,A。;Lygeros,J。;Tomlin,C.,离散时间随机混合系统验证和控制的随机博弈框架,Automatica,49,2665-2674,(2013)·Zbl 1364.93857号
[10] Dubins,L.E。;Savage,L.J.,《随机过程的不等式:必须时如何赌博》,(1965年),McGraw-Hill·Zbl 0133.41402号
[11] El Ghaoui,L。;Oks,M。;Oustry,F.,《最坏情况下的价值风险和稳健投资组合优化:圆锥规划方法》,运筹学,51,4,543-556,(2003)·Zbl 1165.91397号
[12] 埃尔多安,E。;Iyengar,G.,模糊机会约束问题和鲁棒优化,数学规划,Ser。B、 107、37-61(2006)·Zbl 1134.90028号
[13] Gao,R.和Kleywegt,A.J.(2016)。具有wasserstein距离的分布鲁棒随机优化。arXiv预打印arXiv:1604.02199;Gao,R.和Kleywegt,A.J.(2016)。具有wasserstein距离的分布鲁棒随机优化。arXiv预打印arXiv:1604.02199
[14] 盖米,R。;Del Vecchio,D.,《部分订单上信息不完善系统的安全规范控制》,IEEE自动控制交易,59,4,982-995,(2014)·兹比尔1360.93671
[15] Girard,A.,使用区域图实现不确定线性系统的可达性,(混合系统国际研讨会:计算与控制,(2005),Springer),291-305·Zbl 1078.93005号
[16] González-Trejo,J.I。;埃尔南德斯·勒尔马,O。;Hoyos-Reyes,L.F.,离散随机系统的Minimax控制,SIAM控制与优化杂志,41,5,1626-1659,(2003)·邮编:1045.90083
[17] Gordon,G.J.(1995)。动态规划中的稳定函数逼近。在:第十二届机器学习国际会议记录; Gordon,G.J.(1995年)。动态规划中的稳定函数逼近。在:第十二届机器学习国际会议记录
[18] 埃尔南德斯·勒尔马,O。;Lasserre,J.B.,《离散时间马尔可夫控制过程:基本优化准则》,(2012),施普林格出版社
[19] Hettich,R。;Kortanek,K.O.,《半无限规划:理论、方法和应用》,SIAM Review,35,3,380-429,(1993)·Zbl 0784.90090号
[20] 霍斯特,R。;帕尔达洛斯,P。;Van Thoai,N.,《全球优化导论》(2000),施普林格科学与商业媒体·Zbl 0966.90073号
[21] 胡,J。;Prandini,M。;Sastry,S.,《存在空间相关风场的飞机冲突预测》,IEEE Trans。智力。运输。系统。,6, 3, 326-340, (2005)
[22] 江,R。;Guan,Y.,数据驱动机会约束随机规划,数学规划,Ser。A、 158291-327,(2016)·Zbl 1346.90640号
[23] Kurzhanski,A.B。;Varaiya,P.,不确定系统的可达性分析-椭球技术,连续离散和脉冲系统动力学系列B,9,3,347-367,(2002)·Zbl 1017.34064号
[24] Lasserre,J.B.,多项式全局优化和矩问题,SIAM优化期刊,11,3,796-817,(2001)·Zbl 1010.90061号
[25] Lasserre,J.B.,《矩、正多项式及其应用》(2009年),《世界科学》
[26] Lesser,K。;Oishi,M.,部分可观测离散时间随机混合系统的可达性,Automatica,50,1989-1998,(2014)·Zbl 1297.93030号
[27] López,M。;Still,G.,半无限规划,《欧洲运筹学杂志》,180491-518,(2007)·Zbl 1124.90042号
[28] Lygeros,J。;托姆林,C。;Sastry,S.,《混合系统可达性规范的控制器》,Automatica,35,3,349-370,(1999)·Zbl 0943.93043号
[29] 马盖洛斯,K。;Lygeros,J.,可达无效微分对策的Hamilton-Jacobi公式,IEEE自动控制汇刊,56,8,1849-1861,(2011)·Zbl 1368.49044号
[30] 米切尔,I.M。;Bayen,A.M。;Tomlin,C.J.,连续动态博弈可达集的含时Hamilton-Jacobi公式,IEEE自动控制汇刊,50,71947-957,(2005)·Zbl 1366.91022号
[31] 米切尔,I.M。;Templeton,J.A.,用于分析非确定性连续和混合系统的Hamilton-Jacobi解算器工具箱,(混合系统国际研讨会:计算与控制,(2005),Springer),480-494·Zbl 1078.93522号
[32] Mohajerin Esfahani,P。;Kuhn,D.,《使用Wasserstein度量的数据驱动分布式稳健优化:性能保证和易处理的重新计算》,《数学规划》。A、 (2017)·Zbl 1433.90095
[33] Prajna,S。;Jadbabaie,A。;Pappas,G.J.,使用屏障证书进行最坏情况和随机安全验证的框架,IEEE自动控制交易,52,8,1415-1429,(2007)·Zbl 1366.93711号
[34] Prandini,M。;Hu,J.,可达性计算的随机近似方法,(随机混合系统,(2006),Springer),107-139·Zbl 1130.93050号
[35] 拉科维奇,S。;科里根,E.C。;D.Q.梅恩。;Lygeros,J.,离散时间扰动系统的可达性分析,IEEE自动控制汇刊,51,4,546-561,(2006)·Zbl 1366.93060号
[36] Reemtsen,R.,解半无限规划问题的离散化方法,优化理论与应用杂志,71,1,85-103,(1991)·Zbl 0793.90088号
[37] Schäl,M.,动态规划中的最优性条件和n阶段最优策略的极限为最优,概率论及相关领域,32,3,179-196,(1975)·兹伯利0316.90080
[38] Shapiro,A.,关于二次曲线线性问题的对偶理论,(半无限规划,(2001),Springer),135-165·Zbl 1055.90088号
[39] 萨默斯,S。;Lygeros,J.,离散时间随机混合系统的验证:随机可达无效决策问题,Automatica,46,12,1951-1961,(2010)·Zbl 1371.93220号
[40] Van Parys,B.P.G。;Kuhn博士。;Goulart,P.J。;Morari,M.,约束随机系统的分布鲁棒控制,IEEE自动控制汇刊,61,2,430-442,(2016)·Zbl 1359.93542号
[41] 韦斯曼。;库恩,D。;Sim,M.,《分布稳健凸优化》,运筹学,62,6,1358-1376,(2014)·Zbl 1327.90158号
[42] Xu,H。;Mannor,S.,《分布稳健马尔可夫决策过程》,运筹学数学,37,2,288-300,(2012)·Zbl 1243.90236号
[43] Yang,I.,带Wasserstein距离的分布稳健Markov决策过程的凸优化方法,IEEE控制系统快报,1,1,164-169,(2017)
[44] Yang,I.(2017b)。具有二次曲线置信集的分布鲁棒随机控制。第56届IEEE决策与控制会议记录; Yang,I.(2017b)。具有二次曲线置信集的分布鲁棒随机控制。第56届IEEE决策与控制会议记录
[45] Yang,I.(2017c)。随机系统分布鲁棒安全规范的动态博弈方法。arXiv:1701.06260;Yang,I.(2017c)。随机系统分布鲁棒安全规范的动态博弈方法。arXiv:1701.06260
[46] 余,P。;Xu,H.,马尔可夫决策过程中的分布稳健对应项,IEEE自动控制事务,61,9,2538-2543,(2016)·Zbl 1359.90150号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。