×

逆随机最优控制。 (英语) Zbl 1511.93143号

考虑一个基于扩散型受控随机微分方程和期望性能函数的随机最优控制问题,期望性能函数由沿轨迹的成本(f(t,X(t))、终端成本(g(X(t))和控制函数(u(t)的惩罚项(θu(t\)使用特定的权重参数\(\θ\)。给定随机最优控制问题的最优解(u^*(t),X^*(t)),以及状态方程和目标函数直至未知参数(θ)的所有信息,问题是确定参数。将逆问题归结为未知参数的寻根问题,并给出了用观测最优控制的算术平均值和相应的最优状态函数逼近期望值的数值方法。给出了数值实验。

MSC公司:

93E20型 最优随机控制
49号45 最优控制中的逆问题

软件:

DGM公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ab Azar,N。;Shahmansoorian,A。;Davoudi,M.,《从逆最优控制到逆强化学习:历史回顾》,《控制中的年度回顾》,50,119-138(2020)
[2] Abbeel,P.,&Ng,A.Y.(2004年)。通过反向强化学习进行学徒制学习。程序中。国际资本市场协会。
[3] B.D.O.安德森。;Moore,J.B.,《最优控制:线性二次型方法》(1989),Prentice-Hall,Inc.:Prentice-Hall,Inc.Upper Saddle River
[4] 贝尔曼,R。;Kalaba,R.,《动态规划和自动控制中的反问题》,《数学分析与应用杂志》,7322-325(1963)·Zbl 0115.38103号
[5] Bensoussan,A.,部分可观测系统的随机控制(1992),剑桥大学出版社:剑桥大学出版社·Zbl 0776.93094号
[6] Bonnans,F。;Zidani,H.,随机HJB方程广义有限差分格式的一致性,SIAM数值分析杂志,411008-1021(2003)·Zbl 1130.49307号
[7] 卡米利,F。;Falcone,M.,扩散过程最优控制的近似方案,数学建模和数值分析,29,97-122(1995)·Zbl 0822.65044号
[8] Casti,J.,《关于最优控制理论的一般逆问题》,《优化理论与应用杂志》,32,491-497(1980)·Zbl 0421.49029号
[9] 德布拉班特,K。;Jakobsen,E.R.,线性和完全非线性扩散方程的半拉格朗日格式,计算数学,82,1433-1462(2013)·Zbl 1276.65050号
[10] 邓,H。;Krstić,M.,随机非线性稳定II:逆最优性,系统与控制快报,32151-159(1997)·Zbl 0902.93050号
[11] Do,K.D.,由Lévy过程驱动的随机系统的逆最优控制,Automatica,107,539-550(2019)·Zbl 1429.93417号
[12] Dvijotham,K.和Todorov,E.(2010年)。线性可解MDP的逆最优控制。程序中。国际资本市场协会。
[13] E、 W。;Han,J。;Jentzen,A.,高维抛物型偏微分方程和倒向随机微分方程基于深度学习的数值方法,通信数学与统计,5349-380(2017)·Zbl 1382.65016号
[14] Fahim,A。;北图兹。;Warin,X.,完全非线性抛物线偏微分方程的概率数值方法,应用概率年鉴,211322-1364(2011)·Zbl 1230.65009号
[15] 弗莱明,W.H。;Soner,H.M.,《受控马尔可夫过程和粘度解》(2006),Springer-Verlag:Springer-Verlag纽约·Zbl 1105.60005号
[16] Hadamard,J.,《关于身体问题的研究》,普林斯顿大学公报,第13期,第49-52页(1902年)
[17] 黄,C.-S。;王,S。;Chen,C.S。;Li,Z.-C.,Hamilton-Jacobi-Bellman方程的径向基配置方法,Automatica,422201-2207(2006)·Zbl 1104.49024号
[18] Kalman,R.E.,线性控制系统何时是最优的?,ASME汇刊。D辑,《基础工程杂志》,86,51-60(1964)
[19] Kansa,E.J.,《多重二次曲面——一种应用于计算流体动力学的离散数据近似方案——I》,《计算机和数学及其应用》,第19期,第127-145页(1990年)·Zbl 0692.76003号
[20] Kansa,E.J.,《多重二次曲面——一种应用于计算流体动力学的离散数据近似方案——II》,《计算机和数学及其应用》,第19期,第147-161页(1990年)·Zbl 0850.76048号
[21] 库什纳,H.J。;Dupuis,P.,连续时间随机控制问题的数值方法(2001),Springer-Verlag:Springer-Verlag纽约·Zbl 0968.93005号
[22] Nakano,Y.,完全非线性抛物方程无网格配置方法的收敛性,数值数学,136703-723(2017)·Zbl 1397.65207号
[23] Nakano,Y.,抛物方程的基于收敛核的方法(2020),arXiv:1803.09446[Math.NA]
[24] Ng,A.Y.和Russell,S.J.(2000)。逆强化学习算法。程序中。国际资本市场协会。
[25] Rachah,A。;Torres,D.F.,《2014年西非埃博拉疫情的数学建模、模拟和最佳控制》,《自然与社会的离散动力学》,2015(2015)·Zbl 1418.92188号
[26] 西里尼亚诺,J。;Spiliopoulos,K.,DGM:解偏微分方程的深度学习算法,计算物理杂志,3751339-1364(2018)·兹比尔1416.65394
[27] Thau,F.,关于一类非线性自治系统的逆最优控制问题,IEEE自动控制汇刊,12674-681(1967)
[28] Yong,J。;Zhou,X.Y.,《随机控制:哈密顿系统和HJB方程》(1999),Springer-Verlag:Springer-Verlag纽约·Zbl 0943.93002号
[29] Ziebart,B.D.、Maas,A.、Bagnell,J.A.和Dey,A.D.(2008年)。最大熵反向强化学习。AAAI,第8卷(第1433-1438页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。