×

基于张量序列格式的随机微分方程驱动的退出时间反馈控制问题的近似策略迭代。 (英语) Zbl 1492.93196号

摘要:我们考虑一个随机最优退出时间反馈控制问题。Bellman方程通过一系列线性方程组在多项式ansatz空间上的策略迭代算法近似求解。由于需要高阶多项式,相应的方程即使在中等维也会受到维数灾难的影响。我们使用张量应变方法来解释这个问题。策略迭代中的近似过程是通过最小二乘法进行的,而积分是通过蒙特卡罗方法进行的。给出了(多维)双阱势、三孔势和40维随机范德波尔振子的数值证据。

MSC公司:

93E20型 最优随机控制
93B52号 反馈控制
65立方米 随机微分和积分方程的数值解
90立方厘米 动态编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Akian和E.Fodjo,用于求解Hamilton-Jacobi-Bellman方程的概率max-plus格式,Springer,Cham,2018年,第183-209页,https://doi.org/10.1007/978-3-030-01959-4_9。 ·兹比尔1415.65240
[2] L.Arnold,随机动力系统,Springer Monogr。数学。,施普林格,柏林,海德堡,1998年·Zbl 0906.34001号
[3] L.Arnold和M.Scheutzow,通过随机微分方程实现完美循环,Probab。理论相关领域,101(1995),第65-88页·Zbl 0821.60061号
[4] M.Bachmayr、A.Cohen和W.Dahmen,参数偏微分方程:稀疏或低阶近似?,IMA J.数字。分析。,38(2017),第1661-1708页,https://doi.org/10.1093/imanum/drx052。 ·兹比尔1477.65189
[5] M.Bachmayr、A.Cohen、D.Dung和C.Schwab,参数和随机椭圆偏微分方程的全离散近似,SIAM J.Numer。分析。,55(2017),第2151-2186页,https://doi.org/10.1137/17M111626X。 ·Zbl 1377.65005号
[6] M.Bachmayr、R.Schneider和A.Uschmajew,高维偏微分方程解的张量网络和层次张量,Found。计算。数学。,16(2016),第1423-1472页,https://doi.org/10.1007/s10208-016-9317-9。 ·Zbl 1357.65153号
[7] M.Bardi和I.Capuzzo-Dolectta,Hamilton-Jacobi-Bellman方程的最优控制和粘度解,伯卡用户,波士顿,1997年,https://doi.org/10.1007/978-0-8176-4755-1。 ·Zbl 0890.49011号
[8] E.N.Barron,控制扩散运行最大值的Bellman方程及其在look-back期权中的应用,应用。分析。,48(1993),第205-222页,https://doi.org/101080/00036819308840158。 ·Zbl 0788.49027号
[9] C.Beck、S.Becker、P.Grohs、N.Jaafari和A.Jentzen,通过深度学习解决Kolmogorov PDE,预印本,https://arxiv.org/abs/1806.00421, 2018. ·Zbl 1490.65006号
[10] R.Bellman,《动态规划理论中的函数方程——V:正性和拟线性》,Proc。国家。阿卡德。科学。美国,41(1955),第743-746页,https://doi.org/10.1073/pnas.41.10.743。 ·Zbl 0066.13802号
[11] R.Bellman,《动态编程》,普林斯顿大学出版社,新泽西州普林斯顿,1961年·Zbl 0100.12901号
[12] D.Bertsekas,《动态规划与最优控制》,第2卷,《近似动态规划》,第4版,Athena Scientific,马萨诸塞州贝尔蒙特,2019年·Zbl 1407.90087号
[13] D.P.Bertsekas,近似策略迭代:综述和一些新方法,控制理论应用杂志。,9(2011年),第310-335页·兹比尔1249.90179
[14] J.-M.Bismut,最优随机控制中对偶性的介绍方法,SIAM Rev.,20(1978),第62-78页,https://doi.org/10.1137/1020004。 ·Zbl 0378.93049号
[15] O.Bokanowski、J.Garcke、M.Griebel和I.Klompmaker,一阶Hamilton-Jacobi-Bellman方程的自适应稀疏网格半拉格朗日格式,J.Sci。计算。,55(2013),第575-605页,https://doi.org/10.1007/s10915-012-9648-x。 ·Zbl 1269.65076号
[16] F.Bonnans、E.Ottenwaelter和H.Zidani,二维随机控制hjb方程的快速算法,ESAIM Math。模型。数字。分析。,38(2004),第723-735页,https://doi.org/10.1051/m2an:2004034。 ·Zbl 1130.93433号
[17] F.Bonnans和H.Zidani,随机HJB方程广义差分格式的一致性,SIAM J.Numer。分析。,41(2003),第1008-1021页,https://doi.org/10.1137/S0036142901387336。 ·Zbl 1130.49307号
[18] R.Buckdahn和T.Nie,带Dirichlet边界条件的广义Hamilton-Jacobi-Bellman方程和随机退出时间最优控制问题,SIAM J.控制优化。,54(2016),第602-631页,https://doi.org/10.1137/10998160。 ·Zbl 1345.49035号
[19] M.Budišicá,R.Mohr,和I.Mezicá,《应用科普马尼主义》,《混沌》,22(2012),047510,https://doi.org/10.1063/1.4772195。 ·Zbl 1319.37013号
[20] H.-J.Bungartz和M.Griebel,《稀疏网格》,《数值学报》。,13(2004),第147-269页,https://doi.org/10.1017/S0962492904000182。 ·Zbl 1118.65388号
[21] A.Cohen和G.Migliorati,最优加权最小二乘法,2016年,https://hal.archives-ouvertes.fr/hal-01354003。 ·Zbl 1416.62177号
[22] N.Črnjaricí-Z \780,ic,S.Macíes \780,1和I.Mezicí,随机动力系统的Koopman算子谱,预印本,https://arxiv.org/abs/1711.03146, 2017. ·Zbl 1467.37084号
[23] F.Cucker和S.Smale,《学习的数学基础》,布尔。阿默尔。数学。Soc.,39(2001),第1-49页,https://doi.org/10.1090/S0273-0979-01-00923-5。 ·Zbl 0983.68162号
[24] G.Da Prato和J.Zabczyk,《无限维随机方程》,《数学百科全书及其应用》,剑桥大学出版社,剑桥,1992年,https://doi.org/10.1017/CBO9780511666223。 ·Zbl 0761.60052号
[25] T.Damm、H.Mena和T.Stillfjord,有限时域随机线性二次控制问题的数值解,Numer。线性代数应用。,24(2017),e2091,https://doi.org/10.1002/nla.2091。 ·Zbl 1424.49037号
[26] K.Debrabant和E.Jakobsen,线性和完全非线性Hamilton-Jacobi-Bellman方程的半拉格朗日格式,《双曲问题:理论、数值、应用》,AIMS Ser。申请。数学。8,美国数学研究所。科学。(AIMS),密苏里州斯普林菲尔德,2014年,第483-490页。
[27] M.Dellnitz、G.Froyland和S.Sertl,关于Perron-Frobenius算子的孤立谱,非线性,13(2000),第1171-1188页,https://doi.org/10.1088/0951-7715/13/4/310。 ·Zbl 0965.37008号
[28] M.Dellnitz和O.Junge,《关于复杂动力学行为的近似》,SIAM J.Numer。分析。,36(1999),第491-515页,https://doi.org/10.1137/S0036142996313002。 ·Zbl 0916.58021号
[29] S.Dolgov、D.Kalise和K.Kunisch,高维Hamilton-Jacobi-Bellman方程的张量分解方法,预印本,https://arxiv.org/abs/1908.01533, 2019. ·Zbl 1471.65184号
[30] M.Eigel、R.Schneider和P.Trunschke,经验非线性最小二乘法的收敛边界,预印本,https://arxiv.org/abs/2001.00639, 2020. ·Zbl 1482.62071号
[31] M.Eigel、R.Schneider、P.Trunschke和S.Wolf,机器学习和高维偏微分方程的变分蒙特卡罗桥接概念,高级计算。数学。,45(2019),第2503-2532页,https://doi.org/10.1007/s10444-019-09723-8。 ·Zbl 1435.68258号
[32] G.Fabbri、F.Gozzi和A.Swieech,无限维随机最优控制,Probab。斯托奇理论。模型。82,施普林格,查姆,2017年,https://doi.org/10.1007/978-3-319-53067-3。 ·Zbl 1379.93001号
[33] M.Falcone,确定性控制理论无限时域问题的数值方法,应用。数学。优化。,15(1987),第1-13页,https://doi.org/10.1007/BF01442644。 ·Zbl 0715.49023号
[34] M.Falcone和R.Ferretti,线性和Hamilton-Jacobi方程的半拉格朗日近似方案,SIAM,费城,2013,https://doi.org/10.1137/1.9781611973051。 ·兹比尔1335.65001
[35] W.H.Fleming,受控马尔可夫过程和数学金融,北约科学。序列号。C数学。物理。科学。Kluwer学院528号。出版物。,多德雷赫特,1999年,第407-446页·Zbl 1056.91510号
[36] W.H.Fleming和H.Soner,《控制马尔可夫过程和粘度解》,第二版,施普林格出版社,纽约,2006年·Zbl 1105.60005号
[37] J.Garcke和A.Kroöner,通过在自适应稀疏网格上求解HJB方程实现PDE的次优反馈控制,J.Sci。计算。,70(2017),第1-28页,https://doi.org/10.1007/s10915-016-0240-7。 ·Zbl 1434.49020号
[38] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社,剑桥,2016年,http://www.deeplearningbook.org。 ·Zbl 1373.68009号
[39] A.Gorodetsky、S.Karaman和Y.Marzouk,使用连续张量分解的高维随机最优控制,Int.J.Rob。第37号决议(2018年),第340-377页。
[40] W.Hackbusch,张量空间和数值张量微积分,Springer Ser。计算。数学。42,施普林格,柏林,海德堡,2012年,https://doi.org/10.1007/978-3-642-28027-6。 ·Zbl 1244.65061号
[41] W.Hackbusch,数值张量微积分,数值学报。,23(2014),第651-742页,https://doi.org/10.1017/S0962492914000087。 ·Zbl 1396.65091号
[42] W.Hackbusch和R.Schneider,张量空间和层次张量表示,Springer,Cham,2014,第237-261页,https://doi.org/10.1007/978-3-319-08159-5_12。 ·Zbl 1317.65102号
[43] J.Han和W.E,随机控制问题的深度学习近似,预印本,https://arxiv.org/abs/1611.07422, 2016.
[44] J.Han、A.Jentzen和W.E,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。美国,115(2018),第8505-8510页,https://doi.org/10.1073/pnas.1718942115。 ·Zbl 1416.35137号
[45] C.Hartmann、R.Banisch、M.Sarich、T.Badowski和C.Schutte,分子动力学中罕见事件的表征,熵,16(2013),第350-376页,https://doi.org/10.3390/e16010350。
[46] C.Hartmann、O.Kebiri、L.Neureither和L.Richter,使用最小二乘回归进行罕见事件模拟的变分方法,《混沌》,29(2019),063107·Zbl 1421.62009年
[47] C.Hartmann、L.Richter、C.Schuëtte和W.Zhang,自由能的变分表征:理论与算法,熵,19(2017),626,https://doi.org/10.3390/e19110626。
[48] C.Hartmann和C.Schuötte,通过最佳非平衡强迫进行有效罕见事件模拟,J.Stat.Mech。,2012(2012),P11004,https://doi.org/10.1088/1742-5468/2012/11/p11004。
[49] S.Holtz、T.Rohwedder和R.Schneider,张量列格式张量优化的交替线性方案,SIAM J.Sci。计算。,34(2012),第A683-A713页,https://doi.org/10.1137/100818893。 ·Zbl 1252.15031号
[50] S.Holtz、T.Rohwedder和R.Schneider,关于固定tt-rank张量的流形,Numer。数学。,120(2012),第701-731页,https://doi.org/10.1007/s00211-011-0419-7。 ·Zbl 1242.15022号
[51] R.A.Howard,《动态规划与马尔可夫过程》,麻省理工学院技术出版社,马萨诸塞州剑桥,John Wiley&Sons,纽约,1960年·Zbl 0091.16001号
[52] B.Huber和S.Wolf,Xerus–通用Tensor库,https://libxerus.org网站/, 2017.
[53] S.Huo和J.E.Straub,用于计算有限温度下多体系统构象转变的变量优化反应路径的MaxFlux算法,J.Chem。物理。,107(1997),第5000-5006页,https://doi.org/10.1063/1.474863。
[54] M.Jensen和I.Smears,关于Hamilton-Jacobi-Bellman方程有限元方法的收敛性,SIAM J.Numer。分析。,51(2013),第137-162页,https://doi.org/10.1137/10856198。 ·Zbl 1266.65166号
[55] B.Kafash、A.Delavarkhalafi和S.Karbassi,Hamilton-Jacobi-Bellman方程变分迭代法的应用,应用。数学。型号。,37(2013),第3917-3928页,https://doi.org/10.1016/j.apm.2012.08.013。 ·Zbl 1270.49004号
[56] B.N.Khoromskij,科学计算中的张量结构数值方法:最新进展综述,化学。智力。实验室系统。,110(2011),第1-19页,https://doi.org/10.1016/j.chemolab.2011.09.001。
[57] F.C.Klebaner,《随机微积分及其应用导论》,第三版,帝国学院出版社,伦敦,2012年,https://doi.org/10.1142/p821。 ·Zbl 1274.60005号
[58] S.Klus、P.Koltai和C.Schutte,关于Perron-Frobenius和Koopman算子的数值逼近,J.Compute。发电机。,3(2016),第51-79页,https://doi.org/10.3934/jcd.2016003。 ·Zbl 1353.37154号
[59] B.O.Koopman,希尔伯特空间中的哈密顿系统和变换,Proc。国家科学院,17(1931),第315-318页,https://doi.org/10.1073/pnas.17.5.315。 ·Zbl 0002.05701号
[60] A.Kroöner、A.Picarelli和H.Zidani,运行成本最大的无限时域随机最优控制问题,SIAM J.control Optim。,56(2017),第3296-3319页,https://doi.org/10.1137/17M115253X。 ·Zbl 1400.49027号
[61] B.Kutschan,切线锥到张量列变种,线性代数应用。,544(2018),第370-390页,https://doi.org/10.1016/j.laa.2018.01.012。 ·兹比尔1391.15085
[62] A.Lasota和M.C.Mackey,《混沌、分形和噪声:动力学的随机方面》,第二版,应用。数学。科学。97,施普林格,纽约,1994年·Zbl 0784.58005号
[63] J.Lawton和R.W.Beard,Hamilton-Jacobi-Bellman方程的数值有效逼近,《1998年美国控制会议论文集》。ACC(IEEE Cat.98CH36207),第1卷,1998年,第195-199页,https://doi.org/10.109/ACC.1998.694657。
[64] B.Luo,H.-N.Wu,T.Huang,D.Liu,仿射非线性连续时间最优控制设计的基于数据的近似策略迭代,Automatica J.IFAC,50(2014),pp.3281-3290,https://doi.org/10.1016/j.automatica.2014.10.056。 ·Zbl 1309.93188号
[65] A.Mauroy、I.Mezicí和Y.Susuki,《系统和控制中的Koopman操作员》,莱克特。票据控制信息科学。484,Springer,Cham,2019年·Zbl 1453.93053号
[66] M.Nisio,《随机控制理论》,第二版,Springer,日本,2015年,https://doi.org/10.1007/978-4-431-55123-2。 ·Zbl 1306.93077号
[67] N.Nuísken和L.Richter,用神经网络求解高维Hamilton-Jacobi-Bellman偏微分方程:从控制扩散理论和路径空间测度的角度,预印本,https://arxiv.org/abs/2005.05409, 2020. ·Zbl 1480.35101号
[68] T.E.Oliphant,《NumPy指南》,Trelgol出版社,2006年。
[69] B.Øksendal,《随机微分方程:应用简介》,Springer,柏林,海德堡,2003年·Zbl 1025.60026号
[70] I.Oseledets,张量-应变分解,SIAM J.Sci。计算。,33(2011),第2295-2317页,https://doi.org/10.1137/090752286。 ·Zbl 1232.15018号
[71] I.Oseledets和E.Tyrtyshnikov,《打破维度诅咒,或如何在多维度中使用SVD》,SIAM J.Sci。计算。,31(2009),第3744-3759页,https://doi.org/10.1137/090748330。 ·Zbl 1200.65028号
[72] M.Oster、L.Sallandt和R.Schneider,用层次张量乘积逼近平稳Bellman方程,预印本,https://arxiv.org/abs/1911.00279, 2021.
[73] S.Park、M.K.Sener、D.Lu和K.Schulten,基于平均首次通过时间的反应路径,J.Chem。物理。,119(2003),第1313-1319页,https://doi.org/10.1063/1.1570396。
[74] G.A.Pavliotis,随机过程与应用:扩散过程,福克-普朗克和朗之万方程,文本应用。数学。60,Springer,纽约,2014年·Zbl 1318.60003号
[75] S.Peng,广义动态规划原理与Hamilton-Jacobi-Bellman方程,《随机与随机报告》,38(1992),第119-134页,https://doi.org/10.1080/7442509208833749。 ·Zbl 0756.49015号
[76] 彭彦、李建杰,结构随机最优控制,施普林格,2019·Zbl 1433.93002号
[77] H.Pham、X.Warin和M.Germain,基于神经网络的完全非线性偏微分方程反向方案,预印本,https://arxiv.org/abs/1908.00412, 2020. ·Zbl 07341723号
[78] I.Pinelis,Banach空间鞅分布的最佳界,Ann.Probab。,22(1994),第1679-1706页,https://doi.org/10.1214/aop/1176988477。 ·Zbl 0836.60015号
[79] M.Raissi、P.Perdikaris和G.Karniadakis,《以物理为基础的神经网络:解决涉及非线性偏微分方程的正问题和逆问题的深度学习框架》,J.Compute。物理。,378(2019),第686-707页,https://doi.org/10.1016/j.jcp.2018.10.045。 ·Zbl 1415.68175号
[80] L.Rosasco、M.Belkin和E.De Vito,《关于积分算子的学习》,J.Mach。学习。第11号决议(2010年),第905-934页,https://jmlr.org/papers/v11/rosasco10a.html。 ·Zbl 1242.62059号
[81] B.Scho¨lkopf和A.J.Smola,《使用内核学习:支持向量机、正则化、优化和超越》,麻省理工学院出版社,马萨诸塞州剑桥,2001年。
[82] C.Schutte、A.Fischer、W.Huisinga和P.Deufhard,基于混合蒙特卡罗的构象动力学直接方法,J.Compute。物理。,151(1999),第146-168页,https://doi.org/10.1006/jcph.1999.6231。 ·Zbl 0933.65145号
[83] C.Schuõtte、S.Winkelmann和C.Hartmann,使用马尔可夫状态模型的分子动力学最优控制,数学。程序。,134(2012),第259-282页,http://publications.mi.fu-berlin.de/1107/。 ·Zbl 1262.49036号
[84] W.Sickel和T.Ullrich,Sobolev Besov空间的张量乘积及其在双曲叉逼近中的应用,J.Approximate Theory,161(2009),第748-786页·Zbl 1194.46056号
[85] I.Steinwart和A.Christmann,支持向量机,Springer,纽约,2008年·Zbl 1203.68171号
[86] S.Szalay、M.Pfeffer、V.Murg、G.Barcza、F.Verstraete、R.Schneider和O¨rs Legeza,从头算量子化学的张量积方法和纠缠优化,国际量子化学杂志。,115(2015),第1342-1391页,https://doi.org/10.1002/qua.24898。
[87] D.Tonon、M.Aronna和D.Kalise,《最优控制:新方向和应用》,Springer,Cham,2017年,https://doi.org/10.1007/978-3-319-60771-9。 ·兹比尔1378.49001
[88] P.Trunschke,非线性最小二乘的收敛边界及其在张量恢复中的应用,预印本,https://arxiv.org/abs/1208.05237, 2021.
[89] S.Van Der Walt、S.C.Colbert和G.Varoquaux,《Numpy数组:高效数值计算的结构》,计算。科学。《工程》,13(2011),第22-30页。
[90] P.Virtanen,R.Gommers,T.E.Oliphant,M.Haberland,T.Reddy,D.Cournapeau,E.Burovski,P.Peterson,W.Weckesser,J.Bright,S.J.van der Walt,M.Brett,J.Wilson,K.Jarrod Millman,N.Mayorov,A.R.J.Nelson,E.Jones,R.Kern,E.Larson,C.Carey,İ。Polat、Y.Feng、E.W.Moore、J.Vand erPlas、D.Laxalde、J.Perktold、R.Cimrman、I.Henriksen、E.A.Quintro、C.R.Harris、A.M.Archibald、A.H.Ribeiro、F.Pedregosa、P.van Mulbregt和SciPy 1.0贡献者,SciPy1.0:Python科学计算的基本算法,《自然方法》,17(2020),第261-272页,https://doi.org10.1038/s41592-019-0686-2。
[91] Y.Xu,R.Gu,H.Zhang,W.Xu和J.Duan,带有色噪声双稳Duffing-Van der Pol振荡器中的随机分岔,Phys。E版,83(2011),056215。
[92] M.Zhou、J.Han和J.Lu,基于神经网络的高维静态Hamilton-Jacobi-Bellman偏微分方程的Actor-critic方法,SIAM J.Sci。计算。,43(2021),第A4043-A4066页,https://doi.org/10.1137/21M1402303。 ·Zbl 1481.65203号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。