×

Hamilton-Jacobi-Bellman方程解的动态低阶近似。 (英语) Zbl 07729585号

摘要:我们提出了一种基于低秩张量列(TT)分解的非线性最优控制的近似最优反馈律的新方法。该方法基于Dirac-Frenkel变分原理,并修改为优化使用经验风险。与当前最先进的TT方法相比,我们的方法在获得可比结果的同时大大减少了计算负担。对数值格式进行了严格描述,并对其性能进行了演示。

理学硕士:

49升20 最优控制与微分对策中的动态规划
49立方米 基于非线性规划的数值方法
93-08 系统和控制理论相关问题的计算方法
93B52号 反馈控制
15A69号 多线性代数,张量演算
65层55 低阶矩阵逼近的数值方法;矩阵压缩
65二氧化碳 蒙特卡罗方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 多尔塞塔·巴迪姆。Hamilton‐Jacobi‐Bellman方程的最优控制和粘性解。第12卷。纽约:Springer;1997. ·Zbl 0890.49011号
[2] KunischK KaliseD公司。高维hamilton‐jacobi‐bellman方程的多项式逼近及其在半线性抛物型偏微分方程反馈控制中的应用。SIAM科学计算杂志。2018;40.2:A629-52。https://doi.org/10.1137/17m1116635 ·Zbl 1385.49022号 ·数字对象标识代码:10.1137/17m1116635
[3] AlbaCB公司CamachoEF。模型预测控制。纽约:Springer科学与商业媒体;2013
[4] OsterM,SallandtL,SchneiderR。使用层次张量格式逼近有限时域控制问题的最优反馈控制器。arXiv:2104.06108[math.OC],2021年。
[5] DolgovS、KaliseD、KunischKK。高维Hamilton-Jacobi-Bellman方程的张量分解方法。SIAM科学计算杂志。2021;43.3:A1625-50·Zbl 1471.65184号
[6] FackeldeyK,OsterM,SallandtL,SchneiderR。使用张量序列格式的随机微分方程驱动的退出时间反馈控制问题的近似策略迭代。Multisc模型仿真。2022;20.1:379-403. ·Zbl 1492.93196号
[7] 萨兰特LJ。使用张量列格式计算最优反馈控制问题的高维值函数。博士论文。柏林:柏林理工大学;2022https://doi.org/10.14279/depositonce网站‐12786. ·doi:10.14279/depositonce‐12786
[8] HoltzS,RohwedderT,SchneiderR。关于固定TT秩张量的流形。数字数学。2012;120(4):701-31. https://doi.org/10.1007/s00211011‐0419‐7 ·Zbl 1242.15022号 ·doi:10.1007/s00211011‐0419‐7
[9] SteinechnerMM.求解低秩张量结构高维问题的黎曼优化;2016:165https://doi.org/10.5075/epfl(网址:https://doi.org/10.5075/epfl)论文‐6958·doi:10.5075/epfl论文‐6958
[10] LubichC、RohwedderT、SchneiderR、VandereyckenB。用分层塔克张量和张量列张量进行动力学近似。SIAM J矩阵分析应用。2013;34:470-94. https://doi.org/10.1137/120885723 ·Zbl 1391.15087号 ·数字对象标识代码:10.1137/120885723
[11] 贝尔曼R。动态编程。纽约州米诺拉:多佛出版社;1957
[12] BertsekasDP。动态规划和最优控制。第3卷,I.Belmont,马萨诸塞州:雅典娜科学;2005. ·邮编1125.90056
[13] 霍华德RA。动态规划和马尔可夫过程。马萨诸塞州剑桥:麻省理工学院出版社;1960. ·Zbl 0091.16001号
[14] FalconeM、LanucaraP、SeghiniA。Hamilton‐Jacobi‐Bellman方程的分裂算法。应用数值数学。1994;15(2):207-18. ·Zbl 0812.65050号
[15] 福克纳。确定性控制理论无限时域问题的数值方法。应用数学优化。1987;15:1-13. https://doi.org/10.1007/BF01442644 ·Zbl 0715.49023号 ·doi:10.1007/BF01442644
[16] FalconeM,KaliseD公司。Hamilton‐Jacobi‐Bellman‐Isaacs方程的高阶半拉格朗日/有限体积格式。IFIP在信息和通信技术方面取得了进步。第443卷;2014年,柏林/海德堡:施普林格。https://doi.org/10.1007/978‐3‐662‐45504‐3_10 ·doi:10.1007/978‐3‐662‐45504‐3_10
[17] TononD、AronnaMS、KaliseD。最优控制:新的方向和应用。第1卷。查姆:斯普林格;2017. ·兹比尔1378.49001
[18] 罗勃、怀宁W、黄特、刘德。仿射非线性连续时间最优控制设计的基于数据的近似策略迭代。自动化。2014;50(12):3281-90. ·Zbl 1309.93188号
[19] KafashB、DelavarkhalafiA、KarbassiSM。变分迭代法在H amilton Jacobi‐Bellman方程中的应用。应用数学模型。2013;37(6):3917-28. ·Zbl 1270.49004号
[20] 周明、韩杰、尖峰。基于神经网络的高维静态Hamilton-Jacobi-Bellman偏微分方程的行为批评方法。SIAM科学计算杂志。2021;43(6):A4043-66·Zbl 1481.65203号
[21] SaluzziL阿拉。HJB‐POD方法用于控制树结构上的非线性PDE。应用数值数学。2020). 2018年6月12日至15日,在Monopoli(意大利)举行的《结构动力系统:计算方面》;155:192-207. https://doi.org/10.1016/j.apnum.2019.11.023 ·Zbl 1437.49039号 ·doi:10.1016/j.apnum.2019.11.023
[22] AkianM、GaubertS、LakhouaA。求解确定性最优控制问题的最大加有限元方法:基本性质和收敛性分析。SIAM J控制优化。2008;47(2):817-48. ·Zbl 1157.49034号
[23] AkianM,FodjoE公司。求解哈密尔顿-雅可比-贝尔曼方程的概率极大加法。收录:FalconeM(编辑)、FerrettiR(编辑)和GrüneL(编辑),McEneaneyWM(编辑)编辑。最优控制问题的数值方法。查姆:施普林格国际出版公司;2018年,第183-209页。https://doi.org/10.1007/978‐3‐030‐01959‐4_9 ·Zbl 1415.65240号 ·doi:10.1007/978‐3‐030‐01959‐4_9
[24] BoltyanskiyVG、Valer'yanovich GamkrelidzeR、Pontryagins。最优过程理论。技术报告。联合出版物研究服务阿灵顿弗吉尼亚州,1961年。
[25] 庞特里亚金LS。最优化过程的数学理论。佛罗里达州博卡拉顿:CRC出版社;1987.
[26] KangW,WilcoxLC。缓解维数灾难:最优反馈控制的稀疏网格特征法和HJB方程。计算优化应用。2017;68:289-315. ·Zbl 1383.49045号
[27] Nakamura‐ZimmererT,GongQ,KangW。高维Hamilton‐Jacobi‐Bellman方程的自适应深度学习。SIAM科学计算杂志。2021;43(2):铝221-47·Zbl 1467.49028号
[28] AzmiB、KaliseD、KunischK。梯度增广稀疏多项式回归的最优反馈律恢复。J Mach Learn Res.2021;22:1‐32. ·Zbl 07370565号
[29] DarbonJ,LangloisGP,蒙古。利用神经网络结构克服某些Hamilton-Jacobi偏微分方程的维数灾难。研究数学科学。2019;7:1-50. ·Zbl 1445.35119号
[30] 尼古拉斯·纽斯肯(NikolasNüsken)和洛伦斯·里希特(LorenzRichter)。使用神经网络求解高维Hamilton‐Jacobi‐Bellman偏微分方程:从受控扩散理论和路径空间测度的角度。In:偏微分方程及其应用2(2021)。查姆:Springer Nature。https://doi.org/10.1007/s42985‐021‐00102‐x·Zbl 1480.35101号 ·doi:10.1007/s42985‐021‐00102‐x
[31] ItoK、ReisingerC、ZhangY。域上随机博弈的基于神经网络的全局H2超线性收敛策略迭代算法。找到计算数学。2021;21:331-74. ·Zbl 1472.82030
[32] OseledetsI,TyrtyshnikovE。打破维度诅咒,或者如何在多个维度中使用SVD。SIAM科学计算杂志。2009;31:3744-59. https://doi.org/10.1137/090748330 ·Zbl 1200.65028号 ·doi:10.1137/090748330
[33] Oseledets公司。张量序列分解。SIAM科学计算杂志。2011;33:2295-317. https://doi.org/10.1137/090752286 ·Zbl 1232.15018号 ·doi:10.1137/090752286
[34] LorenzRichter、LeonSallandt和NikolasNüsken。“使用张量列格式求解高维抛物线偏微分方程”。参加:机器学习国际会议。PMLR公司。2021年,第8998-9009页。
[35] 张量空间和层次张量表示。从复杂系统中提取可量化信息。查姆:斯普林格;2014年,第237-61页·Zbl 1317.65102号
[36] BachmayrM、SchneiderR、UschmajewA。用于求解高维偏微分方程的张量网络和层次张量。找到计算数学。2016;16(6):1423-72. https://doi.org/10.1007/s10208‐016‐9317‐9 ·Zbl 1357.65153号 ·doi:10.1007/s10208-016‐9317‐9
[37] HackbuschW公司。张量空间和数值张量演算。第42卷;2012年,柏林/海德堡:施普林格。https://doi.org/10.1007/978‐3‐642‐28027‐6 ·Zbl 1244.65061号 ·doi:10.1007/978‐3‐642‐28027‐6
[38] HackbuschW公司。数值张量演算。Acta Numer公司。2014;23:651-742. https://doi.org/10.1017/S0962492914000087 ·Zbl 1396.65091号 ·doi:10.1017/S0962492914000087
[39] TrunschkeP、SchneiderR、GötteM。用于样本高效高维多项式回归的块稀疏张量列格式。前应用数学统计2021;7:1‐15.
[40] 科赫,卢比奇。动态低阶近似。SIAM J矩阵分析应用。2007;29:434-54. ·Zbl 1145.65031号
[41] 科赫,卢比奇。动力学张量近似。SIAM J矩阵分析应用。2010;31(5):2360-75. ·Zbl 1214.15017号
[42] LubichC、OseledetsI、VandereyckenB。张量列的时间积分。SIAM J数字分析。2015;53:917-41. https://doi.org/10.1137/10976546 ·Zbl 1312.65114号 ·数字对象标识代码:10.1137/140976546
[43] 基里埃、卢比奇、瓦拉赫。存在小奇异值时的离散动态低阶近似。SIAM J数字分析2016;54:1020-38. ·Zbl 1336.65119号
[44] 卢比奇CerutiG。用于动态低阶近似的非传统鲁棒积分器。BIT数字数学。2022;62(1):23-44. ·兹比尔1481.65068
[45] CerutiG、KuschJ、LubichC。用于动态低阶近似的秩自适应鲁棒积分器。位数字数学。2022;1-26.
[46] 穆纳根FD。J.frenkel,波动力学;先进的一般理论。1935年美国数学学会;41(11):776-6.
[47] 麦克拉克兰纳德。含时薛定谔方程的变分解。分子物理学。1964;8.1:39-44. https://doi.org/10.1080/00268976400100041 ·doi:10.1080/00268976400100041
[48] 内容。抛物型微分方程解的动力学低阶近似。应用数值数学。2020;156:377-84. ·Zbl 1441.37103号
[49] 巴赫迈尔姆、艾森曼恩、基里埃、乌奇马朱阿。抛物型问题的动力低阶近似的存在性。数学计算。2021;90(330):1799‐1830. ·Zbl 1482.65136号
[50] EigelM、SchneiderR、TrunschkeP。经验非线性最小二乘法的收敛界。ESAIM数学模型数值分析。2022;56(1):79-104. ·Zbl 1482.62071号
[51] 克里斯蒂安·拜耳(Christian Bayer)、马丁·艾格尔(Martin Eigel)、利昂·萨兰特(Leon Sallandt)和菲利普·特朗施克(Philipp Trunschke)。使用层次张量格式对高维百慕大期权进行定价。arXiv:2103.01934,2021年3月。
[52] HoltzS,RohwedderT,SchneiderR。关于固定TT秩张量的流形。数字数学。2012;120:701-31. ·Zbl 1242.15022号
[53] LubichC、OseledetsI。用于动态低阶近似的投影仪分裂积分器。比特。2013年1月;54: 171‐188. https://doi.org/10.1007/s10543‐013‐0454‐0 ·Zbl 1314.65095号 ·doi:10.1007/s10543‐013‐0454‐0
[54] George LeeCS,SaridisGN。可训练机械手最优控制的近似理论。IEEE Trans Syst Man Cybern公司。1979;9:152-9. ·Zbl 0398.49001号
[55] EigelM、SchneiderR、TrunschkeP、WolfS。机器学习和高维偏微分方程的变分蒙特卡罗桥接概念。高级计算数学。2019;45(5):2503-32. ·Zbl 1435.68258号
[56] OsterM,SallandtL,SchneiderR。用层次张量积逼近平稳Bellman方程。arXiv:1911.00279[math.OC],2020年。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。