×

有限时域随机控制问题的深度神经网络算法:收敛性分析。 (英语) Zbl 1466.65007号

摘要:本文基于深度学习和动态规划开发了高维随机控制问题的算法。与经典的近似动态规划方法不同,我们首先基于深度强化学习的精神,通过神经网络近似最优策略,然后通过蒙特卡罗回归来近似值函数。这是在动态规划递归中通过性能或混合迭代和数值概率的回归方法实现的。我们提供了这些算法的理论证明。分析了控制和值函数估计的一致性和收敛速度,并将其表示为神经网络的普遍逼近误差,以及估计网络函数时的统计误差,忽略了优化误差。各种应用的数值结果在配套论文[“有限水平随机控制问题的深度神经网络算法:数值应用”,Methodol.Compute.Appl.Probab.中给出]中给出,并说明了所提算法的性能。n个

MSC公司:

65二氧化碳 蒙特卡罗方法
90立方厘米 动态编程
93E35型 随机学习与自适应控制
62M45型 神经网络及从随机过程推断的相关方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] K.Asadi和M.Littman,强化学习的替代Softmax算子,《第34届机器学习国际会议论文集》,2017年第70卷,第243-252页。
[2] F.Bach,《用凸神经网络打破维度诅咒》,J.Mach。学习。决议,18(2017),第1-53页·Zbl 1433.68390号
[3] A.Bachouch、C.Hureí、N.Langreneí和H.Pham,有限水平随机控制问题的深度神经网络算法:数值应用,Methodol。计算。申请。概率。,出现·Zbl 1496.93112号
[4] C.Beck、A.Jentzen和B.Kuckuck,深度神经网络训练的全面误差分析,arXiv:1910.00121v22020。
[5] B.Bercu和J.Fort,《通用随机梯度方法》,载于《威利运筹学与管理科学百科全书》,威利,纽约,2011年,第1-8页。
[6] D.P.Bertsekas和J.Tsitsiklis,神经动力学编程,雅典娜科学,马萨诸塞州贝尔蒙特,1996年·Zbl 0924.68163号
[7] G.Cybenko,通过S形函数叠加进行逼近,数学。控制信号系统,2(1989),第303-314页·Zbl 0679.94019号
[8] W.E、J.Han和A.Jentzen,基于深度学习的高维抛物型偏微分方程和倒向随机微分方程数值方法,Commun。数学。《统计》,第5卷(2017年),第349-380页·Zbl 1382.65016号
[9] A.Géron,《Scikit Learn的机器学习实践》,Keras和TensorFlow,第2版,O’Reilly Media,马萨诸塞州牛顿,2019年。
[10] L.Gyoörfi、M.Kohler、A.Krzyzak和H.Walk,非参数回归的无分布理论,Springer Ser。统计人员。,施普林格,纽约,2002年·Zbl 1021.62024号
[11] J.Han和W.E,随机控制问题的深度学习近似,《NIPS深度强化学习研讨会论文集》,2016年。
[12] J.Han和J.Long,耦合FBSDE的深度BSDE方法的收敛性,Probab。不确定性数量。风险,5(2020),第1-33页·Zbl 1454.60105号
[13] P.Henry-Labordère,《BSDEs的深原对偶算法:机器学习在CVA和IM中的应用》,SSRN:30715062017。
[14] K.Hornick,多层前馈网络的近似能力,神经网络,4(1991),第251-257页。
[15] A.Jentzen、B.Kuckuck、A.Neufeld和P.von Wursemberger,随机梯度下降优化算法的强误差分析,arXiv:1801.09324v12018。
[16] M.Kohler,因变量中附加测量误差的非参数回归,J.Statist。计划。推理,136(2006),第3339-3361页·兹比尔1102.62035
[17] M.Kohler、A.Krzyżak和N.Todorovic,神经网络高维美式期权定价,数学。《金融》,20(2010),第383-410页·Zbl 1195.91160号
[18] A.N.Kolmogorov,关于通过少量变量的连续函数的叠加来表示多个变量的连续功能,数学。申请。(苏维埃Ser.),25(1991)·Zbl 0070.28301号
[19] S.Kou,X.Peng,X.Xu,《EM算法与经济学中的随机控制》,SSRN:28651242016年。
[20] Y.Li,《深度强化学习:概述》,arXiv:1701.07274v32017年。
[21] F.A.Longstaff和E.S.Schwartz,《通过模拟评估美国期权:简单最小二乘法》,《金融研究评论》,14(2001),第113-147页·Zbl 1386.91144号
[22] V.Mnih、K.Kavukcuoglu、D.Silver和A.A.Rusu,《通过深度强化学习进行人类层面的控制》,《自然》,518(2015),第529-533页。
[23] W.B.Powell,《近似动态规划:解决维度的诅咒》,威利,纽约,2011年·Zbl 1242.90002号
[24] R.S.Sutton和A.G.Barto,《强化学习》,麻省理工学院出版社,英国剑桥,1998年·Zbl 1407.68009号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。