×

探索性HJB方程及其收敛性。 (英语) Zbl 1501.35132号

小结:我们研究了熵正则化勘探控制问题产生的勘探Hamilton-Jacobi-Bellman(HJB)方程,该方程由H.王等人[J.Mach.Learn.Res.21,第198号论文,第34页(2020;Zbl 07307478号)]在持续时间和空间的强化学习背景下。我们建立了方程粘性解的适定性和正则性,以及当勘探水平衰减到零时,勘探控制问题收敛到经典随机控制问题。然后,我们将获得的一般结果应用于探索性温度控制问题,该问题由X.高等[SIAM J.Control Optim.60,No.3,1250–1268(2022;Zbl 1493.93057号)]在非凸优化的背景下,为模拟退火设计内生温度调度。我们导出了当探索减少到零时该问题的显式收敛速度,并发现最优控制过程存在平稳分布,但它既不是全局最优的Dirac质量,也不是Gibbs测度。

MSC公司:

35层21 汉密尔顿·雅各比方程
60J60型 扩散过程
93E15型 控制理论中的随机稳定性
93年20日 最优随机控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Armstrong,S.N.和Tran,H.V.,一般粘性Hamilton-Jacobi方程的粘度解,数学。Ann.,361(2015),第647-687页·Zbl 1327.35058号
[2] Aronson,D.G.,抛物方程基本解的界,Bull。阿默尔。数学。Soc.,73(1967),第890-896页·Zbl 0153.42002号
[3] Bogachev,V.I.,Kirillov,A.I.和Shaposhnikov,S.V.,扩散不变测度和非线性平稳Fokker-Planck-Kolmogorov方程之间的Kantorovich和变化距离,数学。注释,96(2014),第855-863页·Zbl 1315.35221号
[4] Bogachev,V.I.、Kirillov,A.I.和Shaposhnikov,S.V.,扩散的平稳分布与非线性Fokker-Planck-Kolmogorov方程可解性之间的距离,Teor Veroyatn。Primen,62(2017),第16-43页·Zbl 1388.60139号
[5] Bogachev,V.I.、Krylov,N.V.、Röckner,M.和Shaposhnikov,S.V.,福克-普朗克-科尔莫戈洛夫方程,数学。Surv公司。单声道。207,美国数学学会,普罗维登斯,RI,2015年·Zbl 1342.35002号
[6] Bogachev,V.I.、Röckner,M.和Shaposhnikov,S.V.,《泊松方程和扩散平稳分布之间距离的估计》,J.Math。科学。(纽约),232(2018),第254-282页·兹比尔1406.35408
[7] Caffarelli,L.A.和Cabré,X.,完全非线性椭圆方程,Amer。数学。Soc.Colloq.出版。43,美国数学学会,普罗维登斯,RI,1995年·Zbl 0834.35002号
[8] Capuzzo-Dolcetta,I.、Leoni,F.和Vitolo,A.,《无界区域中完全非线性方程的Alexandrov-Bakelman-Pucci弱最大值原理》,《Comm.偏微分方程》,30(2005),第1863-1881页·Zbl 1134.35359号
[9] Crandall,M.G.,Ishii,H.和Lions,P.-L.,二阶偏微分方程粘度解用户指南,Bull。阿默尔。数学。Soc.(N.S.),27(1992),第1-67页·Zbl 0755.35015号
[10] Crandall,M.G.,Kocan,M.,andŚwiech,A.,(L^p)-完全非线性一致抛物方程理论,Comm.偏微分方程,25(2000),pp.1997-2053·Zbl 0973.35097号
[11] Ethier,S.N.和Kurtz,T.G.,《马尔可夫过程:表征和收敛》,Wiley Ser。普罗巴伯。数学。新泽西州霍博肯市威利统计局,1986年·Zbl 0592.60049号
[12] Evans,L.C.,偏微分方程,梯度。学生数学。19,第2版,美国数学学会,普罗维登斯,RI,2010年·Zbl 1194.35001号
[13] Firoozi,D.和Jaimungal,S.,探索性LQG熵正则化平均场对策,自动化J.IFAC,139(2022),110177·Zbl 1484.91037号
[14] Fleming,W.H.和Soner,H.M.,《受控马尔可夫过程和粘度解》,第二版,斯托克出版社。模型。申请。普罗巴伯。2006年,纽约斯普林格25号·Zbl 1105.60005号
[15] Gao,X.,Xu,Z.Q.和Zhou,X.Y.,Langevin扩散的状态相关温度控制,SIAM J.控制优化。,60(2022年),第1250-1268页·Zbl 1493.93057号
[16] Gilbarg,D.和Trudinger,N.S.,《二阶椭圆偏微分方程》,第二版,格兰德伦数学。威斯。柏林施普林格224号,1983年·Zbl 0562.35001号
[17] Guo,X.,Xu,R.和Zariphopoulou,T.,《带学习的平均场博弈的熵正则化》,数学。操作。决议,(2022年)·兹比尔1505.91061
[18] Ishii,H.和Lions,P.-L.,完全非线性二阶椭圆偏微分方程的粘性解,《微分方程》,83(1990),第26-78页·Zbl 0708.35031号
[19] Koike,S.和Ley,O.,带梯度超线性项的退化椭圆偏微分方程无界粘性解的比较原理,J.Math。分析。申请。,381(2011),第110-120页·Zbl 1221.35172号
[20] Krylov,N.,有界非齐次椭圆和抛物方程,Izv Akad。恶心。SSSR序列。材料,46(1982),第487-523页·Zbl 0511.35002号
[21] Krylov,N.,《二阶非线性椭圆和抛物方程》,Reidel Publishing,Norwell,MA,1987年·Zbl 0619.35004号
[22] Lian,Y.,Wang,L.,and Zhang,K.,一般形式的完全非线性椭圆方程的点态正则性,预印本,https://arxiv.org/abs/2012.00324(2020).
[23] Meyn,S.P.和Tweedie,R.L.,马尔科夫过程的稳定性。二、。连续时间过程和采样链,高级应用。概率。,25(1993年),第487-517页·Zbl 0781.60052号
[24] Meyn,S.P.和Tweedie,R.L.,马尔科夫过程的稳定性。二、。Foster-Lyapunov连续时间过程标准,高级应用。概率。,25(1993),第518-548页·Zbl 0781.60053号
[25] Reisinger,C.和Zhang,Y.,反馈放松控制的规则性和稳定性,SIAM J.控制优化。,59(2021年),第3118-3151页·Zbl 1471.93100号
[26] Safonov,M.V.,可测系数二阶椭圆方程的非唯一性,SIAM J.Math。分析。,30(1999年),第879-895页·Zbl 0924.35004号
[27] Stramer,O.和Tweedie,R.L.,非光滑系数随机微分方程弱解的存在性和稳定性,Statist。Sinica,7(1997),第577-593页·Zbl 1091.60508号
[28] Stroock,D.W.和Varadhan,S.R.S.,多维扩散过程,格兰德伦数学。威斯。柏林施普林格233号,1979年·Zbl 0426.60069号
[29] Sutton,R.S.和Barto,A.G.,《强化学习:简介》,《自适应计算和机器学习》,第二版,麻省理工学院出版社,马萨诸塞州剑桥,2018年·Zbl 1407.68009号
[30] Świech,A.,(W^{1,p})-完全非线性一致椭圆方程解的内部估计,高级微分方程,2(1997),第1005-1027页·Zbl 1023.35509号
[31] Tang,W.,广义反射布朗运动的指数遍历性和收敛性,排队系统。,92(2019年),第83-101页·Zbl 1427.60110号
[32] Wang,H.、Zariphopoulou,T.和Zhou,X.Y.,《连续时间和空间中的强化学习:随机控制方法》,J.Mach。学习。Res.,21(2020),第1-34页·兹伯利07307478
[33] Wang,H.和Zhou,X.Y.,持续时间均值-方差投资组合选择:强化学习框架,数学。《金融》,30(2020),第1273-1308页·Zbl 1508.91515号
[34] Wang,L.,关于完全非线性抛物方程的正则性理论。一、 普通纯应用程序。数学。,45(1992),第27-76页·Zbl 0832.35025号
[35] Wang,L.,关于完全非线性抛物方程的正则性理论。二、 普通纯应用程序。数学。,45(1992),第141-178页·兹比尔0774.35042
[36] Yong,J.和Zhou,X.Y.,《随机控制——哈密顿系统和HJB方程》,应用。数学。(纽约)43,Springer,纽约,1999年·Zbl 0943.93002号
[37] 周晓云,《优化的诅咒,以及我们如何打破它》,预印本,SSRN:384546202021。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。