×

朗之万扩散的状态相关温度控制。 (英语) Zbl 1493.93057号

摘要:我们在非凸优化的背景下研究了Langevin扩散的温度控制问题。这种问题的经典最优控制是bang-bang型的,它对误差过于敏感。一种补救方法是允许扩散探索其他温度值,从而平滑bang-bang控制。我们通过一个随机松弛控制公式来实现这一点,该公式结合了温度控制的随机化和熵的正则化。根据Hamilton-Jacobi-Bellman偏微分方程的解,我们导出了一个状态相关的截断指数分布,该分布可用于在Langevin算法中采样温度。我们对一个易于求解Hamilton-Jacobi-Bellman方程的一维基线示例进行了数值实验,以比较该算法与其他三种可用算法在搜索全局最优时的性能。

MSC公司:

93E20型 最优随机控制
49年30日 存在属于受限类的最优解(Lipschitz控制、bang-bang控制等)
90C26型 非凸规划,全局优化
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] C.Beck、E.Weinan和A.Jentzen,高维完全非线性偏微分方程和二阶倒向随机微分方程的机器学习近似算法,非线性科学杂志。,29(2019),第1563-1619页·Zbl 1442.91116号
[2] R.Bertrand和R.Epenoy,解决bang-bang最优控制问题的新平滑技术-数值结果和统计解释,Optim。控制应用程序。方法,23(2002),第171-197页·Zbl 1072.49502号
[3] A.Bovier、V.Gayrard和M.Klein,可逆扩散过程中的亚稳定性I:容量和退出时间的夏普渐近性,《欧洲数学杂志》。Soc.,6(2004),第399-424页·Zbl 1076.82045号
[4] A.Bovier、V.Gayrard和M.Klein,可逆扩散过程的亚稳定性II:小特征值的精确渐近性,《欧洲数学杂志》。Soc.,7(2005),第69-99页·Zbl 1105.82025号
[5] J.S.Bridle,《训练随机模型识别算法作为网络可以导致参数的最大互信息估计》,《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,1990年,第211-217页。
[6] N.Cesa-Bianchi、C.Gentile、G.Lugosi和G.Neu,《Boltzmann Exploration Done Right》,神经信息处理系统进展,麻省理工学院出版社,马萨诸塞州剑桥,2017年,第6284-6293页。
[7] X.Chen,S.S.Du,X.T.Tong,关于随机梯度Langevin动力学的平稳点击中时间和遍历性,J.Mach。学习。研究,21(2020),第1-41页·Zbl 1502.60125号
[8] T.-S.Chiang、C.-R.Hwang和S.J.Sheu,《(mathbb{R}^n)中全局优化的扩散》,SIAM J.控制优化。,25(1987),第737-753页·兹比尔062260093
[9] A.Dalalyan,《采样和优化之间的进一步和更强的类比:Langevin蒙特卡罗和梯度下降》,《学习理论会议论文集》,2017年,第678-689页。
[10] J.Dong和X.T.Tong,非凸优化的副本交换,预印本,arXiv:2001.083562020。
[11] D.J.Earl和M.W.Deem,《平行回火:理论、应用和新观点》,《物理学》。化学。化学。物理。,7(2005),第3910-3916页。
[12] H.Fang、M.Qian和G.Gong,一种改进的退火方法及其大时间行为,Stoch。过程。他们的申请。,71(1997),第55-74页·Zbl 0940.60077号
[13] S.B.Gelfand和S.K.Mitter,(mathbb{R}^d)中全局优化的递归随机算法,SIAM J.控制优化。,29(1991),第999-1018页·Zbl 0753.65051号
[14] S.Geman和C.-R.Hwang,全球优化扩散,SIAM J.控制优化。,24(1986),第1031-1043页·Zbl 0602.60071号
[15] M.Gu¨rbu¨zbalaban,X.Gao,Y.Hu,和L.Zhu,分散随机梯度Langevin动力学和Hamilton Monte Carlo,预印本,arXiv:2007.0059020。
[16] T.Haarnoja,A.Zhou,K.Hartikainen,G.Tucker,S.Ha,J.Tan,V.Kumar,H.Zhu,A.Gupta,P.Abbeel,et al.,《软演员关键算法与应用》,预印本,arXiv:1812.059052018。
[17] J.Han、A.Jentzen和E.Weinan,使用深度学习求解高维偏微分方程,Proc。国家。阿卡德。科学。,美国115(2018),第8505-8510页·Zbl 1416.35137号
[18] R.A.Holley、S.Kusuoka和D.W.Stroock,谱间隙的渐近性及其在模拟退火理论中的应用,J.Funct。分析。,83(1989),第333-347页·Zbl 0706.58075号
[19] S.Kirkpatrick、C.D.Gelatt和M.P.Vecchi,《模拟退火优化》,《科学》,220(1983),第671-680页·Zbl 1225.90162号
[20] N.Krylov,受控扩散过程,Springer,纽约,1980年·Zbl 0459.93002号
[21] E.Marinari和G.Parisi,《模拟回火:一种新的蒙特卡罗方案》,Europhys。莱特。,19(1992),第451页。
[22] D.Maírquez,退火扩散过程的收敛速度,Ann.Appl。概率。,(1997),第1118-1139页·Zbl 0949.62072号
[23] J.C.Mattingly、A.M.Stuart和D.J.Higham,SDE和近似的遍历性:局部Lipschitz向量场和退化噪声,Stoch。过程。他们的申请。,101(2002),第185-232页·Zbl 1075.60072号
[24] T.Munakata和Y.Nakamura,模拟退火温度控制,物理。E版,64(2001),046127。
[25] A.Neelakantan、L.Vilnis、Q.V.Le、I.Sutskever、L.Kaiser、K.Kurach和J.Martens,《添加梯度噪声改善超深度网络的学习》,预印本,arXiv:1511.068072015。
[26] M.Raginsky、A.Rakhlin和M.Telgarsky,《通过随机梯度Langevin动力学的非凸学习:非症状分析》,《学习理论会议论文集》,2017年,第1674-1703页。
[27] C.Silva和E.Treílat,bang-bang最优控制问题的平滑正则化,IEEE Trans。自动化。对照,55(2010),第2488-2499页·兹比尔1368.49029
[28] D.Strock和S.Varadhan,连续系数扩散过程,I,Comm.Pure Appl。数学。,22(1969年),第345-400页·Zbl 0167.43903号
[29] R.S.Sutton和A.G.Barto,《强化学习:导论》,麻省理工学院出版社,马萨诸塞州剑桥,2018年·Zbl 1407.68009号
[30] C.Tallec、L.Blier和Y.Ollivier,《使深度q学习方法对时间离散化鲁棒》,预印本,arXiv:1901.097322019年。
[31] 唐文华,张义勇,周晓云,探索性HJB方程及其收敛性,预印本,arXiv:2109.102692021。
[32] N.G.Tawn、G.O.Roberts和J.S.Rosenthal,《重量保护模拟回火》,统计计算。,30(2020年),第27-41页·Zbl 1431.60082号
[33] H.Wang、T.Zariphopoulou和X.Y.Zhou,《连续时间和空间中的强化学习:随机控制方法》,J.Mach。学习。研究,198(2022),第1-34页·Zbl 07307478号
[34] M.Welling和Y.W.Teh,通过随机梯度Langevin动力学进行贝叶斯学习,《第28届机器学习国际会议论文集》(ICML-11),2011年,第681-688页。
[35] P.Xu、J.Chen、D.Zou和Q.Gu,基于Langevin动力学的非凸优化算法的全局收敛,《神经信息处理系统进展》,麻省理工学院出版社,马萨诸塞州剑桥,2018年,第3122-3133页。
[36] J.Yong和X.Y.Zhou,《随机控制:哈密顿系统和HJB方程》,第43卷,Springer科学与商业媒体,纽约,1999年·Zbl 0943.93002号
[37] Y.Zhang、P.Liang和M.Charikar,随机梯度Langevin动力学的击中时间分析,《学习理论会议论文集》,2017年,第1980-2022页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。