×

非对称仿射不动点问题的乘法加速值迭代及其在马尔可夫决策过程中的应用。 (英语) Zbl 1486.90203号

小结:我们分析了Nesterov加速梯度算法的一个改进版本,该算法适用于具有非自伴矩阵的仿射不动点问题,例如具有折扣或平均支付标准的马尔可夫决策过程理论中出现的问题。我们刻画了该算法以加速渐近速度收敛的矩阵的谱。我们还介绍了一种(d)阶算法,并证明了它在对频谱要求更高的条件下产生了乘法加速率。随后,我们将这些方法应用于开发马尔可夫决策过程中非线性不动点问题的加速方案。数值实验证明了这一点。

MSC公司:

90立方厘米 动态编程
90立方厘米 马尔可夫和半马尔可夫决策过程
2009年9月47日 收缩型映射、非扩张映射、(A\)-适当映射等。

软件:

超人安德森
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] D.Anderson,非线性积分方程的迭代程序,J.ACM,12(1965),第547-560页·Zbl 0149.11503号
[2] H.Attouch,线性约束凸结构优化的快速惯性近似ADMM算法,Minimax理论应用。,6(2021年),第1-24页·Zbl 07363383号
[3] H.Attouch和J.Peypouquet,由最大单调算子控制的惯性动力学和近似算法的收敛性,数学。程序。,174(2019),第391-432页·Zbl 1412.37083号
[4] J.B.Baillon和R.E.Bruck,渐近正则性的速率是\(\text{O}(1/\sqrt{n})\),在增生型和单调型非线性算子的理论和应用中,纯应用讲义。数学。178,马塞尔·德克尔,纽约,1996年,第51-81页·Zbl 0865.47038号
[5] R.Bellman,《动态编程》,普林斯顿大学出版社,新泽西州普林斯顿,1957年·Zbl 0077.13605号
[6] D.P.Bertsekas,近似策略迭代:综述和一些新方法,控制理论应用杂志。,9(2011),第310-335页·Zbl 1249.90179号
[7] D.P.Bertsekas和J.N.Tsitsiklis,随机最短路径问题分析,数学。操作。研究,16(1991),第580-595页·Zbl 0751.90077号
[8] D.P.Bertsekas和J.N.Tsitsiklis,神经动力学编程,Athena Scientific,马萨诸塞州贝尔蒙特,1996年·Zbl 0924.68163号
[9] C.Bordenave、P.Caputo和D.Chafai,随机马尔可夫矩阵的循环定律定理,Probab。理论相关领域,152(2008),第751-779页·Zbl 1242.15034号
[10] C.Chen,S.Ma,and J.Yang,混合变分不等式问题的通用惯性近点算法,SIAM J.Optim。,25(2015),第2120-2142页,https://doi.org/10.1137/10980910。 ·Zbl 1327.65106号
[11] Y.Drori和M.Teboulle,光滑凸最小化的一阶方法的性能:一种新方法,数学。程序。,145(2014),第451-482页,https://doi.org/10.1007/s10107-013-0653-0。 ·Zbl 1300.90068号
[12] J.Eckstein和D.P.Bertsekas,关于Douglas-Rachford分裂方法和最大单调算子的近点算法,数学。程序。,55(1992),第293-318页·Zbl 0765.90073号
[13] N.Flamarion和F.Bach,《从平均到加速,只有一个步长》,载于《第28届学习理论会议论文集》,P.Gruñnwald、E.Hazan和S.Kale编辑,《机器学习研究论文集》2015年第40卷,第658-695页。
[14] W.H.Fleming和H.M.Soner,受控马尔可夫过程和粘度解,斯托克。模型。申请。普罗巴伯。2006年,纽约斯普林格25号·Zbl 1105.60005号
[15] E.Ghadimi、H.R.Feyzmahdavian和M.Johansson,凸优化重锤法的全局收敛性,《欧洲控制会议论文集》,2015年,第310-315页。
[16] V.Goyal和J.Grand-Clement,加速值迭代的一阶方法,https://arxiv.org/abs/1905.09963, 2019.
[17] T.D.Hansen、P.B.Miltersen和U.Zwick,《策略迭代是具有常数折扣因子的2人回合随机博弈的强多项式》,J.ACM,60(2013),第1-16页,https://doi.org/10.1145/2432622.2432623。 ·Zbl 1281.91019号
[18] R.A.Howard,《动态规划和马尔可夫过程》,约翰·威利,纽约,1960年·Zbl 0091.16001号
[19] F.Iutzeler和J.M.Hendrickx,通过松弛和惯性优化算法的通用在线加速方案,Optim。方法软件。,34(2019),第383-405页,https://doi.org/101080/10556788.2017.1396601。 ·兹比尔1407.65062
[20] A.Izmailov和M.Solodov,优化和变分问题的牛顿型方法,Springer,纽约,2014,https://doi.org/10.1007/978-3-319-04247-3。 ·兹比尔1304.49001
[21] D.Kim,最大单调算子的加速邻近点法,https://arxiv.org/abs/1905.05149, 2019.
[22] M.A.Krasnosel’skiĭ,《关于连续近似法的两条评论》,Uspekhi Mat.Nauk,10(1955),第123-127页·Zbl 0064.12002号
[23] H.J.Kushner和P.G.Dupuis,连续时间随机控制问题的数值方法,应用。数学。24,施普林格,纽约,2001年·Zbl 0968.93005号
[24] F.Lieder,关于Halpern迭代的收敛速度,Optim。莱特。,15(2021年),第405-418页·兹比尔1466.90067
[25] W.R.Mann,迭代中的平均值方法,Proc。阿默尔。数学。《社会学杂志》,第4期(1953年),第506-510页·Zbl 0050.11603号
[26] Y.Nesterov,求解具有收敛速度的凸规划问题的一种方法\(o(1/k^2)\),苏联数学Doklady,27(1983),第372-376页·Zbl 0535.90071号
[27] Y.Nesterov,《凸优化入门讲座:基础课程(应用优化)》,Kluwer,Dordrecht,2004年·Zbl 1086.90045号
[28] B.Polyak,加速迭代法收敛的一些方法,苏联计算机。数学。数学。物理。,4(1964),第1-17页,https://doi.org/10.1016/0041-5553(64)90137-5. ·Zbl 0147.35301号
[29] M.L.Puterman,《马尔可夫决策过程:离散随机动态规划》,John Wiley&Sons,纽约,2014年·Zbl 1184.90170号
[30] 方仁仁,萨阿德,非线性加速度的两类多波束方法,数值。线性代数应用。,16(2009年),第197-221页·Zbl 1224.65134号
[31] R.T.Rockafellar,增广拉格朗日和近点算法在凸规划中的应用,数学。操作。Res.,1(1976),第97-116页·Zbl 0402.90076号
[32] R.T.Rockafellar,Monotone操作符和近点算法,SIAM J.Control Optim。,14(1976)第877-898页,https://doi.org/10.1137/0314056。 ·Zbl 0358.90053号
[33] B.Scherrer,政策迭代复杂性的改进和广义上界,摘自《神经信息处理系统的进展》,Curran Associates,2013年,第386-394页。
[34] B.Scherrer、M.Ghavamzadeh、V.Gabillon、B.Lesner和M.Geist,近似修改策略迭代及其在俄罗斯方块游戏中的应用,J.Mach。学习。第16号决议(2015年),第1629-1676页·Zbl 1351.90162号
[35] D.Scieur、F.Bach和A.D'Aspremont,随机算法的非线性加速,《神经信息处理系统进展》,第30卷,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑,Curran Associates,2017年,https://proceedings.neurips.cc/paper/2017/file/fca0789e7891cbc0583298a238316122-paper.pdf。
[36] A.Themelis和P.Patrinos,《超曼:寻找非扩张算子不动点的超线性收敛算法》,IEEE Trans。自动化。控制,64(2019),第4875-4890页·Zbl 1482.49019号
[37] H.F.Walker和P.Ni,定点迭代的Anderson加速度,SIAM J.Numer。分析。,49(2011),第1715-1735页,https://doi.org/10.1137/10078356X。 ·Zbl 1254.65067号
[38] P.Whittle,随时间优化。第二卷,Wiley Ser。普罗巴伯。数学。统计人员。,约翰·威利父子公司,英国奇切斯特,1983年·Zbl 0577.90046号
[39] Y.Ye,单纯形法和策略迭代法是具有固定贴现率的马尔可夫决策问题的强多项式,数学。操作。研究,36(2011),第593-603页,https://doi.org/doi:10.1287/moor.1110.0516。 ·Zbl 1245.90140号
[40] J.Zhang、B.O’Donoghue和S.Boyd,非光滑定点迭代的全局收敛I型Anderson加速度,SIAM J.Optim。,30(2020年),第3170-3197页,https://doi.org/10.1137/18M11232772。 ·Zbl 1525.47126号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。