×

随机梯度搜索的渐近偏差。 (英文) Zbl 1387.49044号

研究了有偏随机梯度搜索的渐近行为。分析了以下算法:({\theta}{n+1})=\({\teata}{n})-\({\alpha}{n}({nabla}f({\taeta}{n})+{\xi}{n)),\(n{\geq}0)。在关于步长序列、噪声和目标函数f的一组假设下,证明了算法迭代到最小值集的邻域。得到了附近半径的上界。结果是局部的,只有在所述算法稳定的情况下才成立。这些证明依赖于链式电流、Yomdin定理和Lojasiewicz不等式。进一步,将所得结果应用于具有马尔可夫动力学的随机梯度算法以及平均成本马尔可夫决策问题的策略粒度搜索算法的渐近分析。研究结果的全球版本见本文附录A和附录B。规定本条的扩展版本可在arXiv:1709.00291.

MSC公司:

4.95亿 基于必要条件的数值方法
62L20型 随机近似
90立方厘米 随机规划
93E12号机组 随机控制理论中的辨识
93E35型 随机学习与自适应控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aubin,J.-P.和Cellina,A.(1984年)。微分包含:集值映射和生存理论。柏林施普林格·Zbl 0538.34007号
[2] Baxter,J.和Bartlett,P.L.(2001)。无限大的策略粒度估计。人工智能研究杂志.15319-350·兹伯利0994.68119
[3] Benaïm,m.(1996年)。随机近似的动力系统方法。SIAM J.控制优化34437-472·Zbl 0841.62072号 ·doi:10.1137/S0363012993253534
[4] 贝纳伊姆,m.(1999)。随机近似算法的动力学。《概率研究》,第三十三章。数学课堂笔记17091-68。柏林施普林格·Zbl 0955.62085号
[5] Benaím,m.、Hofbauer,J.和Sorin,S.(2005)。随机近似和微分包含。SIAM J.控制优化。44328-348·Zbl 1087.62091号 ·doi:10.1137/S0363012904439301
[6] Benaím,m.、Hofbauer,J.和Sorin,S.(2012年)。集值动力系统的扰动及其在博弈论中的应用。动态。游戏应用程序2195-205·Zbl 1282.37021号
[7] Benveniste,A.、Métiver,M.和Priouret,P.(1990年)。自适应算法和随机近似。柏林施普林格·Zbl 0752.93073号
[8] Bertsekas,D.P.和Tsitsiklis,J.N.(1996年)。神经动力学编程。雅典娜科技。新罕布什尔州纳舒亚·兹伯利0924.68163
[9] Bertsekas,D.P.和Tsitsiklis,J.N.(2000年)。具有误差的梯度方法中的梯度收敛。SIAM J.Optim.10627-642·Zbl 1049.90130号 ·doi:10.1137/S1052623497331063
[10] Bierstone,E.和Milman,P.D.(1988年)。半解析集和亚解析集。出版物。数学。高等科学研究院675-42·Zbl 0674.32002号 ·doi:10.1007/BF02699126
[11] Borkar,V.S.(2008)。随机逼近:动力系统观点。剑桥大学出版社,剑桥·Zbl 1159.60002号
[12] Borkar,V.S.和Meyn,S.P.(2000年)。随机逼近和强化学习收敛的O.D.E.方法。SIAM J.控制优化.38447-469·兹比尔0990.62071 ·doi:10.1137/S0363012997331639
[13] Cappé,O.,Moulines,E.和Rydén,T.(2005)。隐马尔可夫模型中的推理。纽约州施普林格·Zbl 1080.62065号
[14] 陈海峰(2002)。随机逼近及其应用。多德雷赫特Kluwer学院·Zbl 1008.62071号
[15] Chen,H.F.和Gao,A.J.(1989)。随机近似算法的鲁棒性分析。斯托克。斯托克。代表263-20·Zbl 0686.62061号 ·doi:10.1080/1744250890833545
[16] Chen,H.F.、Lei,G.和Gao,A.J.(1988年)。在随机变化边界截断的Robbins-Monro算法的收敛性和鲁棒性。随机过程。申请27217-231·Zbl 0632.62082号
[17] Douc,R.、Moulines,E.和Stoffer,D.S.(2014)。非线性时间序列:理论、方法和应用,附R个例子。查普曼和霍尔/CRC,佛罗里达州博卡拉顿·Zbl 1306.62026号
[18] Hurley,M.(1995)。链递归、半流和梯度。J.发电机。微分方程7437-456·Zbl 0832.34041号 ·doi:10.1007/BF02219371
[19] Khalil,香港(2002)。非线性系统,第三版,普伦蒂斯·霍尔。新泽西州上鞍河·Zbl 1003.34002号
[20] Konda,V.R.和Tsitsiklis,J.N.(2003年)。关于actor-critic算法。SIAM J.控制优化。421143-1166·Zbl 1049.93095号 ·doi:10.137/S0363012901385691
[21] Kurdyka,K.(1998年)。关于o-极小结构中可定义函数的梯度。傅里叶研究所年鉴(格勒诺布尔)48769-783·Zbl 0934.32009 ·doi:10.5802/aif.1638
[22] Kushner,H.J.和Yin,G.G.(2003)。《随机逼近和递归算法及应用》,第二版,纽约斯普林格出版社·Zbl 1026.62084号
[23] Łojasiewicz,S.(1959年)。关于分区的问题。数学研究生.1887-136·Zbl 0115.10203号
[24] Łojasiewicz,S.(1993)。Sur la géométrie semi-et sous-analzique。傅里叶研究所年鉴(格勒诺布尔)431575-1595·Zbl 0803.32002号 ·doi:10.5802/aif.1384
[25] Métiver,M.和Priouret,P.(1984)。Kushner和Clark引理在一般随机算法类中的应用。IEEE传输。通知。神学30140-151·Zbl 0546.62056号 ·doi:10.1109/TIT.1984.1056894
[26] Meyn,S.和Tweedie,R.L.(2009年)。马尔可夫链与随机稳定性,第二版,剑桥大学出版社,剑桥·Zbl 1165.60001号
[27] Pflug,G.C.(1996)。随机模型的优化:模拟和优化之间的接口。Kluwer Academic,马萨诸塞州波士顿·Zbl 0909.90220号
[28] 鲍威尔·W·B(2007)。近似动态规划:解决维数问题。新泽西州霍博肯市威利国际科学研究所·Zbl 1156.90021号
[29] Poyiadjis,G.、Doucet,A.和Singh,S.S.(2011年)。状态空间模型中分数和观测信息矩阵的粒子近似及其在参数估计中的应用。生物特征9865-80·Zbl 1214.62093号 ·doi:10.1093/biomet/asq062
[30] Spall,J.C.(2003)。随机搜索和优化导论:估计,模拟和控制。新泽西州霍博肯市威利国际科学研究所·邮编1088.90002
[31] Tadić,V.B.(2010年)。隐马尔可夫模型中递归极大似然估计的分析性、收敛性和收敛速度。IEEE传输。通知。理论566406-6432·Zbl 1366.62166号 ·doi:10.10109/TIT.2010.2081110
[32] Tadić,V.B.(2015)。多个非孤立极值情况下随机梯度搜索的收敛性和收敛速度。随机过程。申请号1251715-1755。扩展版本可从以下网址获得:0907.1020。
[33] Tadić,V.B.和Doucet,A.(2015)。随机梯度搜索的渐近偏差。本文的扩展版本。可从以下网址获取:1709.00291。
[34] Yomdin,Y·兹比尔0507.57019 ·doi:10.1007/BF01456957
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。