文件Zbl 1498.90155-zbMATH Open

关于具有相互作用粒子的随机镜像下降：收敛特性和方差减少。（英语） Zbl 1498.90155号

物理D 418，文章ID 132844，21 p.（2021）.

优化模型通常包含函数的噪声估计，这有助于将波动控制在真正的最小值附近。控制误差的传统方法是减小步长。另一种选择是运行算法的独立副本。这些运行中的每一个都被称为粒子。本文讨论的问题是，允许这些粒子相互作用是否有益，并使用随机镜像下降（SMD）的一般框架研究这个问题。主要关注带相互作用粒子的随机镜像下降（ISMD）的收敛特性，演示ISMD在实践中的性能，以及在各种示例中演示相互作用对减小方差的影响。理论和数值证据表明，相互作用有助于提高收敛性和减少估计方差。

审核人：Samir Kumar Neogy（新德里）

引用于2文件

MSC公司：

90C25型

凸面编程

关键词：

后视镜下降;交互代理;方差减少

软件：

传奇

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Gower，R.M。；Loizou，北卡罗来纳州。；钱，X。；塞兰巴耶夫，A。；Shulgin，E。；Richtárik，P.，SGD：一般分析和改进率（2019年），arXiv预印本arXiv:1901.09401
[2]	Mertikopoulos，P。；Staudigl，M.，关于带噪声梯度输入的类梯度流的收敛性，SIAM J.Optim。，28, 1, 163-197 (2018) ·Zbl 1387.90187号
[3]	Mertikopoulos，P。；Staudigl，M.，随机镜像下降动力学及其在单调变分不等式中的收敛性，J.Optim。理论应用。，179, 3, 838-867 (2018) ·Zbl 1402.90122号
[4]	Smith，S.L.公司。；Kinderman，P.-J。；Ying，C。；Le，Q.V.，《不要降低学习率，增加批量大小》（2017），arXiv预印本arXiv:1711.00489
[5]	Nemirovsky，A.S。；尤丁，D.B.，优化中的问题复杂性和方法效率（1983）·兹比尔0501.90062
[6]	Beck，A.，优化中的一阶方法，第25卷（2017），SIAM·Zbl 1384.65033号
[7]	Needell，D。；Ward，R。；Srebro，N.，《随机梯度下降、加权采样和随机Kaczmarz算法》，（神经信息处理系统进展（2014）），1017-1025
[8]	约翰逊，R。；Zhang，T.，使用预测方差减少加速随机梯度下降，（神经信息处理系统进展（2013）），315-323
[9]	德法齐奥，A。；巴赫，F。；Lacoste-Julien，S.，SAGA：支持非强凸复合目标的快速增量梯度法，（神经信息处理系统进展（2014）），1646-1654
[10]	Gorbunov，E。；Hanzely，F。；Richtárik，P.，SGD的统一理论：方差减少、采样、量化和坐标下降（2019），arXiv预印本arXiv:1905.11261
[11]	W.克里钦。；Bartlett，P.L.，随机镜像下降动力学中的加速和平均（2017），arXiv预印本arXiv:1707.06219
[12]	P.Xu，T.Wang，Q.Gu，《加速随机镜像下降：从连续时间动力学到离散时间算法》，载于：国际人工智能与统计会议（AISTATS），2018年。
[13]	Raginsky，M。；Bouvrie，J.，《网络上的连续时间随机镜像下降：方差减少、一致性、收敛性》，（2012年IEEE第51届IEEE决策与控制会议，2012年IEEE第51届决策与控制大会，CDC（2012），IEEE），6793-6800
[14]	杜奇，J.C。；阿加瓦尔，A。；Wainwright，M.J.，《分布式优化的双重平均：收敛分析和网络缩放》，IEEE Trans。自动。控制，57，3，592-606（2011）·Zbl 1369.90156号
[15]	林，P。；Ren，W。；Farrell，J.A.，《分布式连续时间优化：非均匀梯度增益、有限时间收敛和凸约束集》，IEEE Trans。自动化。控制，62,52239-2253（2016）·兹比尔1366.90201
[16]	沙赫拉穆尔，S。；Jadbabaie，A.，使用镜像下降的动态环境中的分布式在线优化，IEEE Trans。自动化。控制，63，3，714-725（2017）·Zbl 1390.90125号
[17]	科洛斯科娃，A。；Stich，美国。；Jaggi，M.，带压缩通信的分散随机优化和八卦算法（2019），arXiv预印本arXiv:1902.00340
[18]	希曼，K。；巴赫，F。；布贝克，S。；Lee，Y.T。；Massoulié，L.，网络中光滑和强凸分布优化的优化算法，（第34届机器学习国际会议论文集，第70卷（2017），JMLR。org），电话：3027-3036
[19]	Belykh，V.N。；I.V.Belykh。；Hasler，M.，同步耦合混沌系统的连接图稳定性方法，物理D：非线性现象。，195, 1-2, 159-187 (2004) ·Zbl 1098.82622号
[20]	Shi，G。；Proutiere，A。；Johansson，K.H.，凸性网络同步，SIAM J.Control Optim。，53, 6, 3562-3583 (2015) ·Zbl 1327.93222号
[21]	于伟（Yu，W.）。；陈，G。；Cao，M.，《非线性动力学有向代理网络共识》，IEEE Trans。自动化。控制，56，6，1436-1441（2011）·Zbl 1368.93015号
[22]	于伟（Yu，W.）。；曹，J。；陈，G。；卢，J。；Han，J。；Wei，W.，复杂网络模型的本地同步，IEEE Trans。系统。人类网络。B、 39、1、230-241（2008）
[23]	于伟（Yu，W.）。；曹，J。；Lü，J.，具有时变延迟的线性混合耦合网络的全局同步，SIAM J.Appl。动态。系统。，7, 1, 108-133 (2008) ·Zbl 1161.94011号
[24]	谢永平。；卡维斯，A。；罗兰，P。；Cevher，V.，镜像Langevin动力学，（神经信息处理系统进展（2018）），2878-2887
[25]	贝克，J。；费恩黑德，P。；福克斯，E。；Nemeth，C.，概率单纯形的大尺度随机抽样，（神经信息处理系统进展（2018）），6721-6731
[26]	横滨，S。；大冢，T。；Sato，I.，关于随机梯度MCMC中的变换（2019），arXiv预印本arXiv:1903.02750
[27]	马，Y.-A。；陈，Y。；Jin，C。；弗拉马利翁，N。；Jordan，M.I.，《采样可能比优化更快》，Proc。国家。阿卡德。科学。，116、42、第20881-20885条（2019年）·Zbl 1433.68397号
[28]	Bakry，D.，关于马尔可夫半群的Sobolev不等式和对数Soboleve不等式，新趋势Stoch。分析。，43-75（1997），（查林沃思，1994）
[29]	Bakry，D。；Gentil，I。；Ledoux，M.，《马尔可夫扩散算子的分析与几何》，第348卷（2013），施普林格科学与商业媒体
[30]	Malrieu，F.，一些非线性偏微分方程的对数Sobolev不等式，Stoch。过程。申请。，95, 1, 109-132 (2001) ·Zbl 1059.60084号
[31]	Veretennikov，A.，关于McKean-Vlasov随机方程的遍历测度，（蒙特卡罗和准蒙特卡罗方法2004（2006），Springer），471-486·Zbl 1098.60056号
[32]	Nesterov，Y.，《凸优化讲座》，第137卷（2018），Springer·兹比尔1427.90003
[33]	Bubeck，S.，《凸优化：算法和复杂性》（2014），arXiv预打印arXiv:1405.4980
[34]	Pettersson，R.，凸约束随机微分方程的投影格式，随机过程。申请。，88, 1, 125-134 (2000) ·兹比尔1045.60062
[35]	Storm，A.，带凸约束的随机微分方程，Stoch。斯托克。代表，53，3-4，241-274（1995）·Zbl 0854.60053号
[36]	Pavliotis，G.A.，《随机过程和应用：扩散过程，福克-普朗克和朗之万方程》，第60卷（2014年），斯普林格出版社·Zbl 1318.60003号
[37]	Wilson，A.，Lyapunov Arguments in Optimization（2018），加州大学：加州大学伯克利分校
[38]	Q.Li，C.Tai，E.Weinan，《随机修正方程和自适应随机梯度算法》，载《机器学习国际会议》，2017年，第2101-2110页。
[39]	李强。；Tai，C。；Weinan，E.，随机修正方程与随机梯度算法动力学I：数学基础。，J.马赫。学习。决议，20（2019），40-1·Zbl 1484.62106号
[40]	Mandt，S。；医学博士霍夫曼。；Blei，D.M.，《随机梯度下降作为近似贝叶斯推断》，J.Mach。学习。研究，18，1，4873-4907（2017）·Zbl 1442.62055号
[41]	梅斯巴希，M。；Egerstedt，M.，《多智能体网络中的图论方法》（2010），普林斯顿大学出版社·Zbl 1203.93001号
[42]	M.Raginsky，A.Rakhlin，M.Telgarsky，通过随机梯度的非凸学习Langevin动力学：非共振分析，载于：学习理论会议，2017年，第1674-1703页。
[43]	Shi，B。；苏·W·J。；Jordan，M.I.，《学习率与薛定谔算子》（2020），arXiv预印本arXiv:2004.06977
[44]	朱，Z。；吴杰。；Yu，B。；Wu，L。；Ma，J.，随机梯度下降中的各向异性噪声：其逃避极小值和正则化效应的行为（2018），arXiv预印本arXiv:1803.00195
[45]	Helffer，B.，关于相关性衰减和Witten-Laplacians Brascamp-Lieb不等式和半经典极限的评论，J.Funct。分析。，155, 2, 571-586 (1998) ·Zbl 0921.35141号
[46]	张，S。；Choromanska，A.E。；LeCun，Y.，利用弹性平均值进行深度学习SGD，（神经信息处理系统进展（2015）），685-693
[47]	博伊德，S。；Diaconis，P。；肖，L.，图上最快混合马尔可夫链，SIAM Rev.，46，4，667-689（2004）·Zbl 1063.60102号
[48]	A.Borovykh，P.Parpas，N.Kantas，G.Pavliotis，互动与否？交互随机镜像下降的收敛特性，载于：国际机器学习会议（ICML）关于“机器学习系统中超越一阶方法”的研讨会，2020。
[49]	马利厄，F。；Talay，D.，Euler格式的集中不等式，（蒙特卡罗和准蒙特卡罗方法2004（2006），Springer），355-371·Zbl 1097.65012号
[50]	Ledoux，M.，《测度集中与对数Sobolev不等式》（Seminaire de Probabilites XXXII（1999），Springer），120-216·Zbl 0957.60016号
[51]	奥托，F。；Villani，C.，Talagrand对不等式的推广以及与对数Sobolev不等式的联系，J.Funct。分析。，173, 2, 361-400 (2000) ·Zbl 0985.58019号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

关于具有相互作用粒子的随机镜像下降：收敛特性和方差减少。（英语） Zbl 1498.90155号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

关于具有相互作用粒子的随机镜像下降：收敛特性和方差减少。 （英语） Zbl 1498.90155号

MSC公司：

关键词：

软件：

参考文献：

关于具有相互作用粒子的随机镜像下降：收敛特性和方差减少。（英语） Zbl 1498.90155号