文件Zbl 1433.62175-zbMATH打开

方差减少的随机次采样牛顿法。（英语） Zbl 1433.62175号

国际J.Wavelets多分辨率。信息处理。 17，第6号，文章ID 195041，23 p.（2019）.

摘要：自引入带有方差减少技术的随机梯度方法以来，大规模机器学习问题的随机优化得到了极大的发展。已经提出了几种随机二阶方法来改进，这些方法在随机环境中近似Hessian的曲率信息。本文介绍了一种随机子样本方差约简牛顿法（S2NMVR），该方法将子样本牛顿法和随机方差约简梯度相结合。对于许多机器学习问题，线性时间Hessian向量产生为S2NMVR的计算效率提供了证据。然后，我们开发了两种S2NMVR变体，它们保留了Hessian逆的估计，并降低了非线性问题Hessian向量积的计算成本。

MSC公司：

62华氏35	多元分析中的图像分析
65千5	数值数学规划方法
68T05型	人工智能中的学习和自适应系统
90C06型	数学规划中的大尺度问题
90C25型	凸面编程

关键词：

大规模随机优化；亚采样牛顿法；方差减少；线性收敛

软件：

阿达格拉德；传奇；菲尼托

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Agarwal，N.、Bullins，B.和Hazan，E.，线性时间机器学习的二阶随机优化，J.Mach。学习。第18（116）（2017）1-40号决议·Zbl 1441.90115号
[2]	Astorino，A.、Fuduli，A.和Gaudioso，M.，机器学习中分类问题的非线性规划，AIP Conf.Proc.1776（1）（2016）040004·Zbl 1258.90066号
[3]	Bottou，L.、Curtis，F.E.和Nocedal，J.，《大规模机器学习的优化方法》，SIAM Rev.60（2）（2018）223-311·Zbl 1397.65085号
[4]	G.Bouchard、T.Trouillon、J.Perez和A.Gaidon，《在线学习样本》，预印本（2015），arXiv:1506.09016。
[5]	Byrd，R.H.、Chin，G.M.、Neveitt，W.和Nocedal，J.，《关于随机粗麻布信息在机器学习优化方法中的使用》，SIAM J.Optim.21（3）（2011）977-995·Zbl 1245.65062号
[6]	Byrd，R.H.，Hansen，S.L.，Nocedal，J.和Singer，Y.，《大规模优化的随机拟牛顿法》，SIAM J.Optim.26（2）（2015）1008-1031·Zbl 1382.65166号
[7]	Defazio，A.，Bach，F.和Lacostejulien，S.，SAGA：支持非强凸复合目标的快速增量梯度方法，见Proc。神经信息处理。系统。（2014），第1646-1654页。
[8]	Defazio，A.等人，Finito：一种用于大数据问题的更快、可置换的增量梯度方法，见Proc。ACM Int.Conf.Machine Learning（中国北京，2014），第1125-1133页。
[9]	Duchi，J.，Hazan，E.和Singer，Y.，在线学习和随机优化的自适应次梯度方法，J.Mach。学习。第12（7）号决议（2011）257-269·Zbl 1280.68164号
[10]	Johnson，R.和Zhang，T.，使用预测方差减少加速随机梯度下降，Proc。神经信息处理。系统。（2013），第315-323页。
[11]	R.Kiros，用随机无hessian优化训练神经网络，预印本（2013），arXiv:1301.3641。
[12]	Kolte，R.、Erdogdu，M.和OzgüR，A.，《通过二阶信息加速SVRG》，NIPS机器学习优化研讨会（2015）。
[13]	科内肯ỳ, J.和Richtárik，P.，《半随机梯度下降法》，Front。申请。数学。统计数据3（2017）9·Zbl 1386.90080号
[14]	A.Lucchi、B.Mcwilliams和T.Hofmann，《方差减少随机牛顿法》，预印本（2015），arXiv:1503.08316。
[15]	L.Luo，Z.Chen，Z.Zhang，W.J.Li，方差缩减二阶方法，预印本（2016），arXiv:1602.00223。
[16]	Mairal，J.，《应用于大规模机器学习的增量优化-最小化优化》，SIAM J.Optim.25（2）（2014）829-855·Zbl 1320.90047号
[17]	Martens，J.，《通过无Hessian优化进行深度学习》，收录于Proc。ACM Int.Conf.Machine Learning（以色列海法，2010），第735-742页。
[18]	J.Martens，《自然梯度法的新见解和观点》，预印本（2014），arXiv:1412.1193·Zbl 07306852号
[19]	Martens，J.和Sutskever，I.，利用无Hessian优化学习递归神经网络，Proc。ACM Int.Conf.Machine Learning（美国华盛顿贝尔维尤，2011），第1033-1040页。
[20]	Moritz，P.、Nishihara，R.和Jordan，M.I.，线性收敛随机l-BFGS算法，见Proc。国际人工智能与统计会议（西班牙加的斯，2016），第249-258页。
[21]	Nesterov，Y.，坐标下降法在大规模优化问题上的效率，SIAM J.Optim.22（2）（2012）341-362·Zbl 1257.90073号
[22]	Y.Ollivier，《神经网络的黎曼度量：前馈网络》，预印本（2013），arXiv:1303.0818·Zbl 1380.68337号
[23]	Robbins，H.和Monro，S.，《随机近似方法》，《数学年鉴》。统计数字22（3）（1951）400-407·兹比尔0054.05901
[24]	Roux，N.L.，Schmidt，M.和Bach，F.R.，有限训练集指数收敛率随机梯度法，Proc。神经信息处理。系统。（美国内华达州塔霍湖，2012年），第2663-2671页。
[25]	Sa，C.D.，Re，C.和Olukotun，K.，一些非凸矩阵问题随机梯度下降的全局收敛性，见Proc。ACM Int.Conf.Machine Learning（法国里尔，2015），第2332-2341页。
[26]	Schmidt，M.，Roux，N.L.和Bach，F.，利用随机平均梯度最小化有限和，数学。项目26（5）（2013）405-11。
[27]	Schraudolph，N.N.，Yu，J.和Gunter，S.，在线凸优化的随机拟牛顿方法，J.Mach。学习。决议2（2007）436-443。
[28]	Shalevshwartz，S.和Zhang，T.，《近距离随机双坐标上升》，《数学》（2012）。
[29]	伍德拉夫，D.P.，《素描作为数字线性代数的工具》，Found。趋势理论。计算。科学10（2014）1-157·Zbl 1316.65046号
[30]	Xiao，L.和Zhang，T.，带逐步方差减少的近似随机梯度法，SIAM J.Optim.24（4）（2014）2057-2075·Zbl 1321.65016号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

方差减少的随机次采样牛顿法。（英语） Zbl 1433.62175号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

方差减少的随机次采样牛顿法。 （英语） Zbl 1433.62175号

MSC公司：

关键词：

软件：

参考文献：

方差减少的随机次采样牛顿法。（英语） Zbl 1433.62175号