×

机器学习优化方法中的样本量选择。 (英语) Zbl 1252.49044号

摘要:本文提出了一种在大规模机器学习问题的批类型优化方法中使用不同样本大小的方法。本文的第一部分讨论了函数和梯度评估中动态样本选择的微妙问题。我们提出了一个基于批梯度计算过程中获得的方差估计来增加样本量的准则。我们在梯度方法的总代价上建立了({O(1/\epsilon)})复杂性界。本文的第二部分描述了一种实用的牛顿方法,该方法使用较小的样本计算Hessian向量积,而不是计算函数和梯度,并且还使用了动态采样技术。在论文的第三部分,本文的重点转移到设计用于产生稀疏解的\(L_{1}\)正则化问题上。我们提出了一种由两个阶段组成的类牛顿方法:识别零变量的(最小)梯度投影阶段和在自由变量中应用子采样Hessian Newton迭代的子空间阶段。语音识别问题的数值测试表明了算法的性能。

MSC公司:

49英里15 牛顿型方法
49立方米 基于非线性规划的数值方法
65千5 数值数学规划方法
68T05型 人工智能中的学习和自适应系统
90立方 非线性规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,A.,Duchi,J.:分布式延迟随机优化。Arxiv预印Arxiv:1104.5525(2011)
[2] Andrew,G.,Gao,J.:l1-正则对数线性模型的可缩放训练。摘自:《第24届机器学习国际会议论文集》,第33-40页。ACM(2007)
[3] Bastin F.,Cirillo C.,Toint P.L.:计算混合logit估计量的自适应蒙特卡罗算法。计算。管理。科学。3(1), 55–79 (2006) ·Zbl 1136.62086号 ·doi:10.1007/s10287-005-0044-y
[4] Beck A.,Teboulle M.:线性反问题的快速迭代收缩阈值算法。SIAM J.成像科学。2(1), 183–202 (2009) ·兹比尔1175.94009 ·doi:10.1137/080716542
[5] Bertsekas D.P.:关于Goldstein-Levitin-Poljak梯度投影法。IEEE传输。自动。控制AC-21、174–184(1976)·Zbl 0326.49025号 ·doi:10.1109/TAC.1976.1101194
[6] Bottou L.,Bousquet O.:大规模学习的权衡。摘自:Platt,J.、Koller,D.、Singer,Y.、Roweis,S.(编辑)《神经信息处理系统进展》,第20卷,第161-168页。麻省理工学院出版社,马萨诸塞州剑桥(2008)
[7] Byrd,R.,Chin,G.M.,Neveitt,W.,Nocedal,J.:关于无约束优化中随机Hessian信息的使用。SIAM J.Optim公司。21(3), 977–995 (2011) ·Zbl 1245.65062号
[8] Conn A.R.,Gould N.I.M.,Toint P.L.:一种全局收敛的增广拉格朗日算法,用于一般约束和简单边界的优化。SIAM J.数字。分析。28(2), 545–572 (1991) ·Zbl 0724.65067号 ·doi:10.1137/0728030
[9] Dai Y.,Fletcher R.:大型箱约束二次规划的投影Barzilai-Borwein方法。数字数学100(1),21–47(2005)·Zbl 1068.65073号 ·doi:10.1007/s00211-004-0569-y
[10] Dekel,O.、Gilad-Bachrach,R.、Shamir,O.和Xiao,L.:使用微型备份的最佳分布式在线预测。Arxiv预印本Arxiv:1012.1367(2010)·Zbl 1283.68404号
[11] Deng G.,Ferris M.C.:可变数量样本路径优化。数学。程序。117(1–2), 81–109 (2009) ·Zbl 1165.90013号 ·doi:10.1007/s10107-007-0164-y
[12] Donoho D.:通过软阈值去噪。信息理论IEEE Trans。41(3),613–627(1995年)·Zbl 0820.62002号 ·doi:10.1109/18.382009年
[13] Duchi,J.,Shalev-Shwartz,S.,Singer,Y.,Tewari,A.:复合物镜下降。摘自:第二十三届计算学习理论年会论文集。Citeser(2010)
[14] Duchi J.,Singer Y.:使用正向-反向分裂实现高效在线和批量学习。J.马赫。学习。第10号决议,2899–2934(2009年)·Zbl 1235.62151号
[15] Figueiredo M.、Nowak R.、Wright S.:稀疏重建的梯度投影:应用于压缩传感和其他反问题。IEEE J.选择。顶部。信号处理。1(4), 586–597 (2007) ·doi:10.1109/JSTSP.2007.910281
[16] Freund J.E.:数理统计。新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔(1962)·Zbl 0142.15001号
[17] Friedlander,M.,Schmidt,M.:数据拟合的混合确定性随机方法。Arxiv预印本Arxiv:1104.2373(2011)
[18] Hager W.W.,Zhang H.:箱约束优化的一种新的活动集算法。SIOPT 17(2),526–557(2007)·Zbl 1165.90570号
[19] Homem-de-Mello T.:随机优化的可变样本方法。ACM事务处理。模型。计算。模拟。13(2), 108–133 (2003) ·数字对象标识代码:10.1145/858481.858483
[20] Kleywegt A.J.、Shapiro A.、Homem-de-Mello T.:随机离散优化的样本平均近似方法。SIAM J.Optim公司。12(2), 479–502 (2001) ·Zbl 0991.90090号 ·doi:10.1137/S1052623499363220
[21] Lin C.,MoréJ.等人:求解大型有界约束优化问题的牛顿方法。SIAM J.Optim公司。9(4), 1100–1127 (1999) ·Zbl 0957.65064号 ·doi:10.1137/S1052623498345075
[22] Martens,J.:通过Hessian免费优化进行深度学习。摘自:第27届国际机器学习会议(ICML)会议记录(2010年)
[23] Nesterov Y.:凸问题的原对偶次梯度方法。数学。程序。120(1), 221–259 (2009). doi:10.1007/s10107-007-0149-x·Zbl 1191.90038号 ·doi:10.1007/s10107-007-0149-x
[24] Niu,F.,Recht,B.,Ré,C.,Wright,S.:野猪!:一种并行化随机梯度下降的无锁方法。Arxiv预印本Arxiv:1106.5730(2011)
[25] Polyak B.,Juditsky A.:通过平均加速随机近似。SIAM J.控制优化。30, 838 (1992) ·Zbl 0762.62022号 ·doi:10.1137/0330046
[26] Polyak B.T.:极值问题中的共轭梯度法。苏联计算。数学。数学。物理。9, 94–112 (1969) ·兹伯利0229.49023 ·doi:10.1016/0041-5553(69)90035-4
[27] Robbins H.,Monro S.:一种随机近似方法。安。数学。《美国联邦法律大全》第22(3)卷,第400–407页(1951年)·兹比尔0054.05901 ·doi:10.1214/aoms/1177729586
[28] Shapiro A.,Homem-de-Mello T.:基于仿真的两阶段随机规划方法。数学。程序。81, 301–325 (1998) ·Zbl 0919.90120号
[29] Shapiro A.,Homem-de-Mello T.:关于随机程序蒙特卡罗近似最优解的收敛速度。SIAM J.Optim公司。11(1), 70–86 (2000) ·Zbl 0999.90023号 ·doi:10.1137/S1052623498349541
[30] Shapiro A.,Wardi Y.:随机算法的收敛性。数学。操作。第21(3)号决议,615-628(1996)·Zbl 0868.90114号 ·doi:10.1287/门21.3.615
[31] Vishwanathan,S.,Schraudolph,N.,Schmidt,M.,Murphy,K.:使用随机梯度方法加速条件随机场的训练。摘自:《第23届机器学习国际会议论文集》,第969-976页。ACM(2006)
[32] Wright,S.:用于正则化优化的加速块坐标松弛。威斯康星大学计算机科学系技术代表(2010年)·Zbl 1357.49105号
[33] Wright S.,Nowak R.,Figueiredo M.:可分离近似的稀疏重建。信号处理。IEEE传输。57(7), 2479–2493 (2009) ·Zbl 1391.94442号 ·doi:10.1109/TSP.2009.2016892
[34] Xiao L.:正则化随机学习和在线优化的双重平均方法。J.马赫。学习。第9999、2543–2596号决议(2010年)·Zbl 1242.62011年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。