×

最小二乘回归随机梯度下降的并行化:最小支撑、平均和模型错误指定。 (英语) Zbl 1469.68088号

总结:这项工作描述了随机梯度下降(SGD)中广泛使用的平均技术的优点。特别是,这项工作对以下方面进行了深入的分析:(1)微型备份,这是一种对随机梯度的多个样本进行平均的方法,既可以减少随机梯度估计的方差,又可以并行化SGD;(2)尾部平均,一种方法,包括对SGD的最后几次迭代求平均值,以减少SGD的最终迭代中的方差。对于最小二乘回归的随机逼近问题,本文给出了这些方案的精确有限样本泛化误差界。
此外,这项工作建立了一个精确的与问题相关的范围,在该范围内,可以使用微型备份在批大小为1的SGD上获得可证明的近线性并行加速。当考虑SGD最终迭代的超额风险时,此特征用于理解学习率与批量大小之间的关系程序。接下来,这种微型特征被用于提供一种高度并行化的SGD方法,该方法通过与批梯度下降几乎相同的串行更新次数来实现最小最大风险,大大优于现有的SGD风格方法。在此基础上,给出了模型平均的非渐近超额风险界(这是一种高效通信的并行化方案)。
最后,这项工作揭示了SGD在处理不可实现最小二乘问题中的错误指定模型时行为的基本差异。本文表明,最大步长确保了误报情况下的最小最大风险必须取决于噪声特性。
本文使用的分析工具推广了平均SGD的算子观点(Défossez和Bach,2015),然后开发了一种新的分析方法来界定这些算子,以表征推广误差。这些技术在分析随机变量的各种计算方面具有广泛的兴趣近似值。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62J05型 线性回归;混合模型
68宽10 计算机科学中的并行算法
90立方厘米15 随机规划
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Alekh Agarwal、Peter L.Bartlett、Pradeep Ravikumar和Martin J.Wainwright。随机凸优化预言复杂性的信息论下界。IEEE信息理论汇刊,2012年·Zbl 1365.94132号
[2] 泽源艾伦-朱。卡秋莎:随机梯度法的第一次直接加速。CoRR,abs/1603.059532016年·Zbl 1369.68273号
[3] 丹·安巴尔。使用随机逼近程序的最优估计方法。加利福尼亚大学,1971年·Zbl 0277.62064号
[4] 弗朗西斯·巴赫和埃里克·穆林斯。机器学习随机近似算法的非症状分析。神经信息处理系统(NIPS)2011年第24期。
[5] 弗朗西斯·巴赫。logistic回归中平均随机梯度下降对局部强凸性的适应性。《机器学习研究杂志》(JMLR),第15卷,2014年·Zbl 1318.62224号
[6] 弗朗西斯·巴赫(Francis R.Bach)和埃里克·穆林斯(Eric Moulines)。收敛速度为O(1/n)的非严格凸光滑随机逼近。在神经信息处理系统(NIPS)中,2013年26日。
[7] 拉金德拉·巴蒂亚。正定矩阵。普林斯顿应用数学系列。普林斯顿大学出版社,2007年·Zbl 1133.15017号
[8] L´eon Bottou和Olivier Bousquet。大规模学习的权衡。神经信息处理系统(NIPS)2007年第20期。
[9] L´eon Bottou、Frank E Curtis和Jorge Nocedal。大规模机器学习的优化方法。arXiv预印arXiv:1606.048382016·Zbl 1397.65085号
[10] Joseph K.Bradley、Aapo Kyrola、Danny Bickson和Carlos Guestrin。l1-正则化损失最小化的平行坐标下降。在2011年国际机器学习会议(ICML)上。
[11] 路易斯·奥古斯丁·考西(Louis Augustin Cauchy)。同时求解系统方程的方法。C.R.学院。科学。巴黎,1847年。
[12] Andrew Cotter、Ohad Shamir、Nati Srebro和Karthik Sridharan。通过加速梯度方法实现更好的微差算法。神经信息处理系统(NIPS)2011年第24期。
[13] 亚伦·德法齐奥。一种简单实用的有限和加速方法。神经信息处理系统(NIPS)2016年第29期。
[14] Aaron Defazio、Francis R.Bach和Simon Lacoste-Julien。SAGA:一种支持非强凸复合目标的快速增量梯度方法。神经信息处理系统(NIPS)2014年第27期。
[15] 亚历山大·德福塞兹和弗朗西斯·巴赫。平均最小均方:偏方差权衡和最佳抽样分布。人工智能与统计(AISTATS),2015年。39
[16] Ofer Dekel、Ran Gilad-Bachrach、Ohad Shamir和Lin Xiao。使用微型备份的最佳分布式在线预测。机器学习研究杂志(JMLR),第13卷,2012年·Zbl 1283.68404号
[17] 艾默尔·迪乌列维特和弗朗西斯·巴赫。步长较大的非参数随机逼近。《统计年鉴》,2015年·Zbl 1346.60041号
[18] John C.Duchi、Sorathan Chaturapreek和Christopher R´e。异步随机凸优化。CoRR,abs/1508.00882015年。
[19] 瓦茨拉夫·费边。渐近有效随机逼近;RM案例。《统计年鉴》,1(3),1973年·Zbl 0258.62048号
[20] 罗伊·弗罗斯蒂格(Roy Frostig)、荣格(Rong Ge)、沙姆·卡卡德(Sham Kakade)和亚伦·西德福德(Aaron Sidford)。非规则化:近似接近点和快速随机算法,用于经验风险最小化。在国际机器学习会议(ICML)上,2015年a。
[21] 罗伊·弗罗斯蒂格(Roy Frostig)、荣格(Rong Ge)、沙姆·M·卡卡德(Sham M.Kakade)和亚伦·西德福德(Aaron Sidford)。与经验风险最小化者单程竞争。学习理论会议(COLT),2015b。
[22] Priya Goyal、Piotr Doll´ar、Ross Girshick、Pieter Noordhuis、Lukasz Wesolowski、Aapo Kyrola、Andrew Tulloch、Yangqing Jia和Kaiming He。准确、大批量的sgd:在1小时内训练imagenet。arXiv预印arXiv:1706.026772017。
[23] Pratek Jain、Chi Jin、Sham M.Kakade、Praneeth Netrapalli和Aaron Sidford。流式主成分分析:匹配矩阵bernstein和oja算法的近最优有限样本保证。学习理论会议(COLT),2016a。
[24] Pratek Jain、Sham M Kakade、Rahul Kidambi、Praneeth Netrapalli和Aaron Sidford。通过微型平衡和尾部平均化并行化随机近似。arXiv预打印arXiv:1610.037742016b。
[25] Pratek Jain、Sham M Kakade、Rahul Kidambi、Praneeth Netrapalli、Venkata Krishna Pilutla和Aaron Sidford。描述随机梯度下降的极小极大最优性的马尔可夫链理论方法(对于最小二乘法)。arXiv预打印arXiv:1710.09430,2017a。
[26] Pratek Jain、Sham M Kakade、Rahul Kidambi、Praneeth Netrapalli和Aaron Sidford。加速随机梯度下降。arXiv预打印arXiv:1704.08227,2017b。
[27] Rie Johnson和Tong Zhang。使用预测方差减少加速随机梯度下降。神经信息处理系统(NIPS)2013年第26期。
[28] Harold J.Kushner和Dean S.Clark,约束和非约束系统的随机逼近方法。Springer-Verlag,1978年·Zbl 0381.60004号
[29] 哈罗德·库什纳和G.尹。分布式和通信随机近似算法的渐近性质。SIAM控制与优化杂志,25(5):1266–12901987·Zbl 0637.62078号
[30] 哈罗德·库什纳和G.尹。随机近似和递归算法及应用。施普林格出版社,2003年。40 ·Zbl 1026.62084号
[31] 埃里希·莱曼和乔治·卡塞拉。点估计理论。统计学中的施普林格文本。斯普林格,1998年·Zbl 0916.62017号
[32] Mu Li、Tong Zhang、Yuqiang Chen和Alexander J.Smola。针对随机优化的高效微型训练。知识发现和数据挖掘(KDD),2014年。
[33] 林洪洲(Hongzhou Lin)、朱利安·迈拉尔(Julien Mairal)和扎迪·哈察伊。一级优化通用催化剂。神经信息处理系统(NIPS),2015年。
[34] 吉迪恩·曼(Gideon Mann)、瑞恩·麦克唐纳(Ryan T.McDonald)、梅赫亚尔·莫赫里(Mehryar Mohri)、内森·西尔伯曼(Nathan Silberman)和丹·沃克(Dan Walker)。条件最大熵模型的高效大规模分布式训练。神经信息处理系统(NIPS)2009年第22期。
[35] Stephen Merity、Nitish Shirish Keskar和Richard Socher。规范和优化lstm语言模型。arXiv预印arXiv:1708.021822017。
[36] 迪安娜·尼德尔(Deanna Needell)、内森·斯雷布罗(Nathan Srebro)和雷切尔·沃德(Rachel Ward)。随机梯度下降、加权采样和随机kaczmarz算法。《数学规划》,第155卷,2016年·兹比尔1333.65070
[37] 阿卡迪·S·内米洛夫斯基(Arkadi S.Nemirovsky)和大卫·B·尤丁(David B.Yudin)。优化中的问题复杂性和方法效率。约翰·威利,1983年·Zbl 0501.90062号
[38] 尤里·内斯特罗夫。一种求解收敛速度为O(1/k2)的无约束凸极小化问题的方法。Doklady AN SSSR,2691983年。
[39] Feng Niu、Benjamin Recht、Christopher Re和Stephen J.Wright。Hogwild:一种并行化随机梯度下降的无锁方法。神经信息处理系统(NIPS)2011年第24期。
[40] 鲍里斯·波利亚克(Boris T.Polyak)。加速迭代法收敛的一些方法。苏联计算数学和数学物理,1964年4月。
[41] Boris T.Polyak和Anatoli B.Juditsky。通过平均加速随机近似。SIAM J Control Optim,第30卷,1992年·Zbl 0762.62022号
[42] 赫伯特·罗宾斯和萨顿·蒙罗。一种随机近似方法。安。数学。《法律总汇》,第22卷,1951年·Zbl 0054.05901号
[43] 乔纳森·罗森布拉特和波阿斯·纳德勒。关于分布式统计学习中平均的最优性。CoRR,abs/1407.27242014年·兹比尔1426.68241
[44] 尼古拉斯·勒鲁(Nicolas Le Roux)、马克·施密特(Mark Schmidt)和弗朗西斯·巴赫(Francis R.Bach)。针对有限训练集的强凸优化问题,提出了一种指数收敛的随机梯度法。神经信息处理系统(NIPS),2012年25月。
[45] 大卫·鲁珀特(David Ruppert)。慢收敛robbins-monro过程的有效估计。技术报告,ORIE,康奈尔大学,1988年。
[46] Shai Shalev-Shwartz和Tong Zhang。正则化损失最小化的随机对偶坐标上升方法。CoRR,abs/1209.18732012年。41 ·Zbl 1307.68073号
[47] Shai Shalev-Shwartz和Tong Zhang。加速微支撑随机双坐标上升。神经信息处理系统(NIPS)26,2013a·Zbl 1307.68073号
[48] Shai Shalev-Shwartz和Tong Zhang。加速微支撑随机双坐标上升。神经信息处理系统(NIPS)26,2013b·Zbl 1307.68073号
[49] Samuel L Smith、Pieter-Jan Kindermans和Quoc V Le。不要降低学习速度,增加批量大小。arXiv预印arXiv:1711.004892017。
[50] 马丁·塔克(Martin Tak´ac)、阿夫琳·辛格·比杰拉尔(Avleen Singh Bijral)、彼得·里奇塔里克(Peter Richt´arik)和纳蒂·斯雷布罗(Nati Srebro)。SVM的微型备份主方法和对偶方法。2013年第28卷,国际机器学习会议(ICML)。
[51] Martin Tak´ac、Peter Richt´arik和Nati Srebro。分布式微型备份。CoRR,abs/1507.083222015年。
[52] 阿德·范德法特(Aad W.van der Vaart)。渐进统计。剑桥大学出版社,2000年·Zbl 1013.62031号
[53] 张雨晨和林晓。Disco:针对自相关经验损失的分布式优化。在2015年国际机器学习会议(ICML)上。
[54] 张玉晨、约翰·C·杜奇和马丁·温赖特。分治岭回归:一种具有最小最大最优速率的分布式算法。机器学习研究杂志(JMLR),第16卷,2015年·兹比尔1351.62142
[55] Martin A.Zinkevich、Alex Smola、Markus Weimer和Lihong Li。并行随机梯度下降。神经信息处理系统(NIPS)2011年第24期。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。