×

通过平均值进行分布式线性回归。 (英语) Zbl 1486.62199号

分布式机器学习系统因其处理大规模数据的效率而受到越来越多的关注。通过分而治之方法的分布式回归包括三个阶段。首先,将数据划分为多个子集。然后对每个子集应用基本回归算法来学习局部回归模型。最后,对局部模型进行平均,以生成最终回归模型,用于预测分析或统计推断。这种方法计算效率高,因为第二阶段可以很容易地并行化。此外,由于局部模型训练不需要计算节点之间的相互通信,因此它可以在很大程度上保持隐私和机密性。
近年来,分布回归的统计特性和学习性能的研究越来越受到人们的关注。核岭回归在许多情况下的渐近最小最大最优学习率已经过验证(参见[Y.Zhang先生,J.杜奇M.温赖特,《分治核岭回归》,载于:学习理论会议。592–617 (2013),https://proceedings.mlr.press/v30/张13.html]和[S.-B.林等,J.Mach。学习。第18号决议,第92号论文,第31页(2017年;Zbl 1435.68273号)]),偏差校正正则化核网络(参见[Z.-C.郭等,J.Mach。学习。第18号决议,第118号论文,第25页(2017年;Zbl 1435.68260号)]),以及具有不完美内核的分布式岭回归(请参见[H.太阳Q.吴,J.马赫。学习。第22号决议,第171号论文,第34页(2021年;Zbl 1528.68348号)]).
本文的分布式学习方案是将线性回归应用于每个样本子集,结果通过参数的加权平均值进行传递。通过引入一个通用的线性函数框架,统一研究了估计和预测。发现了一些关键现象。首先,一步平均法不可能是最优的。其次,不同的学习和推理问题受到分布式框架的不同影响。第三,渐近效率具有简单的形式,通常是普遍的。第四,样本迭代参数平均机制可以有效地降低误差。

MSC公司:

62J05型 线性回归;混合模型
60对20 随机矩阵(概率方面)
62J07型 岭回归;收缩估计器(拉索)
2005年5月 并行数值计算
68T05型 人工智能中的学习和自适应系统
90C25型 凸面编程

软件:

火花;MapReduce
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,A.、Chapelle,O.、Dudík,M.和Langford,J.(2014)。一个可靠有效的三级线性学习系统。J.马赫。学习。物件。15 1111-1133. ·Zbl 1318.68135号
[2] Ali,A.、Kolter,J.Z.和Tibshirani,R.J.(2019)。最小二乘回归提前停止的连续时间视图。机器学习研究进展89 1370-1378.
[3] Bai,Z.和Silverstein,J.W.(2009年)。大维随机矩阵的谱分析.统计学中的斯普林格系列纽约州施普林格·Zbl 1301.60002号 ·doi:10.1007/978-1-4419-0661-8
[4] Banerjee,M.和Durot,C.(2018年)。消除超效率的诅咒:等渗回归中分布式计算的有效策略。预印本。可从arXiv:1806.08542获得。
[5] Banerjee,M.、Durot,C.和Sen,B.(2019年)。在非标准问题和超效率现象上分而治之。安。统计师。47 720-757. ·Zbl 1416.62259号 ·doi:10.1214/17-AOS1633
[6] Battey,H.、Fan,J.、Liu,H.,Lu,J.和Zhu,Z.(2018年)。稀疏高维模型下的分布式测试和估计。安。统计师。46 1352-1382. ·Zbl 1392.62060号 ·doi:10.1214/17-AOS1587
[7] Bekkerman,R.、Bilenko,M.和Langford,J.(2011年)。扩大机器学习:并行和分布式方法剑桥大学出版社,剑桥。
[8] Bertsekas,D.P.和Tsitsiklis,J.N.(1989年)。并行和分布式计算:数值方法23.新泽西州恩格尔伍德悬崖普伦蒂斯·霍尔·Zbl 0743.65107号
[9] Boyd,S.和Vandenberghe,L.(2004)。凸优化剑桥大学出版社,剑桥·Zbl 1058.90049号 ·doi:10.1017/CBO9780511804441
[10] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2011)。通过交替方向乘数法进行分布式优化和统计学习。已找到。趋势马赫数。学习。3 1-122·Zbl 1229.90122号
[11] Braverman,M.、Garg,A.、Ma,T.、Nguyen,H.L.和Woodruff,D.P.(2016)。通过分布式数据处理不等式解决统计估计问题的通信下界。STOC公司16-会议记录48第届ACM SIGACT计算机理论年会1011-1020. 纽约ACM·Zbl 1373.68235号 ·doi:10.1145/2897518.2897582
[12] Chen,X.,Liu,W.和Zhang,Y.分布估计和推断的一阶牛顿型估计。预印本。可从arXiv:1811.11368获得。
[13] Chen,X.、Liu,W.和Zhang,Y.(2019)。记忆约束下的分位数回归。安。统计师。47 3244-3273. ·Zbl 1436.62134号 ·doi:10.1214/18-AOS1777
[14] Chen,X.和Xie,M.(2014)。用于分析超大数据的分而治之的方法。统计师。西尼卡24 1655-1684. ·Zbl 1480.62258号
[15] Chu,C.-T.,Kim,S.K.,Lin,Y.-A.,Yu,Y.,Bradski,G.,Olukotun,K.和Ng,A.Y.(2007年)。用于多核机器学习的地图还原。神经信息处理系统研究进展281-288.
[16] Couillet,R.和Debbah,M.(2011年)。无线通信中的随机矩阵方法剑桥大学出版社,剑桥·Zbl 1252.94001号 ·doi:10.1017/CBO9780511994746
[17] Couillet,R.、Debbah,M.和Silverstein,J.W.(2011年)。一种用于分析相关MIMO多址信道的确定性等效方法。IEEE传输。Inf.理论57 3493-3514. ·Zbl 1365.94123号 ·doi:10.1109/TIT.2011.2133151
[18] Davis,C.(1957)。厄米矩阵的所有凸不变函数。架构(architecture)。数学。8 276-278. ·Zbl 0086.01702号 ·doi:10.1007/BF01898787
[19] Dean,J.和Ghemawat,S.(2008年)。Mapreduce:简化了大型集群的数据处理。Commun公司。ACM公司51 107-113.
[20] Dobriban,E.和Sheng,Y.(2019年)。高维单点分布岭回归。预印本。可从arXiv:1903.09321获得·Zbl 1498.68232号
[21] Dobriban,E.和Sheng,Y.(2021)。补充“平均分布式线性回归”https://doi.org/10.1214/20-AOS1984SUPP网站
[22] Donoho,D.和Montanari,A.(2016)。高维稳健M估计:通过近似消息传递的渐近方差。普罗巴伯。理论相关领域166 935-969. ·Zbl 1357.62220号 ·doi:10.1007/s00440-015-0675-z
[23] Duchi,J.C.、Agarwal,A.和Wainwright,M.J.(2012年)。分布式优化的双重平均:收敛分析和网络缩放。IEEE传输。自动化。控制57 592-606. ·Zbl 1369.90156号 ·doi:10.1109/TAC.2011.2161027
[24] Duchi,J.C.、Jordan,M.I.、Wainwright,M.J.和Zhang,Y.(2014)。分布式统计估计的最优保证。预打印。可从arXiv:1405.0782获取。
[25] El Karoui,N.、Bean,D.、Bickel,P.J.、Lim,C.和Yu,B.(2013)。关于具有高维预测因子的稳健回归。程序。国家。阿卡德。科学。美国110 14557-14562·兹比尔1359.62184
[26] Fan,J.、Guo,Y.和Wang,K.(2019年)。通信高效准确的统计估计。预印本。可从arXiv:1906.04870获取。
[27] Fan,J.、Wang,D.、Wang、K.和Zhu,Z.(2019年)。主特征空间的分布式估计。安。统计师。47 3009-3031. ·Zbl 1450.62067号 ·doi:10.1214/18-AOS1713
[28] Hachem,W.、Loubaton,P.和Najim,J.(2007年)。大随机矩阵某些泛函的行列式等价。Ann.应用。普罗巴伯。17 875-930. ·兹比尔1181.15043 ·doi:10.1214/105051606000000925
[29] 霍,X.和曹,S.(2019)。聚合推理。威利公司(Wiley Interdiscip)。利润.:计算。斯达。11 e1451,13·doi:10.1002/wics.1451
[30] Jordan,M.I.、Lee,J.D.和Yang,Y.(2019年)。通信效率高的分布式统计推断。J.Amer。统计师。协会。114 668-681. ·Zbl 1420.62097号 ·doi:10.1080/01621459.2018.1429274
[31] Lee,J.D.、Liu,Q.、Sun,Y.和Taylor,J.E.(2017)。通信效率高的稀疏回归。J.马赫。学习。物件。18第5、30号论文·Zbl 1434.62157号
[32] Lewis,A.S.(1996)。厄米矩阵的凸分析。SIAM J.优化。6 164-177. ·Zbl 0849.15013号 ·doi:10.1137/0806009
[33] Lin,S.-B.,Guo,X.和Zhou,D.-X.(2017)。基于正则化最小二乘的分布式学习。J.马赫。学习。物件。18第92、31号文件·Zbl 1435.68273号 ·doi:10.1016/j.physlet.2016.11.035
[34] Liu,Q.和Ihler,A.T.(2014)。分布式估计、信息损失和指数族。神经信息处理系统研究进展1098-1106.
[35] Marchenko,V.A.和Pastur,L.A.(1967年)。特征值在某些随机矩阵集合中的分布。材料锑. (N.S公司.) 72 (114) 507-536. ·Zbl 0152.16101号
[36] Mardia,K.V.、Kent,J.T.和Bibby,J.M.(1979年)。多元分析.概率论与数理统计:一系列专著和教科书《学术出版社》,伦敦·Zbl 0432.62029号
[37] Mcdonald,R.、Mohri,M.、Silberman,N.、Walker,D.和Mann,G.S.(2009年)。条件最大熵模型的高效大规模分布式训练。神经信息处理系统研究进展1231-1239.
[38] Müller,A.和Debbah,M.(2016)。随机矩阵理论-确定性等价物入门。Traitement信号33 223-248.
[39] Nedić,A.和Ozdaglar,A.(2009年)。多智能体优化的分布式次梯度方法。IEEE传输。自动化。控制54 48-61. ·Zbl 1367.90086号 ·doi:10.1109/TAC.2008.2009515
[40] Nesterov,Y.(2009)。凸问题的原对偶次梯度方法。数学。程序。120 221-259. ·Zbl 1191.90038号 ·doi:10.1007/s10107-007-0149-x
[41] Peacock,M.J.M.、Collings,I.B.和Honig,M.L.(2008)。通过增量矩阵展开计算大型随机矩阵的和和乘积的特征值分布。IEEE传输。Inf.理论54 2123-2138. ·Zbl 1328.94021号 ·doi:10.1109/TIT.2008.920221
[42] Rosenblatt,J.D.和Nadler,B.(2016)。关于分布式统计学习中平均的最优性。Inf.推断5 379-404. ·兹比尔1426.68241 ·doi:10.1093/iaiai/iaw013
[43] Rubio,F.和Mestre,X.(2011年)。一类随机矩阵的谱收敛性。统计师。普罗巴伯。莱特。81 592-602. ·Zbl 1214.15022号 ·doi:10.1016/j.spl.2011.01.004
[44] Serdobolskii,V.I.(1983年)。判别分析中的最小错误概率。多克。阿卡德。诺克SSSR27 720-725. ·Zbl 0545.62041号
[45] Serdobolskii,V.I.(2007)。多参数统计阿姆斯特丹爱思唯尔。
[46] Shamir,O.、Srebro,N.和Zhang,T.(2014)。通信效率高的分布式优化,使用近似牛顿型方法。会议记录31第一届国际机器学习会议32 1000-1008.
[47] Shi,C.,Lu,W.和Song,R.(2018)。立方速率M-估计量的海量数据框架。J.Amer。统计师。协会。113 1698-1709. ·Zbl 1409.62105号 ·doi:10.1080/01621459.2017.1360779
[48] Smith,V.、Forte,S.、Ma,C.、Takáč,M.、Jordan,M.I.和Jaggi,M.(2017)。CoCoA:通信效率分布式优化的通用框架。J.马赫。学习。物件。18第230、49号论文·Zbl 1473.68167号
[49] Szabo,B.和van Zanten,H.(2018年)。通信约束下的自适应分布式方法。预印本。可从arXiv:1804.00864获得·Zbl 1455.62097号
[50] Tandon,R.、Lei,Q.、Dimakis,A.G.和Karampatziakis,N.(2017年)。梯度编码:避免分布式学习中的掉队者。机器学习国际会议3368-3376.
[51] Tsitsiklis,J.N.、Bertsekas,D.P.和Athans,M.(1986年)。分布式异步确定性和随机梯度优化算法。IEEE传输。自动化。控制31 803-812. ·兹比尔0602.90120 ·doi:10.10109/TAC.1986.1104412
[52] Tulino,A.M.和Verdú,S.(2004)。随机矩阵理论和无线通信。Commun公司。Inf.理论1 1-182. ·Zbl 1143.94303号
[53] Volgushev,S.、Chao,S.-K.和Cheng,G.(2019年)。分位数回归过程的分布式推理。安。统计师。47 1634-1662. ·Zbl 1418.62174号 ·doi:10.1214/18-AOS1730
[54] Wang,J.、Kolar,M.、Srebro,N.和Zhang,T.(2017)。高效的稀疏分布式学习。会议记录34第届国际机器学习大会70 3636-3645. JMLR.org。
[55] Yao,Y.、Rosasco,L.和Caponetto,A.(2007年)。关于梯度下降学习中的提前停止。施工。大约。26 289-315. ·Zbl 1125.62035号 ·doi:10.1007/s00365-006-0663-2
[56] Zaharia,M.、Chowdhury,M.,Franklin,M.J.、Shenker,S.和Stoica,I.(2010年)。Spark:使用工作集的集群计算。热云10 95.
[57] Zhang,Y.,Duchi,J.和Wainwright,M.(2013a)分治核岭回归。学习理论会议592-617.
[58] Zhang,Y.,Duchi,J.C.和Wainwright,M.J.(2013b)。统计优化的通信高效算法。J.马赫。学习。物件。14 3321-3363. ·Zbl 1318.62016号
[59] Zhang,Y.、Duchi,J.和Wainwright,M.(2015)。分治核岭回归:一种具有极大极小最优速率的分布式算法。J.马赫。学习。物件。16 3299-3340. ·Zbl 1351.62142号
[60] Zhang,Y.、Wainwright,M.J.和Duchi,J.C.(2012)。统计优化的通信高效算法。神经信息处理系统研究进展1502-1510。
[61] Zhao,T.,Cheng,G.和Liu,H.(2016)。海量异构数据的部分线性框架。安。统计师。44 1400-1437. ·Zbl 1358.62050号 ·doi:10.1214/15-AOS1410
[62] Zhu,Y.和Lafferty,J.(2018)。通信约束下的分布式非参数回归。预印。arXiv:1803.01302提供。
[63] Zinkevich,M.、Langford,J.和Smola,A.J.(2009年)。慢学习者速度快。神经信息处理系统研究进展2331-2339.
[64] Zinkevich,M.、Weimer,M.,Li,L.和Smola,A.J.(2010年)。并行随机梯度下降。神经信息处理系统研究进展2595-2603
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。