×

通信效率高的分布式特征空间估计。 (英语) Zbl 1476.62198号

摘要:分布式计算是一种扩展机器学习和数据科学算法以处理大量数据的标准方法。在这种情况下,避免机器之间的通信对于实现高性能至关重要。避免通信的常见做法是在每台机器上计算局部解或参数估计,然后将结果合并,而不是分散现有算法的计算;在许多凸优化问题中,即使是局部解的简单平均也能很好地工作。然而,当局部解决方案不唯一时,这些方案不起作用。光谱法是此类问题的集合,其中的解是相关数据矩阵的前导不变子空间的正交基。这些解只有在旋转和反射时才是唯一的。在这里,我们开发了一种通信效率高的分布式算法,用于计算数据矩阵的前导不变子空间。我们的算法使用了一种新的对齐方案,该方案将局部解与参考解之间的Procrustean距离最小化,并且只需要单轮通信。对于主成分分析(PCA)的重要情况,我们表明我们的算法实现了与集中式估计器类似的错误率。我们通过数值实验证明了我们提出的算法对于分布式PCA以及解决方案具有旋转对称性的其他问题的有效性,例如图形数据的节点嵌入和二次传感的谱初始化。

MSC公司:

62M15型 随机过程和谱分析的推断
62H25个 因子分析和主成分;对应分析
62-08 统计问题的计算方法
2015财年65 矩阵特征值和特征向量的数值计算
65层55 低阶矩阵逼近的数值方法;矩阵压缩
87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin、S.Ghemawat、I.Goodfellow、A.Harp、G.Irving、M.Isard、Y.Jia、R.Jozefowicz、L.Kaiser、M.Kudlur、J.Levenberg、D.Mane、R.Monga、S.Moore、D.Murray、C.Olah、M.Schuster、J.Shlens、B.Steiner、I.Sutskever、K.Talwar、P.Tucker、。Vanhoucke、V.Vasudevan、F.Viegas、O.Vinyals、P.Warden、M.Wattenberg、M.Wicke、Yu和X.Zheng,《TensorFlow:异构分布式系统上的大规模机器学习》,预印本,https://arxiv.org/abs/1603.04467, 2016.
[2] Z.Allen Zhu和Y.Li,用于更快CCA和广义特征分解的双加速方法,发表在《第34届国际机器学习会议论文集》(澳大利亚悉尼),D.Precup和Y.W.Teh编辑,Proc。机器。学习。第70号决议,PMLR,2017年,第98-106页,http://proceedings.mlr.press/v70/allen-zhu17b.html。
[3] Z.Allen-Zhu和Y.Li,流媒体k-PCA的首次有效收敛:一个全局、无间隙和近最优的速率,第58届IEEE计算机科学基础研讨会论文集,IEEE,华盛顿特区,2017年,第487-492页,https://doi.org/10.109/focs.2017.51。
[4] M.F.Balcan、Y.Liang、L.Song、D.Woodruff和B.Xie,通信效率分布式内核主成分分析,第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’16,ACM,纽约,2016年,第725-734页,https://doi.org/10.1145/2939672.29339796。
[5] R.Bekkerman、M.Bilenko和J.Langford,《扩大机器学习》,剑桥大学出版社,英国剑桥,2009年,https://doi.org/10.1017/cbo9781139042918。
[6] A.Bhaskara和P.M.Wijewardena,《关于随机k-PCA的分布平均》,摘自《神经信息处理系统进展》32,H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Alche-Buc、E.Fox和R.Garnett,eds.,Curran Associates,Red Hook,NY,2019年,第11026-11035页。
[7] R.Bro、E.Acar和T.G.Kolda,《解决奇异值分解中的符号歧义》,《化学计量学杂志》,22(2008),第135-140页,https://doi.org/10.1002/cem.1122。
[8] E.J.Candes、X.Li和M.Soltanolkotabi,《通过Wirtinger流进行相位恢复:理论和算法》,IEEE Trans。通知。《理论》,61(2015),第1985-2007页,https://doi.org/10.1109/tit.2015.22399924。 ·Zbl 1359.94069号
[9] X.Chen,J.D.Lee,H.Li,Y.Yang,《主成分分析的分布估计:扩大特征空间分析》,J.Amer。统计师。协会,(2021),https://doi.org/101080/01621459.2021.1886937。 ·Zbl 1514.68244号
[10] Y.Chen和E.Candes,求解随机二次方程组几乎与求解线性系统一样容易,摘自《神经信息处理系统进展》28,C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett,eds.,Curran Associates,Red Hook,NY,2015,第739-747页。
[11] Y.Chen、Y.Chi和A.Goldsmith,通过凸规划从二次抽样中进行精确和稳定的协方差估计,IEEE Trans。通知。《理论》,61(2015),第4034-4059页,https://doi.org/10.109/tit.2015.2429594。 ·Zbl 1359.62181号
[12] Y.Chen、L.Su和J.Xu,对抗环境中的分布式统计机器学习,Proc。ACM测量。分析。计算。系统。,1(2017),第1-25页,https://doi.org/10.1145/3154503。
[13] Chi Y.M.Lu和Y.Chen,非凸优化满足低秩矩阵分解:概述,IEEE Trans。信号处理。,67(2019),第5239-5269页,https://doi.org/10.109/tsp.2019.2937282。 ·Zbl 07123429号
[14] A.Damle和Y.Sun,不变子空间扰动的一致界,SIAM J.矩阵分析。申请。,41(2020年),第1208-1236页,https://doi.org/10.1137/19M1262760。 ·Zbl 07301584号
[15] J.Duchi、A.Agarwal和M.Wainwright,分布式优化的双重平均:收敛分析和网络缩放,IEEE Trans。自动化。控制,57(2012),第592-606页,https://doi.org/10.109/tac.2011.2161027。 ·Zbl 1369.90156号
[16] J.C.Duchi、M.I.Jordan、M.J.Wainwright和Y.Zhang,分布式统计估计的最优保证,预印本,https://arxiv.org/abs/1405.0782, 2014.
[17] N.El Karoui和A.d'Aspremont,超大矩阵的二阶精确分布特征向量计算,电子。J.统计。,4(2010),第1345-1385页,https://doi.org/10.1214/10-ejs577。 ·兹比尔1329.65074
[18] 范建华,王德华,王国强,朱忠,主特征空间的分布估计,统计年鉴。,47(2019),第3009-3031页,https://doi.org/10.1214/18-aos1713。 ·Zbl 1450.62067号
[19] D.Feldman、M.Schmidt和C.Sohler,《将大数据转化为小数据:(k)均值、主成分分析和投影聚类的常量核集》,载《2013年度ACM-SIAM离散算法研讨会论文集》,SODA’13,SIAM,费城,2013年,第1434-1453页,https://doi.org/10.1137/1.9781611973105.103。 ·Zbl 1421.68219号
[20] J.Feng、H.Xu和S.Mannor,分布式鲁棒学习,预印本,https://arxiv.org/abs/1409.5937, 2014.
[21] D.Garber、E.Hazan、C.Jin、S.Kakade、C.Musco、P.Netrapalli和A.Sidford,通过移位和反转预处理快速计算特征向量,《第33届机器学习国际会议论文集》(纽约),M.F.Balcan和K.Q.Weinberger编辑,Procs。机器。学习。第48号决议,PMLR,2016年,第2626-2634页,https://proceedings.mlr.press/v48/garber16.html。
[22] D.Garber、O.Shamir和N.Srebro,分布式随机主成分分析的通信高效算法,第34届机器学习国际会议论文集(澳大利亚悉尼),Proc。机器。学习。第70号决议,PMLR,2017年,第1203-1212页,https://proceedings.mlr.press/v70/garber17a.html。
[23] M.Ghashami、E.Liberty、J.M.Phillips和D.P.Woodruff,《频繁方向:简单确定性矩阵绘制》,SIAM J.Compute。,45(2016),第1762-1792页,https://doi.org/10.1137/15m1009718。 ·Zbl 1348.65075号
[24] G.H.Golub和C.F.Van Loan,《矩阵计算》,第二版,约翰霍普金斯大学出版社,马里兰州巴尔的摩,2013年·Zbl 1268.65037号
[25] W.L.Hamilton、R.Ying和J.Leskovec,图的表示学习:方法和应用,预印本,https://arxiv.org/abs/1709.05584, 2017.
[26] N.J.Higham,对称Procrustes问题,BIT,28(1988),第133-143页,https://doi.org/10.1007/bf01934701。 ·Zbl 0641.65034号
[27] M.Jaggi、V.Smith、M.Takac、J.Terhorst、S.Krishnan、T.Hofmann和M.I.Jordan,《通信高效分布式双坐标提升,神经信息处理系统进展》27,Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Weinberger编辑,Curran Associates,Red Hook,NY,2014年,第3068-3076页。
[28] I.Jolliffe,主成分分析,第二版,Springer Ser。统计学。,斯普林格,纽约,2002年,https://doi.org/10.1007/978-1-4757-1904-8。 ·Zbl 1011.62064号
[29] M.I.Jordan、J.D.Lee和Y.Yang,通信效率分布式统计推断,J.Amer。统计师。协会,114(2018),第668-681页,https://doi.org/10.1080/01621459.2018.1429274。 ·Zbl 1420.62097号
[30] R.Kannan和S.Vempala,发现光谱算法。趋势理论。计算。科学。,4(2008)第157-288页,https://doi.org/10.1561/0400000025。 ·Zbl 1191.68852号
[31] R.Kannan、S.Vempala和D.Woodruff,《分布式数据的主成分分析和更高相关性》,载于《第27届学习理论会议论文集》(西班牙巴塞罗那),M.F.Balcan、V.Feldman和C.Szepesvaíri编辑,Procs。机器。学习。PMLR第35号决议,2014年,第1040-1057页,http://proceedings.mlr.press/v35/kannan14.html。
[32] M.Karow和D.Kressner,关于矩阵不变子空间的扰动界,SIAM J.矩阵分析。申请。,35(2014),第599-618页,https://doi.org/10.1137/130912372。 ·Zbl 1306.15011号
[33] J.Konečnyá、H.Brendan McMahan、D.Ramage和P.Richtaárik,《联合优化:设备智能的分布式机器学习》,预印本,https://arxiv.org/abs/1610.02527, 2016.
[34] J.Konečnyá、B.McMahan和D.Ramage,《联合优化:数据中心之外的分布式优化》,预印本,https://arxiv.org/abs/1511.03575,2015年。
[35] R.Kueng、H.Rauhut和U.Terstiege,从秩一测量中恢复低秩矩阵,应用。计算。哈蒙。分析。,42(2017),第88-116页,https://doi.org/10.1016/j.acha.2015.07.007。 ·Zbl 1393.94310号
[36] L.Lamport、R.Shostak和M.Pease,《拜占庭将军问题》,《并发:莱斯利·兰波特的作品》,ACM,纽约,2019年,第203-226页,https://doi.org/10.1145/3335772.3335936。 ·Zbl 1448.68139号
[37] Y.Liang,M.-F.F.Balcan,V.Kanchanapally和D.Woodruff,《改进的分布式主成分分析》,摘自《神经信息处理系统进展》27,Z.Ghahramani,M.Welling,C.Cortes,N.Lawrence和K.Weinberger,eds.,Curran Associates,Red Hook,NY,2014年,第3113-121页。
[38] R.Livni、S.Shalev-Shwartz和O.Shamir,《训练神经网络的计算效率》,载于《神经信息处理系统的进展》27,Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Weinberger编辑,Curran Associates,Red Hook,NY,2014年,第855-863页。
[39] C.Ma、V.Smith、M.Jaggi、M.Jordan、P.Richtaárik和M.Takac,《分布式原对偶优化中的加法与平均法》,载《第32届国际机器学习会议论文集》(法国里尔),F.Bach和D.Blei编辑,Procs。机器。学习。第37号决议,PMLR,2015年,1973-1982页。
[40] M.Mahoney,大文本压缩基准,http://www.mattmahoney.net/dc/textdata网站, 2011.
[41] A.Nedic和A.Ozdaglar,多智能体优化的分布式次梯度方法,IEEE Trans。自动化。控制,54(2009),第48-61页,https://doi.org/10.109/tac.2008.2009515。 ·Zbl 1367.90086号
[42] J.Nixon、M.Tyers、T.Reguly、J.Rust、A.Winter、M.Livstone、B.-J.Breitkreutz、C.Stark、L.Boucher、A.Chatr-Aryamontri、K.Dolinski和R.Oughtred,《BioGRID交互数据库》,Nature Prec。,36(2011),第D637-D640页,https://doi.org/10.1038/npre.2011.5627.1。
[43] M.Ou,P.Cui,J.Pei,Z.Zhang,W.Zhu,非对称及物性保持图嵌入,第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,KDD’16,ACM,纽约,2016,第1105-1114页,https://doi.org/10.1145/2939672.2939751。
[44] L.Page、S.Brin、R.Motwani和T.Winograd,《PageRank引文排名:给网络带来秩序》,技术报告,斯坦福大学斯坦福信息实验室,加利福尼亚州斯坦福,1999年。
[45] J.D.Rosenblatt和B.Nadler,《关于分布式统计学习中平均值的最佳性》,《Inf.Inference》,5(2016),第379-404页,https://doi.org/10.1093/imaiai/iaw013。 ·Zbl 1426.68241号
[46] K.Scaman,F.Bach,S.Bubeck,Y.T.Lee和L.Massoulié,网络中凸分布优化的最优收敛速度,J.Mach。学习。决议,20(2019),第1-31页,http://jmlr.org/papers/v20/19-543.html。 ·Zbl 1446.90127号
[47] O.Shamir,《SVD和PCA的快速随机算法:收敛性和凸性》,摘自纽约州纽约市国际机器学习会议,2016年,第248-256页。
[48] O.Shamir和N.Srebro,《分布式随机优化和学习》,摘自《第52届Allerton通信、控制和计算年会论文集》(伊利诺伊州蒙蒂塞洛),D.Precup和Y.W.Teh编辑,IEEE,华盛顿特区,2014年,第1203-1212页,https://doi.org/10.109/allerton.2014.7028543。
[49] O.Shamir,N.Srebro和T.Zhang,使用近似Newton型方法的通信高效分布式优化,《第31届国际机器学习会议论文集》(中国北京),E.P.Xing和T.Jebara,eds.,Proc。机器。学习。第32号决议,PMLR,2014年,第1000-1008页,http://proceedings.mlr.press/v32/shamir14.html。
[50] V.Smith、S.Forte、C.Ma、M.Taka-Č、M.I.Jordan和M.Jaggi,CoCoA:通信效率分布式优化的一般框架,J.Mach。学习。决议,18(2018),第1-49页,http://jmlr.org/papers/v18/16-512.html。 ·Zbl 1473.68167号
[51] G.Stewart,扰动特征空间的平滑局部基础,技术报告TR-5010,马里兰州大学高级计算机研究所,马里兰州巴尔的摩,马里兰州,2012年。
[52] C.A.Uribe、S.Lee、A.Gasnikov和A.Nedic,网络分布式优化中优化算法的对偶方法,Optim。方法软件。,36(2020年),第171-210页,https://doi.org/10.1080/10556788.2020.1750013。 ·Zbl 1464.90062号
[53] R.Vershynin,高维概率,剑桥。序列号。统计概率。数学。47,剑桥大学出版社,英国剑桥,2018年,https://doi.org/10.1017/9781108231596。 ·Zbl 1430.60005号
[54] U.von Luxburg,光谱聚类教程,统计计算。,17(2007),第395-416页,https://doi.org/10.1007/s11222-007-9033-z。
[55] M.J.Wainwright,《高维统计》,剑桥大学。序列号。统计概率。数学。48,剑桥大学出版社,英国剑桥,2019年,https://doi.org/10.1017/9781108627771。 ·Zbl 1457.62011年
[56] B.A.y Arcas,分散式机器学习,2018年IEEE国际大数据会议,IEEE,华盛顿特区,2018年,https://doi.org/10.109/bigdata.2018.8622078。
[57] Y.Zhang、J.Duchi、M.I.Jordan和M.J.Wainwright,《通信约束下分布式统计估计的信息论下限》,《2013年神经信息处理系统进展》,NeurIPS,加利福尼亚州圣地亚哥,2013年,第2328-2336页。
[58] Y.Zhang、J.C.Duchi和M.J.Wainwright,《统计优化的通信高效算法》,J.Mach。学习。研究,14(2013),第3321-3363页,http://jmlr.org/papers/v14/zhang13b.html。 ·Zbl 1318.62016号
[59] Z.Zhang、C.Chang、H.Lin、Y.Wang、R.Arora和X.Jin,网络是分布式培训的瓶颈吗?,《网络会议AI&ML研讨会论文集》,NetAI’20,ACM,纽约,2020年,第8-13页,https://doi.org/10.1145/3405671.3405810。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。