黄增峰;林雪敏;张文杰;张颖 通信效率高的分布式协方差草图,应用于分布式PCA。 (英语) Zbl 07370597号 J.马赫。学习。物件。 22,第80号论文,38页(2021年). 摘要:大型数据集的草图捕获了原始数据的重要属性,而通常占用的空间要小得多。在本文中,我们考虑了计算跨机器分布的海量数据矩阵(a\In\mathbb{R}^{n\timesd})的草图的问题。我们的目标是输出一个矩阵(B\in\mathbb{R}^{ell\timesd}),该矩阵明显小于(a\),但在{协方差误差}方面仍很接近,即,(a^TA-B^TB})。这样的矩阵(B)被称为(a)的协方差简图。我们主要关注最小化通信成本,这可以说是分布式计算中最有价值的资源。我们表明,在计算协方差草图时,确定性和随机通信复杂性之间存在着一个重要的差距。更具体地说,我们首先证明了一个几乎紧的确定性通信下界,然后提供了一个通信开销小于确定性下界的新的随机算法。基于协方差草图和近似主成分分析之间的一个众所周知的联系,我们获得了分布式PCA问题的更好的通信边界。此外,我们还针对稀疏输入矩阵给出了一种改进的分布式PCA算法,该算法使用我们的分布式草图绘制算法作为关键构建块。 理学硕士: 68T05型 人工智能中的学习和自适应系统 关键词:矩阵草图绘制;PCA公司;分布式流媒体;低秩近似;通信复杂性 PDF格式BibTeX公司 XML格式引用 \textit{Z.Huang}等人,J.Mach。学习。第22号决议,第80号论文,第38页(2021;Zbl 07370597) 全文: 链接 参考文献: [1] Pankaj K Agarwal、Graham Cormode、Zengfeng Huang、Jeff M Phillips、Zhewei Wei和Ke Yi。可合并的摘要。ACM数据库系统交易(TODS),38(4):262013·Zbl 1321.68238号 [2] 玛丽亚·福丽娜·鲍尔坎(Maria Florina F Balcan)、史蒂文·埃利希(Steven Ehrlich)和梁英玉(Yingyu Liang)。一般拓扑上的分布式k-means和k-median聚类。神经信息处理系统进展,2013年。 [3] Srindah Bhojanapalli、Pratek Jain和Sujay Sanghavi。通过对杠杆元素进行采样,实现更紧密的低秩近似。SODA会议记录。SIAM,2015年·兹比尔1371.68320 [4] Christos Boutsidis和David P Woodruff。最优cur矩阵分解。STOC诉讼。ACM,2014年·Zbl 1315.65042号 [5] Christos Boutsidis、D Woodruff和Peilin Zhong。分布式和流模型中的最优主成分分析。STOC会议记录,2016年·Zbl 1381.62140号 [6] 肯尼斯·克拉克森和大卫·P·伍德拉夫。流模型中的数值线性代数。STOC会议记录。ACM,2009年·Zbl 1304.65138号 [7] 肯尼思·克拉克森和大卫·伍德拉夫。输入稀疏时间的低秩逼近和回归。STOC会议记录,2013年·Zbl 1293.65069号 [8] 迈克尔·科恩、卡梅隆·马斯科和克里斯托弗·马斯科。通过岭杠杆得分抽样输入稀疏时间低阶近似。SODA会议记录。SIAM,2017年·Zbl 1410.68399号 [9] 杰弗里·迪恩和路易斯·安德烈·巴罗佐。尾巴在天平上。ACM通讯,56(2):74-802013。 [10] 米歇尔·德里金斯基(Michal Derezinski)和迈克尔·马奥尼(Michael W Mahoney)。通过行列式平均对逆hessian进行分布式估计。神经信息处理系统进展,第11405页-·Zbl 1454.60063号 [11] MichałDerezi´nski、Burak Bartan、Mert Pilanci和Michael W Mahoney。使用替代草图和缩放正则化去除分布式二阶优化。arXiv预印本arXiv:2007.013272020。 [12] 艾米·德赛(Amey Desai)、米娜·加沙米(Mina Ghashami)和杰夫·菲利普斯(Jeff M Phillips)。改进了实用的矩阵草图,并提供了保证。IEEE知识与数据工程汇刊,28(7):1678-16902016·Zbl 1425.68346号 [13] 胡丁、刘宇、黄凌霄和李健。K-表示具有分布维的聚类。在2016年国际机器学习会议(ICML)上。 [14] 彼得·德里内亚斯(Petros Drineas)、拉维·坎南(Ravi Kannan)和迈克尔·马奥尼(Michael W Mahoney)。矩阵的快速蒙特卡罗算法i:近似矩阵乘法。SIAM计算期刊,36(1):132-1572006a·Zbl 1111.68147号 [15] 彼得·德里内亚斯(Petros Drineas)、拉维·坎南(Ravi Kannan)和迈克尔·马奥尼(Michael W Mahoney)。矩阵的快速蒙特卡罗算法ii:计算矩阵的低阶近似。SIAM计算杂志,36(1):158-1832006b·Zbl 1111.68148号 [16] Petros Drineas、Michael W Mahoney、S Muthukrishnan和Tam´as Sarl´os。更快的最小二乘近似。数字数学,117(2):219-2492011·Zbl 1218.65037号 [17] Devdatt P Dubhashi和Alessandro Panconesi。随机算法分析的度量集中。剑桥大学出版社,2009年·Zbl 1213.60006号 [18] 丹·费尔德曼(Dan Feldman)、梅兰妮·施密特(Melanie Schmidt)和克里斯蒂安·索勒(Christian Sohler)。《将大数据转化为小数据:k-means、pca和投影聚类的常量核集》,《SODA学报》。SIAM,2013年·Zbl 1421.68219号 [19] 米娜·加沙米和杰夫·菲利普斯。确定性低秩矩阵近似的相对误差。InSODA公司。SIAM,2014年·Zbl 1421.68222号 [20] 米娜·加沙米(Mina Ghashami)、艾米·德赛(Amey Desai)和杰夫·菲利普斯(Jeff M Phillips)。改进了实用的矩阵草图,并提供了保证。欧洲算法研讨会。施普林格,2014年a·Zbl 1425.68346号 [21] 米娜·加沙米(Mina Ghashami)、杰夫·菲利普斯(Jeff M Phillips)和李菲菲(Feifei Li)。分布式数据的连续矩阵近似。VLDB捐赠会议记录,7(10):809-8202014b。 [22] 米娜·加沙米(Mina Ghashami)、爱多·利伯蒂(Edo Liberty)和杰夫·菲利普斯(Jeff M Phillips)。稀疏矩阵的高效频繁方向算法。2016年第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集·Zbl 1348.65075号 [23] 菲利普·吉本斯(Phillip B Gibbons)和斯里坎塔·蒂塔普拉(Srikanta Tirthapura)。在数据流的并集上估计简单函数。SPAA的诉讼程序。ACM,2001年。 [24] 菲利普·吉本斯(Phillip B Gibbons)和斯里坎塔·蒂塔普拉(Srikanta Tirthapura)。用于滑动窗口的分布式流算法。在SPAA会议记录中。ACM,2002年·Zbl 1093.68143号 [25] 维普尔·古普塔(Vipul Gupta)、斯万兰·卡德(Swanand Kadhe)、托马斯·科塔德(Thomas Courtade)、迈克尔·马奥尼(Michael W Mahoney)和坎南·拉姆昌德兰(Kannan Ramchandran)。Oversketched newton:无服务器系统的快速凸优化。arXiv预打印arXiv:1903.088572019。 [26] Vipul Gupta、Dominic Carrano、Yaoqing Yang、Vaishal Shankar、Thomas Courtade和Kannan Ramchandran。使用本地纠错代码缓解无服务器掉队。arXiv预打印arXiv:2001.074902020。 [27] 黄增峰。绘制密集矩阵和稀疏矩阵的近似最优频繁方向。机器学习研究杂志,20(56):1-232019·Zbl 1485.68215号 [28] 黄增峰和柯毅。分布式ε近似的通信复杂性。SIAM计算机杂志,46(4):1370-13942017·Zbl 1371.68318号 [29] 拉维·坎南(Ravi Kannan)、桑托什·万帕拉(Santosh Vempala)和大卫·P·伍德拉夫(David P Woodruff)。分布式数据的主成分分析和更高相关性。2014年计算学习理论年度会议论文集。 [30] Zohar Karnin和Edo Liberty。带光谱边界的在线主成分分析。2015年第28届计算学习理论年会论文集·Zbl 1373.62291号 [31] Eyal Kushilevitz和Noam Nisan。通信复杂性。剑桥大学出版社,1997年。36 ·Zbl 0869.68048号 [32] 李毅、孙晓明、王成谷和大卫·P·伍德拉夫。关于消息传递模型中线性代数问题的通信复杂性。国际分布式计算研讨会。斯普林格,2014年。 [33] Yingyu Liang、Maria-Florina F Balcan、Vandana Kanchanapally和David Woodruff。改进了分布式主成分分析。神经信息处理系统进展,2014年。 [34] 梁英玉、谢波、大卫·伍德拉夫、乐松和玛丽亚·福丽娜·巴尔坎。通信高效的分布式内核主组件分析。2016年第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。 [35] 江户自由。简单而确定的矩阵草图。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,2013年·Zbl 1348.65075号 [36] 罗海鹏(Haipeng Luo)、阿加瓦尔(Alekh Agarwal)、尼科洛·塞萨·比安奇(Nicolo Cesa Bianchi)和约翰·朗福德(John Langford)。通过草图进行高效的二级在线学习。神经信息处理系统进展,2016年。 [37] 罗罗、张文鹏、张志华、朱文武、张彤和贝健。以下略图为在线保理机的常规引导。2018年第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。 [38] 罗罗、陈诚、张志华、李武军和张彤。在在线学习中应用强大的频繁指导。机器学习研究杂志,20(45):1-412019·兹比尔1484.68341 [39] 贾亚德夫·米斯拉(Jayadev Misra)和大卫·格里斯(David Gries)。查找重复的元素。计算机程序设计科学,2(2):143-1521982·Zbl 0497.68041号 [40] 卡梅隆·马斯科和克里斯托弗·马斯科。用于更强更快近似奇异值分解的随机块krylov方法。神经信息处理系统进展,2015年。 [41] 卡梅隆·马斯科和克里斯托弗·马斯科。投影-保成本草图:证明策略和构造。arXiv预印本arXiv:2004.084342020·Zbl 1499.68384号 [42] 约翰·纳尔逊(John Nelson)和休伊·罗伊恩(Huy L Nguyˆen)。Osnap:通过稀疏子空间嵌入实现更快的数值线性代数算法。计算机科学基础年会。IEEE,2013年。 [43] 罗伯托·伊姆布泽罗·奥利维拉。随机厄米矩阵和rudelson不等式。电子。Commun公司。Probab,15(203-212):2010年26月·Zbl 1228.60017号 [44] Jeff M Phillips、Elad Verbin和Qin Zhang。简化了现有多方通信复杂性的下限。SIAM计算机杂志,45(1):174-1962016·Zbl 1336.68105号 [45] 塔马斯·萨洛斯。通过随机投影改进了大型矩阵的近似算法。在2006年举行的计算机科学基础年度研讨会上。 [46] Vatsal Sharan、Parikshit Gopalan和Udi Wieder。通过矩阵草图进行高效异常检测。神经信息处理系统研究进展,2018。 [47] 乔尔·特罗普(Joel A Tropp)。随机矩阵和的用户友好尾部界限。计算数学基础,12(4):389-4342012·Zbl 1259.60008号 [48] 德克·范·古赫特(Dirk Van Gucht)、瑞安·威廉姆斯(Ryan Williams)、大卫·P·伍德拉夫(David P Woodruff)和张琴(Qin Zhang)。分布式集合连接与矩阵乘法应用的通信复杂性。PODS会议记录。ACM,2015年。 [49] 罗曼·弗什宁。随机矩阵和确定性矩阵乘积的谱范数。概率论及相关领域,150(3-4):471-5092011·Zbl 1235.60009号 [50] 王树森(Shusen Wang)、弗雷德·鲁斯塔(Fred Roosta)、徐鹏(Peng Xu)和迈克尔·马奥尼(Michael W Mahoney)。Giant:用于分布式优化的全局改进近似牛顿法。《神经信息处理系统进展》,第2332-2342页,2018年。 [51] 魏哲伟、刘宣成、李飞飞、尚朔、杜晓勇和文继荣。滑动窗口上的矩阵草图。SIGMOD会议记录,2016年。 [52] 大卫·伍德拉夫。行更新流中的低秩近似下限。神经信息处理系统进展,2014年。 [53] Shinjae Yoo、Hao Huang和Shiva Prasad Kasiviswanathan。流谱聚类。IEEE第32届国际数据工程会议(ICDE),2016年。 [54] 张海达,黄增峰,魏哲伟,张文杰,林学敏。分布式滑动窗口上的跟踪矩阵逼近。2017年IEEE第33届国际数据工程会议(ICDE)。 [55] 张宇晨、马丁·温赖特和迈克尔·乔丹。广义矩阵秩的分布式估计:有效算法和下限。国际机器学习会议 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。