×

通信效率高的分布式协方差草图,应用于分布式PCA。 (英语) Zbl 07370597号

摘要:大型数据集的草图捕获了原始数据的重要属性,而通常占用的空间要小得多。在本文中,我们考虑了计算跨机器分布的海量数据矩阵(a\In\mathbb{R}^{n\timesd})的草图的问题。我们的目标是输出一个矩阵(B\in\mathbb{R}^{ell\timesd}),该矩阵明显小于(a\),但在{协方差误差}方面仍很接近,即,(a^TA-B^TB})。这样的矩阵(B)被称为(a)的协方差简图。我们主要关注最小化通信成本,这可以说是分布式计算中最有价值的资源。我们表明,在计算协方差草图时,确定性和随机通信复杂性之间存在着一个重要的差距。更具体地说,我们首先证明了一个几乎紧的确定性通信下界,然后提供了一个通信开销小于确定性下界的新的随机算法。基于协方差草图和近似主成分分析之间的一个众所周知的联系,我们获得了分布式PCA问题的更好的通信边界。此外,我们还针对稀疏输入矩阵给出了一种改进的分布式PCA算法,该算法使用我们的分布式草图绘制算法作为关键构建块。

理学硕士:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] Pankaj K Agarwal、Graham Cormode、Zengfeng Huang、Jeff M Phillips、Zhewei Wei和Ke Yi。可合并的摘要。ACM数据库系统交易(TODS),38(4):262013·Zbl 1321.68238号
[2] 玛丽亚·福丽娜·鲍尔坎(Maria Florina F Balcan)、史蒂文·埃利希(Steven Ehrlich)和梁英玉(Yingyu Liang)。一般拓扑上的分布式k-means和k-median聚类。神经信息处理系统进展,2013年。
[3] Srindah Bhojanapalli、Pratek Jain和Sujay Sanghavi。通过对杠杆元素进行采样,实现更紧密的低秩近似。SODA会议记录。SIAM,2015年·兹比尔1371.68320
[4] Christos Boutsidis和David P Woodruff。最优cur矩阵分解。STOC诉讼。ACM,2014年·Zbl 1315.65042号
[5] Christos Boutsidis、D Woodruff和Peilin Zhong。分布式和流模型中的最优主成分分析。STOC会议记录,2016年·Zbl 1381.62140号
[6] 肯尼斯·克拉克森和大卫·P·伍德拉夫。流模型中的数值线性代数。STOC会议记录。ACM,2009年·Zbl 1304.65138号
[7] 肯尼思·克拉克森和大卫·伍德拉夫。输入稀疏时间的低秩逼近和回归。STOC会议记录,2013年·Zbl 1293.65069号
[8] 迈克尔·科恩、卡梅隆·马斯科和克里斯托弗·马斯科。通过岭杠杆得分抽样输入稀疏时间低阶近似。SODA会议记录。SIAM,2017年·Zbl 1410.68399号
[9] 杰弗里·迪恩和路易斯·安德烈·巴罗佐。尾巴在天平上。ACM通讯,56(2):74-802013。
[10] 米歇尔·德里金斯基(Michal Derezinski)和迈克尔·马奥尼(Michael W Mahoney)。通过行列式平均对逆hessian进行分布式估计。神经信息处理系统进展,第11405页-·Zbl 1454.60063号
[11] MichałDerezi´nski、Burak Bartan、Mert Pilanci和Michael W Mahoney。使用替代草图和缩放正则化去除分布式二阶优化。arXiv预印本arXiv:2007.013272020。
[12] 艾米·德赛(Amey Desai)、米娜·加沙米(Mina Ghashami)和杰夫·菲利普斯(Jeff M Phillips)。改进了实用的矩阵草图,并提供了保证。IEEE知识与数据工程汇刊,28(7):1678-16902016·Zbl 1425.68346号
[13] 胡丁、刘宇、黄凌霄和李健。K-表示具有分布维的聚类。在2016年国际机器学习会议(ICML)上。
[14] 彼得·德里内亚斯(Petros Drineas)、拉维·坎南(Ravi Kannan)和迈克尔·马奥尼(Michael W Mahoney)。矩阵的快速蒙特卡罗算法i:近似矩阵乘法。SIAM计算期刊,36(1):132-1572006a·Zbl 1111.68147号
[15] 彼得·德里内亚斯(Petros Drineas)、拉维·坎南(Ravi Kannan)和迈克尔·马奥尼(Michael W Mahoney)。矩阵的快速蒙特卡罗算法ii:计算矩阵的低阶近似。SIAM计算杂志,36(1):158-1832006b·Zbl 1111.68148号
[16] Petros Drineas、Michael W Mahoney、S Muthukrishnan和Tam´as Sarl´os。更快的最小二乘近似。数字数学,117(2):219-2492011·Zbl 1218.65037号
[17] Devdatt P Dubhashi和Alessandro Panconesi。随机算法分析的度量集中。剑桥大学出版社,2009年·Zbl 1213.60006号
[18] 丹·费尔德曼(Dan Feldman)、梅兰妮·施密特(Melanie Schmidt)和克里斯蒂安·索勒(Christian Sohler)。《将大数据转化为小数据:k-means、pca和投影聚类的常量核集》,《SODA学报》。SIAM,2013年·Zbl 1421.68219号
[19] 米娜·加沙米和杰夫·菲利普斯。确定性低秩矩阵近似的相对误差。InSODA公司。SIAM,2014年·Zbl 1421.68222号
[20] 米娜·加沙米(Mina Ghashami)、艾米·德赛(Amey Desai)和杰夫·菲利普斯(Jeff M Phillips)。改进了实用的矩阵草图,并提供了保证。欧洲算法研讨会。施普林格,2014年a·Zbl 1425.68346号
[21] 米娜·加沙米(Mina Ghashami)、杰夫·菲利普斯(Jeff M Phillips)和李菲菲(Feifei Li)。分布式数据的连续矩阵近似。VLDB捐赠会议记录,7(10):809-8202014b。
[22] 米娜·加沙米(Mina Ghashami)、爱多·利伯蒂(Edo Liberty)和杰夫·菲利普斯(Jeff M Phillips)。稀疏矩阵的高效频繁方向算法。2016年第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集·Zbl 1348.65075号
[23] 菲利普·吉本斯(Phillip B Gibbons)和斯里坎塔·蒂塔普拉(Srikanta Tirthapura)。在数据流的并集上估计简单函数。SPAA的诉讼程序。ACM,2001年。
[24] 菲利普·吉本斯(Phillip B Gibbons)和斯里坎塔·蒂塔普拉(Srikanta Tirthapura)。用于滑动窗口的分布式流算法。在SPAA会议记录中。ACM,2002年·Zbl 1093.68143号
[25] 维普尔·古普塔(Vipul Gupta)、斯万兰·卡德(Swanand Kadhe)、托马斯·科塔德(Thomas Courtade)、迈克尔·马奥尼(Michael W Mahoney)和坎南·拉姆昌德兰(Kannan Ramchandran)。Oversketched newton:无服务器系统的快速凸优化。arXiv预打印arXiv:1903.088572019。
[26] Vipul Gupta、Dominic Carrano、Yaoqing Yang、Vaishal Shankar、Thomas Courtade和Kannan Ramchandran。使用本地纠错代码缓解无服务器掉队。arXiv预打印arXiv:2001.074902020。
[27] 黄增峰。绘制密集矩阵和稀疏矩阵的近似最优频繁方向。机器学习研究杂志,20(56):1-232019·Zbl 1485.68215号
[28] 黄增峰和柯毅。分布式ε近似的通信复杂性。SIAM计算机杂志,46(4):1370-13942017·Zbl 1371.68318号
[29] 拉维·坎南(Ravi Kannan)、桑托什·万帕拉(Santosh Vempala)和大卫·P·伍德拉夫(David P Woodruff)。分布式数据的主成分分析和更高相关性。2014年计算学习理论年度会议论文集。
[30] Zohar Karnin和Edo Liberty。带光谱边界的在线主成分分析。2015年第28届计算学习理论年会论文集·Zbl 1373.62291号
[31] Eyal Kushilevitz和Noam Nisan。通信复杂性。剑桥大学出版社,1997年。36 ·Zbl 0869.68048号
[32] 李毅、孙晓明、王成谷和大卫·P·伍德拉夫。关于消息传递模型中线性代数问题的通信复杂性。国际分布式计算研讨会。斯普林格,2014年。
[33] Yingyu Liang、Maria-Florina F Balcan、Vandana Kanchanapally和David Woodruff。改进了分布式主成分分析。神经信息处理系统进展,2014年。
[34] 梁英玉、谢波、大卫·伍德拉夫、乐松和玛丽亚·福丽娜·巴尔坎。通信高效的分布式内核主组件分析。2016年第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。
[35] 江户自由。简单而确定的矩阵草图。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,2013年·Zbl 1348.65075号
[36] 罗海鹏(Haipeng Luo)、阿加瓦尔(Alekh Agarwal)、尼科洛·塞萨·比安奇(Nicolo Cesa Bianchi)和约翰·朗福德(John Langford)。通过草图进行高效的二级在线学习。神经信息处理系统进展,2016年。
[37] 罗罗、张文鹏、张志华、朱文武、张彤和贝健。以下略图为在线保理机的常规引导。2018年第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。
[38] 罗罗、陈诚、张志华、李武军和张彤。在在线学习中应用强大的频繁指导。机器学习研究杂志,20(45):1-412019·兹比尔1484.68341
[39] 贾亚德夫·米斯拉(Jayadev Misra)和大卫·格里斯(David Gries)。查找重复的元素。计算机程序设计科学,2(2):143-1521982·Zbl 0497.68041号
[40] 卡梅隆·马斯科和克里斯托弗·马斯科。用于更强更快近似奇异值分解的随机块krylov方法。神经信息处理系统进展,2015年。
[41] 卡梅隆·马斯科和克里斯托弗·马斯科。投影-保成本草图:证明策略和构造。arXiv预印本arXiv:2004.084342020·Zbl 1499.68384号
[42] 约翰·纳尔逊(John Nelson)和休伊·罗伊恩(Huy L Nguyˆen)。Osnap:通过稀疏子空间嵌入实现更快的数值线性代数算法。计算机科学基础年会。IEEE,2013年。
[43] 罗伯托·伊姆布泽罗·奥利维拉。随机厄米矩阵和rudelson不等式。电子。Commun公司。Probab,15(203-212):2010年26月·Zbl 1228.60017号
[44] Jeff M Phillips、Elad Verbin和Qin Zhang。简化了现有多方通信复杂性的下限。SIAM计算机杂志,45(1):174-1962016·Zbl 1336.68105号
[45] 塔马斯·萨洛斯。通过随机投影改进了大型矩阵的近似算法。在2006年举行的计算机科学基础年度研讨会上。
[46] Vatsal Sharan、Parikshit Gopalan和Udi Wieder。通过矩阵草图进行高效异常检测。神经信息处理系统研究进展,2018。
[47] 乔尔·特罗普(Joel A Tropp)。随机矩阵和的用户友好尾部界限。计算数学基础,12(4):389-4342012·Zbl 1259.60008号
[48] 德克·范·古赫特(Dirk Van Gucht)、瑞安·威廉姆斯(Ryan Williams)、大卫·P·伍德拉夫(David P Woodruff)和张琴(Qin Zhang)。分布式集合连接与矩阵乘法应用的通信复杂性。PODS会议记录。ACM,2015年。
[49] 罗曼·弗什宁。随机矩阵和确定性矩阵乘积的谱范数。概率论及相关领域,150(3-4):471-5092011·Zbl 1235.60009号
[50] 王树森(Shusen Wang)、弗雷德·鲁斯塔(Fred Roosta)、徐鹏(Peng Xu)和迈克尔·马奥尼(Michael W Mahoney)。Giant:用于分布式优化的全局改进近似牛顿法。《神经信息处理系统进展》,第2332-2342页,2018年。
[51] 魏哲伟、刘宣成、李飞飞、尚朔、杜晓勇和文继荣。滑动窗口上的矩阵草图。SIGMOD会议记录,2016年。
[52] 大卫·伍德拉夫。行更新流中的低秩近似下限。神经信息处理系统进展,2014年。
[53] Shinjae Yoo、Hao Huang和Shiva Prasad Kasiviswanathan。流谱聚类。IEEE第32届国际数据工程会议(ICDE),2016年。
[54] 张海达,黄增峰,魏哲伟,张文杰,林学敏。分布式滑动窗口上的跟踪矩阵逼近。2017年IEEE第33届国际数据工程会议(ICDE)。
[55] 张宇晨、马丁·温赖特和迈克尔·乔丹。广义矩阵秩的分布式估计:有效算法和下限。国际机器学习会议
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。