文件Zbl 07370597-zbMATH打开

通信效率高的分布式协方差草图，应用于分布式PCA。（英语） Zbl 07370597号

J.马赫。学习。物件。 22，第80号论文，38页（2021年）.

摘要：大型数据集的草图捕获了原始数据的重要属性，而通常占用的空间要小得多。在本文中，我们考虑了计算跨机器分布的海量数据矩阵（a\In\mathbb{R}^{n\timesd}）的草图的问题。我们的目标是输出一个矩阵（B\in\mathbb{R}^{ell\timesd}），该矩阵明显小于（a\），但在{协方差误差}方面仍很接近，即，（a^TA-B^TB}）。这样的矩阵（B）被称为（a）的协方差简图。我们主要关注最小化通信成本，这可以说是分布式计算中最有价值的资源。我们表明，在计算协方差草图时，确定性和随机通信复杂性之间存在着一个重要的差距。更具体地说，我们首先证明了一个几乎紧的确定性通信下界，然后提供了一个通信开销小于确定性下界的新的随机算法。基于协方差草图和近似主成分分析之间的一个众所周知的联系，我们获得了分布式PCA问题的更好的通信边界。此外，我们还针对稀疏输入矩阵给出了一种改进的分布式PCA算法，该算法使用我们的分布式草图绘制算法作为关键构建块。

理学硕士：

68T05型

人工智能中的学习和自适应系统

关键词：

矩阵草图绘制;PCA公司;分布式流媒体;低秩近似;通信复杂性

PDF格式 BibTeX公司 XML格式引用

全文：链接

参考文献：

[1]	Pankaj K Agarwal、Graham Cormode、Zengfeng Huang、Jeff M Phillips、Zhewei Wei和Ke Yi。可合并的摘要。ACM数据库系统交易（TODS），38（4）：262013·Zbl 1321.68238号
[2]	玛丽亚·福丽娜·鲍尔坎（Maria Florina F Balcan）、史蒂文·埃利希（Steven Ehrlich）和梁英玉（Yingyu Liang）。一般拓扑上的分布式k-means和k-median聚类。神经信息处理系统进展，2013年。
[3]	Srindah Bhojanapalli、Pratek Jain和Sujay Sanghavi。通过对杠杆元素进行采样，实现更紧密的低秩近似。SODA会议记录。SIAM，2015年·兹比尔1371.68320
[4]	Christos Boutsidis和David P Woodruff。最优cur矩阵分解。STOC诉讼。ACM，2014年·Zbl 1315.65042号
[5]	Christos Boutsidis、D Woodruff和Peilin Zhong。分布式和流模型中的最优主成分分析。STOC会议记录，2016年·Zbl 1381.62140号
[6]	肯尼斯·克拉克森和大卫·P·伍德拉夫。流模型中的数值线性代数。STOC会议记录。ACM，2009年·Zbl 1304.65138号
[7]	肯尼思·克拉克森和大卫·伍德拉夫。输入稀疏时间的低秩逼近和回归。STOC会议记录，2013年·Zbl 1293.65069号
[8]	迈克尔·科恩、卡梅隆·马斯科和克里斯托弗·马斯科。通过岭杠杆得分抽样输入稀疏时间低阶近似。SODA会议记录。SIAM，2017年·Zbl 1410.68399号
[9]	杰弗里·迪恩和路易斯·安德烈·巴罗佐。尾巴在天平上。ACM通讯，56（2）：74-802013。
[10]	米歇尔·德里金斯基（Michal Derezinski）和迈克尔·马奥尼（Michael W Mahoney）。通过行列式平均对逆hessian进行分布式估计。神经信息处理系统进展，第11405页-·Zbl 1454.60063号
[11]	MichałDerezi´nski、Burak Bartan、Mert Pilanci和Michael W Mahoney。使用替代草图和缩放正则化去除分布式二阶优化。arXiv预印本arXiv:2007.013272020。
[12]	艾米·德赛（Amey Desai）、米娜·加沙米（Mina Ghashami）和杰夫·菲利普斯（Jeff M Phillips）。改进了实用的矩阵草图，并提供了保证。IEEE知识与数据工程汇刊，28（7）：1678-16902016·Zbl 1425.68346号
[13]	胡丁、刘宇、黄凌霄和李健。K-表示具有分布维的聚类。在2016年国际机器学习会议（ICML）上。
[14]	彼得·德里内亚斯（Petros Drineas）、拉维·坎南（Ravi Kannan）和迈克尔·马奥尼（Michael W Mahoney）。矩阵的快速蒙特卡罗算法i：近似矩阵乘法。SIAM计算期刊，36（1）：132-1572006a·Zbl 1111.68147号
[15]	彼得·德里内亚斯（Petros Drineas）、拉维·坎南（Ravi Kannan）和迈克尔·马奥尼（Michael W Mahoney）。矩阵的快速蒙特卡罗算法ii:计算矩阵的低阶近似。SIAM计算杂志，36（1）：158-1832006b·Zbl 1111.68148号
[16]	Petros Drineas、Michael W Mahoney、S Muthukrishnan和Tam´as Sarl´os。更快的最小二乘近似。数字数学，117（2）：219-2492011·Zbl 1218.65037号
[17]	Devdatt P Dubhashi和Alessandro Panconesi。随机算法分析的度量集中。剑桥大学出版社，2009年·Zbl 1213.60006号
[18]	丹·费尔德曼（Dan Feldman）、梅兰妮·施密特（Melanie Schmidt）和克里斯蒂安·索勒（Christian Sohler）。《将大数据转化为小数据：k-means、pca和投影聚类的常量核集》，《SODA学报》。SIAM，2013年·Zbl 1421.68219号
[19]	米娜·加沙米和杰夫·菲利普斯。确定性低秩矩阵近似的相对误差。InSODA公司。SIAM，2014年·Zbl 1421.68222号
[20]	米娜·加沙米（Mina Ghashami）、艾米·德赛（Amey Desai）和杰夫·菲利普斯（Jeff M Phillips）。改进了实用的矩阵草图，并提供了保证。欧洲算法研讨会。施普林格，2014年a·Zbl 1425.68346号
[21]	米娜·加沙米（Mina Ghashami）、杰夫·菲利普斯（Jeff M Phillips）和李菲菲（Feifei Li）。分布式数据的连续矩阵近似。VLDB捐赠会议记录，7（10）：809-8202014b。
[22]	米娜·加沙米（Mina Ghashami）、爱多·利伯蒂（Edo Liberty）和杰夫·菲利普斯（Jeff M Phillips）。稀疏矩阵的高效频繁方向算法。2016年第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集·Zbl 1348.65075号
[23]	菲利普·吉本斯（Phillip B Gibbons）和斯里坎塔·蒂塔普拉（Srikanta Tirthapura）。在数据流的并集上估计简单函数。SPAA的诉讼程序。ACM，2001年。
[24]	菲利普·吉本斯（Phillip B Gibbons）和斯里坎塔·蒂塔普拉（Srikanta Tirthapura）。用于滑动窗口的分布式流算法。在SPAA会议记录中。ACM，2002年·Zbl 1093.68143号
[25]	维普尔·古普塔（Vipul Gupta）、斯万兰·卡德（Swanand Kadhe）、托马斯·科塔德（Thomas Courtade）、迈克尔·马奥尼（Michael W Mahoney）和坎南·拉姆昌德兰（Kannan Ramchandran）。Oversketched newton：无服务器系统的快速凸优化。arXiv预打印arXiv:1903.088572019。
[26]	Vipul Gupta、Dominic Carrano、Yaoqing Yang、Vaishal Shankar、Thomas Courtade和Kannan Ramchandran。使用本地纠错代码缓解无服务器掉队。arXiv预打印arXiv:2001.074902020。
[27]	黄增峰。绘制密集矩阵和稀疏矩阵的近似最优频繁方向。机器学习研究杂志，20（56）：1-232019·Zbl 1485.68215号
[28]	黄增峰和柯毅。分布式ε近似的通信复杂性。SIAM计算机杂志，46（4）：1370-13942017·Zbl 1371.68318号
[29]	拉维·坎南（Ravi Kannan）、桑托什·万帕拉（Santosh Vempala）和大卫·P·伍德拉夫（David P Woodruff）。分布式数据的主成分分析和更高相关性。2014年计算学习理论年度会议论文集。
[30]	Zohar Karnin和Edo Liberty。带光谱边界的在线主成分分析。2015年第28届计算学习理论年会论文集·Zbl 1373.62291号
[31]	Eyal Kushilevitz和Noam Nisan。通信复杂性。剑桥大学出版社，1997年。36 ·Zbl 0869.68048号
[32]	李毅、孙晓明、王成谷和大卫·P·伍德拉夫。关于消息传递模型中线性代数问题的通信复杂性。国际分布式计算研讨会。斯普林格，2014年。
[33]	Yingyu Liang、Maria-Florina F Balcan、Vandana Kanchanapally和David Woodruff。改进了分布式主成分分析。神经信息处理系统进展，2014年。
[34]	梁英玉、谢波、大卫·伍德拉夫、乐松和玛丽亚·福丽娜·巴尔坎。通信高效的分布式内核主组件分析。2016年第22届ACM SIGKDD知识发现与数据挖掘国际会议论文集。
[35]	江户自由。简单而确定的矩阵草图。第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM，2013年·Zbl 1348.65075号
[36]	罗海鹏（Haipeng Luo）、阿加瓦尔（Alekh Agarwal）、尼科洛·塞萨·比安奇（Nicolo Cesa Bianchi）和约翰·朗福德（John Langford）。通过草图进行高效的二级在线学习。神经信息处理系统进展，2016年。
[37]	罗罗、张文鹏、张志华、朱文武、张彤和贝健。以下略图为在线保理机的常规引导。2018年第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。
[38]	罗罗、陈诚、张志华、李武军和张彤。在在线学习中应用强大的频繁指导。机器学习研究杂志，20（45）：1-412019·兹比尔1484.68341
[39]	贾亚德夫·米斯拉（Jayadev Misra）和大卫·格里斯（David Gries）。查找重复的元素。计算机程序设计科学，2（2）：143-1521982·Zbl 0497.68041号
[40]	卡梅隆·马斯科和克里斯托弗·马斯科。用于更强更快近似奇异值分解的随机块krylov方法。神经信息处理系统进展，2015年。
[41]	卡梅隆·马斯科和克里斯托弗·马斯科。投影-保成本草图：证明策略和构造。arXiv预印本arXiv:2004.084342020·Zbl 1499.68384号
[42]	约翰·纳尔逊（John Nelson）和休伊·罗伊恩（Huy L Nguyˆen）。Osnap：通过稀疏子空间嵌入实现更快的数值线性代数算法。计算机科学基础年会。IEEE，2013年。
[43]	罗伯托·伊姆布泽罗·奥利维拉。随机厄米矩阵和rudelson不等式。电子。Commun公司。Probab，15（203-212）：2010年26月·Zbl 1228.60017号
[44]	Jeff M Phillips、Elad Verbin和Qin Zhang。简化了现有多方通信复杂性的下限。SIAM计算机杂志，45（1）：174-1962016·Zbl 1336.68105号
[45]	塔马斯·萨洛斯。通过随机投影改进了大型矩阵的近似算法。在2006年举行的计算机科学基础年度研讨会上。
[46]	Vatsal Sharan、Parikshit Gopalan和Udi Wieder。通过矩阵草图进行高效异常检测。神经信息处理系统研究进展，2018。
[47]	乔尔·特罗普（Joel A Tropp）。随机矩阵和的用户友好尾部界限。计算数学基础，12（4）：389-4342012·Zbl 1259.60008号
[48]	德克·范·古赫特（Dirk Van Gucht）、瑞安·威廉姆斯（Ryan Williams）、大卫·P·伍德拉夫（David P Woodruff）和张琴（Qin Zhang）。分布式集合连接与矩阵乘法应用的通信复杂性。PODS会议记录。ACM，2015年。
[49]	罗曼·弗什宁。随机矩阵和确定性矩阵乘积的谱范数。概率论及相关领域，150（3-4）：471-5092011·Zbl 1235.60009号
[50]	王树森（Shusen Wang）、弗雷德·鲁斯塔（Fred Roosta）、徐鹏（Peng Xu）和迈克尔·马奥尼（Michael W Mahoney）。Giant：用于分布式优化的全局改进近似牛顿法。《神经信息处理系统进展》，第2332-2342页，2018年。
[51]	魏哲伟、刘宣成、李飞飞、尚朔、杜晓勇和文继荣。滑动窗口上的矩阵草图。SIGMOD会议记录，2016年。
[52]	大卫·伍德拉夫。行更新流中的低秩近似下限。神经信息处理系统进展，2014年。
[53]	Shinjae Yoo、Hao Huang和Shiva Prasad Kasiviswanathan。流谱聚类。IEEE第32届国际数据工程会议（ICDE），2016年。
[54]	张海达，黄增峰，魏哲伟，张文杰，林学敏。分布式滑动窗口上的跟踪矩阵逼近。2017年IEEE第33届国际数据工程会议（ICDE）。
[55]	张宇晨、马丁·温赖特和迈克尔·乔丹。广义矩阵秩的分布式估计：有效算法和下限。国际机器学习会议

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

通信效率高的分布式协方差草图，应用于分布式PCA。（英语） Zbl 07370597号

理学硕士：

关键词：

参考文献：

示例

领域

操作员

通信效率高的分布式协方差草图，应用于分布式PCA。 （英语） Zbl 07370597号

理学硕士：

关键词：

参考文献：

通信效率高的分布式协方差草图，应用于分布式PCA。（英语） Zbl 07370597号