分布式数据的主成分分析和高相关性
拉维·坎南、桑托什·温帕拉、大卫·伍德拉夫
第27届学习理论会议记录,PMLR 35:1040-10572014年。
摘要
我们考虑输入数据在多个服务器上任意分区的设置中的算法问题。目标是计算所有数据的函数,而瓶颈是算法使用的通信。我们针对海量数据集上的两个典型问题提出了算法:(1)计算矩阵a=a^1+a^2+\ldots+a^s的低阶近似,矩阵a^t存储在服务器t上;(2)计算向量a_1+a_2+\ldot+a_s的函数,其中服务器t具有向量a_t;这包括计算频率矩和可分离函数的经过充分研究的特殊情况,以及高阶相关性,例如图中出现的特定类型的子图的数量。对于这两个问题,我们给出了具有几乎最优通信的算法,特别是对n(数据大小)的唯一依赖性是表示索引和单词所需的位数(O(\log n))。
引用本文
相关材料