Principal Component Analysis and Higher Correlations for Distributed Data

Ravi Kannan; Santosh Vempala; David Woodruff

分布式数据的主成分分析和高相关性

拉维·坎南、桑托什·温帕拉、大卫·伍德拉夫

第27届学习理论会议记录，PMLR 35:1040-10572014年。

摘要

我们考虑输入数据在多个服务器上任意分区的设置中的算法问题。目标是计算所有数据的函数，而瓶颈是算法使用的通信。我们针对海量数据集上的两个典型问题提出了算法：（1）计算矩阵a=a^1+a^2+\ldots+a^s的低阶近似，矩阵a^t存储在服务器t上；（2）计算向量a_1+a_2+\ldot+a_s的函数，其中服务器t具有向量a_t；这包括计算频率矩和可分离函数的经过充分研究的特殊情况，以及高阶相关性，例如图中出现的特定类型的子图的数量。对于这两个问题，我们给出了具有几乎最优通信的算法，特别是对n（数据大小）的唯一依赖性是表示索引和单词所需的位数（O（\log n））。

引用本文

BibTeX公司

@会议记录{pmlr-v35-kannan14，title＝{分布式数据的主成分分析和更高相关性}，author={Kannan、Ravi和Vempala、Santosh和Woodruff、David}，booktitle={第27届学习理论会议论文集}，页数={1040--1057}，年份={2014}，editor={Balcan、Maria Florina和Feldman、Vitaly和Szepesvári、Csaba}，体积={35}，series={机器学习研究论文集}，address={西班牙巴塞罗那}，月={13--15日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v35/kannan14.pdf},网址={https://proceedings.mlr.press/v35/kannan14.html},abstract={我们考虑在输入数据在多个服务器上被任意分区的情况下的算法问题。目标是计算所有数据的函数，而瓶颈是算法所使用的通信。我们为海量数据集上的两个示例性问题提供了算法：（1）计算矩阵a=a^1+a^2+\ldots+a^s的低阶近似，矩阵a^t存储在服务器t上，（2）计算向量a_1+a_2+\ldot+a_s的函数，其中服务器t具有向量a_t；这包括计算频率矩和可分离函数的经过充分研究的特殊情况，以及高阶相关性，例如图中出现的特定类型的子图的数量。对于这两个问题，我们给出了具有几乎最优通信的算法，尤其是对n的唯一依赖性，即数据的大小，是表示索引和单词所需的位数（O（\log n））。}}

尾注

%0会议论文%分布式数据的T主成分分析和高相关性%拉维·坎南%桑托什·万帕拉%大卫·伍德拉夫%第27届学习理论会议论文集%C机器学习研究进展%2014年D月%E玛丽亚·弗洛里娜·巴尔坎%E维塔利·费尔德曼%E Csaba Szepesvári公司%F pmlr-v35-kannan14号%我PMLR%电话1040--1057%U型https://proceedings.mlr.press/v35/kannan14.html%35伏%X我们考虑输入数据在多个服务器上被任意分区的设置中的算法问题。目标是计算所有数据的函数，而瓶颈是算法使用的通信。我们针对海量数据集上的两个典型问题提出了算法：（1）计算矩阵a=a^1+a^2+\ldots+a^s的低阶近似，矩阵a^t存储在服务器t上；（2）计算向量a_1+a_2+\ldot+a_s的函数，其中服务器t具有向量a_t；这包括计算频率矩和可分离函数的经过充分研究的特殊情况，以及高阶相关性，例如图中出现的特定类型的子图的数量。对于这两个问题，我们给出了具有几乎最优通信的算法，特别是对数据大小n的唯一依赖是表示索引和字所需的位数（O（\logn））。

RIS公司

TY-CPAPER公司TI-分布式数据的主成分分析和高相关性澳大利亚-拉维·坎南澳大利亚-桑托什-万帕拉澳大利亚-大卫·伍德拉夫BT-第27届学习理论会议记录DA-2014/05/29ED-玛丽亚·弗洛里娜·巴尔坎ED-维塔利·费尔德曼ED-Csaba SzepesváriID-pmlr-v35-kannan14PB-PMLRDP-机器学习研究论文集VL-35SP-1040EP-1057第一层-http://proceedings.mlr.press/v35/kannan14.pdfUR-（欧元）https://proceedings.mlr.press/v35/kannan14.htmlAB-我们考虑输入数据在多个服务器上任意分区的设置中的算法问题。目标是计算所有数据的函数，而瓶颈是算法使用的通信。我们针对海量数据集上的两个典型问题提出了算法：（1）计算矩阵a=a^1+a^2+\ldots+a^s的低阶近似，矩阵a^t存储在服务器t上；（2）计算向量a_1+a_2+\ldot+a_s的函数，其中服务器t具有向量a_t；这包括计算频率矩和可分离函数的经过充分研究的特殊情况，以及高阶相关性，例如图中出现的特定类型的子图的数量。对于这两个问题，我们给出了具有几乎最优通信的算法，特别是对n（数据大小）的唯一依赖性是表示索引和单词所需的位数（O（\log n））。急诊室-

亚太地区

Kannan，R.、Vempala，S.和Woodruff，D..（2014）。分布式数据的主成分分析和高相关性。第27届学习理论大会论文集，英寸机器学习研究进展35:1040-1057网址：https://proceedings.mlr.press/v35/kannan14.html。

分布式数据的主成分分析和高相关性

摘要

引用本文

相关材料