研究论文

开放式访问

多项式时间内几乎最优分离的聚类混合

作者：
刘亚伦（Allen Liu）

美国麻省理工学院

美国麻省理工学院
查看个人资料

,
杰里·李

微软研究院，美国

微软研究院，美国
查看个人资料

作者信息和声明

STOC 2022：第54届ACM SIGACT计算理论年度研讨会论文集2022年6月第1248–1261页https://doi.org/10.1145/3519935.3520012

出版：2022年6月10日出版历史

STOC 2022：第54届ACM SIGACT计算理论年会论文集

第1248–1261页

摘要

我们考虑高维均值分离高斯混合聚类问题。我们收到了来自以下混合物的样品k个同一协方差Gaussians，使得任何两对均值之间的最小成对距离至少为Δ，对于某些参数Δ>0，目标是恢复这些样本的真实聚类。民间传说分隔Δ=θ（√logk个)对于恢复良好的聚类（例如使用常数或1/poly(k个)错误），至少是理论上的信息。然而，实现这一保证的估算器效率低下。我们给出了在多项式时间内运行的第一个算法，它几乎符合这个保证。更准确地说，我们给出了一种算法，该算法需要多项式多次采样和时间，只要分离度为Δ=Ω（log^{1/2 +c（c）} k个)，对于任何c（c）> 0. 以前，多项式时间算法仅在分离为多项式时才适用于此问题k个，以及所有能够容忍poly log的算法k个分离需要准多项式时间。我们还将结果推广到满足Poincaré不等式的分布在其他温和假设下的混合平移。

我们的主要技术工具是一种隐式表示和估计分布的高阶矩的新方法，我们认为这是一种独立的工具，它允许我们提取有关高阶矩方面的重要信息，而无需显式地写下完整的矩张量。

工具书类

贾亚德夫·阿查里亚（Jayadev Acharya）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、杰里·李（Jerry Li）和路德维希·施密特（Ludwig Schmidt）。2017.近线性时间内的样本最佳密度估计。第二十八届ACM-SIAM离散算法研讨会论文集。1278–1289.谷歌学者交叉引用
贾亚德夫·阿查里亚（Jayadev Acharya）、阿什坎·贾法尔普尔（Ashkan Jafarpour）、阿尔隆·奥利茨基（Alon Orlitsky）和阿南达·瑟塔·苏雷什（Ananda Theertha Suresh）。2014.球面高斯混合的近最佳样本估计。arXiv预打印arXiv:1402.4746。谷歌学者
Dimitris Achlioptas和Frank McSherry。2005.关于混合分布的谱学习。在计算学习理论国际会议上。458–469页。谷歌学者数字图书馆
约瑟夫·安德森、米哈伊尔·贝尔金、纳文·戈亚尔、路易斯·拉德马赫和詹姆斯·沃斯。2014.越多越好：学习大型高斯混合函数的维数的好处。在学习理论会议上。1135年至1164年。谷歌学者
桑吉夫·阿罗拉和拉维·坎南。2005.学习分离的非球形高斯混合。应用概率年鉴，15，1A（2005），69-92。谷歌学者交叉引用
哈桑·阿什蒂亚尼（Hassan Ashtiani）、谢本·达维德（Shai Ben-David）、尼古拉斯·贾·哈维（Nicholas JA Harvey）、克里斯托弗·利奥（Christopher Liaw）、阿巴斯·梅赫拉比安（Abbas Mehrabian）和。2018.通过样本压缩方案学习高斯混合的样本复杂度边界几乎很紧。第32届神经信息处理系统国际会议论文集。3416–3425.谷歌学者
米哈伊尔·贝尔金和考希克·辛哈。2015。分布族的多项式学习。SIAM J.计算。，44, 4 (2015), 889–911.谷歌学者数字图书馆
Aditya Bhaskara、Moses Charikar、Ankur Moitra和Aravindan Vijayaraghavan。2014.张量分解的平滑分析。在第四十六届ACM计算理论研讨会的会议记录中。594–603.谷歌学者数字图书馆
Aditya Bhaskara、Ananda Suresh和Morteza Zadimoghaddam。2015.非负线性系统和应用的稀疏解决方案。人工智能与统计。83–92.谷歌学者
马修·布伦南（Matthew Brennan）、盖·布雷斯勒（Guy Bresler）、塞缪尔·霍普金斯（Samuel B Hopkins）、杰里·李（Jerry Li）和塞利尔·施拉姆（Tselil Schramm）。2020年。统计查询算法和低度测试几乎相等。arXiv预打印arXiv:2009.06107。谷歌学者
小安·陈（Siu-An Chan）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、罗科·阿塞韦迪奥（Rocco A Servedio）和孙晓瑞（Xiaorui Sun）。2014.通过分段多项式近似进行有效密度估计。在第四十六届ACM计算理论研讨会的会议记录中。604–613.谷歌学者数字图书馆
小安·陈（Siu-An Chan）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、罗科·阿塞韦迪奥（Rocco A Servedio）和孙晓瑞（Xiaorui Sun）。2014.使用可变宽度直方图在近线性时间内进行近最佳密度估计。arXiv预打印arXiv:1411.0169。谷歌学者
陈元思。2021.KLS猜想中等周系数的几乎恒定下限。几何和功能分析，31，1（2021），34–61。谷歌学者交叉引用
桑乔伊·达斯古普塔。1999年，学习高斯混血儿。在第40届计算机科学基础年度研讨会上（目录号99CB37039）。634–644.谷歌学者交叉引用
桑乔伊·达斯古普塔（Sanjoy Dasgupta）和伦纳德·舒尔曼（Leonard J Schulman）。2007.分离的球形高斯混合体EM的概率分析。《机器学习研究杂志》，8（2007），203–226。谷歌学者数字图书馆
君士坦丁诺·达斯卡拉基斯（Constantinos Daskalakis）和高塔姆·卡马特（Gautam Kamath）。2014.用于正确学习高斯混合的快速样本近最优算法。在学习理论会议上。1183–1213.谷歌学者
Constantinos Daskalakis、Christos Tzamos和Manolis Zampetakis。2017年。EM的十个步骤足以满足两个高斯人的混合物。在学习理论会议上。704–710.谷歌学者
Luc Devroye和Gábor Lugosi。2001.密度估计中的组合方法。施普林格科技与商业媒体。谷歌学者
伊利亚斯·迪亚科尼科拉斯和丹尼尔·凯恩。2020年。多项式近零集的小覆盖和学习潜在变量模型。2020年，IEEE第61届计算机科学基础年会（FOCS）。184–195.谷歌学者交叉引用
Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2017.高维高斯和高斯混合稳健估计的统计查询下限。2017年IEEE第58届计算机科学基础年会（FOCS）。73–84.谷歌学者交叉引用
Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2018年。球形高斯函数的列表可分解稳健均值估计和学习混合。第50届ACM SIGACT计算机理论研讨会论文集。1047–1060.谷歌学者数字图书馆
乔恩·费尔德曼（Jon Feldman）、瑞安·奥唐纳（Ryan O'Donnell）和洛科·A·塞韦迪奥（Rocco A Servedio）。2008.学习离散域上产品分布的混合。SIAM J.计算。，37, 5 (2008), 1536–1564.谷歌学者数字图书馆
荣戈、黄庆庆和Sham M Kakade。2015年，学习高维高斯混合。第四十七届ACM计算理论年会论文集。761–770.谷歌学者数字图书馆
文凯特桑·古鲁斯瓦米和阿里·凯末尔·斯诺普。2012.本地取整算法的更快SDP层次求解器。2012年IEEE第53届计算机科学基础年会。197–206.谷歌学者数字图书馆
莫里茨·哈特和埃里克·普莱斯。2015年，学习两个高斯人的混合物的界限很紧。第四十七届ACM计算理论年会论文集。753–760.谷歌学者数字图书馆
Samuel B Hopkins和Jerry Li，2018年。混合模型、稳健性和平方和证明。第50届ACM SIGACT计算机理论研讨会论文集。1021–1034.谷歌学者数字图书馆
塞缪尔·霍普金斯（Samuel B Hopkins）、谢利尔·施拉姆（Tselil Schramm）和乔纳森·施（Jonathan Shi）。2019.过完备张量分解的稳健谱算法。在学习理论会议上。1683–1722.谷歌学者
塞缪尔·霍普金斯（Samuel B Hopkins）、谢利尔·施拉姆（Tselil Schramm）、乔纳森·施（Jonathan Shi）和大卫·斯特勒（David Steurer）。2016。平方和证明的快速谱算法：张量分解和种植的稀疏向量。在第四十八届ACM计算理论研讨会的会议记录中。178–191.谷歌学者数字图书馆
Daniel Hsu和Sham M Kakade。2013.学习球面高斯混合：矩方法和谱分解。第四届理论计算机科学创新会议论文集。11–20.谷歌学者数字图书馆
Adam Tauman Kalai、Ankur Moitra和Gregory Valiant。2010年。有效学习两个高斯人的混合。第四十二届ACM计算理论研讨会论文集。553–562.谷歌学者数字图书馆
Pravesh K Kothari、Jacob Steinhardt和David Steurer。2018年。稳健的矩估计和通过平方和改进的聚类。第50届ACM SIGACT计算机理论研讨会论文集。1035–1046.谷歌学者数字图书馆
阿米特·库马尔（Amit Kumar）和拉文德兰·坎南（Ravindran Kannan）。2010年，使用谱范数和k-means算法进行聚类。2010年IEEE第51届计算机科学基础年会。299–308.谷歌学者数字图书馆
Jerry Li、Allen Liu和Ankur Moitra。2021.指数和的稀疏化及其算法应用。arXiv预打印arXiv:2106.02774。谷歌学者
Jerry Li和Ludwig Schmidt。2017.通过多项式不等式系统对高斯混合进行稳健和适当的学习。在学习理论会议上。1302–1382.谷歌学者
马腾宇、史强森和大卫·斯图尔。2016.带平方和的多项式时间张量分解。2016年IEEE第57届计算机科学基础年会（FOCS）。438–446.谷歌学者交叉引用
Dustin G Mixon、Soledad Villar和Rachel Ward。2017.通过半定规划对亚高斯混合进行聚类。信息和推断：IMA杂志，6，4（2017），389–415。谷歌学者交叉引用
安库·莫伊特拉（Ankur Moitra）和格雷戈里·瓦利安特（Gregory Valiant）。2010.解决高斯混合多项式的可学习性。2010年IEEE第51届计算机科学基础年会。93–102.谷歌学者数字图书馆
卡尔·皮尔逊。1894.对进化数学理论的贡献。伦敦皇家学会哲学学报。A、 185（1894），71-110。谷歌学者交叉引用
Prasad Raghavendra、Satish Rao和Tselil Schramm。2017年，强烈驳斥低于光谱阈值的随机csp。第49届ACM SIGACT计算理论年会论文集。121–131.谷歌学者数字图书馆
奥德·雷格夫（Oded Regev）和阿拉文丹·维贾亚拉哈万（Aravindan Vijayaraghavan）。2017年，关于分离良好的高斯人的学习组合。arxiv:1710.11592。谷歌学者
谢利尔·施拉姆和大卫·斯特勒。2017.快速稳健的张量分解及其在字典学习中的应用。在学习理论会议上。1760–1793.谷歌学者
David Steurer和Stefan Tiegel。2021.SoS度降低，应用于聚类和稳健矩估计。2021年ACM-SIAM离散算法（SODA）研讨会论文集。374–393.谷歌学者交叉引用
Yin Tat Lee和Santosh S Vempala。2018年，Kannan-Lovász-Simonovits推测。arXiv电子打印，arXiv–1807。谷歌学者
Santosh Vempala和Grant Wang。2004。用于学习混合模型的谱算法。J.计算。系统科学。，68, 4 (2004), 841–860.谷歌学者数字图书馆
CF杰夫·吴。1983年。关于EM算法的收敛性。统计年鉴，95-103。谷歌学者
季旭、徐彦祖和阿里安·马利基。2016。两种高斯混合的期望最大化的全球分析。arXiv预打印arXiv:1608.07630。谷歌学者

索引术语

多项式时间内几乎最优分离的聚类混合
1. 计算理论
  1. 应用领域的理论和算法
    1. 机器学习理论
      1. 无监督学习和集群

建议

稳健学习高斯广义混合
这项工作代表了工作学习混合高斯和算法稳健统计的两条重要路线的自然融合。特别地，我们给出了第一个可证明的鲁棒算法，用于学习任意常数个。。。
阅读更多信息
球面高斯混合学习：矩方法和谱分解
ITCS’13：第四届理论计算机科学创新会议记录

这项工作为球面高斯混合提供了一种计算效率高且统计一致的基于矩的估计量。在分量均值处于一般位置的情况下，一种简单的谱分解技术可以得到。。。
阅读更多信息
高斯混合多项式可学习性的求解
FOCS’10：2010 IEEE第51届计算机科学基础年会论文集

给定从多元高斯混合数据中提取的数据，一个基本问题是准确估计混合参数。我们给出了该问题的一个算法，该算法在维数和逆维数上具有运行时间和数据需求多项式。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
STOC 2022：第54届ACM SIGACT计算理论年会论文集
2022年6月
1698页
国际标准图书编号：9781450392648
内政部：10.1145/3519935
总主席：
斯特凡诺·莱昂纳迪
意大利罗马萨皮恩扎大学
,
项目主席：
阿努帕姆·古普塔
美国卡内基梅隆大学
版权所有©2022所有者/作者
本作品根据Creative Commons Attribution 4.0国际许可证授权。
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2022年6月10日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
庞加莱分布
群集
矩量法
混合物模型
高斯混合
限定符
- 研究论文
会议

接受率
总体验收率1,469属于4,586提交，32%
即将召开的会议
STOC’24

赞助商：

六角形

第56届ACM计算理论年会（STOC 2024）

2024年6月24日至28日

温哥华，BC中，加拿大
资金来源
其他指标
查看文章指标

文章指标
- 4
  引文总数
  查看引文
- 219
  总下载次数
- 下载次数（过去12个月）90
- 下载次数（最近6周）5
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

多项式时间内几乎最优分离的聚类混合

STOC 2022：第54届ACM SIGACT计算理论年会论文集

摘要

工具书类

引用人

索引术语

建议

稳健学习高斯广义混合

球面高斯混合学习：矩方法和谱分解

高斯混合多项式可学习性的求解

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

多项式时间内几乎最优分离的聚类混合

STOC 2022：第54届ACM SIGACT计算理论年会论文集

摘要

工具书类

引用人

索引术语

建议

稳健学习高斯广义混合

球面高斯混合学习：矩方法和谱分解

高斯混合多项式可学习性的求解

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享