研究论文

开放式访问

多项式时间内几乎最优分离的聚类混合

作者:

艾伦线路接口单元,

杰瑞锂作者信息和声明

STOC 2022：第54届ACM SIGACT计算理论年会论文集

页1248-1261

https://doi.org/10.1145/3519935.3520012

出版:2022年6月10日出版历史

PDF格式电子阅读器

摘要

我们考虑高维均值分离高斯混合聚类问题。我们收到了来自以下混合物的样品k个单位协方差Gaussian，使任意两对均值之间的最小成对距离至少为Δ，对于某些参数Δ>0，目标是恢复这些样本的基本真值聚类。民间传说分隔Δ=θ（√logk个)对于恢复良好的聚类（例如使用常数或1/poly(k个)错误），至少是理论上的信息。然而，实现这一保证的估算器效率低下。我们给出了在多项式时间内运行的第一个算法，它几乎符合这个保证。更准确地说，我们给出了一种算法，该算法需要多项式多个样本和时间，并且只要分离度为Δ=Ω（log^{1/2 +c（c）} k个)，对于任何c（c）> 0. 以前，多项式时间算法仅在分离为多项式时才适用于此问题k个，以及所有能够容忍poly log的算法k个分离需要准多项式时间。我们还将结果推广到满足Poincaré不等式的分布在其他温和假设下的混合平移。

我们的主要技术工具是一种隐式表示和估计分布的高阶矩的新方法，我们认为这是一种独立的工具，它允许我们提取有关高阶矩方面的重要信息，而无需显式地写下完整的矩张量。

工具书类

[1]

贾亚德夫·阿查里亚（Jayadev Acharya）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、杰里·李（Jerry Li）和路德维希·施密特（Ludwig Schmidt）。2017.近线性时间内的样本最佳密度估计。在第二十八届ACM-SIAM离散算法年度研讨会论文集上。1278–1289.

[2]

贾亚德夫·阿查里亚（Jayadev Acharya）、阿什坎·贾法尔普尔（Ashkan Jafarpour）、阿尔隆·奥利茨基（Alon Orlitsky）和阿南达·瑟塔·苏雷什（Ananda Theertha Suresh）。2014.球面高斯混合的近最佳样本估计。arXiv预打印arXiv:1402.4746。

[3]

Dimitris Achlioptas和Frank McSherry。2005.关于混合分布的谱学习。在计算学习理论国际会议上。458–469.

数字图书馆

[4]

约瑟夫·安德森、米哈伊尔·贝尔金、纳文·戈亚尔、路易斯·拉德马赫和詹姆斯·沃斯。2014.越多越好：学习大型高斯混合函数的维数的好处。在学习理论会议上。1135–1164.

[5]

桑吉夫·阿罗拉和拉维·坎南。2005.学习分离的非球形高斯混合。应用概率年鉴，15，1A（2005），69-92。

[6]

哈桑·阿什蒂亚尼（Hassan Ashtiani）、谢本·达维德（Shai Ben-David）、尼古拉斯·贾·哈维（Nicholas JA Harvey）、克里斯托弗·利奥（Christopher Liaw）、阿巴斯·梅赫拉比安（Abbas Mehrabian）和。2018.通过样本压缩方案学习高斯混合的样本复杂度边界几乎很紧。第32届神经信息处理系统国际会议论文集。3416–3425.

[7]

米哈伊尔·贝尔金和考希克·辛哈。2015.分销家庭的多项式学习。SIAM J.计算。，44, 4 (2015), 889–911.

数字图书馆

[8]

Aditya Bhaskara、Moses Charikar、Ankur Moitra和Aravindan Vijayaraghavan。2014.张量分解的平滑分析。在第四十六届ACM计算理论研讨会的会议记录中。594–603.

数字图书馆

[9]

Aditya Bhaskara、Ananda Suresh和Morteza Zadimoghaddam。2015.非负线性系统和应用的稀疏解决方案。人工智能与统计。83–92.

[10]

马修·布伦南（Matthew Brennan）、盖·布雷斯勒（Guy Bresler）、塞缪尔·霍普金斯（Samuel B Hopkins）、杰里·李（Jerry Li）和塞利尔·施拉姆（Tselil Schramm）。2020年。统计查询算法和低度测试几乎相等。arXiv预打印arXiv:2009.06107。

[11]

小安·陈（Siu-An Chan）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、罗科·阿塞韦迪奥（Rocco A Servedio）和孙晓瑞（Xiaorui Sun）。2014.通过分段多项式近似进行有效密度估计。在第四十六届ACM计算理论研讨会的会议记录中。604–613.

数字图书馆

[12]

小安·陈（Siu-An Chan）、伊利亚斯·迪亚科尼科拉斯（Ilias Diakonikolas）、罗科·阿塞韦迪奥（Rocco A Servedio）和孙晓瑞（Xiaorui Sun）。2014.使用可变宽度直方图在近线性时间内进行近最佳密度估计。arXiv预打印arXiv:1411.0169。

[13]

陈元思。2021.KLS猜想中等周系数的几乎恒定下限。几何和功能分析，31，1（2021），34–61。

[14]

桑乔伊·达斯古普塔。1999年，学习高斯混合语。第40届计算机科学基础年会（分类号99CB37039）。634–644.

[15]

桑乔伊·达斯古普塔（Sanjoy Dasgupta）和伦纳德·舒尔曼（Leonard J Schulman）。2007.分离的球形高斯混合体EM的概率分析。机器学习研究杂志，8（2007），203-226。

数字图书馆

[16]

君士坦丁诺·达斯卡拉基斯（Constantinos Daskalakis）和高塔姆·卡马特（Gautam Kamath）。2014.用于正确学习高斯混合的快速样本近最优算法。在学习理论会议上。1183–1213.

[17]

Constantinos Daskalakis、Christos Tzamos和Manolis Zampetakis。2017年。EM的十个步骤足以满足两个高斯人的混合物。在学习理论会议上。704–710.

[18]

Luc Devroye和Gábor Lugosi。2001.密度估计中的组合方法。施普林格科技与商业媒体。

[19]

伊利亚斯·迪亚科尼科拉斯和丹尼尔·凯恩。2020年。多项式近零集的小覆盖和学习潜在变量模型。2020年，IEEE第61届计算机科学基础年会（FOCS）。184–195.

[20]

Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2017.高维高斯和高斯混合稳健估计的统计查询下限。2017年IEEE第58届计算机科学基础年会（FOCS）。73–84.

[21]

Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2018年。球形高斯函数的列表可分解稳健均值估计和学习混合。第50届ACM SIGACT计算机理论研讨会论文集。1047–1060.

数字图书馆

[22]

乔恩·费尔德曼（Jon Feldman）、瑞安·奥唐纳（Ryan O'Donnell）和洛科·A·塞韦迪奥（Rocco A Servedio）。2008.学习离散域上产品分布的混合。SIAM J.计算。，37, 5 (2008), 1536–1564.

数字图书馆

[23]

荣戈、黄庆庆和Sham M Kakade。2015年，学习高维高斯混合。第四十七届ACM计算理论年会论文集。761–770.

数字图书馆

[24]

文凯特桑·古鲁斯瓦米和阿里·凯末尔·斯诺普。2012.用于局部舍入算法的更快SDP层次结构求解器。2012年IEEE第53届计算机科学基础年会。197–206.

数字图书馆

[25]

莫里茨·哈德（Moritz Hardt）和埃里克·普莱斯（Eric Price）。2015年，学习两个高斯人的混合物的界限很紧。第四十七届ACM计算理论年会论文集。753–760.

数字图书馆

[26]

塞缪尔·霍普金斯（Samuel B Hopkins）和杰里·李（Jerry Li），2018年。混合模型、稳健性和平方和证明。第50届ACM SIGACT计算机理论研讨会论文集。1021–1034.

数字图书馆

[27]

塞缪尔·霍普金斯（Samuel B Hopkins）、谢利尔·施拉姆（Tselil Schramm）和乔纳森·施（Jonathan Shi）。2019.过完备张量分解的稳健谱算法。在学习理论会议上。1683–1722.

[28]

塞缪尔·霍普金斯（Samuel B Hopkins）、谢利尔·施拉姆（Tselil Schramm）、乔纳森·施（Jonathan Shi）和大卫·斯特勒（David Steurer）。2016.平方和证明的快速谱算法：张量分解和种植稀疏向量。在第四十八届ACM计算理论研讨会的会议记录中。178–191.

数字图书馆

[29]

Daniel Hsu和Sham M Kakade。2013.学习球形高斯的混合：矩方法和光谱分解。第四届理论计算机科学创新会议论文集。11–20.

数字图书馆

[30]

Adam Tauman Kalai、Ankur Moitra和Gregory Valiant。2010年。有效学习两个高斯人的混合。第四十二届ACM计算理论研讨会论文集。553–562.

数字图书馆

[31]

Pravesh K Kothari、Jacob Steinhardt和David Steurer。2018年。稳健的矩估计和通过平方和改进的聚类。第50届ACM SIGACT计算机理论研讨会论文集。1035–1046.

数字图书馆

[32]

阿米特·库马尔（Amit Kumar）和拉文德兰·坎南（Ravindran Kannan）。2010年，使用谱范数和k-means算法进行聚类。2010年IEEE第51届计算机科学基础年会。299–308.

数字图书馆

[33]

Jerry Li、Allen Liu和Ankur Moitra。2021.指数和的稀疏化及其算法应用。arXiv预打印arXiv:2106.02774。

[34]

杰瑞·李和路德维希·施密特。2017.通过多项式不等式系统对高斯混合进行稳健和适当的学习。在学习理论会议上。1302–1382.

[35]

马腾宇（Tengyu Ma）、石乔纳森（Jonathan Shi）和大卫·斯特勒（David Steurer）。2016.带平方和的多项式时间张量分解。2016年IEEE第57届计算机科学基础年会（FOCS）。438–446.

[36]

Dustin G Mixon、Soledad Villar和Rachel Ward。2017.通过半定规划聚类亚高斯混合。信息和推断：IMA杂志，6，4（2017），389–415。

[37]

安库·莫伊特拉（Ankur Moitra）和格雷戈里·瓦利安特（Gregory Valiant）。2010.解决高斯混合多项式的可学习性。2010年IEEE第51届计算机科学基础年会。93–102.

数字图书馆

[38]

卡尔·皮尔逊。1894.对进化数学理论的贡献。伦敦皇家学会哲学学报。A、 185（1894），71-110。

[39]

Prasad Raghavendra、Satish Rao和Tselil Schramm。2017年，强烈驳斥低于光谱阈值的随机csp。第49届ACM SIGACT计算理论年度研讨会论文集。121–131.

数字图书馆

[40]

奥德·雷格夫（Oded Regev）和阿拉文丹·维贾亚拉哈万（Aravindan Vijayaraghavan）。2017年，关于分离良好的高斯人的学习组合。arxiv:1710.11592。

[41]

谢利尔·施拉姆和大卫·斯特勒。2017.快速稳健的张量分解及其在字典学习中的应用。在学习理论会议上。1760–1793.

[42]

David Steurer和Stefan Tiegel。2021.SoS度降低，应用于聚类和鲁棒矩估计。2021年ACM-SIAM离散算法（SODA）研讨会论文集。374–393.

[43]

Yin Tat Lee和Santosh S Vempala。2018年，Kannan-Lovász-Simonovits推测。arXiv电子打印，arXiv–1807。

[44]

Santosh Vempala和Grant Wang。2004。用于学习混合模型的谱算法。J.计算。系统科学。，68, 4 (2004), 841–860.

数字图书馆

[45]

CF杰夫·吴。1983年。关于EM算法的收敛性。统计年鉴，95-103。

[46]

季旭、徐彦祖和阿里安·马利基。2016年，两种高斯混合期望最大化的全球分析。arXiv预打印arXiv:1608.07630。

引用人

阿尔巴斯J阿什蒂亚尼HLiaw C公司克劳斯A布伦斯基E赵·K恩格哈特B萨巴托S斯佳丽J(2023)无界高斯混合模型的多项式时间和私有学习第40届机器学习国际会议论文集10.5555/3618408.3618450(1018-1040)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.5555/3618408.3618450
乔·M古鲁加内什G拉瓦特A杜比AZaheer M公司科耶霍S穆罕默德·S阿加瓦尔A贝尔格雷夫D赵·K哦，A(2022)混合学习的傅里叶方法第36届神经信息处理系统国际会议记录10.5555/3600270.3601786(20850-20861)在线发布日期：2022年11月28日
https://dl.acm.org/doi/10.5555/3600270.3601786

索引术语

多项式时间内几乎最优分离的聚类混合
1. 计算理论
  1. 应用领域的理论和算法
    1. 机器学习理论
      1. 无监督学习和聚类

建议

稳健学习高斯广义混合
这项工作代表了工作学习混合高斯和算法稳健统计的两条重要路线的自然融合。特别地，我们给出了第一个可证明的鲁棒算法，用于学习任意常数个。。。
球面高斯混合学习：矩方法和谱分解
ITCS’13：第四届理论计算机科学创新会议记录

这项工作为球面高斯混合提供了一种计算效率高且统计一致的基于矩的估计量。在分量平均值处于一般位置的条件下，一种简单的谱分解技术可以得到。。。
高斯混合多项式可学习性的求解
FOCS’10：2010 IEEE第51届计算机科学基础年会论文集

给定从多元高斯混合数据中提取的数据，一个基本问题是准确估计混合参数。我们给出了该问题的一个算法，该算法在维数和逆维数上具有运行时间和数据需求多项式。。。

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

STOC 2022：第54届ACM SIGACT计算理论年会论文集

2022年6月

1698页

国际标准图书编号：9781450392648

内政部：10.1145/3519935

总主席：
斯特凡诺·莱昂纳迪
意大利罗马萨皮恩扎大学
,
项目主席：
阿努帕姆·古普塔
美国卡内基梅隆大学

版权所有©2022所有者/作者。

本作品根据Creative Commons Attribution 4.0国际许可证授权。

赞助商

SIGACT:ACM算法和计算理论特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2022年6月10日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

会议

STOC’22号

赞助商：

SIGACT公司

STOC’22:54届ACM SIGACT计算理论年会

2022年6月20日至24日

意大利罗马

接受率

4586份提交文件的总体接受率为1469份，占32%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

2
引文总数
查看引文
249
总下载次数

下载量（最近12个月）106
下载次数（最近6周）15

反映截至2024年9月22日的下载量

其他指标

查看作者指标

引文

引用人

阿尔巴斯J阿什蒂亚尼HLiaw C公司克劳斯A布伦斯基E赵·K恩格尔哈特B萨巴托S斯佳丽J(2023)无界高斯混合模型的多项式时间和私有学习第40届机器学习国际会议论文集10.5555/3618408.3618450(1018-1040)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.5555/3618408.3618450
乔·M古鲁加内什G拉瓦特A杜比AZaheer M公司科耶霍S穆罕默德·S阿加瓦尔A贝尔格雷夫D赵·K哦，A(2022)混合学习的傅里叶方法第36届神经信息处理系统国际会议记录10.5555/3600270.3601786(20850-20861)在线发布日期：2022年11月28日
https://dl.acm.org/doi/10.5555/3600270.3601786

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子