跳到主要内容
10.1145/3519935.3520012acm会议文章/章节视图摘要出版物页面斯托克会议记录会议集合
研究论文
开放式访问

多项式时间内几乎最优分离的聚类混合

出版:2022年6月10日 出版历史

摘要

我们考虑高维均值分离高斯混合聚类问题。我们收到了来自以下混合物的样品k个单位协方差Gaussian,使任意两对均值之间的最小成对距离至少为Δ,对于某些参数Δ>0,目标是恢复这些样本的基本真值聚类。民间传说分隔Δ=θ(√logk个)对于恢复良好的聚类(例如使用常数或1/poly(k个)错误),至少是理论上的信息。然而,实现这一保证的估算器效率低下。我们给出了在多项式时间内运行的第一个算法,它几乎符合这个保证。更准确地说,我们给出了一种算法,该算法需要多项式多个样本和时间,并且只要分离度为Δ=Ω(log1/2 +c(c) k个),对于任何c(c)> 0. 以前,多项式时间算法仅在分离为多项式时才适用于此问题k个,以及所有能够容忍poly log的算法k个分离需要准多项式时间。我们还将结果推广到满足Poincaré不等式的分布在其他温和假设下的混合平移。
我们的主要技术工具是一种隐式表示和估计分布的高阶矩的新方法,我们认为这是一种独立的工具,它允许我们提取有关高阶矩方面的重要信息,而无需显式地写下完整的矩张量。

工具书类

[1]
贾亚德夫·阿查里亚(Jayadev Acharya)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、杰里·李(Jerry Li)和路德维希·施密特(Ludwig Schmidt)。2017.近线性时间内的样本最佳密度估计。在第二十八届ACM-SIAM离散算法年度研讨会论文集上。1278–1289.
[2]
贾亚德夫·阿查里亚(Jayadev Acharya)、阿什坎·贾法尔普尔(Ashkan Jafarpour)、阿尔隆·奥利茨基(Alon Orlitsky)和阿南达·瑟塔·苏雷什(Ananda Theertha Suresh)。2014.球面高斯混合的近最佳样本估计。arXiv预打印arXiv:1402.4746。
[3]
Dimitris Achlioptas和Frank McSherry。2005.关于混合分布的谱学习。在计算学习理论国际会议上。458–469.
[4]
约瑟夫·安德森、米哈伊尔·贝尔金、纳文·戈亚尔、路易斯·拉德马赫和詹姆斯·沃斯。2014.越多越好:学习大型高斯混合函数的维数的好处。在学习理论会议上。1135–1164.
[5]
桑吉夫·阿罗拉和拉维·坎南。2005.学习分离的非球形高斯混合。应用概率年鉴,15,1A(2005),69-92。
[6]
哈桑·阿什蒂亚尼(Hassan Ashtiani)、谢本·达维德(Shai Ben-David)、尼古拉斯·贾·哈维(Nicholas JA Harvey)、克里斯托弗·利奥(Christopher Liaw)、阿巴斯·梅赫拉比安(Abbas Mehrabian)和。2018.通过样本压缩方案学习高斯混合的样本复杂度边界几乎很紧。第32届神经信息处理系统国际会议论文集。3416–3425.
[7]
米哈伊尔·贝尔金和考希克·辛哈。2015.分销家庭的多项式学习。SIAM J.计算。,44, 4 (2015), 889–911.
[8]
Aditya Bhaskara、Moses Charikar、Ankur Moitra和Aravindan Vijayaraghavan。2014.张量分解的平滑分析。在第四十六届ACM计算理论研讨会的会议记录中。594–603.
[9]
Aditya Bhaskara、Ananda Suresh和Morteza Zadimoghaddam。2015.非负线性系统和应用的稀疏解决方案。人工智能与统计。83–92.
[10]
马修·布伦南(Matthew Brennan)、盖·布雷斯勒(Guy Bresler)、塞缪尔·霍普金斯(Samuel B Hopkins)、杰里·李(Jerry Li)和塞利尔·施拉姆(Tselil Schramm)。2020年。统计查询算法和低度测试几乎相等。arXiv预打印arXiv:2009.06107。
[11]
小安·陈(Siu-An Chan)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、罗科·阿塞韦迪奥(Rocco A Servedio)和孙晓瑞(Xiaorui Sun)。2014.通过分段多项式近似进行有效密度估计。在第四十六届ACM计算理论研讨会的会议记录中。604–613.
[12]
小安·陈(Siu-An Chan)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、罗科·阿塞韦迪奥(Rocco A Servedio)和孙晓瑞(Xiaorui Sun)。2014.使用可变宽度直方图在近线性时间内进行近最佳密度估计。arXiv预打印arXiv:1411.0169。
[13]
陈元思。2021.KLS猜想中等周系数的几乎恒定下限。几何和功能分析,31,1(2021),34–61。
[14]
桑乔伊·达斯古普塔。1999年,学习高斯混合语。第40届计算机科学基础年会(分类号99CB37039)。634–644.
[15]
桑乔伊·达斯古普塔(Sanjoy Dasgupta)和伦纳德·舒尔曼(Leonard J Schulman)。2007.分离的球形高斯混合体EM的概率分析。机器学习研究杂志,8(2007),203-226。
[16]
君士坦丁诺·达斯卡拉基斯(Constantinos Daskalakis)和高塔姆·卡马特(Gautam Kamath)。2014.用于正确学习高斯混合的快速样本近最优算法。在学习理论会议上。1183–1213.
[17]
Constantinos Daskalakis、Christos Tzamos和Manolis Zampetakis。2017年。EM的十个步骤足以满足两个高斯人的混合物。在学习理论会议上。704–710.
[18]
Luc Devroye和Gábor Lugosi。2001.密度估计中的组合方法。施普林格科技与商业媒体。
[19]
伊利亚斯·迪亚科尼科拉斯和丹尼尔·凯恩。2020年。多项式近零集的小覆盖和学习潜在变量模型。2020年,IEEE第61届计算机科学基础年会(FOCS)。184–195.
[20]
Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2017.高维高斯和高斯混合稳健估计的统计查询下限。2017年IEEE第58届计算机科学基础年会(FOCS)。73–84.
[21]
Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2018年。球形高斯函数的列表可分解稳健均值估计和学习混合。第50届ACM SIGACT计算机理论研讨会论文集。1047–1060.
[22]
乔恩·费尔德曼(Jon Feldman)、瑞安·奥唐纳(Ryan O'Donnell)和洛科·A·塞韦迪奥(Rocco A Servedio)。2008.学习离散域上产品分布的混合。SIAM J.计算。,37, 5 (2008), 1536–1564.
[23]
荣戈、黄庆庆和Sham M Kakade。2015年,学习高维高斯混合。第四十七届ACM计算理论年会论文集。761–770.
[24]
文凯特桑·古鲁斯瓦米和阿里·凯末尔·斯诺普。2012.用于局部舍入算法的更快SDP层次结构求解器。2012年IEEE第53届计算机科学基础年会。197–206.
[25]
莫里茨·哈德(Moritz Hardt)和埃里克·普莱斯(Eric Price)。2015年,学习两个高斯人的混合物的界限很紧。第四十七届ACM计算理论年会论文集。753–760.
[26]
塞缪尔·霍普金斯(Samuel B Hopkins)和杰里·李(Jerry Li),2018年。混合模型、稳健性和平方和证明。第50届ACM SIGACT计算机理论研讨会论文集。1021–1034.
[27]
塞缪尔·霍普金斯(Samuel B Hopkins)、谢利尔·施拉姆(Tselil Schramm)和乔纳森·施(Jonathan Shi)。2019.过完备张量分解的稳健谱算法。在学习理论会议上。1683–1722.
[28]
塞缪尔·霍普金斯(Samuel B Hopkins)、谢利尔·施拉姆(Tselil Schramm)、乔纳森·施(Jonathan Shi)和大卫·斯特勒(David Steurer)。2016.平方和证明的快速谱算法:张量分解和种植稀疏向量。在第四十八届ACM计算理论研讨会的会议记录中。178–191.
[29]
Daniel Hsu和Sham M Kakade。2013.学习球形高斯的混合:矩方法和光谱分解。第四届理论计算机科学创新会议论文集。11–20.
[30]
Adam Tauman Kalai、Ankur Moitra和Gregory Valiant。2010年。有效学习两个高斯人的混合。第四十二届ACM计算理论研讨会论文集。553–562.
[31]
Pravesh K Kothari、Jacob Steinhardt和David Steurer。2018年。稳健的矩估计和通过平方和改进的聚类。第50届ACM SIGACT计算机理论研讨会论文集。1035–1046.
[32]
阿米特·库马尔(Amit Kumar)和拉文德兰·坎南(Ravindran Kannan)。2010年,使用谱范数和k-means算法进行聚类。2010年IEEE第51届计算机科学基础年会。299–308.
[33]
Jerry Li、Allen Liu和Ankur Moitra。2021.指数和的稀疏化及其算法应用。arXiv预打印arXiv:2106.02774。
[34]
杰瑞·李和路德维希·施密特。2017.通过多项式不等式系统对高斯混合进行稳健和适当的学习。在学习理论会议上。1302–1382.
[35]
马腾宇(Tengyu Ma)、石乔纳森(Jonathan Shi)和大卫·斯特勒(David Steurer)。2016.带平方和的多项式时间张量分解。2016年IEEE第57届计算机科学基础年会(FOCS)。438–446.
[36]
Dustin G Mixon、Soledad Villar和Rachel Ward。2017.通过半定规划聚类亚高斯混合。信息和推断:IMA杂志,6,4(2017),389–415。
[37]
安库·莫伊特拉(Ankur Moitra)和格雷戈里·瓦利安特(Gregory Valiant)。2010.解决高斯混合多项式的可学习性。2010年IEEE第51届计算机科学基础年会。93–102.
[38]
卡尔·皮尔逊。1894.对进化数学理论的贡献。伦敦皇家学会哲学学报。A、 185(1894),71-110。
[39]
Prasad Raghavendra、Satish Rao和Tselil Schramm。2017年,强烈驳斥低于光谱阈值的随机csp。第49届ACM SIGACT计算理论年度研讨会论文集。121–131.
[40]
奥德·雷格夫(Oded Regev)和阿拉文丹·维贾亚拉哈万(Aravindan Vijayaraghavan)。2017年,关于分离良好的高斯人的学习组合。arxiv:1710.11592。
[41]
谢利尔·施拉姆和大卫·斯特勒。2017.快速稳健的张量分解及其在字典学习中的应用。在学习理论会议上。1760–1793.
[42]
David Steurer和Stefan Tiegel。2021.SoS度降低,应用于聚类和鲁棒矩估计。2021年ACM-SIAM离散算法(SODA)研讨会论文集。374–393.
[43]
Yin Tat Lee和Santosh S Vempala。2018年,Kannan-Lovász-Simonovits推测。arXiv电子打印,arXiv–1807。
[44]
Santosh Vempala和Grant Wang。2004。用于学习混合模型的谱算法。J.计算。系统科学。,68, 4 (2004), 841–860.
[45]
CF杰夫·吴。1983年。关于EM算法的收敛性。统计年鉴,95-103。
[46]
季旭、徐彦祖和阿里安·马利基。2016年,两种高斯混合期望最大化的全球分析。arXiv预打印arXiv:1608.07630。

引用人

查看全部
  • (2023)无界高斯混合模型的多项式时间和私有学习第40届机器学习国际会议论文集10.5555/3618408.3618450(1018-1040)在线发布日期:2023年7月23日
  • (2022)混合学习的傅里叶方法第36届神经信息处理系统国际会议记录10.5555/3600270.3601786(20850-20861)在线发布日期:2022年11月28日

索引术语

  1. 多项式时间内几乎最优分离的聚类混合

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM会议
    STOC 2022:第54届ACM SIGACT计算理论年会论文集
    2022年6月
    1698页
    国际标准图书编号:9781450392648
    内政部:10.1145/3519935
    本作品根据Creative Commons Attribution 4.0国际许可证授权。

    赞助商

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    出版:2022年6月10日

    权限

    请求对此文章的权限。

    检查更新

    作者标记

    1. 庞加莱分布
    2. 群集
    3. 矩量法
    4. 混合物模型
    5. 高斯混合物

    限定符

    • 研究文章

    会议

    STOC’22号
    赞助商:
    STOC’22:54届ACM SIGACT计算理论年会
    2022年6月20日至24日
    意大利罗马

    接受率

    4586份提交文件的总体接受率为1469份,占32%

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载量(最近12个月)106
    • 下载次数(最近6周)15
    反映截至2024年9月22日的下载量

    其他指标

    引文

    引用人

    查看全部
    • (2023)无界高斯混合模型的多项式时间和私有学习第40届机器学习国际会议论文集10.5555/3618408.3618450(1018-1040)在线发布日期:2023年7月23日
    • (2022)混合学习的傅里叶方法第36届神经信息处理系统国际会议记录10.5555/3600270.3601786(20850-20861)在线发布日期:2022年11月28日

    视图选项

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享