跳到主要内容
10.1145/3519935.3520012acm会议文章/章节视图摘要出版物页面斯托克会议记录会议集合
研究论文
开放式访问

多项式时间内几乎最优分离的聚类混合

出版:2022年6月10日出版历史

摘要

我们考虑高维均值分离高斯混合聚类问题。我们收到了来自以下混合物的样品k个同一协方差Gaussians,使得任何两对均值之间的最小成对距离至少为Δ,对于某些参数Δ>0,目标是恢复这些样本的真实聚类。民间传说分隔Δ=θ(√logk个)对于恢复良好的聚类(例如使用常数或1/poly(k个)错误),至少是理论上的信息。然而,实现这一保证的估算器效率低下。我们给出了在多项式时间内运行的第一个算法,它几乎符合这个保证。更准确地说,我们给出了一种算法,该算法需要多项式多次采样和时间,只要分离度为Δ=Ω(log1/2 +c(c) k个),对于任何c(c)> 0. 以前,多项式时间算法仅在分离为多项式时才适用于此问题k个,以及所有能够容忍poly log的算法k个分离需要准多项式时间。我们还将结果推广到满足Poincaré不等式的分布在其他温和假设下的混合平移。

我们的主要技术工具是一种隐式表示和估计分布的高阶矩的新方法,我们认为这是一种独立的工具,它允许我们提取有关高阶矩方面的重要信息,而无需显式地写下完整的矩张量。

工具书类

  1. 贾亚德夫·阿查里亚(Jayadev Acharya)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、杰里·李(Jerry Li)和路德维希·施密特(Ludwig Schmidt)。2017.近线性时间内的样本最佳密度估计。第二十八届ACM-SIAM离散算法研讨会论文集。1278–1289.谷歌学者谷歌学者交叉引用交叉引用
  2. 贾亚德夫·阿查里亚(Jayadev Acharya)、阿什坎·贾法尔普尔(Ashkan Jafarpour)、阿尔隆·奥利茨基(Alon Orlitsky)和阿南达·瑟塔·苏雷什(Ananda Theertha Suresh)。2014.球面高斯混合的近最佳样本估计。arXiv预打印arXiv:1402.4746。谷歌学者谷歌学者
  3. Dimitris Achlioptas和Frank McSherry。2005.关于混合分布的谱学习。在计算学习理论国际会议上。458–469页。谷歌学者谷歌学者数字图书馆数字图书馆
  4. 约瑟夫·安德森、米哈伊尔·贝尔金、纳文·戈亚尔、路易斯·拉德马赫和詹姆斯·沃斯。2014.越多越好:学习大型高斯混合函数的维数的好处。在学习理论会议上。1135年至1164年。谷歌学者谷歌学者
  5. 桑吉夫·阿罗拉和拉维·坎南。2005.学习分离的非球形高斯混合。应用概率年鉴,15,1A(2005),69-92。谷歌学者谷歌学者交叉引用交叉引用
  6. 哈桑·阿什蒂亚尼(Hassan Ashtiani)、谢本·达维德(Shai Ben-David)、尼古拉斯·贾·哈维(Nicholas JA Harvey)、克里斯托弗·利奥(Christopher Liaw)、阿巴斯·梅赫拉比安(Abbas Mehrabian)和。2018.通过样本压缩方案学习高斯混合的样本复杂度边界几乎很紧。第32届神经信息处理系统国际会议论文集。3416–3425.谷歌学者谷歌学者
  7. 米哈伊尔·贝尔金和考希克·辛哈。2015。分布族的多项式学习。SIAM J.计算。,44, 4 (2015), 889–911.谷歌学者谷歌学者数字图书馆数字图书馆
  8. Aditya Bhaskara、Moses Charikar、Ankur Moitra和Aravindan Vijayaraghavan。2014.张量分解的平滑分析。在第四十六届ACM计算理论研讨会的会议记录中。594–603.谷歌学者谷歌学者数字图书馆数字图书馆
  9. Aditya Bhaskara、Ananda Suresh和Morteza Zadimoghaddam。2015.非负线性系统和应用的稀疏解决方案。人工智能与统计。83–92.谷歌学者谷歌学者
  10. 马修·布伦南(Matthew Brennan)、盖·布雷斯勒(Guy Bresler)、塞缪尔·霍普金斯(Samuel B Hopkins)、杰里·李(Jerry Li)和塞利尔·施拉姆(Tselil Schramm)。2020年。统计查询算法和低度测试几乎相等。arXiv预打印arXiv:2009.06107。谷歌学者谷歌学者
  11. 小安·陈(Siu-An Chan)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、罗科·阿塞韦迪奥(Rocco A Servedio)和孙晓瑞(Xiaorui Sun)。2014.通过分段多项式近似进行有效密度估计。在第四十六届ACM计算理论研讨会的会议记录中。604–613.谷歌学者谷歌学者数字图书馆数字图书馆
  12. 小安·陈(Siu-An Chan)、伊利亚斯·迪亚科尼科拉斯(Ilias Diakonikolas)、罗科·阿塞韦迪奥(Rocco A Servedio)和孙晓瑞(Xiaorui Sun)。2014.使用可变宽度直方图在近线性时间内进行近最佳密度估计。arXiv预打印arXiv:1411.0169。谷歌学者谷歌学者
  13. 陈元思。2021.KLS猜想中等周系数的几乎恒定下限。几何和功能分析,31,1(2021),34–61。谷歌学者谷歌学者交叉引用交叉引用
  14. 桑乔伊·达斯古普塔。1999年,学习高斯混血儿。在第40届计算机科学基础年度研讨会上(目录号99CB37039)。634–644.谷歌学者谷歌学者交叉引用交叉引用
  15. 桑乔伊·达斯古普塔(Sanjoy Dasgupta)和伦纳德·舒尔曼(Leonard J Schulman)。2007.分离的球形高斯混合体EM的概率分析。《机器学习研究杂志》,8(2007),203–226。谷歌学者谷歌学者数字图书馆数字图书馆
  16. 君士坦丁诺·达斯卡拉基斯(Constantinos Daskalakis)和高塔姆·卡马特(Gautam Kamath)。2014.用于正确学习高斯混合的快速样本近最优算法。在学习理论会议上。1183–1213.谷歌学者谷歌学者
  17. Constantinos Daskalakis、Christos Tzamos和Manolis Zampetakis。2017年。EM的十个步骤足以满足两个高斯人的混合物。在学习理论会议上。704–710.谷歌学者谷歌学者
  18. Luc Devroye和Gábor Lugosi。2001.密度估计中的组合方法。施普林格科技与商业媒体。谷歌学者谷歌学者
  19. 伊利亚斯·迪亚科尼科拉斯和丹尼尔·凯恩。2020年。多项式近零集的小覆盖和学习潜在变量模型。2020年,IEEE第61届计算机科学基础年会(FOCS)。184–195.谷歌学者谷歌学者交叉引用交叉引用
  20. Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2017.高维高斯和高斯混合稳健估计的统计查询下限。2017年IEEE第58届计算机科学基础年会(FOCS)。73–84.谷歌学者谷歌学者交叉引用交叉引用
  21. Ilias Diakonikolas、Daniel M Kane和Alistair Stewart。2018年。球形高斯函数的列表可分解稳健均值估计和学习混合。第50届ACM SIGACT计算机理论研讨会论文集。1047–1060.谷歌学者谷歌学者数字图书馆数字图书馆
  22. 乔恩·费尔德曼(Jon Feldman)、瑞安·奥唐纳(Ryan O'Donnell)和洛科·A·塞韦迪奥(Rocco A Servedio)。2008.学习离散域上产品分布的混合。SIAM J.计算。,37, 5 (2008), 1536–1564.谷歌学者谷歌学者数字图书馆数字图书馆
  23. 荣戈、黄庆庆和Sham M Kakade。2015年,学习高维高斯混合。第四十七届ACM计算理论年会论文集。761–770.谷歌学者谷歌学者数字图书馆数字图书馆
  24. 文凯特桑·古鲁斯瓦米和阿里·凯末尔·斯诺普。2012.本地取整算法的更快SDP层次求解器。2012年IEEE第53届计算机科学基础年会。197–206.谷歌学者谷歌学者数字图书馆数字图书馆
  25. 莫里茨·哈特和埃里克·普莱斯。2015年,学习两个高斯人的混合物的界限很紧。第四十七届ACM计算理论年会论文集。753–760.谷歌学者谷歌学者数字图书馆数字图书馆
  26. Samuel B Hopkins和Jerry Li,2018年。混合模型、稳健性和平方和证明。第50届ACM SIGACT计算机理论研讨会论文集。1021–1034.谷歌学者谷歌学者数字图书馆数字图书馆
  27. 塞缪尔·霍普金斯(Samuel B Hopkins)、谢利尔·施拉姆(Tselil Schramm)和乔纳森·施(Jonathan Shi)。2019.过完备张量分解的稳健谱算法。在学习理论会议上。1683–1722.谷歌学者谷歌学者
  28. 塞缪尔·霍普金斯(Samuel B Hopkins)、谢利尔·施拉姆(Tselil Schramm)、乔纳森·施(Jonathan Shi)和大卫·斯特勒(David Steurer)。2016。平方和证明的快速谱算法:张量分解和种植的稀疏向量。在第四十八届ACM计算理论研讨会的会议记录中。178–191.谷歌学者谷歌学者数字图书馆数字图书馆
  29. Daniel Hsu和Sham M Kakade。2013.学习球面高斯混合:矩方法和谱分解。第四届理论计算机科学创新会议论文集。11–20.谷歌学者谷歌学者数字图书馆数字图书馆
  30. Adam Tauman Kalai、Ankur Moitra和Gregory Valiant。2010年。有效学习两个高斯人的混合。第四十二届ACM计算理论研讨会论文集。553–562.谷歌学者谷歌学者数字图书馆数字图书馆
  31. Pravesh K Kothari、Jacob Steinhardt和David Steurer。2018年。稳健的矩估计和通过平方和改进的聚类。第50届ACM SIGACT计算机理论研讨会论文集。1035–1046.谷歌学者谷歌学者数字图书馆数字图书馆
  32. 阿米特·库马尔(Amit Kumar)和拉文德兰·坎南(Ravindran Kannan)。2010年,使用谱范数和k-means算法进行聚类。2010年IEEE第51届计算机科学基础年会。299–308.谷歌学者谷歌学者数字图书馆数字图书馆
  33. Jerry Li、Allen Liu和Ankur Moitra。2021.指数和的稀疏化及其算法应用。arXiv预打印arXiv:2106.02774。谷歌学者谷歌学者
  34. Jerry Li和Ludwig Schmidt。2017.通过多项式不等式系统对高斯混合进行稳健和适当的学习。在学习理论会议上。1302–1382.谷歌学者谷歌学者
  35. 马腾宇、史强森和大卫·斯图尔。2016.带平方和的多项式时间张量分解。2016年IEEE第57届计算机科学基础年会(FOCS)。438–446.谷歌学者谷歌学者交叉引用交叉引用
  36. Dustin G Mixon、Soledad Villar和Rachel Ward。2017.通过半定规划对亚高斯混合进行聚类。信息和推断:IMA杂志,6,4(2017),389–415。谷歌学者谷歌学者交叉引用交叉引用
  37. 安库·莫伊特拉(Ankur Moitra)和格雷戈里·瓦利安特(Gregory Valiant)。2010.解决高斯混合多项式的可学习性。2010年IEEE第51届计算机科学基础年会。93–102.谷歌学者谷歌学者数字图书馆数字图书馆
  38. 卡尔·皮尔逊。1894.对进化数学理论的贡献。伦敦皇家学会哲学学报。A、 185(1894),71-110。谷歌学者谷歌学者交叉引用交叉引用
  39. Prasad Raghavendra、Satish Rao和Tselil Schramm。2017年,强烈驳斥低于光谱阈值的随机csp。第49届ACM SIGACT计算理论年会论文集。121–131.谷歌学者谷歌学者数字图书馆数字图书馆
  40. 奥德·雷格夫(Oded Regev)和阿拉文丹·维贾亚拉哈万(Aravindan Vijayaraghavan)。2017年,关于分离良好的高斯人的学习组合。arxiv:1710.11592。谷歌学者谷歌学者
  41. 谢利尔·施拉姆和大卫·斯特勒。2017.快速稳健的张量分解及其在字典学习中的应用。在学习理论会议上。1760–1793.谷歌学者谷歌学者
  42. David Steurer和Stefan Tiegel。2021.SoS度降低,应用于聚类和稳健矩估计。2021年ACM-SIAM离散算法(SODA)研讨会论文集。374–393.谷歌学者谷歌学者交叉引用交叉引用
  43. Yin Tat Lee和Santosh S Vempala。2018年,Kannan-Lovász-Simonovits推测。arXiv电子打印,arXiv–1807。谷歌学者谷歌学者
  44. Santosh Vempala和Grant Wang。2004。用于学习混合模型的谱算法。J.计算。系统科学。,68, 4 (2004), 841–860.谷歌学者谷歌学者数字图书馆数字图书馆
  45. CF杰夫·吴。1983年。关于EM算法的收敛性。统计年鉴,95-103。谷歌学者谷歌学者
  46. 季旭、徐彦祖和阿里安·马利基。2016。两种高斯混合的期望最大化的全球分析。arXiv预打印arXiv:1608.07630。谷歌学者谷歌学者

索引术语

  1. 多项式时间内几乎最优分离的聚类混合

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器