×

Quick-means:通过学习快速变换加速K-means的推理。 (英语) Zbl 07432824号

总结:K-means和著名的Lloyd算法不仅仅是最初设计的聚类方法。事实证明,它对于提高许多机器学习、数据分析技术(如索引、最近邻搜索和预测、数据压缩以及最近,用内核机器进行推理。在这里,我们介绍了K-means的一个有效扩展,称为QuicK-meass,它基于将(K)簇质心的矩阵表示为稀疏矩阵的乘积的思想,这是最近致力于寻找矩阵近似值作为稀疏因子乘积的结果所可能实现的一个壮举。使用这样的分解可以压缩分解后的(K次D)质心矩阵({mathbf{U}})和从({mathcal{O}}左(KD\right))到({mathcal{O{}}右(a\log B~+B\ right)\)的任何向量之间的矩阵向量乘积的复杂性,其中(a=\ min\ left(K,D\ right是数据的维度。这种急剧的计算节省对点到集群的分配过程有直接影响。我们建议在Lloyd的培训过程中学习这样的因子分解。我们证明,在每次迭代中使用因子分解步骤不会影响优化方案的收敛性,并通过实验证明了我们的方法的优点。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ailon,N.、Leibovich,O.和Nair,V.(2020年)。具有固定蝴蝶结构的稀疏线性网络:理论与实践。arXiv预打印arXiv:200708864。
[2] Arthur,D.和Vassilvitskii,S.(2006)。k-means++:仔细播种的优点。斯坦福大学技术报告·Zbl 1302.68273号
[3] 博尔特,J。;萨巴赫,S。;Teboulle,M.,《近似交替线性化最小化或非凸和非光滑问题》,《数学规划》,146,1-2,459-494(2014)·Zbl 1297.90125号 ·doi:10.1007/s10107-013-0701-9
[4] Boutsidis,C。;Zouzias,A。;马奥尼,MW;Drineas,P.,“(k)均值聚类的随机降维”,《IEEE信息理论汇刊》,61,2,1045-1062(2014)·Zbl 1359.62232号 ·doi:10.1109/TIT.2014.2375327
[5] Dao,T.、Gu,A.、Eichorn,M.、Rudra,A.和Re,C.(2019年)。使用蝶形分解学习线性变换的快速算法。在机器学习国际会议上(第1517-1527页)。
[6] Dua,D.和Graff,C.(2017年)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[7] Elkan,C.(2003)。使用三角形不等式来加速k均值。第20届机器学习国际会议论文集(ICML-03)(第147-153页)
[8] Griffin,G.、Holub,A.和Perona,P.(2007)。caltech-256。加州理工学院技术报告(第1页)。
[9] Hamerly,G.(2010年)。制作k意味着更快。《SIAM国际数据挖掘会议记录》(第130-140页)。暹罗
[10] 哈蒂根,JA;Wong,MA,Algorithm as 136:A k-means聚类算法,《皇家统计学会期刊C辑(应用统计学)》,第28期,第1100-108页(1979年)·兹比尔0447.62062
[11] Jain,AK,《数据聚类:超越k-means的50年》,《模式识别快报》,31,8,651-666(2010)·doi:10.1016/j.patrec.2009.09.011
[12] Keriven,N.、Tremblay,N.,Traonmilin,Y.和Gribonval,R.(2017年)。压缩k均值。在国际声学、语音和信号处理会议(ICASSP)上(第6369-6373页)。电气与电子工程师协会。
[13] 库马尔,S。;莫赫里,M。;Talwalkar,A.,《nyström方法的抽样方法》,《机器学习研究杂志》,第13期,981-1006页(2012年)·Zbl 1283.68292号
[14] Le,Q.、Sarlós,T.和Smola,A.(2013)。Fastfood——近似对数线性时间内的内核扩展。在机器学习国际会议上
[15] Le Magoarou,L。;Gribonval,R.,矩阵和应用的柔性多层稀疏近似,IEEE信号处理选定主题期刊,10,4,688-700(2016)·doi:10.1109/JSTSP.2016.2543461
[16] LeCun,Y.、Cortes,C.和Burges,C.(2010年)。Mnist手写数字数据库。http://yannlecunco/exdb/mnist7:23。
[17] 李毅。;Yang,H。;ER马丁;Ho,KL;Ying,L.,蝴蝶因子分解,多尺度建模与仿真,13,2,714-732(2015)·兹比尔1317.44004 ·doi:10.1137/15M1007173
[18] Liu,W.、Shen,X.和Tsang,I.(2017)。稀疏嵌入(k)-表示聚类。《神经信息处理系统进展》(第3319-3327页)
[19] Morgenstern,J.,《计算的线性复杂性》,美国计算机学会杂志,22,2,184-194(1975)·Zbl 0322.68025号 ·数字对象标识代码:10.1145/321879.321881
[20] Muja,M。;Lowe,DG,高维数据的可扩展最近邻算法,IEEE模式分析和机器智能学报,36,11,2227-2240(2014)·doi:10.1109/TPAMI.2014.2321376
[21] 马斯科,C.和马斯科,C.2017)奈斯特罗姆方法的递归抽样。《神经信息处理系统进展》(第3833-3845页)·Zbl 1410.68399号
[22] Nene,S.A.、Nayar,S.K.和Murase,H.(1996年)。哥伦比亚物体图像库(coin-20)。技术报告。
[23] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;Grisel,O.,Scikit-learn:《蟒蛇中的机器学习》,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[24] Que,Q.和Belkin,M.(2016)。回到未来:重新审视径向基函数网络。《人工智能与统计》(第1375-1383页)。
[25] Sculley,D.(2010年)。Web-scale k-means clustering,摘自《第19届万维网国际会议论文集》(第1177-1178页)。ACM公司
[26] Shen,X.、Liu,W.、Tsang,I.、Shen,F.和Sun,Q.S.(2017)。大规模聚类的压缩k均值。在第三十一届AAAI人工智能会议上
[27] Si,S.、Hsieh,C.J.和Dhillon,I.(2016)。使用快速变换的计算效率高的nyström近似。在机器学习国际会议上(第2655-2663页)
[28] Vahid,K.A.、Prabhu,A.、Farhadi,A.和Rastegari,M.(2020年)。蝴蝶变换:一种高效的基于FFT的神经架构设计。IEEE/CVF计算机视觉和模式识别会议论文集
[29] Van Laarhoven,T。;Marchiori,E.,连续优化电导和加权核k-means的局部网络社区检测,机器学习研究杂志,17,1,5148-5175(2016)·Zbl 1392.68375号
[30] 维恩,西北部;埃普斯,J。;Bailey,J.,《聚类比较的信息论度量:变量、属性、归一化和机会修正》,《机器学习研究杂志》,第11期,第2837-2854页(2010年)·Zbl 1242.62062号
[31] Williams,C.K.和Seeger,M.(2001年)。使用nyström方法加速内核机器。《神经信息处理系统进展》(第682-688页)。
[32] Xiao,H.、Rasul,K.和Vollgraf,R.(2017)。Fashion-mnist:用于基准机器学习算法的新图像数据集。arXiv预打印arXiv:170807747。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。