×

将大数据转化为小数据:(k)-均值、主成分分析和投影聚类的恒定大小核心集。 (英语) Zbl 1451.68244号

摘要:我们开发并分析了一种方法,将高维欧几里得空间\(\mathbb{R}^d\)中的一组非常大的数据点的大小缩小到一小组加权点,以便在缩小集上的预定数据分析任务的结果与原始点集的结果大致相同。例如,计算缩减集的第一个\(k\)主成分将近似返回原始集的第一个\(k\)主成分,或者计算缩减集上的\(k\)均值聚类的中心将返回原始集的近似。这种简化集也称为核心集.我们构造的主要新特征是,约简集的基数与输入空间的维数\(d\)无关集合是可合并的[P.K.阿加瓦尔等,ACM事务。数据库系统。38,第4号,第26条,第28页(2013年;Zbl 1321.68238号)]. 后一个性质意味着两个约化集的并是两个原始集的并的约化集。它允许我们使用标准方法将我们的方法转换为流式或分布式算法。对于(k)-均值和子空间近似等问题,核心集的大小也与输入点的数量无关。我们的方法基于数据依赖性,将点投影到低维子空间上,并使用已知方法减少该子空间内点的基数。所提出的方法适用于广泛的数据分析技术,包括(k)均值聚类、主成分分析和子空间聚类。主要的概念贡献是一个新的核心集定义,它允许对每个解决方案的附加常数收取费用。

MSC公司:

68T09号 数据分析和大数据的计算方面
62小时25分 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
68瓦40 算法分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.K.Agarwal、G.Cormode、Z.Huang、J.Phillips、Z.Wei和K.Yi,可合并摘要,第31届ACM SIGMOD-SIGACT-SIGAI数据库系统原理研讨会论文集,纽约,ACM,2012年,第23-34页·兹比尔1321.68238
[2] P.Awasthi、M.Charikar、R.Krishnaswamy和A.K.Sinop,《欧几里德K-means近似的硬度》,《第31届SoCG会议记录》,2015年,第754-767页·Zbl 1378.68048号
[3] D.Aloise、A.Deshpande、P.Hansen和P.Popat,欧几里德平方和聚类的NP-hardeness,马赫。学习。,75(2009年),第245-248页·Zbl 1378.68047号
[4] A.Aggarwal、A.Deshpande和R.Kannan,“(k)均值聚类的自适应采样”,第12届组合优化问题近似算法国际研讨会,2009年,第15-28页·Zbl 1254.68351号
[5] P.Agarwal、S.Har-Peled和K.Varadarajan,点的近似范围度量,J.ACM,51(2004),第606-635页·Zbl 1204.68240号
[6] P.K.Agarwal、S.Har-Peled和K.R.Varadarajan,点的近似范围度量,J.ACM,51(2004),第606-635页·Zbl 1204.68240号
[7] M.R.Ackermann、M.Maírtens、C.Raupach、K.Swierkot、C.Lammersen和C.Sohler,StreamKM\syms:数据流的聚类算法,ACM J.Exp.Algorithmics,17(2012)·兹比尔1284.68234
[8] S.Ahmadian、A.Norouzi Fard、O.Svensson和J.Ward,原始对偶算法对k-均值和欧氏k-中值的更好保证,《第58届FOCS会议记录》,2017年,第61-72页。
[9] D.Arthur和S.Vassilvitskii,《k-means++:细心播种的优势》,第18届ACM-SIAM离散算法年会论文集,SIAM,费城,2007年,第1027-1035页·Zbl 1302.68273号
[10] A.Blumer、A.Ehrenfeucht、D.Haussler和M.K.Warmuth,《可学习性和Vapnik-Chervonenkis维度》,J.ACM,36(1989),第929-965页·兹比尔0697.68079
[11] M.Beyer,Gartner表示,解决大数据挑战不仅仅涉及管理数据量,http://www.gartner.com/it/page.jsp?id=1731916 (2011).
[12] V.Braverman、D.Feldman和H.Lang,《离线和流媒体核心集构建的新框架》,预印本,arXiv:1612.008892016年。
[13] V.Braverman、G.Frahling、H.Lang、C.Sohler和L.F.Yang,聚类高维动态数据流,《第34届机器学习国际会议论文集》,澳大利亚新南威尔士州悉尼,2017年,第576-585页。
[14] C.Boutsidis、M.W.Mahoney和P.Drineas,“(k)均值聚类问题的无监督特征选择”,第23届神经信息处理系统年会,2009年,第153-161页·Zbl 1420.68235号
[15] J.L.Bentley和J.B.Saxe,可分解搜索问题i.静态到动态转换,《算法》,第1期(1980年),第301-358页·Zbl 0461.68065号
[16] J.Batson、D.A.Spielman和N.Srivastava,Twice-ramanujan稀疏化器,SIAM J.Compute。,41(2012),第1704-1721页·Zbl 1260.05092号
[17] C.Boutsidis、A.Zouzias和P.Drineas,《(k)的随机投影意味着聚类》,第24届神经信息处理系统年会,2010年,第298-306页。
[18] C.Boutsidis、A.Zouzias、M.W.Mahoney和P.Drineas,k均值聚类的随机降维,IEEE Trans。通知。《理论》,61(2015),第1045-1062页·Zbl 1359.62232号
[19] M.B.Cohen、S.Elder、C.Musco、C.Musco和M.Persu,《k均值聚类和低秩近似的维数缩减》,第47届年度ACM计算机理论研讨会论文集,2015年,第163-172页·Zbl 1321.68398号
[20] 陈国平,关于度量空间和欧氏空间中K-中值和K-均值聚类的核集及其应用,SIAM J.Compute。,39(2009),第923-947页·Zbl 1192.68880号
[21] V.Cohen-Addad、P.N.Klein和C.Mathieu,局部搜索生成欧几里德和无次优度量中k均值和k中值的近似方案,载于IEEE第57届计算机科学基础年度研讨会论文集,2016年,第353-364页·Zbl 1421.68205号
[22] M.B.Cohen、J.Nelson和D.P.Woodruff,《稳定秩方面的最优近似矩阵乘积》,第43届自动化、语言和编程国际学术讨论会论文集,LIPIcs。莱布尼茨,国际专业。通知。55,I.Chatzigiannakis,M.Mitzenmacher,Y.Rabani,D.Sangiorgi,eds.Schloss Dagstuhl,Leibniz-Zentrum fuer Informatik,2016年,第11:11:14页·Zbl 1404.65032号
[23] K.L.Clarkson和D.P.Woodruff,流模型中的数值线性代数,《第41届STOC会议录》,2009年,第205-214页·Zbl 1304.65138号
[24] K.L.Clarkson和D.P.Woodruff,输入稀疏时间的低秩近似和回归,《STOC 2013年学报》,第81-90页·Zbl 1293.65069号
[25] P.Drineas、A.M.Frieze、R.Kannan、S.Vempala和V.Vinay,通过奇异值分解聚类大型图,Mach。学习。,56(2004),第9-33页·Zbl 1089.68090号
[26] A.Deshpande和L.Rademacher,行/列子集选择的有效体积采样,第51届FOCS会议记录,2010年,第329-338页。
[27] A.Deshpande、L.Rademacher、S.Vempala和G.Wang,通过体积采样的矩阵近似和投影聚类,理论计算。,2(2006),第225-247页·兹比尔1213.68702
[28] A.Deshpande、M.Tulsiani和N.K.Vishnoi,《子空间近似的算法和硬度》,第22届ACM-SIAM离散算法研讨会,2011年,第482-496页·Zbl 1374.68657号
[29] A.Deshpande和S.Vempala,《自适应采样和快速低秩矩阵近似》,载于《第十届随机数学期刊》,2006年,第292-303页·Zbl 1155.68575号
[30] D.Eisenstat和D.Anguin,k-fold并集的VC维,Inform。过程。莱特。,101(2007),第181-184页·Zbl 1185.68373号
[31] M.Edwards和K.R.Varadarajan,《没有核心,没有呐喊:II》,第25届IARCS软件技术和理论计算机科学基础年会,2005年,第107-115页·Zbl 1172.68638号
[32] D.Feldman、A.Fiat和M.Sharir,加权设施及其应用的核心集,第47届IEEE计算机科学基础年度研讨会,2006年,第315-324页。
[33] H.Fichtenberger、M.Gilleí、M.Schmidt、C.Schwiegelshohn和C.Sohler,BICO:BIRCH满足k-Means聚类的核心集,第21届欧洲算法年会,2013年,第481-492页·Zbl 1395.68360号
[34] D.Feldman和M.Langberg,近似和聚类数据的统一框架,第43届ACM计算机理论研讨会,2011年·Zbl 1288.90046号
[35] D.Feldman和M.Langberg,近似和聚类数据的统一框架,http://arxiv.org/abs/1106.1379, 2011. ·Zbl 1288.90046号
[36] D.Feldman、M.Monemizadeh和C.Sohler,基于弱核集的k-means聚类的PTAS,第23届ACM计算几何研讨会,2007年,第11-18页·Zbl 1209.68639号
[37] D.Feldman、M.Monemizadeh、C.Sohler和D.P.Woodruff,高维子空间近似问题的核心集和草图,摘自《第21届ACM-SIAM离散算法研讨会论文集》,SIAM,费城,2010年,第630-649页·Zbl 1288.68225号
[38] Z.Friggstad、M.Rezapour和M.R.Salavatipour,《局部搜索在加倍指标中产生k-means的PTAS》,《第57届FOCS会议记录》,2016年,第365-374页·Zbl 1422.68296号
[39] G.Frahling和C.Sohler,动态几何数据流中的核心集,第37届ACM计算理论研讨会,2005年,第209-217页·Zbl 1192.68360号
[40] D.Feldman和L.J.Schulman,加权和抗离群聚类的数据简化,第23届ACM-SIAM离散算法研讨会论文集,SIAM,费城,2012年,第1343-1354页·Zbl 1426.62184号
[41] D.Feldman、M.Schmidt和C.Sohler,《将大数据转化为小数据:k-means、PCA和投影聚类的常量核集》,第24届ACM-SIAM离散算法研讨会,2013年,第1434-1453页·Zbl 1421.68219号
[42] D.Feldman、M.Volkov和D.Rus,使用核心集对大规模稀疏数据集进行降维,CoRR abs/1503.016632015。
[43] D.Feldman、M.Volkov和D.Rus,使用核心集对大规模稀疏数据集进行降维,《第29届NIPS会议论文集》,2016年,第2766-2774页。
[44] H.G.Golub和W.Kahan,计算矩阵的奇异值和伪逆,J.SIAM,Ser。B数字。分析。,2(1965年),第205-224页·Zbl 0194.18201号
[45] P.Gritzmann、V.Klee和D.G.Larman,《最大j-simplices n-polytopes》,《离散计算》。地理。,13(1995年),第477-515页·兹比尔0826.52014
[46] M.Ghashami,E.Liberty,J.M.Phillips和D.P.Woodruff,《频繁方向:简单和确定性矩阵草图》,SIAM J.Comput。,45(2016),第1762-1792页·Zbl 1348.65075号
[47] G.H.Golub和C.Reinsch,奇异值分解和最小二乘解,数值。数学。,14(1970),第403-420页·兹比尔0181.17602
[48] S.Har-Peled,《没有核心,没有呐喊》,载于第24届IARCS软件技术和理论计算机科学基础年会,2004年,第324-335页·Zbl 1117.68525号
[49] S.Har-Peled,离散集成和聚类的核心集,《第26届FSTTCS会议记录》,2006年,第33-44页·Zbl 1177.68238号
[50] J.Hellerstein,《大数据时代的并行编程》,Gigaom Blog,2008年11月9日,https://gigaom.com/2008/11/09/mapreduce-leads-the-way-for-parallel-programming/。
[51] M.Hilbert和P.Lopez,《世界存储、通信和计算信息的技术能力》,《科学》,332(2011),第60-65页。
[52] N.Halko、P.-G.Martinsson和J.A.Tropp,《发现随机结构:构造近似矩阵分解的概率算法》,SIAM Rev.,53(2011),第217-288页·Zbl 1269.65043号
[53] S.Har-Peled和A.Kushal,k-median和k-means聚类的较小核集,离散计算。地理。,37(2007),第3-19页·Zbl 1106.68112号
[54] S.Har-Peled和S.Mazumdar,(k)均值和(k)中值聚类的核心集及其应用,第36届ACM计算机理论研讨会,2004年,第291-300页·Zbl 1192.68904号
[55] S.Har-Peled和M.Sharir,相对(p,(epsilon))-几何近似,离散计算。地理。,45(2011年),第462-496页·Zbl 1220.68106号
[56] 什么是大数据?2011年将大数据引入企业,https://www.ibm.com/software/data/bigdata/。
[57] 冰立方中微子天文台,http://icecube.wisc.edu/。
[58] A.Kumar、Y.Sabharwal和S.Sen,《任意维聚类问题的线性时间近似方案》,J.ACM,57(2010),5:1-5:32·Zbl 1327.68334号
[59] 大型强子对撞机美容实验,https://www.lhcb-public.web.cern.ch/lhcb-public/。
[60] E.Liberty,《简单和确定性矩阵绘制》,载于《第19届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,ACM,2013年,第581-588页。
[61] Y.Li、P.M.Long和A.Srinivasan,《学习样本复杂性的改进界限》,J.Compute。系统科学。,62(2001),第516-527页·Zbl 0990.68081号
[62] M.Langberg和L.J.Schulman,积分的通用ε逼近器,第21届ACM-SIAM离散算法研讨会,2010年,第598-607页·Zbl 1288.68142号
[63] E.Lee、M.Schmidt和J.Wright,改进和简化k-means不可接近性,Inform。过程。莱特。,120(2017年),第40-43页·Zbl 1400.68250号
[64] M.W.Mahoney,矩阵和数据的随机算法,Found。趋势马赫数。学习。,3(2011年),第123-224页·Zbl 1232.68173号
[65] M.Mahajan、P.Nimbhorkar和K.R.Varadarajan,《平面(K)均值问题是NP难的》,载于《算法与计算第三次研讨会》,2009年,第274-285页·兹比尔1211.68212
[66] N.Megiddo和A.Tamir,关于在飞机上定位线性设施的复杂性,Oper。Res.Lett.公司。,1(1982),第194-197页·兹比尔0507.90025
[67] S.Muthukrishnan,《数据流:算法和应用》,发现。趋势理论。计算。科学。,1(2005年),第117-236页·Zbl 1128.68025号
[68] N.H.Nguyen、T.T.Do和T.D.Tran,矩阵低阶近似的快速高效算法,载于《第41届STOC会议论文集》,2009年,第215-224页·Zbl 1304.65140号
[69] K.Pearson,《最接近空间点系的直线和平面》,伦敦-爱丁堡-都柏林-菲洛斯出版社。科学杂志。,2(1901),11,第559-572页。
[70] J.M.Phillips和D.Feldman,私人通信,2015年。
[71] A.Quarteroni、R.Sacco和F.Saleri,《数值数学》,应用文本。数学。37,施普林格,纽约,2000年·Zbl 0957.65001号
[72] T.Sarloís,《通过随机投影改进大矩阵近似算法》,第47届FOCS会议论文集,2006年,第143-152页。
[73] M.Schmidt,《k-Means问题的核心集和流算法及相关聚类目标》,博士论文,多特蒙德大学,2014年。
[74] T.Segaran和J.Hammerbacher,《美丽的数据:优雅数据解决方案背后的故事》,O'Reilly Media,马萨诸塞州牛顿市,2009年。
[75] G.W.Stewart,《关于奇异值分解的早期历史》,SIAM Rev.,35(1993),第551-566页·Zbl 0799.01016号
[76] N.D.Shyamalkumar和K.R.Varadarajan,高效子空间近似算法,离散计算。地理。,47(2012),第44-63页·Zbl 1232.68167号
[77] M.D.Vose,用给定分布生成随机数的线性算法,IEEE Trans。《软件工程》,17(1991),第972-975页。
[78] K.Varadarajan和X.Xiao,投影聚类整数点的近线性算法,收录于《Proc ACM-SIAM离散算法研讨会》,2012年·Zbl 1422.68259号
[79] K.Varadarajan和X.Xiao,《关于形状拟合问题的敏感性》,第32届IARCS软件技术和理论计算机科学基础年会,2012年,第486-497页·Zbl 1359.62266号
[80] H.E.Warren,非线性流形逼近的下限,Trans。阿默尔。数学。Soc.,133(1968),第167-178页·Zbl 0174.35403号
[81] T.White,Hadoop:The Definitive Guide,O'Reilly Media,马萨诸塞州牛顿市,2012年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。