×

兹马思-数学第一资源

利用多核和多核并行进行子空间聚类。(英语) Zbl 1420.62269
摘要:在高维数据中寻找聚类是一个具有挑战性的研究课题。聚类算法是在数据集的子空间中寻找子空间的一个子空间。但是随着数据维数的增加,子空间数目呈指数级增长,使得大多数算法效率低下。此外,这些算法在聚类过程中具有根深蒂固的数据依赖性,这意味着并行化变得困难和低效。子尺度是一种新的子空间聚类算法,它具有维数可伸缩性,包含独立的处理步骤,可以通过并行处理来实现。在本文中,我们的目标是利用广泛可用的多核处理器的计算能力来提高子尺度算法的运行时性能。实验结果表明线性加速。此外,我们提出了一种利用图形处理单元(gpu)实现细粒度数据并行的方法,以进一步加快计算速度。GPU实现的第一次测试显示了非常有希望的结果。
理学硕士:
62小时30分 分类和区分;聚类分析(统计方面)
62-09年 统计学中的图形方法(MSC2010)
PDF格式 BibTeX公司 引用
全文: 内政部
参考文献:
[1] Aggarwal,C.C.和Reddy,C.K.(2013年)。数据聚类:算法与应用第一版,查普曼和霍尔/CRC。
[2] Aggarwal,C.C.,Wolf,J.L.,Yu,P.S.,Procopiuc,C。Park,J.S.(1999年)。投影聚类的快速算法,SIGMOD记录28(2) :61-72。
[3] Agrawal,R.,Gehrke,J.,Gunopulos,D。拉格万,P(1998年)。用于数据挖掘应用的高维数据的自动子空间聚类,ACM SIGMOD数据管理国际会议,美国华盛顿州西雅图,第27卷,第94-105页。
[4] Alcantara,D.A.F.(2011年)。GPU上的高效哈希表,博士论文,加州大学戴维斯分校。
[5] 安德森,S.E.(2018年)。位旋转黑客计算字典法下一位排列。
[6] 柏金,P(2006年)。聚类数据挖掘技术综述,在里面J。科根等等。(编辑),多维数据分组,斯普林格,柏林/海德堡,第25-71页。
[7] Cheng,C.-H.,Fu,A.W.和Zhang,Y(1999年)。基于熵的子空间聚类挖掘数值数据,第五届ACM SIGGDD知识发现与数据挖掘国际会议,美国纽约,第84-93页。
[8] 达格姆,L。还有梅农(1998年)。OpenMP:用于共享内存编程的行业标准API,IEEE计算科学工程5(1) :46-55。
[九] 达塔,A.,考尔,A.,劳尔,T。还有查布,S(2017年)。使用多核和多核架构的并行子空间聚类,在里面M。基里科娃等等。(编辑),数据库和信息系统的新趋势,施普林格国际出版社,查姆,第213-223页。
[10] 埃哈米法尔E。维达尔(2013年)。稀疏子空间聚类:算法、理论和应用,IEEE模式分析与机器智能汇刊35(11) :2765-2781。
[11] 埃斯特,M.,克里格尔,H.-P.,桑德,J。徐,X(1996年)。在有噪声的大型空间数据库中发现群集的基于密度的算法,知识发现与数据挖掘国际会议,美国俄勒冈州波特兰,第226-231页。
[12] 范,J.,韩,F。还有刘,H(2014年)。大数据分析的挑战,国家科学评论1(2) :293-314。
[13] 福纳加,K(1990年)。统计模式识别概论,学术出版社,圣地亚哥,加利福尼亚州·Zbl 0711.62052
[14] 盖革,A.,伦茨,P.,斯蒂勒,C。还有乌尔塔松(2013年)。视觉与机器人:KITTI数据集,国际机器人研究杂志32(11) :1231-1237。
[16] 韩,J.,坎伯,M。还有裴,J(2011年)。数据挖掘:概念与技术,第三版,摩根考夫曼出版社,旧金山,加利福尼亚州·Zbl 1230.68018
[17] 哈里斯,M.,森古普塔,S。欧文斯,J.D.(2007年)。并行前缀和(扫描)与CUDA,GPU宝石(39):851-876。
[18] Jain,A.K.和Dubes,R.C.(1988年)。数据聚类算法普伦蒂斯霍尔公司,新泽西州上鞍河·Zbl 0665.62061
[19] Jain,A.K.,Murty,M.N.和Flynn,P.J.(1999年)。数据聚类:综述,倒排索引综述31(3) :264-323。
[20] Joliffe,I.T.(2002年)。主成分分析纽约州纽约市斯普林格第二编辑部。
[21] Jun,J.,Chung,S。还有麦克劳德(2006年)。基于域变换的微阵列数据子空间聚类,VLDB数据挖掘和生物信息学研讨会,韩国首尔,第14-28页。
[22] 凯岭,K.,克里格尔,H.-P。还有克罗格,P(2004年)。高维数据的密度连通子空间聚类,暹罗数据挖掘国际会议,佛罗里达州布埃纳维斯塔湖,美国,第4卷,第246-256页。
[23] 考尔,A。还有达塔,A(2014年)。子尺度:高维数据的快速可扩展子空间聚类,IEEE国际数据挖掘研讨会,中国深圳,第621-628页。
[24] 考尔,A。还有达塔,A(2015年)。一种新的高维数据快速可伸缩子空间聚类算法,大数据杂志2(1) :1-24。
[25] Kriegel,H.-P.,Kröger,P。还有Zimek,A(2009年)。高维数据聚类:子空间聚类、基于模式聚类和相关聚类的综述,从数据中发现知识的ACM事务(1) :1-58。
[26] 李,T,Ma,S。奥吉哈拉(2004年)。基于自适应子空间迭代的文档聚类,第27届国际ACM-SIGIR信息检索研究与发展年会,英国谢菲尔德,第218-225页。
[27] 利希曼,M(2013年)。UCI机器学习库。
[28] 洛格里,J.,范海默特,J。还有斯科夫斯,L(2000年)。有效地枚举集合的子集。
[29] 麦奎因,J(1967年)。多元观测值分类与分析的一些方法,第五届伯克利数理统计与概率研讨会,加州伯克利,美国,第1卷,第281-297页·Zbl 0214.46201
[30] 麦卡弗里,J(2004年)。生成数学组合的第m个字典元素,MSDN技术资源库微软,雷德蒙德,华盛顿州。
[31] 默塔赫,F(1983年)。层次聚类算法的最新进展,计算机杂志26(4) :354-359·Zbl 0523.68030
[32] 纳格什,H.,戈尔,S。乔德哈里,A(2001年)。用于聚类海量数据集的自适应网格,第一届暹罗数据挖掘国际会议,芝加哥,伊利诺伊州,美国,第1-17页。
[33] 英伟达(2018)。CUDA并行计算平台及编程模型。
[34] 帕森斯,L.,哈克,E。还有刘,H(2004年)。高维数据的子空间聚类:综述,ACM SIGKDD探索通讯6(1) :90-105。
[35] Sim,K.,Gopalkrishnan,V.,Zimek,A。还有丛,G(2013年)。增强子空间聚类综述,数据挖掘与知识发现26(2) :332-397·兹布1270.68260
[36] 斯坦巴赫,M.,埃茨,L。还有库马尔(2004年)。高维数据聚类的挑战,在里面五十、 T.Wille(编辑),统计物理新方向,斯普林格,柏林/海德堡,第273-309页·Zbl 1078.62066
[37] Strohm,P.T.,Wittmer,S.,哈伯斯特罗,A。劳尔,T(2015年)。用于多维数据库分析查询的GPU加速量化过滤器,在里面N。巴西利亚等等。(编辑),数据库和信息系统的新趋势2《施普林格》,查姆,229-242页。
[38] Thalamuthu,A.,Mukhopadhayy,I.,Zheng,X。和曾,G.C.(2006年)。微阵列分析中基因聚类方法的评价与比较,生物信息学22(19) :2405-2412。
[39] Tierney,S.,Gao,J。还有郭,Y(2014年)。序列数据的子空间聚类,IEEE计算机视觉和模式识别会议,美国俄亥俄州哥伦布市,第1019-1026页。
[40] 徐博士。还有田,Y(2015年)。对聚类算法的全面综述,数据科学年鉴2(2) :165-193。
[41] 徐,R。还有Wunsch,D(2005年)。聚类算法综述,IEEE神经网络汇刊16(3) :645-678。
[42] 朱,B,玛拉,A。还有莫佐,A(2015年)。CLUS:spark上的并行子空间聚类算法,在里面T。精神错乱等等。(编辑),数据库和信息系统的新趋势《计算机与信息科学通信》,第539卷,斯普林格国际出版社,Cham,第175-185页。
[43] 朱杰,廖,S,雷,Z,易,D。以及Li,S.Z.(2013年)。监测中的行人属性分类:数据库与评价,ICCV大规模视频搜索与挖掘研讨会(LSVSM'13),悉尼,澳大利亚,第331-338页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。