文件Zbl 1420.62269-zbMATH Open

利用多核和多核并行进行子空间聚类。（英语） Zbl 1420.62269号

国际期刊申请。数学。计算。科学。 29，第1号，81-91（2019）.

摘要：在高维数据中发现聚类是一个具有挑战性的研究问题。子空间聚类算法的目标是在数据集的所有可能子空间中找到聚类，其中子空间是数据维度的子集。但是，随着数据维数的增加，子空间数量呈指数级增加，使得大多数算法效率低下。此外，这些算法在聚类过程中具有根深蒂固的数据依赖性，这意味着并行化变得困难且效率低下。SUBSCALE是一种最新的子空间聚类算法，它具有维数可扩展性，包含独立的处理步骤，可以通过并行进行利用。在本文中，我们旨在利用广泛可用的多核处理器的计算能力来提高SUBSCALE算法的运行时性能。实验评估显示线性加速。此外，我们开发了一种使用图形处理单元（GPU）实现细粒度数据并行的方法，以进一步加快计算速度。GPU实现的首次测试显示了非常有希望的结果。

引用于三文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62A09号	统计学中的图形方法

关键词：

数据挖掘;子空间聚类;多核心;多芯;GPU计算;图形处理单元

软件：

CUDA公司;UCI-毫升;基蒂

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Aggarwal，C.C.和Reddy，C.K.（2013）。《数据聚类：算法与应用》，第1版。，查普曼和霍尔/CRC。；
[2]	Aggarwal，C.C.、Wolf，J.L.、Yu，P.S.、Procopiuc，C.和Park，J.S.（1999年）。投影聚类的快速算法SIGMOD记录28(2): 61-72.;
[3]	Agrawal，R.、Gehrke，J.、Gunopulos，D.和Raghavan，P.（1998年）。用于数据挖掘应用的高维数据的自动子空间聚类，ACM SIGMOD国际数据管理会议，美国华盛顿州西雅图，第27卷，第94-105页。；
[4]	Alcantara，D.A.F.（2011年）。GPU上的高效哈希表，加州大学戴维斯分校博士论文，加利福尼亚州戴维斯。；
[5]	Anderson，S.E.（2018）。比特缠绕黑客——计算词典编纂的下一位置换。；
[6]	Berkhin，P.（2006）。《聚类数据挖掘技术的调查》，J.Kogan等人（编辑），《多维数据分组》，施普林格出版社，柏林/海德堡，第25-71页。；
[7]	Cheng，C.-H.，Fu，A.W.和Zhang，Y.（1999）。用于挖掘数值数据的基于熵的子空间聚类，第五届ACM SIGKDD国际知识发现和数据挖掘会议，美国纽约州纽约市，第84-93页。；
[8]	Dagum，L.和Menon，R.（1998年）。OpenMP：共享内存编程的行业标准API，IEEE计算科学工程5(1): 46-55.;
[9]	Datta，A.、Kaur，A.、Lauer，T.和Chabbouh，S.（2017年）。使用多核和多核架构的并行子空间聚类，M.Kirikova等人（编辑），《数据库和信息系统的新趋势》，Springer International Publishing，Cham，第213-223页·Zbl 1420.62269号
[10]	Elhamifar，E.和Vidal，R.（2013）。稀疏子空间聚类：算法、理论和应用，IEEE模式分析和机器智能汇刊35(11): 2765-2781.;
[11]	Ester，M.、Kriegel，H.-P.、Sander，J.和Xu，X.（1996年）。用于在有噪声的大型空间数据库中发现簇的基于密度的算法，美国俄勒冈州波特兰知识发现和数据挖掘国际会议，第226-231页。；
[12]	Fan，J.、Han，F.和Liu，H.（2014）。《国家科学评论》大数据分析的挑战1(2): 293-314.;
[13]	Fukunaga，K.（1990年）。《统计模式识别导论》，学术出版社，加利福尼亚州圣地亚哥·Zbl 0711.62052号
[14]	Geiger，A.、Lenz，P.、Stiller，C.和Urtasun，R.（2013）。视觉与机器人：KITTI数据集，《国际机器人研究杂志》32(11): 1231-1237.;
[15]	2020-01-09 14:03:22谷歌学者（2018）。搜索“数据聚类”，<ext-link ext-link type=“uri”xlink.href=“https://scholar.google.com/scholaro？q=data+聚类（&amp；）；btnG=“>https://scholar.google.com/scholaro？q=data+聚类&amp；btnG=</ext-link></混合搅拌>；
[16]	Han，J.、Kamber，M.和Pei，J.（2011年）。数据挖掘：概念和技术，第三版。，Morgan Kaufmann出版社，加利福尼亚州旧金山·兹比尔1230.68018
[17]	Harris，M.、Sengupta，S.和Owens，J.D.（2007年）。带CUDA、GPU Gems的并行前缀和（扫描）三(39): 851-876.;
[18]	Jain，A.K.和Dubes，R.C.（1988年）。聚类数据算法，新泽西州上鞍河Prentice-Hall公司·Zbl 0665.62061号
[19]	Jain，A.K.、Murty，M.N.和Flynn，P.J.（1999）。数据聚类：ACM计算调查综述31(3): 264-323.;
[20]	Joliffe，I.T.（2002）。主成分分析，第二版。，施普林格，纽约州纽约市·Zbl 1011.62064号
[21]	Jun，J.、Chung，S.和McLeod，D.（2006年）。基于域转换的微阵列数据子空间聚类，VLDB数据挖掘和生物信息学研讨会，韩国首尔，第14-28页。；
[22]	Kailing，K.、Kriegel，H.-P.和Kröger，P.（2004）。高维数据的密度连接子空间聚类，SIAM国际数据挖掘会议，佛罗里达州布埃纳维斯塔湖，美国，第4卷，第246-256页。；
[23]	Kaur，A.和Datta，A.（2014）。子尺度：高维数据的快速可扩展子空间聚类，IEEE国际数据挖掘研讨会，中国深圳，第621-628页。；
[24]	Kaur，A.和Datta，A.（2015）。一种新的高维数据快速可扩展子空间聚类算法，《大数据杂志》2(1): 1-24.;
[25]	Kriegel，H.-P.、Kröger，P.和Zimek，A.（2009年）。高维数据聚类：关于子空间聚类、基于模式聚类和相关聚类的调查，ACM从数据中发现知识的事务三(1): 1-58.;
[26]	Li，T.、Ma，S.和Ogihara，M.（2004）。通过自适应子空间迭代进行文档聚类，第27届国际ACM SIGIR信息检索研究与开发年会，英国谢菲尔德，第218-225页。；
[27]	Lichman，M.（2013）。UCI机器学习库。；
[28]	Loughry，J.、van Hemert，J.和Schoofs，L.（2000）。有效枚举集合的子集。；
[29]	MacQueen，J.（1967）。多元观测的一些分类和分析方法，第五届伯克利数学统计与概率研讨会，美国加利福尼亚州伯克利，第1卷，第281-297页·Zbl 0214.46201号
[30]	McCaffrey，J.（2004）。生成数学组合的MTH词典元素，MSDN Library，Microsoft，Redmond，WA。；
[31]	Murtagh，F.（1983年）。层次聚类算法的最新进展综述，《计算机杂志》26（4）：354-359·Zbl 0523.68030号
[32]	Nagesh，H.、Goil，S.和Choudhary，A.（2001年）。用于聚类海量数据集的自适应网格，第一届SIAM国际数据挖掘会议，美国伊利诺伊州芝加哥，第1-17页。；
[33]	Nvidia CUDA（2018）。CUDA并行计算平台及编程模型。；
[34]	Parsons，L.、Haque，E.和Liu，H.（2004）。高维数据的子空间聚类：综述，ACM SIGKDD Explorations Newsletter6(1): 90-105.;
[35]	Sim，K.、Gopalkrishnan，V.、Zimek，A.和Cong，G.（2013年）。增强子空间聚类、数据挖掘和知识发现研究综述26(2): 332-397.; ·Zbl 1270.68260号
[36]	Steinbach，M.、Ertöz，L.和Kumar，V.（2004）。高维数据聚类的挑战，L.T.Wille（编辑），《统计物理新方向》，柏林/海德堡斯普林格出版社，第273-309页·Zbl 1078.62066号
[37]	Strohm，P.T.、Wittmer，S.、Haberstroh，A.和Lauer，T.（2015）。多维数据库中分析查询的GPU加速量化过滤器，见N.Bassiliades等人（编辑），数据库和信息系统新趋势II，Springer，Cham，第229-242页。；
[38]	Thalamuthu，A.、Mukhopadhyay，I.、Zheng，X.和Tseng，G.C.（2006年）。生物信息学微阵列分析中基因聚类方法的评价与比较22(19): 2405-2412.;
[39]	Tierney，S.、Gao，J.和Guo，Y.（2014）。序列数据的子空间聚类，IEEE计算机视觉和模式识别会议，美国俄亥俄州哥伦布，第1019-1026页。；
[40]	Xu，D.和Tian，Y.（2015）。《聚类算法的综合调查》，《数据科学年鉴》2(2): 165-193.;
[41]	Xu，R.和Wunsch，D.（2005）。聚类算法综述，IEEE神经网络事务16(3): 645-678.;
[42]	Zhu，B.、Mara，A.和Mozo，A.（2015）。CLUS：基于spark的并行子空间聚类算法，收录于T.Morzy等人（编辑），《数据库和信息系统的新趋势》，《计算机和信息科学中的通信》，第539卷，Springer International Publishing，Cham，第175-185页。；
[43]	Zhu，J.、Liao，S.、Lei，Z.、Yi，D.和Li，S.Z.（2013）。《监控中的行人属性分类：数据库和评估》，ICCV大型视频搜索和挖掘研讨会（LSVSM’13），澳大利亚悉尼，第331-338页。；

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

利用多核和多核并行进行子空间聚类。（英语） Zbl 1420.62269号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

利用多核和多核并行进行子空间聚类。 （英语） Zbl 1420.62269号

MSC公司：

关键词：

软件：

参考文献：

利用多核和多核并行进行子空间聚类。（英语） Zbl 1420.62269号