研究论文

大规模分层k平均值用于异构多核超级计算机

作者：
李连登

中国清华大学和中国无锡国家超级计算中心

中国清华大学和中国无锡国家超级计算中心
查看个人资料

,
滕瑜（Teng Yu）

英国圣安德鲁斯大学

英国圣安德鲁斯大学
查看个人资料

,
赵文来

中国清华大学和中国无锡国家超级计算中心

中国清华大学和中国无锡国家超级计算中心
查看个人资料

,
郝欢付

中国清华大学和中国无锡国家超级计算中心

中国清华大学和中国无锡国家超级计算中心
查看个人资料

,
王晨雨

英国圣安德鲁斯大学

英国圣安德鲁斯大学
查看个人资料

,
李坦

中国北京工商大学

中国北京工商大学
查看个人资料

,
杨广文

中国清华大学和中国无锡国家超级计算中心

中国清华大学和中国无锡国家超级计算中心
查看个人资料

,
约翰·汤姆森

英国圣安德鲁斯大学

英国圣安德鲁斯大学
查看个人资料

作者信息和声明

SC’18：高性能计算、网络、存储和分析国际会议记录2018年11月条款编号：13第1-11页https://doi.org/10.1109/SC.2018.0016

出版：2019年7月26日出版历史

SC’18：高性能计算、网络、存储和分析国际会议记录

第1-11页

摘要

本文提出了一种新的设计和实现k平均值针对神威太湖之光超级计算机的聚类算法。我们引入了一种多级并行分区方法，它不仅按数据流和质心进行分区，还按维度进行分区。我们的多层次(国家开发银行)该方法释放了SW26010异构多核处理器和超级计算机系统架构中分层并行的潜力。

我们的设计能够处理高达196608个维度和160000多个目标质心的大规模集群问题，同时保持高性能和高可扩展性，显著提高了k平均值与之前的方法相比。评估表明，我们的实现通过并行应用4096个节点（1064496个核），在具有196608个数据维度和2000个质心的大规模集群情况下，每次迭代的性能不到18秒k平均值复杂场景下更可行的解决方案。

工具书类

阿米尔·本·多尔（Amir Ben-Dor）、罗恩·沙米尔（Ron Shamir）和佐哈尔·亚基尼（Zohar Yakhini）。聚类基因表达模式。计算生物学杂志, 6(3--4):281--297, 1999.谷歌学者
Michael A Bender、Jonathan Berry、Simon D Hammond、Branden Moore、Benjamin Moseley和Cynthia A Phillips。两级存储系统上的k-means聚类。在2015年记忆系统国际研讨会论文集，第197-205页。ACM，2015年。谷歌学者数字图书馆
Janki Bhimani、Miriam Leeser和Ningfang Mi。通过并行实现和gpu计算加速k-means集群。在2015年IEEE高性能极限计算会议（HPEC），第1-6页。IEEE，2015年。谷歌学者交叉引用
Christian Böhm、Martin Perdacher和Claudia Plant。多核k-means。在2017年SIAM国际数据挖掘会议记录，第273-281页。SIAM，2017年。谷歌学者交叉引用
Thomas Bottesch、Thomas Bühler和Markus Kachele。通过块向量近似欧氏距离，加快k均值。在机器学习国际会议，第2578-2586页，2016年。谷歌学者数字图书馆
Y Dora Cai、Rabindra Robby Ratan、Cuihua Shen和Jay Alameda。在超级计算机上使用并行k-means对游戏玩家进行分组。在2015年XSEDE会议记录：增强的网络基础设施推动的科学进步，第10页。ACM，2015年。谷歌学者数字图书馆
盖·巴雷特·科尔曼和哈里·安德鲁斯。通过聚类进行图像分割。IEEE会议记录, 67(5):773--785, 1979.谷歌学者交叉引用
崔晓丽、朱平飞、杨欣、李克秋和季长庆。优化的大数据k意味着使用mapreduce进行聚类。超级计算杂志, 70(3):1249--1259, 2014.谷歌学者数字图书馆
瑞安·R·科廷。具有大k输入的快速k均值聚类的双树算法2017年SIAM国际数据挖掘会议记录，第300-308页。SIAM，2017年。谷歌学者交叉引用
桑乔伊·达斯古普塔。k-means聚类的硬度。加州大学圣地亚哥分校计算机科学与工程系，2008年。谷歌学者
Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raskar。Deepglobe 2018：通过卫星图像解析地球的挑战。ArXiv电子打印, 2018.谷歌学者
Inderjit S Dhillon和Dharmendra S Modha。分布式内存多处理机上的数据聚类算法。在大规模并行数据挖掘，第245--260页。斯普林格，2002年。谷歌学者数字图书馆
丁宇飞、赵岳、沈喜鹏、穆苏瓦蒂夫人和托德·米特科维奇。阴阳k-means：以一致的加速比替代经典k-means。在机器学习国际会议，第579-587页，2015年。谷歌学者数字图书馆
方家瑞、傅浩欢、赵文来、陈炳伟、郑伟杰、杨光文。swdnn：用于加速sunway taihulight上的深度学习应用程序的库。在并行和分布式处理研讨会（IPDPS），2017 IEEE国际，第615-624页。IEEE，2017年。谷歌学者交叉引用
傅浩环、廖俊峰、杨金哲、王兰宁、宋振亚、黄晓萌、杨超、薛伟、刘芳芳、乔芳丽等。太阳之光超级计算机：系统与应用。科学中国信息科学, 59(7):072001, 2016.谷歌学者交叉引用
Sudipto Guha、Adam Meyerson、Nina Mishra、Rajeev Motwani和Liadan O'Callaghan。聚类数据流：理论与实践。IEEE知识和数据工程事务，15（3）:515-5282003年。谷歌学者数字图书馆
Ali Hadian和Saeed Shahrivari。多核cpu上磁盘驻留数据集的高性能并行k均值聚类。超级计算杂志, 69(2):845--863, 2014.谷歌学者数字图书馆
格雷格·汉默利。制作k意味着更快。在2010年SIAM数据挖掘国际会议记录，第130-140页。SIAM，2010年。谷歌学者交叉引用
胡安·马里奥·豪特、梅赛德斯·保莱蒂、哈维尔广场和安东尼奥广场。用于高光谱图像分析的k-means算法的云实现。超级计算杂志, 73(1):514--529, 2017.谷歌学者数字图书馆
ImgNet ILSVRC2012。http://www.image-net.org/challenges/lsvrc/2012/。谷歌学者
Anil K Jain和Richard C Dubes。聚类数据的算法。Prentice-Hall公司，1988年。谷歌学者数字图书馆
姜大新、唐淳和张爱东。基因表达数据的聚类分析：一项调查。IEEE知识与数据工程汇刊, 16(11):1370--1386, 2004.谷歌学者数字图书馆
Yu Jin和Joseph F Jaja。在cpu-gpu平台上实现频谱聚类的高性能。arXiv预打印arXiv:1802.04450, 2018.谷歌学者
Jitendra Kumar、Richard T Mills、Forrest M Hoffman和William W Hargrove。使用大数据集进行生态区定量划分的并行k均值聚类。Procedia计算机科学, 4:1602--1611, 2011.谷歌学者交叉引用
李伟佳、傅浩欢、乐宇、彭功、多乐峰、李从聪和尼古拉斯·克林顿。基于堆叠自动编码器的远程图像分类深度学习：非洲陆地覆盖测绘案例研究。国际遥感杂志, 37(23):5632--5646, 2016.谷歌学者数字图书馆
尤莉、赵开勇、朱晓文和刘继明。通过gpu加速k-means算法。在计算机与信息技术（CAT），2010年IEEE第十届国际会议，第115-122页。IEEE，2010年。谷歌学者数字图书馆
李哲豪、金吉芳和王凌丽。高性能k表示基于简化的地图还原体系结构的实现。arXiv预打印arXiv.1610.05601，2016年。谷歌学者
500强名单。https://www.top500.org/lists/2018/06/。谷歌学者
斯图尔特·劳埃德。pcm中的最小二乘量化。IEEE信息论事务, 28(2):129--137, 1982.谷歌学者数字图书馆
詹姆斯·纽林和弗朗索瓦·弗莱特。具有准确边界的快速k均值。在机器学习国际会议，第936-944页，2016年。谷歌学者数字图书馆
詹姆斯·纽林和弗朗索瓦·弗莱特。嵌套迷你背带k-means。在神经信息处理系统研究进展，第1352--1360页，2016年。谷歌学者数字图书馆
UCI机器学习库。http://archive.ics.uci.edu/ml/datasets.html。谷歌学者
Christopher J Rossbach、Yuan Yu、Jon Currey、Jean-Philippe Martin和Dennis Fetterly。Dandelion：异构系统的编译器和运行时。在第二十四届ACM操作系统原理研讨会论文集，第49-68页。ACM，2013年。谷歌学者数字图书馆
沈晓波、刘伟伟、Ivor W Tsang、沈福民和孙全森。大规模聚类的压缩k-meansAAAI公司，第2527-2533页，2017年。谷歌学者
Michael Steinbach、George Karypis、Vipin Kumar等。文档聚类技术的比较。在文本挖掘KDD研讨会，第400卷，第525--526页。波士顿，2000年。谷歌学者
莱昂纳多·托洛克（Leonardo Torok）、帕诺斯·利亚特斯（Panos Liatsis）、乔斯·维特博（Jos Viterbo）、奥拉·康奇（Aura Conci）等。模式识别，66（C）：392--4032017年。谷歌学者数字图书馆
马里奥·泽切纳和迈克尔·格拉尼策。通过cuda加速图形处理器上的k-means。在密集型应用程序和服务，2009年。密集型'09。第一届国际会议，第7-15页。IEEE，2009年。谷歌学者数字图书馆

大规模分层k平均值用于异构多核超级计算机
1. 网络

建议

大规模分层k均值用于异构多核超级计算机
SC’18：高性能计算、网络、存储和分析国际会议记录

本文提出了一种新的设计和实现k平均值针对Sunway TaihuLight超级计算机的聚类算法。我们介绍了一种多级并行划分方法，它不仅按数据流和质心进行划分，而且还按。。。
阅读更多信息
基于CPU/GPU的异构超级计算机在贝叶斯系统发育推断中的资源高效利用

贝叶斯推理是生物信息学中估计系统发育树的重要方法之一。由于潜在的巨大计算需求，已经实现了几种贝叶斯推理的并行算法，以在CPU上运行。。。
阅读更多信息
异构多核超级计算机的大规模自动K-均值聚类
本文介绍了一个自动的<inline-formula>$k$。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于

SC’18：高性能计算、网络、存储和分析国际会议记录
2018年11月
932页
赞助商
合作中
出版商
IEEE出版社
出版历史
- 出版：2019年7月26日
检查更新
作者标记
群集
多核/多核处理器
并行计算
超级计算机
限定符
- 研究论文
会议

接受率
总体验收率1,516属于6,373提交文件，24%
资金来源
其他指标
查看文章指标

文章指标
- 1
  引文总数
  查看引文
- 58
  总下载次数
- 下载量（最近12个月）4
- 下载量（最近6周）0
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

大规模分层k平均值用于异构多核超级计算机

SC’18：高性能计算、网络、存储和分析国际会议记录

摘要

工具书类

引用人

建议

大规模分层k均值用于异构多核超级计算机

基于CPU/GPU的异构超级计算机在贝叶斯系统发育推断中的资源高效利用

异构多核超级计算机的大规模自动K-均值聚类

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

大规模分层k平均值用于异构多核超级计算机

SC’18：高性能计算、网络、存储和分析国际会议记录

摘要

工具书类

引用人

建议

大规模分层k均值用于异构多核超级计算机

基于CPU/GPU的异构超级计算机在贝叶斯系统发育推断中的资源高效利用

异构多核超级计算机的大规模自动K-均值聚类

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

检查更新

作者标记

限定符

会议

接受率

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享