跳到主要内容
10.1109/SC.2018.00016acm会议文章/章节视图摘要出版物页面供应链会议记录会议集合
研究论文

大规模分层k平均值用于异构多核超级计算机

出版:2019年7月26日出版历史

摘要

本文提出了一种新的设计和实现k平均值针对神威太湖之光超级计算机的聚类算法。我们引入了一种多级并行分区方法,它不仅按数据流和质心进行分区,还按维度进行分区。我们的多层次(国家开发银行)该方法释放了SW26010异构多核处理器和超级计算机系统架构中分层并行的潜力。

我们的设计能够处理高达196608个维度和160000多个目标质心的大规模集群问题,同时保持高性能和高可扩展性,显著提高了k平均值与之前的方法相比。评估表明,我们的实现通过并行应用4096个节点(1064496个核),在具有196608个数据维度和2000个质心的大规模集群情况下,每次迭代的性能不到18秒k平均值复杂场景下更可行的解决方案。

工具书类

  1. 阿米尔·本·多尔(Amir Ben-Dor)、罗恩·沙米尔(Ron Shamir)和佐哈尔·亚基尼(Zohar Yakhini)。聚类基因表达模式。计算生物学杂志, 6(3--4):281--297, 1999.谷歌学者谷歌学者
  2. Michael A Bender、Jonathan Berry、Simon D Hammond、Branden Moore、Benjamin Moseley和Cynthia A Phillips。两级存储系统上的k-means聚类。2015年记忆系统国际研讨会论文集,第197-205页。ACM,2015年。谷歌学者谷歌学者数字图书馆数字图书馆
  3. Janki Bhimani、Miriam Leeser和Ningfang Mi。通过并行实现和gpu计算加速k-means集群。2015年IEEE高性能极限计算会议(HPEC),第1-6页。IEEE,2015年。谷歌学者谷歌学者交叉引用交叉引用
  4. Christian Böhm、Martin Perdacher和Claudia Plant。多核k-means。2017年SIAM国际数据挖掘会议记录,第273-281页。SIAM,2017年。谷歌学者谷歌学者交叉引用交叉引用
  5. Thomas Bottesch、Thomas Bühler和Markus Kachele。通过块向量近似欧氏距离,加快k均值。机器学习国际会议,第2578-2586页,2016年。谷歌学者谷歌学者数字图书馆数字图书馆
  6. Y Dora Cai、Rabindra Robby Ratan、Cuihua Shen和Jay Alameda。在超级计算机上使用并行k-means对游戏玩家进行分组。2015年XSEDE会议记录:增强的网络基础设施推动的科学进步,第10页。ACM,2015年。谷歌学者谷歌学者数字图书馆数字图书馆
  7. 盖·巴雷特·科尔曼和哈里·安德鲁斯。通过聚类进行图像分割。IEEE会议记录, 67(5):773--785, 1979.谷歌学者谷歌学者交叉引用交叉引用
  8. 崔晓丽、朱平飞、杨欣、李克秋和季长庆。优化的大数据k意味着使用mapreduce进行聚类。超级计算杂志, 70(3):1249--1259, 2014.谷歌学者谷歌学者数字图书馆数字图书馆
  9. 瑞安·R·科廷。具有大k输入的快速k均值聚类的双树算法2017年SIAM国际数据挖掘会议记录,第300-308页。SIAM,2017年。谷歌学者谷歌学者交叉引用交叉引用
  10. 桑乔伊·达斯古普塔。k-means聚类的硬度。加州大学圣地亚哥分校计算机科学与工程系,2008年。谷歌学者谷歌学者
  11. Ilke Demir、Krzysztof Koperski、David Lindenbaum、Guan Pang、Jing Huang、Saikat Basu、Forest Hughes、Devis Tuia和Ramesh Raskar。Deepglobe 2018:通过卫星图像解析地球的挑战。ArXiv电子打印, 2018.谷歌学者谷歌学者
  12. Inderjit S Dhillon和Dharmendra S Modha。分布式内存多处理机上的数据聚类算法。大规模并行数据挖掘,第245--260页。斯普林格,2002年。谷歌学者谷歌学者数字图书馆数字图书馆
  13. 丁宇飞、赵岳、沈喜鹏、穆苏瓦蒂夫人和托德·米特科维奇。阴阳k-means:以一致的加速比替代经典k-means。机器学习国际会议,第579-587页,2015年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. 方家瑞、傅浩欢、赵文来、陈炳伟、郑伟杰、杨光文。swdnn:用于加速sunway taihulight上的深度学习应用程序的库。并行和分布式处理研讨会(IPDPS),2017 IEEE国际,第615-624页。IEEE,2017年。谷歌学者谷歌学者交叉引用交叉引用
  15. 傅浩环、廖俊峰、杨金哲、王兰宁、宋振亚、黄晓萌、杨超、薛伟、刘芳芳、乔芳丽等。太阳之光超级计算机:系统与应用。科学中国信息科学, 59(7):072001, 2016.谷歌学者谷歌学者交叉引用交叉引用
  16. Sudipto Guha、Adam Meyerson、Nina Mishra、Rajeev Motwani和Liadan O'Callaghan。聚类数据流:理论与实践。IEEE知识和数据工程事务,15(3):515-5282003年。谷歌学者谷歌学者数字图书馆数字图书馆
  17. Ali Hadian和Saeed Shahrivari。多核cpu上磁盘驻留数据集的高性能并行k均值聚类。超级计算杂志, 69(2):845--863, 2014.谷歌学者谷歌学者数字图书馆数字图书馆
  18. 格雷格·汉默利。制作k意味着更快。2010年SIAM数据挖掘国际会议记录,第130-140页。SIAM,2010年。谷歌学者谷歌学者交叉引用交叉引用
  19. 胡安·马里奥·豪特、梅赛德斯·保莱蒂、哈维尔广场和安东尼奥广场。用于高光谱图像分析的k-means算法的云实现。超级计算杂志, 73(1):514--529, 2017.谷歌学者谷歌学者数字图书馆数字图书馆
  20. ImgNet ILSVRC2012。http://www.image-net.org/challenges/lsvrc/2012/。谷歌学者谷歌学者
  21. Anil K Jain和Richard C Dubes。聚类数据的算法。Prentice-Hall公司,1988年。谷歌学者谷歌学者数字图书馆数字图书馆
  22. 姜大新、唐淳和张爱东。基因表达数据的聚类分析:一项调查。IEEE知识与数据工程汇刊, 16(11):1370--1386, 2004.谷歌学者谷歌学者数字图书馆数字图书馆
  23. Yu Jin和Joseph F Jaja。在cpu-gpu平台上实现频谱聚类的高性能。arXiv预打印arXiv:1802.04450, 2018.谷歌学者谷歌学者
  24. Jitendra Kumar、Richard T Mills、Forrest M Hoffman和William W Hargrove。使用大数据集进行生态区定量划分的并行k均值聚类。Procedia计算机科学, 4:1602--1611, 2011.谷歌学者谷歌学者交叉引用交叉引用
  25. 李伟佳、傅浩欢、乐宇、彭功、多乐峰、李从聪和尼古拉斯·克林顿。基于堆叠自动编码器的远程图像分类深度学习:非洲陆地覆盖测绘案例研究。国际遥感杂志, 37(23):5632--5646, 2016.谷歌学者谷歌学者数字图书馆数字图书馆
  26. 尤莉、赵开勇、朱晓文和刘继明。通过gpu加速k-means算法。计算机与信息技术(CAT),2010年IEEE第十届国际会议,第115-122页。IEEE,2010年。谷歌学者谷歌学者数字图书馆数字图书馆
  27. 李哲豪、金吉芳和王凌丽。高性能k表示基于简化的地图还原体系结构的实现。arXiv预打印arXiv.1610.05601,2016年。谷歌学者谷歌学者
  28. 500强名单。https://www.top500.org/lists/2018/06/。谷歌学者谷歌学者
  29. 斯图尔特·劳埃德。pcm中的最小二乘量化。IEEE信息论事务, 28(2):129--137, 1982.谷歌学者谷歌学者数字图书馆数字图书馆
  30. 詹姆斯·纽林和弗朗索瓦·弗莱特。具有准确边界的快速k均值。机器学习国际会议,第936-944页,2016年。谷歌学者谷歌学者数字图书馆数字图书馆
  31. 詹姆斯·纽林和弗朗索瓦·弗莱特。嵌套迷你背带k-means。神经信息处理系统研究进展,第1352--1360页,2016年。谷歌学者谷歌学者数字图书馆数字图书馆
  32. UCI机器学习库。http://archive.ics.uci.edu/ml/datasets.html。谷歌学者谷歌学者
  33. Christopher J Rossbach、Yuan Yu、Jon Currey、Jean-Philippe Martin和Dennis Fetterly。Dandelion:异构系统的编译器和运行时。第二十四届ACM操作系统原理研讨会论文集,第49-68页。ACM,2013年。谷歌学者谷歌学者数字图书馆数字图书馆
  34. 沈晓波、刘伟伟、Ivor W Tsang、沈福民和孙全森。大规模聚类的压缩k-meansAAAI公司,第2527-2533页,2017年。谷歌学者谷歌学者
  35. Michael Steinbach、George Karypis、Vipin Kumar等。文档聚类技术的比较。文本挖掘KDD研讨会,第400卷,第525--526页。波士顿,2000年。谷歌学者谷歌学者
  36. 莱昂纳多·托洛克(Leonardo Torok)、帕诺斯·利亚特斯(Panos Liatsis)、乔斯·维特博(Jos Viterbo)、奥拉·康奇(Aura Conci)等。模式识别,66(C):392--4032017年。谷歌学者谷歌学者数字图书馆数字图书馆
  37. 马里奥·泽切纳和迈克尔·格拉尼策。通过cuda加速图形处理器上的k-means。密集型应用程序和服务,2009年。密集型'09。第一届国际会议,第7-15页。IEEE,2009年。谷歌学者谷歌学者数字图书馆数字图书馆
  1. 大规模分层k平均值用于异构多核超级计算机

    建议

    评论

    登录选项

    检查您是否可以通过登录凭据或您的机构访问本文。

    登录

    完全访问权限

    • 发布于

      封面图片ACM会议
      SC’18:高性能计算、网络、存储和分析国际会议记录
      2018年11月
      932页

      出版商

      IEEE出版社

      出版历史

      • 出版:2019年7月26日

      检查更新

      限定符

      • 研究论文

      接受率

      总体验收率1,516属于6,373提交文件,24%

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器