ICS 2020:西班牙巴塞罗那
爱德华·伊瓜德 , 文美·W·Hwu , 罗莎·巴迪亚 , H.彼得·霍夫斯蒂 :
ICS’20:2020超级计算国际会议,西班牙巴塞罗那,2020年6月。 ACM公司 2020 ,国际标准图书编号 978-1-4503-7983-0
算法I
马克斯·卡尔森 , 罗伯特·M·柯比 , 哈里·桑达尔 :
求解分数阶扩散方程的可扩展框架。 2:1-2:11 Octavi Obiols销售 , 阿比纳夫·维希努 , 尼古拉斯·马来亚 , 阿帕尔娜·钱德拉莫利什瓦兰 :
CFDNet:基于深度学习的流体模拟加速器。 3:1-3:12 卡纳克·马哈迪克 , 吴庆云 , 李帅 , 阿米特·萨本 :
在线推荐系统的快速分布式盗贼。 4:1-4:13 罗宾·库马尔·夏尔马 , 马克·卡萨斯 :
多核结构上递归神经网络的波前并行化。 5:1-5:12 清朝楚国 , 波亚·库沙 , 阿马尔·艾哈迈德·阿旺 , Kawthar Shafie Khorasani公司 , 哈里·苏布拉莫尼 , Dhabaleswar K.D.K.熊猫 :
NV-group:现代密集GPU系统上分布式深度学习的链接效率缩减。 6:1-6:12 张绍帅 , 鲁奇·沙阿 , 吴潘若 :
TensorSVM:使用张量引擎加速内核机器。 7点-7分11秒
算法II
布莱恩·唐纳利 , 迈克尔·戈万洛克 :
在GPU上进行高维距离相似性搜索的一种协调性索引。 8:1-8:12 阿齐恩·海达舍纳斯(Azin Heidarshenas) , 衬线Yesil , 迪米特里奥斯·斯卡拉托斯 , 萨萨·米塞洛维奇 , 亚当-莫里森 , 约塞普·托雷拉斯 :
V-Combiner:通过顶点合并在共享内存平台上加速迭代图形处理。 9点9分13秒 Kshitij Shukla公司 , 赛查兰雷贡塔 , 赛·哈什·汤多克 , 基肖尔·科塔帕利 :
动态图中以紧密度和紧密度为中心的高效并行算法。 10:1-10:12 金若明 , 甄鹏 , 温德尔·吴 , 费奥多尔·德拉根 , 加甘·阿格拉瓦尔 , 宾仁 :
并行化修剪地标标记:处理图算法中的依赖关系。 11:1-11:13 马可·米努托利 , 毛里齐奥·德罗科 , 马汉特斯·哈拉帕纳瓦尔 , 安东尼诺·图米奥 , 阿南斯·卡利亚纳拉曼 :
cuRipples:对多GPU系统的影响最大化。 12:1-12:11 汉斯·范迪伦敦克 :
图示器:高效的推拉式矢量化图形处理。 13:1-13:13 巴巴克·法尔萨菲 :
门店后服务器架构。 14:1
建筑I
莱思·M·阿尔巴拉卡特 , 保罗·V·格拉茨 , 丹尼尔·吉梅内斯(Daniel A.Jiménez) :
SB-Fetch:用于芯片多处理器的同步感知硬件预取。 15:1-15:12 弗拉基米尔·迪米奇 , Miquel Moretó , 马克·卡萨斯 , 扬·谢斯科 , 马特奥·瓦莱罗 :
RICH:在缓存层次结构中实现缩减。 16:1-16:13 程贤伟(Xianwei Cheng) , 赵慧(音) , 马赫穆特·坎德米尔 , 姜蓓蕾(Beilei Jiang) , 加亚特里·梅塔 :
AMOEBA:用于动态GPU缩放的粗粒度可重构架构。 17:1-17:13 阿齐恩·海达舍纳斯(Azin Heidarshenas) , 坦玛·冈瓦尼 , 衬线Yesil , 亚当-莫里森 , 约塞普·托雷拉斯 :
Snug:对芯片多处理器中放松并发优先级队列的体系结构支持。 18:1-18:13 新河 , Subhankar Pal公司 , 阿波罗·阿玛纳 , 冯思英 , 东延公园 , 奥斯汀·罗文斯基 , 叶浩杰 , 陈冠宇 , 罗纳德·德雷斯林斯基 , 特雷弗·N·穆奇 :
稀疏TPU:为稀疏矩阵调整脉动阵列。 19:1-19:12
建筑II
费雷 , 德尊侗族 , 廖祥科 , 何塞·杜阿托 :
Bundlefly:多芯光纤的低直径拓扑。 20:1-20:11 扎伊德·萨拉马·阿勒扎伊德 , 萨普塔什·博米克 , 鑫源 , 迈可·蓝恩 :
实用蜻蜓的全球链接安排。 21:1-21:11 Shivani三联症 , Debiprasanna Sahoo公司 , Manoranjan Satpathy公司 , 马杜·穆提亚姆 :
NVMe SSD的模糊公平控制器。 22:1-22:12 伊姆兰·法里德 , Mincheol Kang公司 , Wonyoung Lee(李元阳) , 宋泰·金 :
利用页面内更新多样性减轻SSD中的写入放大。 23:1-23:12 石润斌 , 裴延东 , 童耕 , 玉昊丁 , 马小龙 , 海登·郭海粟 , 马丁·赫伯特 , 李安(Ang Li) , 王彦之(Yanzhi Wang) :
CSB-RNN:一个具有压缩结构块的比实时RNN更快的加速框架。 24:1-24:12 孙功进 , 郑永康(Seongyoung Kang) , 桑武俊 :
BurstZ:用于大规模数据的高效带宽科学计算加速器平台。 25:1-25:12
性能
周克仁 , 马克·克伦特尔 , 约翰·梅勒·克鲁米 :
用于GPU加速应用程序自顶向下性能分析的工具。 26:1-26:12 本杰明·威尔顿 , 巴顿·P·米勒 :
识别并(自动)纠正CPU/GPU应用程序中的性能问题。 27:1-27:13 格雷森·索扎·迪尼兹·门多卡 , 廖春华 , 费尔南多·马格诺·昆托·佩雷拉 :
AutoParBench:基于OpenMP的并行化器的统一测试框架。 28:1-28:10 刘正春 , 瑞恩·刘易斯 , 拉吉库马尔·凯蒂穆图 , 凯文·哈姆斯 , 菲利普·卡尔斯 , Nageswara S.V.Rao公司 , 伊恩·福斯特 , 迈克尔·帕普卡 :
领导力计算设施中HPC应用的特征和识别。 29:1-29:12 崔杰敏(Jaemin Choi) , 大卫·F·理查兹 , 拉克西坎特·V·卡莱 , Abhinav Bhatele公司 :
分布式GPU应用程序的端到端性能建模。 30:1-30:12 耶希亚·阿拉法 , 阿卜杜勒·哈梅德·巴达维 , 戈皮纳特·陈努帕蒂 , 阿塔努·巴拉伊 , 南达基肖尔·桑提 , 斯蒂芬·J·艾登本兹 :
使用重用配置文件对GPGPU进行快速、准确和可扩展的内存建模。 31:1-31:12 迈克尔·沃尔费 :
为超级计算机优化超级编译器。 32:1
运行时
杰苏斯·卡雷特罗 , 伊曼纽尔·詹诺 , 纪尧姆·帕雷斯 , 大卫·E·辛格 , 尼古拉斯·威代尔 :
映射和调度HPC应用程序以优化I/O。 33:1-33:12 艾萨克·桑切斯·巴雷拉 , 大卫·布莱克·谢弗 , 马克·卡萨斯 , Miquel Moretó , 阿纳斯塔西娅·斯图普尼科娃 , 米哈伊尔·波波夫 :
利用机器学习对NUMA效应和预取进行建模和优化。 34:1-34:13 罗希特·赞布雷 , 阿帕尔娜·钱德拉莫利什瓦兰 , 巴凡·巴拉吉 :
我是如何学会不再担心用户可见的端点而爱上MPI的。 35:1-35:13 马萨布·艾哈迈德 , 莫欣山 , 阿基夫·拉赫曼 , 奥马尔·汗 :
使用多级依赖项检查加快松弛有序的任务并行工作负载。 36:1-36:11 吴玉东 , 沈明耀 , 陈一慧 , 周媛媛 :
调整应用程序,以便将GPU高效卸载到内存中处理。 37:1-37:12 马丁·温特 , 丹尼尔·姆拉卡 , 马蒂亚斯·帕尔格 , 马库斯·斯坦伯格 :
衔尾蛇 :用于GPU上动态内存管理的虚拟化队列。 38:1-38:12
编译器
吉柳(Ji Liu) , 阿卜杜拉·卡菲 , 沈喜鹏 , 周惠阳 :
MKPipe:一个编译器框架,用于在OpenCL for FPGA中优化多内核工作负载。 39:1-39:12 Indu K.Prabhu公司 , V.克里希纳·南迪瓦达 :
使用非均匀工作负载阻塞循环。 40:1-40:12 泰勒·科伊 , 何水兵 , 宾仁 , 张雪晨 :
在NVMM系统中使用崩溃一致数据结构的编译器辅助检查点。 41:1-41:13 谭嘉良 , 舒音焦 , 米林·查比 , 徐柳 :
每个科学程序员都应该知道编译器优化的哪些方面? 42:1-42:12 王涛(音译) , 尼基尔·贾恩 , 大卫·博姆 , 大卫·贝金赛尔 , 弗兰克·米勒 , 托德·甘布林 :
CodeSeer:通过机器学习选择输入相关的代码变体。 43:1-43:11