第33届ICS 2019:美国亚利桑那州凤凰城
鲁道夫·艾根曼 , 陈丁 , 萨利·麦基 :
《ACM超级计算国际会议记录》,ICS 2019,美国亚利桑那州凤凰城,2019年6月26-28日。 ACM公司 2019 ,国际标准图书编号 978-1-4503-6079-1
HPC应用
米琳达·费尔南多 , 大卫·尼尔森 , 埃里克·W·赫希曼 , 哈里·桑达尔 :
异构集群上自适应计算广义相对论的可扩展框架。 1-12 王坤鹏 , 徐世珍 , 郝欢付 , 俞鸿坤 , 赵文来 , 杨广文 :
使用分区流模型在GPU集群上并行低温EM三维重建。 13-23 刘建桥 , 迈克尔·罗布森 , 托马斯·奎因 , 米林·库尔卡尼 :
高效的GPU树行走用于有效的分布式n体模拟。 24-34 迈克尔·戈万洛克 :
共享内存中的CPU/GPU混合集群达到十亿点规模。 35-45
加速器编程
阿卜杜勒·达克 , 程莉 , 熊进军 , 艾萨克·盖拉多 , 温美惠 :
使用张量核心单元加速缩小和扫描。 46-57 张伟(音译) , 崔伟豪 , 开化福 , 全晨 , 丹尼尔·爱德华·马惠特 , 吴波 , 李超(音) , 郭敏义 :
Laius:提高数据中心中空间多任务加速器的延迟意识和利用率。 58-68 张溪梦 , 孟白晓 , 郭成新 , 梁庚 , 王浩(Hao Wang) , 张晓东 :
HYPHA:一个基于并行分离的框架,用于加速持久同源矩阵约简。 69-81 范妮 , 宋江 , 洪江 , 黄健 , 吴兴波 :
SDC:用于高效数据索引的软件定义缓存。 82-93
HPC算法: 线性代数与解算器
甄燮 , 谭光明 , 刘伟峰 , 孙宁辉 :
IA-SpGEMM:用于并行稀疏矩阵-矩阵乘法的输入软件自动调整框架。 94-105 陈洁阳 , 南雄 , Xin Liang(新亮) , 丁文涛 , 李四环 , 开明欧阳 , 赵凯(Kai Zhao) , 内森·德巴德尔本 , Qiang Guan(强关) , 陈子忠 :
TSM2:在GPU上优化高瘦矩阵乘法。 106-116 雅库布·库扎克 , 马克·盖茨 , 阿里·查拉拉 , 阿西姆·亚尔汗 , 杰克·J·东加拉 :
带有GPU加速器的分布式内存机器的最小二乘解算器。 117-126 Piyush Sao公司 , 罗马克里希南·坎南 , 小叶雪莉·李 , 理查德·瓦杜克 :
一个避免通信的3D稀疏三角形解算器。 127-137 保罗·R·埃勒 , 托尔斯滕·霍夫勒 , 威廉·格罗普 :
使用性能模型了解结构化网格问题的可伸缩Krylov解算器大规模性能。 138-149 库尔特·奥赫恩 , 阿卜杜拉·阿尔佩伦 , Hasan Metin Aktulga公司 :
分布式存储平台上动态电荷分布模型的反应分子动力学模拟性能优化。 150-159
HPC计算机架构/加速器
Pradeep V.Kotipalli公司 , 兰维杰·辛格 , 保罗·伍德 , 伊格纳西奥·拉古纳 , Saurabh Bagchi公司 :
AMPT-GA:用于GPU应用程序的自动混合精度浮点调整。 160-170 九州李 , 迈克尔·B·沙利文 , Siva Kumar Sastry哈里 , 蔡提摩西(Timothy Tsai) , 斯蒂芬·凯克勒 , 马坦·埃雷斯 :
GPU快照:GPU密集型系统的检查点卸载。 171-183 王浩南 , 穆罕默德·阿塞姆·易卜拉欣 , 斯帕什·米塔尔 , Adwait慢跑 :
GPU中的地址辅助近似负载值预测。 184-194 侯赛因·埃尔纳瓦维 , 兰根·巴苏·罗伊·乔杜里 , 阿姆罗阿瓦德 , 格雷戈里·伯德 :
谨慎的TLB:一种利用TLB未命中行为中的异质性的机制。 195-205 新晋 , 周耀阳 , 鲍文·黄(Bowen Huang) , 于子豪 , 詹旭升 , 王慧哲 , Sa Wang(萨旺) , 于宁美 , 孙宁辉 , 云冈包 :
QoSMT:支持同步多线程架构的精确性能控制。 206-216 陈月晨 , 艾哈迈德·卢里 :
一个在线质量管理框架,用于在网络上进行近似沟通。 217-226
HPC算法: 图和张量
李佳佳 , 博拉乌萨尔 , U mit V.Joatalyürek公司 , 孙继萌 , 凯文·巴克尔 , 理查德·瓦杜克 :
高效且有效的稀疏张量重排序。 227-237 文卡特桑·查卡拉瓦尔西 , Shivmaran S.Pandian公司 , 索拉巴·拉吉 , Yogish Sabharwal瑜伽 :
关于优化分布式非负Tucker分解。 238-249 鲁兹贝·卡里米 , 大卫·M·科佩尔曼 , 克里斯·J·迈克尔 :
GPU路网图收缩和SSSP查询。 250-260 王恒杰 , 阿帕尔娜·钱德拉莫利什瓦兰 :
多块结构网格的多标准划分。 261-271
建模/资源管理
全晨 , 王振宁 , 镜文冷 , 李超(音) , 郑文丽(Wenli Zheng) , 郭敏义 :
Avalon:通过数据中心的多资源管理实现QoS意识和提高利用率。 272-283 郝旭 , 王庆森 , 双松 , 莉西·库里安·约翰 , 徐柳 :
我们可以信任分析结果吗 理解和修复现代轮廓仪中的不准确性。 284-295 迪米特里奥斯·查萨皮斯 , Miquel Moretó , 马丁·舒尔茨 , 巴里·朗特里 , 马特奥·瓦莱罗 , 马克·卡萨斯 :
通过预测处理器制造可变性的影响实现节能作业调度。 296-307 哈迪·扎马尼 , 刘元来 , Devashree三联症 , Laxmi N.Bhuyan , 陈子忠 :
GreenMM:通过欠压实现节能GPU矩阵乘法。 308-318
并行编程
孙慧慧 , 弗洛里安·费伊 , 赵杰(音译) , 谢尔盖·戈拉奇 :
WCCV:改进具有经相干条件的IF语句的矢量化。 319-329 穆罕默德·诺鲁齐(Mohammad Norouzi Arab) , 菲利克斯·沃尔夫 , 阿里·贾内萨里 :
OpenMP中的自动构造选择和变量分类。 330-341 米哈伊尔·波波夫 , 亚历山德拉·金博勒 , 大卫·布莱克·夏弗 :
NUMA系统的高效线程/页面/并行度自动调整。 342-353 菲利普·普法菲 , 托比亚斯·格罗瑟 , 马丁·彼得·蒂尔曼 :
高效分层在线自动调谐:多面体加速器映射的案例研究。 354-366
分布式系统
阿卜杜勒哈利姆·阿米尔 , 查尔斯·阿彻 , 迈克尔·布洛克索姆 , 曹崇孝 , 迈克尔·丘韦列夫 , Hajime Fujita先生 , 玛丽亚·加扎兰 , 郭燕飞 , 杰夫·哈蒙德 , 岩崎信太郎 , 肯尼思·拉斐内蒂 , 米哈伊尔·谢里耶夫 , 最小Si , Kenjiro Taura公司 , 萨加尔·塔帕利亚 , 巴凡·巴拉吉 :
软件组合以缓解多线程MPI争用。 367-379 埃米利奥·卡斯蒂略 , 尼基尔·贾恩 , 马克·卡萨斯 , Miquel Moretó , 马丁·舒尔茨 , 拉蒙·贝维德 , 马特奥·瓦莱罗 , Abhinav Bhatele公司 :
优化异步任务型程序中的计算通信重叠。 380-391 东河康 , Vedang Patel公司 , 阿什瓦蒂·奈尔 , Spyros Blanas公司 , 杨旺(Yang Wang) , 斯里尼瓦桑Parthasarathy :
Henosis:异构数据存储上HDF5应用程序的工作负载驱动的小阵列整合和放置。 392-402 村路李 , 德尊侗族 , 廖祥科 , 约翰·金 , Changhyun Kim(金昌勋) :
DeepHiR:利用深度混合内存缓冲区微体系结构提高高基数路由器吞吐量。 403-413
机器学习加速
阿列克桑达尔·兹拉特斯基 , 甄佳 , 李凯(Kai Li) , 杜兰德神父 :
现代CPU上高效FFT和winograd卷积的剖析。 414-424 卡兰·阿加瓦尔 , 乌代·邦杜古拉 :
优化多核系统的线性分支评估算法。 425-437 林宁 , 沈喜鹏 :
深度重用:通过粗粒度计算重用动态简化CNN推理。 438-448 布拉德利·麦克丹尼尔 , 赛谦张 , H.T.Kung(香港) , Xin Dong(新东) :
通过FPGA验证,使用两个权值的幂来加速CNN的全叠优化。 449-460 童耕 , 王天奇 , 吴春树 , 陈阳 , 吴伟 , 李安(Ang Li) , 马丁·赫伯特 :
O3BNN:一种无序结构,用于具有细粒度修剪的高性能二值化神经网络推理。 461-472 雷昭(Lei Zhao) , 全登 , 张友涛 , 杨军(Jun Yang) :
RFAcc:基于3D ReRAM关联阵列的随机森林加速器。 473-483
正确性、效率和安全性
薄芳 , 哈桑·哈拉瓦 , 卡提克·帕塔比拉曼 , 马泰·里佩努 , 斯里拉姆·克里希纳莫奥斯蒂 :
BonVoision:利用空间数据平滑性从内存软错误中恢复。 484-496 徐秋明 , Hoda Naghibijouybari公司 , 王世波(Shibo Wang) , Nael B.Abu-Ghazaleh公司 , 穆拉利·阿纳瓦拉姆 :
GPUGuard:减轻对GPU的基于争用的侧面和隐蔽通道攻击。 497-509 顾永斌 , 陈丽忠 :
动态链接的MSHR用于GPU中的自适应未命中处理。 510-521