SC 2016:美国犹他州盐湖城
约翰·韦斯特 , Cherri M.煎饼 :
高性能计算、网络、存储和分析国际会议记录,2016年11月13日至18日,美国犹他州盐湖城,SC。 IEEE计算机学会 2016 ,国际标准图书编号 978-1-4673-8815-3
ACM戈登·贝尔决赛一
彼得·文森特 , 弗雷迪·威瑟登 , 布莱恩·弗迈尔 , 金石公园 , 阿文德·伊耶 :
迈向绿色航空,巨蟒在千兆瓦级。 1-11 珍妮·卢克·法特伯特 , 丹尼尔·奥塞·库福尔 , 埃里克·德雷格 , 塔达希·奥吉苏 , 威廉·D·克劳斯 :
使用第一原理分子动力学模拟稀释溶液:计算一百多万个原子和一百多万个核。 12-22 Takayuki Muranushi先生 , Hideyuki Hotta公司 , 牧野纯一郎 , 西泽征亚 , 富田博文 , Keigo Nitadori公司 , 岩川正木 , 细野奈木(Natsuki Hosono) , 丸山育田 , 井上光郎 , Hisashi Yashiro先生 , 中村义文 :
真菌地下动力学模拟:1.184 pflops,通过自动生成和自动调整时间阻塞代码获得。 23-33
ACM戈登·贝尔决赛II
张健(Jian Zhang) , 周春宝 , 王仰刚(Yangang Wang) , 丽丽居 , 杜强 , 池学斌 , 徐东生 , 陈德勋 , 刘勇(音) , 赵柳 :
sunway taihulight超级计算机上粗化动力学的极端尺度相场模拟。 34-45 方力桥 , 赵伟 , 尹训强 , 黄晓梦 , 刘欣(Xin Liu) , 戚墅 , 王冠锁 , 宋振亚 , 李新芳 , 刘海星 , 杨广文 , 叶利媛 :
具有超高分辨率的高效全球表面波数值模拟。 46-56 朝阳 , 魏雪 , 郝欢付 , You洪涛 , 王新良 , 玉龙坳 , 刘芳芳 , 林干 , 徐萍(Ping Xu) , 王兰宁 , 杨广文 , 郑伟民 :
非流体静力大气动力学的10M核可扩展全隐式解算器。 57-68
分子动力学模拟
马库斯·霍内巴赫 , 艾哈迈德·伊斯梅尔 , 保罗·比伦蒂内西 :
tersoff多体潜能的矢量化:性能可移植性练习。 69-81 W.迈克尔·布朗 , 安德烈·塞明 , 迈克尔·赫本斯特雷特 , 谢尔盖·赫沃斯托夫 , 卡蒂克·拉曼 , 史蒂文·普利普顿 :
提高分子动力学模拟速率,使电能效率提高8倍。 82-95 A.波兹德尼夫 , 瓦莱里·韦伯 , 特奥多罗·莱诺 , 康斯坦丁·贝卡斯 , 亚历山德罗·库里奥尼 :
用于量子生物模拟应用的增强MPSM3。 96-106
实战状态: 高级应用程序开发
桑德拉·维恩克 , 朱利安·米勒 , 马丁·舒尔茨 , 马蒂亚斯·穆勒 :
HPC中的开发工作量估算。 107-118 艾哈迈德·埃勒勒 , 保罗·萨特 , 吴俊峰 :
MetaMorph:多核和多核集群上可互操作内核的库框架。 119-129 Jun Sawada先生 , 菲利普·阿科皮扬 , 安德鲁·S·卡西迪 , 布莱恩·塔巴 , 迈克尔·德博尔 , 帕拉布·达塔 , 罗德里戈·阿尔瓦雷兹·伊卡扎 , 阿诺·阿米尔 , 约翰·亚瑟 , 亚历山大·安德烈奥普洛斯 , Rathinakumar Appuswamy公司 , 海因茨·拜尔 , 戴维斯·巴赫 , 大卫·J·伯格 , 卡梅洛·迪·诺尔福 , 史蒂文·埃瑟 , 迈伦·弗利克纳 , 托马斯·霍瓦思 , 布莱恩·杰克逊 , 杰夫·库斯尼茨 , 斯科特·勒库赫 , 迈克尔·马斯特罗 , 蒂莫西·梅拉诺 , 保罗·梅罗拉 , 史蒂文·米尔曼 , 塔潘·K·纳亚克 , 正常通过 , 哈特穆特·彭纳 , William P.风险 , 凯·施莱彭 , 本杰明·G·肖 , Hayley Wu(吴海莉) , 布莱恩·吉拉 , 亚当·T·穆迪 , T.内森·蒙德亨克 , 布莱恩·范·埃森 , 埃里克·X·王 , 大卫·P·威德曼 , 青武 , 威廉·墨菲 , 杰米·肯·因芬托利诺(Jamie K.Infantolino) , 詹姆斯·罗斯 , 戴尔·夏尔 , 曼纽尔·维迪奥拉 , 拉朱·南布鲁 , Dharmendra S.Modha法 :
Truenorth智能计算生态系统:可扩展系统、软件和应用程序。 130-141
系统和网络I
延斯·多姆克 , 托尔斯滕·霍夫勒 :
超级计算机的调度感知路由。 142-153 尼基尔·贾恩 , Abhinav Bhatele公司 , 萨姆·怀特 , 托德·甘布林 , 拉克西坎特·V·卡莱 :
通过模拟并行工作负载评估HPC网络。 154-165 柯文 , 帕曼·萨马迪 , 塞巴斯蒂安·拉姆利 , 克里斯汀·P·陈 , 沈一文 , 梅萨姆·巴哈多里 , 凯伦·伯格曼 , 耶利米亚·威尔克 :
Flexfly:通过硅光子学实现可重构蜻蜓。 166-177
数值算法I
詹姆斯·凯斯汀 , Vasileios Kalantzis公司 , 埃里克·波利齐 , 萨阿德 :
PFEAST:使用分布式内存线性解算器的高性能稀疏特征值解算器。 178-189 皮埃尔·朱利维特 , 皮埃尔·亨里·托尼尔 :
块迭代方法和循环以改进线性解算器的可伸缩性。 190-203 保罗·R·埃勒 , 威廉·格罗普 :
可扩展的非阻塞预条件共轭梯度方法。 204-215
弹性和错误处理
伊格纳西奥·拉古纳 , 马丁·舒尔茨 :
查明大规模并行应用程序中依赖规模的整数溢出错误。 216-227 刘庆瑞 , 郑昌熙(Changhee Jung) , 东洋·李 , 德维什·蒂瓦里 :
面向编译器的轻量级检查点,用于细粒度有保证的软错误恢复。 228-239 李冠鹏 , 卡提克·帕塔比拉曼 , 陈勇彻 , Pradip Bose公司 :
了解GPGPU应用程序中的错误传播。 240-251
科学的数据管理和可视化
马库斯·梅斯克 , 拉尔斯·纳格尔 , 蒂姆·苏厄 , 安德烈·布林克曼 , 伦纳特·索斯 :
ECMWF磁带库系统的仿真和性能分析。 252-263 马丁·伯彻尔 , 哈里·穆卡 , 杨安妮 , 法博德·赫萨拉基 :
科学数据压缩算法的实时合成。 264-275 马修·拉森 , 赛勒斯·哈里森 , 詹姆斯·克雷斯 , 大卫·普格米尔 , 杰里米·梅雷迪斯 , 汉克·柴尔德 :
现场渲染的性能建模。 276-287
分布式计算主题
阿尔斯兰发动机 , 凯末尔·甘纳 , 特夫菲克·科萨尔 :
HARP:基于历史分析和实时探测的预测传输优化。 288-299 冯艳 , 何玉雄 , Olatunji Ruwase公司 , 叶夫根妮亚·斯米尔尼 :
SERF:通过明智的并行性为快速深层神经网络服务的高效调度。 300-311
弹性
乔治·博西尔卡 , 奥雷连·布特伊勒 , 阿米娜·格尔穆切 , 托马斯·赫罗特 , 伊维斯·罗勃特 , 皮埃尔·桑斯 , 杰克·J·东加拉 :
HPC系统中的故障检测和传播。 312-322 斯科特·利维 , 库尔特·费雷拉 , 帕特里克·G·布里奇斯 :
通过轻量级压缩提高应用程序对内存错误的恢复能力。 323-334 向妮 , 拉克西坎特·V·卡莱 :
反向:针对无声数据损坏的自动定向保护。 335-346
张量和图算法
斯科特·萨利宁 , Keita Iwabuchi先生 , 苏拉杰·普德尔 , 玛雅·B.戈哈勒 , 马泰·里佩努 , 罗杰·皮尔斯 :
图形着色是分布式系统上动态图形处理的一个挑战性问题。 347-358 沙登·史密斯 , Jongsoo公园 , 乔治·卡里皮斯 :
对高性能张量补全优化算法的探索。 359-371 马里兰州Maksudul Alam , 马莱克·汗 , 阿尼尔·瓦利坎蒂 , 马达夫·马拉特 :
生成大规模随机图的有效且可扩展的算法方法。 372-383
绩效测量和分析
奥斯卡·H·蒙德拉贡 , 帕特里克·G·布里奇斯 , 斯科特·利维 , 库尔特·费雷拉 , 帕特里克·M·威德纳 :
了解下一代HPC系统中的性能干扰。 384-395 玛丽亚·迪马科波卢 , 斯特芬伊朗语 , Koziris油桃 , 尼古拉斯·班博斯 :
linux中可靠高效的性能监控。 396-408 哈米德·雷萨·佐胡里 , Naoya Maruyama先生 , 亚伦·史密斯 , 松田本彦 , 松冈佐治 :
使用FPGA评估和优化OpenCL内核以实现高性能计算。 409-420
系统和网络II
杰森·李 , 周彤 , 卡提克·阿查尔卡 , 鑫源 , 迈可·蓝恩 :
使用开放式SDN功能增强infiniband。 421-432 李明哲 , 哈立德·哈米杜什 , 陆小一 , 哈里·苏布拉莫尼 , 张杰(音译) , Dhabaleswar K.熊猫 :
使用infiniband的按需分页(ODP)设计MPI库:挑战和好处。 433-443 尼古拉·拉乔维奇 , 亚历杭德罗·里科 , 菲利波·曼托瓦尼 , 丹尼尔·鲁伊斯 , 约瑟普·奥里奥·维拉鲁比 , 康斯坦蒂诺·戈麦斯 , Luna背部 , 迭戈·涅托 , 哈拉尔德·塞瓦特 , 泽维尔·马托雷尔 , 杰苏斯·拉巴特 , 爱德华·伊瓜德 , 克里斯·阿德尼伊·琼斯 , 德拉吉说 , 埃尔维·格洛根 , 皮耶罗·拉努卡拉 , 尼科·桑纳 , Jean-François梅奥 , 凯文·普吉 , 布里斯·维多 , 埃里克·博伊尔 , 妈妈阿伦 , 阿克塞尔·奥韦特 , 大卫·布雷福德 , 丹尼尔·塔法尼 , 沃尔克·温伯格 , 德克·布罗梅尔 , 勒内·哈尔弗 , 简·H·梅克 , 拉蒙·贝维迪 , 玛丽亚诺·贝尼托 , 恩里克·瓦列霍 , 马特奥·瓦莱罗 , 亚历克斯·拉米雷斯 :
山地原型:HPC系统的替代方法。 444-455
增强并行性的编译
马丁·孔 , 路易斯·诺埃尔·普切特 , P.萨达亚潘 , 维维克·萨卡尔 :
PIPES:一种用于分布式内存集群上基于任务的编程的语言和编译器。 456-467 Samyam Rajbhandari先生 , 金成金(Jinsung Kim) , 斯里拉姆·克里希纳莫奥斯蒂 , 路易斯·诺埃尔·普切特 , 法布里斯·拉斯特罗 , 罗伯特·哈里森 , P.萨达亚潘 :
一种用于并行多分辨率自适应数值模拟环境的特定领域编译器。 468-479 阿南德·文卡特 , 马赫迪·索尔坦·穆罕默德 , Jongsoo公园 , 洪博荣 , 拉基肖尔·巴里克 , 米歇尔·米尔斯·斯特劳特 , 玛丽·W·霍尔 :
稀疏矩阵计算的波前并行化自动化。 480-491
流体动力学
安舒·杜比 , Hajime Fujita先生 , 丹尼尔·格雷夫斯 , 安德鲁·钱恩 , 德维什·蒂瓦里 :
弹性AMR科学应用中的粒度和错误恢复成本。 492-501 威廉·M·唐 , Bei Wang(北王) , 圣埃弗尼·埃塞尔(Stéphane Ethier) , 格列戈兹·克瓦希涅夫斯基 , 托尔斯滕·霍夫勒 , 哈立德·易卜拉欣 , 卡梅什·马杜里 , 哈佛大学的威廉斯 , 列奥尼德·奥利克 , 卡洛斯·罗萨莱斯·弗南德斯 , 蒂莫西·威廉姆斯 :
全球顶级超级计算机上的极端规模等离子体湍流模拟。 502-513 阿拉什·巴赫蒂亚里 , Dhairya Malhotra公司 , 阿米尔·劳菲 , 米里亚姆·梅尔 , 汉斯·约阿希姆·本加茨 , 比洛斯 :
标量对流扩散方程的并行任意阶精度AMR算法。 514-525
性能工具
托马斯·格拉斯 , 塞萨尔·阿伦德 , 阿德里亚·阿梅贾奇 , 亚历杭德罗·里科 , 爱德华·伊瓜德 , 杰苏斯·拉巴特 , 马特奥·瓦莱罗 , 马克·卡萨斯 , Miquel Moretó :
MUSA:下一代HPC机器的多级仿真方法。 526-537 Tanzima Z.伊斯兰 , 贾亚拉曼·J·蒂亚加拉扬 , Abhinav Bhatele公司 , 马丁·舒尔茨 , 托德·甘布林 :
代理应用程序性能覆盖分析的机器学习框架。 538-549 大卫·伯姆 , 托德·甘布林 , 大卫·贝金赛尔 , 同行蒂莫·布雷默 , 阿尔弗雷多·吉梅内斯 , 马修·勒根德 , 奥尔加·皮尔斯 , 马丁·舒尔茨 :
卡钳:HPC软件堆栈的性能自省。 550-560
存储系统
纳格斯·沙希迪 , 穆罕默德·阿乔曼德 , Myoungsoo Jung先生 , 马赫穆特·坎德米尔 , 契塔·R·达斯 , 阿南德·西瓦苏布拉曼尼亚 :
探索企业存储系统SSD中并行垃圾收集的潜力。 561-572 皮埃尔·马特里 , 亚历山德鲁·科斯坦 , 加布里埃尔·安东纽 , 杰苏斯·蒙特斯 , 玛丽亚·佩雷斯 :
Týr:blob存储满足内置事务。 573-584 杰伊·洛夫斯特德 , 伊沃·希梅内兹 , 卡洛斯·马尔扎恩 , 昆西可乐 , 约翰·本特 , 埃里克·巴顿 :
DAOS和朋友:关于exascale存储系统的建议。 585-596
加速器编程工具
金正勋(Junghyun Kim) , 李勇军 , 郑和公园 , 李政宰 :
使用不必要的数据传输消除将OpenMP设备构造转换为OpenCL。 597-608 托比亚斯·吉西 , 杰里米娅·巴赫 , 托尔斯滕·霍夫勒 :
dCUDA:硬件支持的计算和通信重叠。 609-620 穆罕默德·瓦希卜 , Naoya Maruyama先生 , 青木Takayuki :
Daino:GPU上并行高效AMR的高级框架。 621-632
内存和电源
李超(音) , 易阳 , 闵峰 , 斯利马特·查克拉达尔 , 周惠阳 :
优化GPU上深度卷积神经网络的存储效率。 633-644 莱昂纳多·鲍蒂斯塔·戈麦斯 , 费拉德·兹尤尔基亚洛夫 , 奥斯曼·S·安萨尔 , 西蒙·麦金托什-史密斯 :
无保护计算:对超级计算机上DRAM原始错误率的大规模研究。 645-655 肖恩·华莱士 , 徐阳 , 文卡特拉姆·维什瓦纳 , 威廉·E·奥尔科克 , 苏珊·考夫兰 , 迈克尔·帕普卡 , 兰志玲 :
用于HPC系统电源管理的数据驱动调度方法。 656-666
数值算法,第二部分
陈洁阳 , 李坦 , 吴潘若 , 丁文涛 , 李洪波 , Xin Liang(新亮) , 李四环 , 荣格 , Laxmi N.Bhuyan , 陈子忠 :
GreenLA:用于GPU加速异构计算的绿色线性代数软件。 667-677 杜安·梅里尔 , 迈克尔·加兰德 :
基于合并的并行稀疏矩阵向量乘法。 678-689 黄建宇 , 泰勒·M·史密斯 , 格雷格·亨利 , 罗伯特·范·德盖恩 :
斯特拉森的算法重新加载。 690-701
数据分析
普雷蒂·马拉卡尔 , 文卡特拉姆·维什瓦纳 , 克里斯托弗·奈特 , 托德·S·蒙森 , 迈克尔·帕普卡 :
大规模分子动力学模拟联合分析的最佳执行。 702-715 埃哈布·阿卜杜勒哈米德 , 易卜拉欣·阿卜杜拉齐兹 , 帕诺斯·卡尼斯 , 祖海尔·卡亚特 , 福阿德·贾穆尔 :
Scalemine:在单个大型图中进行可伸缩的并行频繁子图挖掘。 716-727 德米特里·莫罗佐夫 , 汤姆·佩特卡 :
通过K-D树分解实现高效的delaunay细分。 728-738
网络系统性能分析
马克西姆·马丁纳索 , 格列戈兹·克瓦希涅夫斯基 , 萨达夫·R·阿拉姆 , 托马斯·舒尔赫斯 , 托尔斯滕·霍夫勒 :
用于人口稠密加速器服务器的PCIe拥塞软件性能模型。 739-749 徐阳 , 约翰·詹金斯 , 米斯巴·穆巴拉克 , 罗伯特·B·罗斯 , 兰志玲 :
当心恶霸 蜻蜓网络作业干扰研究。 750-760 Sangeetha Abdu Jyothi公司 , 安基特·辛拉 , 布莱恩·戈弗雷 , 亚历山德拉·科拉 :
测量和了解网络拓扑的吞吐量。 761-772
组合和多重网格算法
阿里夫·M·汗 , 亚历克斯·波顿 , Mostofa Ali Patwary医生 , 马汉特斯·哈拉帕纳瓦尔 , 纳达图尔·拉贾戈帕兰·萨蒂什 , 纳拉亚南·桑达拉姆 , 普拉迪普·杜比 :
设计可扩展 b条 -分布式内存多处理机上的近似匹配算法。 773-783 斯里拉姆·乔卡林加姆 , Sharma V.Thankachan公司 , 斯里尼瓦斯·阿鲁鲁 :
查找所有对的并行算法 k个 -不匹配最大公共子字符串。 784-794 迈克尔·克拉克 , 巴林特·乔奥 , 阿列克谢·斯特雷琴科 , 迈克尔·程 , 阿尔琼·辛格·甘比尔 , 理查德·布劳尔 :
使用细粒度并行化在GPU上加速晶格QCD多重网格。 795-806
文件系统和I/O
王腾(Teng Wang) , 凯瑟琳·莫罗 , 亚当·穆迪 , 肯托·佐藤 , 魏宽于 :
用于科学应用程序的临时突发缓冲文件系统。 807-818 杨柳 , 拉古尔·古纳塞卡兰 , 马晓松 , 苏达尔珊·瓦日库代 :
用于大型共享存储系统上I/O工作负载特征描述和协调的服务器端日志数据分析。 819-829 普拉迪普·库马尔 , H.Howie Huang先生 :
G-store:用于万亿边处理的高性能图形存储。 830-841
反问题与量子电路
安德烈亚斯·芒 , 阿米尔·戈洛米 , 比洛斯 :
分布式内存大变形差分三维图像配准。 842-853 亚历山大·兹拉特斯基 , 基苏克·李 , H.Sebastian Seung先生 :
ZNN公司 我 :最大化CPU和GPU上3D卷积网络的推理吞吐量。 854-865 托马斯·哈纳 , 达米安·斯泰格 , 米哈伊尔·斯梅尔扬斯基 , Matthias Troyer公司 :
量子电路的高性能仿真。 866-874
多核架构
山江汤 , 何炳生 , 张树浩 , 牛兆杰 :
弹性多资源公平性:在耦合CPU-GPU体系结构中平衡公平性和效率。 875-886 程彩霞 , 维杰·纳加拉扬 , 阿尔皮特·乔希 :
DCA:DRAM缓存软件DRAM控制器。 887-897 甄琳 , 拉尔斯·尼兰德 , 周惠阳 :
通过轻量级上下文切换实现SIMT体系结构的高效抢占。 898-908
实战状态: 系统特性和设计
埃德加·莱昂 , 伊恩·卡林 , Abhinav Bhatele公司 , 史蒂文·兰格 , 克里斯·钱伯劳 , 路易斯·豪厄尔 , 特伦特·德胡奇 , 马修·莱宁格 :
描述商品集群的并行科学应用:锥形脂肪树的实证研究。 909-920 乌特卡什Ayachit , 安德鲁·鲍尔 , 伯爵P.N.杜克 , 格雷格·艾森豪尔 , 尼古拉·费里尔 , 顾俊敏 , 肯尼思·詹森 , 伯伦·洛林 , 扎里娅·卢基奇 , 苏雷什·梅农 , 德米特里·莫罗佐夫 , 欧里瑞 , 里特斯·兰扬 , 米歇尔·拉斯金 , 克里斯托弗·斯通 , 文卡特拉姆·维什瓦纳 , 冈瑟·H·韦伯 , 布拉德·惠特洛克 , 马修·沃尔夫 , K·约翰·吴 , E.韦斯·贝瑟尔 :
极值尺度的性能分析、设计考虑和应用 就地 基础设施。 921-932
面向任务的运行时
迈克尔·勒比恩 , 布兰登·波特 , 阿披实·潘 , 亚历山德鲁·杜图 , 维奈·阿加瓦拉 , Wonchan Lee公司 , Deepak Majeti公司 , 比比克·吉米尔 , 埃里克·范·塔塞尔 , 塞缪尔·沃斯蒙特 , 布拉德·本顿 , 莫里西奥·布雷特尼茨 , 迈克尔·朱棣文 , 米图纳·托特霍迪 , 莉齐·K·约翰 , 史蒂文·莱因哈特 :
扩展任务队列:异构系统的活动消息。 933-944 谭恩恩(Tan Nguyen) , Didem Unat公司 , 张伟群 , 安·S·阿尔姆格伦 , 穆罕默德·努法尔·法鲁奇 , 约翰·沙尔夫 :
紫苏:基于元数据的异步运行时优化,用于自适应网格优化。 945-956
加速科学发展
丹尼尔·罗滕 , 崔一峰 , 金·奥尔森 , 史蒂文·M·戴 , 凯尔·威瑟斯 , 威廉·萨夫兰 , 王鹏(音译) , 穆大伟 :
PB级异构超级计算机上的高频非线性地震模拟。 957-968 郝欢付 , 廖俊峰 , 魏雪 , 王兰宁(Lanning Wang) , 陈德勋 , 龙骨 , 徐金秀 , 南丁 , 王新良 , 何从惠 , 徐时珍 , 梁一双 , 贾瑞芳 , 徐元超 , 郑伟杰 , 徐静恒 , 甄正 , Wanjing Wei公司 , 许继 , 何章 , 陈炳伟 , 李开伟 , 黄晓梦 , 陈文光 , 杨广文 :
在sunway taihulight超级计算机上重构和优化社区大气模型(CAM)。 969-980 亚历山大·海内克 , 格雷格·亨利 , 麦克斯韦尔·哈钦森 , 汉斯·帕布斯特 :
LIBXSMM:通过运行时代码生成加速小矩阵乘法。 981-991
云和作业调度
苏普里斯·沙斯特里 , 阿姆里兹克 , 大卫·E·欧文 :
瞬时保证:最大化闲置云容量的价值。 992-1002 王伟(音译) , 李宝春 , 本·良(Ben Liang) , 李军(Jun Li) :
具有位置限制的数据中心作业的多资源公平共享。 1003-1014 克里斯托弗·齐默 , 索拉巴·古普塔 , 斯科特·阿奇利 , Sudharshan S.瓦日库代 , 卡尔·阿尔宾 :
一种多方面的工作安排方法,用于改善极端规模系统的性能。 1015-1025