SC 2021:美国密苏里州圣路易斯
布朗尼斯·德苏宾斯基 , 玛丽·W·霍尔 , 托德·甘布林 以下为:
高性能计算、网络、存储和分析国际会议,SC 2021,美国密苏里州圣路易斯,2021年11月14-19日。 ACM公司 2021 ,国际标准图书编号 978-1-4503-8442-1
ACM戈登·贝尔决赛
大卫·E·肖 , 彼得·亚当斯 , 阿萨夫·阿扎里亚 , 约瑟夫·A·班克 , 布兰诺·巴森 , 阿利斯泰尔·贝尔 , 迈克尔·伯格多夫 , 贾维·巴特 , J.亚当·布茨 , 蒂莫西·科雷亚 , 罗伯特·德克斯 , 罗恩·德罗 , 迈克尔·P·伊斯特伍德 , 布鲁斯·爱德华兹 , 阿莫斯·埃文 , 彼得·费尔德曼 , 迈克尔·芬恩 , 克里斯托弗·芬顿 , 安东尼·福特 , 约瑟夫·加利亚多 , 詹妮特·吉尔 , 玛丽亚·戈拉托娃 , 布莱恩·格雷斯卡姆 , J.P.格罗斯曼 , 贾斯汀·古林斯鲁德 , 安妮莎·哈珀 , 威廉·哈森普拉夫 , 马克·海利 , 本杰明·科林·赫什马特 , 杰里米·亨特 , 道格拉斯·伊拉迪 , 列夫·伊塞罗维奇 , 布莱恩·杰克逊 , 尼克·约翰逊 , 莫莉·M·柯克 , 约翰·克莱佩斯 , 杰弗里·库斯金 , 肯尼思·麦肯齐 , 罗伊·J·马德 , 理查德·麦高文 , 亚当·麦克劳林 , 马克·莫莱斯 , 穆罕默德·纳塞尔 , 劳伦斯·诺西奥洛 , 利夫·奥唐纳 , 安德鲁·帕克 , 乔恩·佩蒂科拉斯 , 戈兰·波西纳 , 克里斯蒂安·普雷德斯库 , Terry Quan先生 , 约翰·萨尔蒙 , 卡尔·施温克 , Keun Sup垫片 , 纳赛尔·西迪克 , 约钦·斯宾格勒 , 塔马斯·萨莱 , 雷蒙德·塔巴迪略 , 莱因哈德·塔特勒 , 安德鲁·G·陶贝 , 迈克尔·西奥博尔德 , 布莱恩·托尔斯 , 威廉·维克 , 斯坦利·C·王 , 迈克尔·瓦兹洛夫斯基 , 马德琳·韦恩加滕 , 约翰·威廉姆斯 , 凯文·A·柳 以下为:
安东3:午饭前20微秒的分子动力学模拟。 1 肖建元 , 陈俊时 , 江山郑 , 洪安 , 黄胜虹 , 朝阳 , 方丽 , Ziyu Zhang(张子玉) , 黄叶琪(Yeqi Huang) , 韩文亭 , 刘欣(Xin Liu) , 陈德勋 , 刘子熙 , 葛壮 , 陈嘉乐 , 李国强 , 孙宣 , Qiang Chen(陈强) 以下为:
辛结构为111.3万亿粒子和257亿网格提供托卡马克等离子体的粒子-细胞全体积模拟。 2 刘勇(Alexander) , 刘欣(Lucy) , 方(南希)李 , 郝欢付 , 杨玉玲 , 宋佳伟 , 赵鹏鹏 , 王震(音) , 大家鹏 , 陈华荣 , 楚国 , 黄和良 , 吴文钊 , 陈德勋 以下为:
缩小“量子霸权”的差距:使用新的Sunway超级计算机实现随机量子电路的实时模拟。 三 Kien Nguyen-Cong(建阮聪) , 乔纳森·威尔曼 , 斯坦·穆尔 , 安纳托利·贝洛诺什科 , 拉胡尔库马尔·加亚特里 , 埃文·温伯格 , 米切尔·A·伍德 , 艾丹·汤普森 , 伊凡·奥利尼克 以下为:
在极端条件、实验时间和长度尺度下对碳进行数十亿原子分子动力学模拟。 4 吉川Kohji Yoshikawa , 田中佐治 , 吉田直树 以下为:
Fugaku超级计算机上的400万亿网格Vlasov模拟:宇宙遗迹中微子在六维相空间中的大规模分布。 5 尚红辉 , 方丽 , 张云泉 , 张立波 , 游福 , 高英祥 , 吴阳军 , 段晓慧 , 林荣芬 , 刘欣(Xin Liu) , 刘莹(音) , 陈德勋 以下为:
极限刻度 从头算 中国领先HPC系统的量子拉曼光谱模拟。 6
计算生物学
穆阿兹·古尔·阿旺 , 史蒂文·霍夫梅尔 , 罗布·伊根 , 南丁 , 艾丁·布鲁索 , 杰克·德斯利普 , 列奥尼德·奥利克 , 凯瑟琳·A·耶利克 以下为:
大规模加速 从头开始 使用GPU的宏基因组组装。 7 Sree Charan Gundabolu公司 , T.N.维杰库玛 , 米图纳·托特霍迪 以下为:
FastZ:加速GPU上的空白全基因组比对。 8 陈鹏(音) , 穆罕默德·瓦希卜 , 小王 , Hirofuchi高弘 , 小川弘太郎 , 安德·比古里 , 理查德·波德曼 , 托马斯·布卢门萨特 , 松冈佐治 以下为:
用于锥束CT重建的可缩放FBP分解。 9
考前系统的最佳实践经验
哈什·巴蒂亚 , 弗朗西斯科·迪纳塔莱 , 约瑟夫·穆恩 , 张晓华 , 约瑟夫·查韦斯 , 菲克雷特·艾丁 , 克里斯托弗·斯坦利 , 托马斯·奥佩斯特鲁普 , 克里斯·尼尔 , 萨拉·科基拉·舒马赫 , 董海安(Dong H.Ahn) , 斯蒂芬·赫本 , 蒂莫西·卡彭特 , Sandrasegaram Gnanakaran公司 , 同行蒂莫·布雷默 , 詹姆斯·格洛斯利 , 费利斯·莱特斯通(Felice C.Lightstone) , 赫尔吉·英格尔森(Helgi I.Ingólfsson) 以下为:
大型多尺度工作流的广义协调:大规模的挑战和学习。 10 巴拉兹·杰罗菲 , 小平太润 , 张磊(Lei Zhang) , 冈本孝幸 , 高木正明 , 铃本信治 , 石川裕隆 以下为:
Linux与轻量级多内核在高性能计算中的比较:在exascale之前的经验。 11 Woong Shin公司 , 弗拉迪斯拉夫·奥莱斯 , 艾哈迈德·马罗夫·卡里米 , J.奥斯汀·埃利斯 , 王飞毅 以下为:
揭示200PF前exascale超级计算机的功率、能量和热动力学。 12
高效的深度学习工具
J.格雷戈里·保洛斯基 , 齐晃 , 雷黄(Lei Huang) , Shivaram Venkataraman公司 , 凯尔·查德 , 伊恩·福斯特 , 赵章 以下为:
KAISA:深度神经网络的自适应二阶优化器框架。 13 埃万盖洛斯·乔治亚纳斯 , 迪拉杰·D·卡拉姆卡尔 , Sasikanth Avancha公司 , 梅纳希姆·阿德尔曼 , 克里斯蒂娜·安德森 , 亚历山大·布鲁尔 , 杰里米·布鲁斯特尔 , 纳伦德拉·乔杜里 , 阿披实昆都 , 丹尼斯·库特尼克 , 弗兰克·劳布 , 瓦西姆丁中校 , 桑奇特·米斯拉 , 拉马纳拉扬·莫汉蒂 , 汉斯·帕布斯特 , 巴鲁赫·齐夫 , 亚历山大·海内克 以下为:
张量处理原语:在深度学习工作负载中提高效率和可移植性的编程抽象。 14 崔伟豪 , 韩照 , 全晨 , 郑宁新 , 镜文冷 , 赵洁茹 , 卓松 , 马涛(Tao Ma) , 杨勇 , 李超(音) , 郭敏义 以下为:
基于确定性操作员重叠和精确的延迟预测,启用同步DNN服务。 15
可扩展计算的趋势
托马斯·哈纳 , 达米安·斯泰格 , 托尔斯滕·霍夫勒 , 马提亚斯·特洛伊尔 以下为:
使用QMPI的分布式量子计算。 16 阿卜杜拉·阿尔穆恩 , 冯燕 , 东方赵 以下为:
BAASH:用于HPC系统的轻量级、高效和可靠的区块链即服务。 17 埃坦·弗拉赫滕贝格 , 罗迪·卡纳 以下为:
妇女代表参加HPC会议。 18
计算流体动力学
保罗·穆洛尼 , 李瑞鹏 , 史蒂芬·J·托马斯 , 史莱亚斯·阿南桑 , 阿什什·夏尔马 , 乔恩·S·罗德 , 艾伦·B·威廉姆斯 , 迈克尔·斯普拉格 以下为:
为exascale级风能模拟编制不可压缩流体动力学代码。 19 库马尔·索拉巴 , 石井Masado Ishii , 米琳达·费尔南多 , 博顺高 , 肯德里克·谭 , 徐明辰 , 阿达什·克里希纳穆西(Adarsh Krishnamurthy) , 哈里·桑达尔 , Baskar Ganapathysubramanian阶 以下为:
任意域中的可缩放自适应PDE解算器。 20 马丁·克伦比希勒 , 尼古拉斯·费恩 , 彼得·蒙克 , 马克西米利安·伯格鲍尔 , 卡尔·罗伯特·威克曼 , 卡罗琳·盖特纳 , 妈妈阿伦 , 马丁·舒尔茨 , 沃尔夫冈·沃尔 以下为:
下一代间断伽辽金流体动力学解算器,应用于高分辨率肺气流模拟。 21
云和边缘计算
赵来平 , Yanan Yang(杨延安) , 李一鸣 , 西安 , 李克秋 以下为:
理解、预测和调度部分干扰下的无服务器工作负载。 22 艾哈迈德·阿里·埃尔丁 , Bin Wang(王斌) , Prashant J.Shenoy公司 以下为:
边缘的隐藏成本:边缘和云延迟的性能比较。 23 李宝林 , 罗汉·巴苏·罗伊 , 蒂塔克·帕特尔 , 维杰·加德帕利 , 凯伦·盖廷斯 , 德维什·蒂瓦里 以下为:
RIBBON:使用不同的云计算实例池进行经济高效的qos软件深度学习模型推断。 24
大规模神经网络训练: 第一部分
陈石阳 , 黄绍义(Shaoyi Huang) , 桑托什·潘迪 , 李冰冰 , 高广瑞 , 龙正 , 蔡文鼎 , 刘杭(Hang Liu) 以下为:
E.T.:重新思考GPU上变压器模型的自我关注。 25 安基特·斯利瓦斯塔瓦 , 斯里拉姆·乔卡林加姆 , 曼尼沙·阿鲁鲁 , 斯里尼瓦斯·阿鲁鲁 以下为:
模块网络的并行构造。 26 李世刚 , 托尔斯滕·霍夫勒 以下为:
Chimera:利用双向管道高效训练大规模神经网络。 27
应用程序性能优化
童书 , 郭燕飞 , 贾斯汀·沃兹尼亚克 , 丁晓宁 , 伊恩·福斯特 , 塔辛M.库拉 以下为:
通过组合组件应用程序的性能模型来引导实时工作流自动调整。 28 哈特姆·勒泰夫 , 杰西·克兰尼 , 达米安·格拉塔杜 , 玉溪红 , 劳伦特·加蒂诺 , 大卫·E·凯斯 以下为:
使用低阶矩阵计算来应对地面望远镜的实时挑战。 29 罗曼·埃盖莱 , 普拉桑娜·巴拉普拉卡什 , 数据挖掘人物 , 文卡特拉姆·维什瓦纳 , 芳芳霞 , 里克史蒂文斯 , 刘正英 以下为:
AgEBO-tablar:联合神经结构和超参数搜索,对表格数据进行自动调整的数据并行训练。 30
实践现状
克里斯托弗·戴利 , 安纳马里·索斯韦尔 , 拉胡尔库马尔·加亚特里 , 斯科特·比尔斯多夫 , 克雷格·托普弗 , 圭拉伊?曾 , 尼古拉斯·J·赖特 以下为:
非经常性工程(NRE)最佳实践:NERSC/NVIDIA OpenMP合同案例研究。 31 里德·普里霍斯基 , 谢恩·理查德·卡农 , 蒂莫西·兰德斯 , 安德鲁·杨格 以下为:
最小化构建HPC容器的权限。 32 艾米丽·科斯塔 , 蒂塔克·帕特尔 , 本杰明·施瓦勒 , 吉姆·勃兰特 , 德维什·蒂瓦里 以下为:
通过检查重复作业行为,系统地推断I/O性能的可变性。 33
网络
马扬-帕拉萨尔 , 娜塔莉·恩赖特·杰格 , 保罗·V·格拉茨 , 约书亚·圣米格尔 , 图沙·克里希纳 以下为:
SEEC:随机逃生快速通道。 34 丹尼尔·德森西 , 萨尔瓦多·迪·吉罗拉莫 , 萨利赫·阿什克布斯 , 李世刚 , 托尔斯滕·霍夫勒 以下为:
Flare:灵活的网络内allreduce。 35 李天喜 , 海阳市 , 小一路 以下为:
HatRPC:hint-accelerated节俭RPC over RDMA。 36
硬件高效的深度学习
冯伯元 , 王育科 , 童耕 , 李安(Ang Li) , 丁玉飞 以下为:
APNN-TC:在安培GPU张量核上加速任意精度的神经网络。 37 邹卓文 , Yeseong Kim先生 , 法哈德·伊马尼 , 哈利赫·阿利莫哈马迪 , 罗萨里奥·卡马罗塔 , 莫森·伊马尼 以下为:
可扩展的基于边缘的超维学习系统,具有类似大脑的神经适应能力。 38 阿尼尔·盖尔 , 大正 , 斯科特·威茨 , 李玲达 , 宋帅文 , 蔡文鼎 , 小叶S.李 , 刘杭(Hang Liu) 以下为:
Dr.Top-k:GPU上以委派为中心的Top-k。 39
材料科学
朱塞佩·M·J·巴卡 , 豪尔赫·加尔韦斯·瓦列霍 , 大卫·L·普尔 , 梅利萨·阿尔坎 , 瑞恩·斯托克斯 , 阿利斯泰尔·伦德尔 , 马克·S·戈登 以下为:
实现大规模相关电子结构计算:在顶点缩放RI-MP2方法。 40 尚红辉 , 方丽 , 张云泉 , 刘莹(音) , 张立波 , 吴明川 , 吴阳军 , 迪伟 , 崔惠民 , 刘欣(Xin Liu) , 王飞(音译) , 玉溪叶 , 高英祥 , 双妮 , Xin Chen(新晨) , 陈德勋 以下为:
加速全电子 从头算 生物系统拉曼光谱的模拟。 41 高平 , 段晓慧 , 郭嘉旭 , 金旺(Jin Wang) , 宋振亚 , 崔丽珍 , 孟祥旭 , 刘欣(Xin Liu) , 张武生 , 马铭(Ming Ma) , 李国辉 , 陈德勋 , 郝欢付 , 魏雪 , 刘卫国 , 杨广文 以下为:
LMFF:高效且可扩展的分层材料在异构多核处理器上的力场。 42
加速器体系结构
森本真太郎 , 高山洋平 , 张浩(Hao Zhang) , Teruhisa S.小松 , 大野友介 , Keigo Nishida公司 , 伊塔·奥穆拉 , 小山浩史 , Makoto太极 以下为:
张量结构多级ewald求和方法在MDGRAPE-4A上的硬件加速,MDGRAPE-4A是用于分子动力学模拟的专用计算机系统。 43 本杰明·赵 , 郑杰根 , 马坦·埃雷斯 以下为:
使用主存储器加速器加速宽带深度学习推理。 44 金照 , 于章 , 廖晓飞 , 李刚和 , 何炳生 , 海金 , 刘海昆 以下为:
LCCG:一个以位置为中心的硬件加速器,用于并发图形处理的高吞吐量。 45
文件系统
纳菲西赫·莫蒂 , 弗雷德里克·希梅尔芬尼 , 雷扎·萨尔霍德 , 大卫·克洛普 , 托尼·科尔特斯 , 乌尔里希·吕克特 , 安德烈·布林克曼 以下为:
Simurgh:一个完全分散且安全的NVMM用户空间文件系统。 46 王一多 , 程莉 , 信阳邵 , 陈友旭 , 冯燕 , 许银龙 以下为:
Lunule:CephFS的灵活而明智的元数据负载平衡器。 47 清政 , 查尔斯·D·克兰诺 , 格雷戈里·甘格 , 加思·吉布森 , 乔治·阿姆夫罗西亚迪斯 , Bradley W.Settlemyer公司 , 加里·格里德 以下为:
DeltaFS:一个用于大规模并行计算的可扩展的无接地文件系统。 48
分布式训练和图形
阿迪蒂亚·巴鲁 , 塞尔吉奥·博泰略 , 比斯瓦吉特·哈拉 , 维奈·饶(Vinay Rao) , Soumik Sarkar公司 , 钦玛·赫格德 , 阿达什·克里希纳穆西(Adarsh Krishnamurthy) , 桑蒂·阿达瓦尼 , Baskar Ganapathysubramanian阶 以下为:
基于兆体素域的分布式多重网格神经求解器。 49 卡西米尔·加伯特 , 卡安·桑卡 , 尤素福·兹卡亚 , 阿里·皮纳尔 , U mit V.Joatalyürek公司 以下为:
EIGA:弹性和可伸缩的动态图形分析。 50 陈洪政 , 沈明华 , 农校 , 宇通路 以下为:
Krill:用于并发图形处理的编译器和运行时系统。 51
工具和建模
陈旺 , 巴凡·巴拉吉 , 史尼亚 以下为:
Pilgrim:可扩展且(近乎)无损的MPI跟踪。 52 耶希亚·阿拉法 , 阿卜杜勒·哈米德·A·巴达维 , 阿马尔·埃尔瓦齐尔 , 阿塔努·巴拉伊 , 阿里·艾克 , 戈皮纳特·陈努帕蒂 , 南达基肖尔·桑提 , 斯蒂芬·艾登本兹 以下为:
GPGPU的混合、可扩展、跟踪驱动的性能建模。 53 衡山岳 , 魏晓慧 , 李广利 , 赵建鹏 , 南江 , 精卫家滩 以下为:
G-SEPM:为GPGPU建立准确有效的软误差预测模型。 54
性能研究
萨扬·戈什 , 内森·塔伦特 , 马可·米努托利 , 马哈特什·哈拉帕纳瓦尔 , 拉梅什·佩里 , 阿南斯·卡利亚纳拉曼 以下为:
用于大型图形分析的单节点分区内存:成本和性能权衡。 55 徐宽建 , 洪伟曾 以下为:
使用边缘张量处理单元加速应用程序。 56 朱谦超 , 郝罗 , 朝阳 , 明硕定 , Wanwang Yin公司 , 新慧苑 以下为:
在拥有4200万个异构核的最新一代Sunway超级计算机上启用并扩展HPCG基准。 57
大规模神经网络训练: 第二部分
迪帕克·纳拉亚南 , 穆罕默德·肖比 , 贾里德·卡斯珀 , 帕特里克·勒格雷斯利 , Mostofa Patwarve公司 , 维杰伊·科尔蒂坎蒂 , 德米特里·范布兰德 , 普雷什维·卡辛昆蒂 , 朱莉·贝纳 , 布莱恩·卡坦扎罗 , 阿马尔·法尼什耶伊 , 马泰扎哈里亚 以下为:
使用megatron-LM在GPU集群上进行高效的大规模语言模型训练。 58 Samyam Rajbhandari先生 , Olatunji Ruwase公司 , 杰夫·拉斯利 , 沙登·史密斯 , 何玉雄 以下为:
ZeRO-infinity:打破GPU记忆墙,实现极端规模的深度学习。 59 郑柴 , 陈宇静(Yujing Chen) , 阿里·安瓦尔 , 梁昭 , 岳成 , 胡泽法·朗瓦拉 以下为:
FedAT:一个具有异步层的高性能、高效通信的联邦学习系统。 60
高性能数值方法
威廉·S·摩西 , 瓦伦汀·丘拉维 , Ludger Paehler公司 , 扬·胡克尔海姆 , 斯里·克里希纳·纳拉亚南 , 米歇尔·沙宁 , 约翰内斯·多尔弗特 以下为:
通过酶对GPU内核进行反向模式自动分化和优化。 61 赵天晨 , 塞巴尔德 , 布赖恩·陈 , 詹姆斯斯托克斯 , Shravan K.Veerapaneni公司 以下为:
克服变分量子蒙特卡罗中的可伸缩性障碍。 62 卢卡斯·克伦茨 , 卡斯滕·厄普霍夫 , 托马斯·乌尔里奇 , 艾丽斯·阿格妮斯·加布里埃尔 , 劳伦·亚伯拉罕斯 , 埃里克·邓纳姆 , 迈克尔·巴德 以下为:
三维声弹性与重力耦合:2018年巴鲁、苏拉威西地震和海啸的动力学。 63
系统软件(1)
泰勒·N·艾伦 , 荣歌 以下为:
针对GPU加速计算的统一虚拟内存系统的深入分析。 64 马嘉诚 , 王文一(Wenyi Wang) , 阿隆·尼尔森 , 迈克尔·库瓦斯 , 布莱恩·霍尔丁 , 刘从浩 , 甄煌 , 西蒙·坎帕诺尼 , 凯尔·黑尔 , 彼得·丁达 以下为:
内核中OpenMP的路径。 65 Rupanshu Soi公司 , 迈克尔·鲍尔 , 肖恩·特里克勒 , 曼诺利斯·帕帕达克斯 , Wonchan Lee公司 , 帕特里克·S·麦考密克 , 亚历克斯·艾肯 , 埃利奥特屠宰场 以下为:
索引启动:并行任务组的可伸缩、灵活表示。 66
高性能图形算法
特雷弗·斯泰尔 , 塔辛·礼萨 , Keita Iwabuchi先生 , 本杰明·W·牧师 , 杰弗里·桑德斯 , 罗杰·皮尔斯 以下为:
TriPoll:使用元数据计算大规模时间图中的三角形调查。 67 加德尔·阿拉班迪 , 杰琳娜·特西奇 , 卢卡斯·鲁斯纳克 , 马丁·伯彻尔 以下为:
发现并平衡大型有符号图中的基本循环。 68 李志祥 , 阿里夫·汗 , 埃多尔多·塞拉 , 马哈特什·哈拉帕纳瓦尔 , 阿拉文德·苏库马兰·拉贾姆 以下为:
cuTS:使用基于trie的数据结构在分布式多GPU系统上缩放子图同构。 69
线性代数和多线性代数及其应用
格列戈兹·克瓦希涅夫斯基 , 马尔科·卡比奇 , 塔尔·本努 , 亚历山大·尼古拉·齐奥加斯 , Jens Eirik Saethre公司 , 安德烈·盖拉德 , 蒂莫·施奈德 , 马西耶·贝斯塔 , 安东·科热夫尼科夫 , 乔斯特·范德冯代尔 , 托尔斯滕·霍夫勒 以下为:
线性代数核的并行I/O优化:近最优矩阵分解。 70 林圣乐 , 王东阳 , 王浩天 , 蔡勤云(Qinyun Tsai) , 李垦利 以下为:
STM-multifrontal QR:由GCN授权的流任务映射多额叶QR分解。 71 杨伟玲 , 方建斌 , 德尊侗族 , 邢素 , 郑旺(音) 以下为:
LIBSHALOM:优化ARMv8多核上的小型和不规则矩阵乘法。 72
HPC及其应用
尚红辉 , Xin Chen(新晨) , 兴宇高 , 林荣芬 , 王丽芳 , 方丽 , 钱晓 , 雷旭 , 孙强 , 朱蕾蕾 , 王飞(音译) , 张云泉 , 宋海峰 以下为:
TensorKMC:在新一代Sunway超级计算机上,通过深度学习对50万亿个原子进行动力学蒙特卡罗模拟。 73 加勒特·史蒂文森 , 钟信 , 金贤进 , W.F.德鲁·贝内特 , 布莱恩·本尼恩 , 莫妮卡·波卢基 , 费利扎·布尔盖 , 艾丹·爱泼斯坦 , 马格达莱娜·佛朗哥 , 布鲁克·哈蒙 , 斯图尔特·何 , 马克斯·卡茨 , 丹尼尔·柯什纳 , 维多利亚·劳 , Edmond Y.Lau(刘德华) , 杰基·洛 , 凯文·麦克劳林 , 理查德·莫塞索 , Deepa K.Murugesh公司 , 奥斯卡·A·内格雷特 , 埃德温·A·萨达 , 布伦特·塞格尔克 , 麦克斯韦尔·斯特凡 , 玛丽莎·托雷斯 , 迪娜·魏哈默 , 塞尔吉奥·埃内斯托·王 , 岳阳 , 亚当·泽姆拉 , 张晓华 , 朱方强 , 费利斯·莱特斯通(Felice C.Lightstone) , 乔纳森·艾伦 以下为:
利用深度融合模型对SARS-CoV-2蛋白靶点小分子抑制剂进行高通量虚拟筛选。 74 莱纳斯·西林杰 , 安妮·雷纳兹 , 莱昂哈德·兰纳鲍尔 , 迈克尔·巴德 , 彼得·巴斯蒂安 , 罗伯特·谢赫 以下为:
用并行化多级马尔可夫链蒙特卡罗进行高性能不确定性量化。 75
稀疏神经网络
瓦西姆丁中校 , 桑奇特·米斯拉 , 马桂香 , 拉马纳拉扬·莫汉蒂 , 埃万盖洛斯·乔治亚纳斯 , 亚历山大·海内克 , 迪拉杰·D·卡拉姆卡尔 , 内斯林·K·艾哈迈德 , Sasikanth Avancha公司 以下为:
DistGNN:大规模图形神经网络的可扩展分布式训练。 76 文卡特桑·查卡拉瓦尔西 , Shivmaran S.Pandian公司 , 索拉巴·拉吉 , Yogish Sabharwal瑜伽 , 铃木丰田 , 沙珊卡·乌巴鲁 以下为:
动态图神经网络的有效缩放。 77 陈兆东 , 郑曲 , 刘刘 , 丁玉飞 , 袁燮 以下为:
高效的基于张量核的GPU内核,用于降低精度下的结构化稀疏性。 78
系统软件(2)
杰克·科萨扬 , K.V.拉什米 以下为:
GPU上神经网络推理的算术强度引导容错。 79 哈萨努尔·拉赫曼(Hasanur Rahman)先生 , 亚比德·沙姆吉 , 郭胜建 , 李冠鹏 以下为:
PEPPA-X:寻找程序测试输入,以限制HPC应用程序中的无声数据损坏漏洞。 80 苏尼尔·库马尔 , 阿克沙特·古普塔 , 维维克·库马尔 , 斯利多特·巴拉昌德拉 以下为:
墨鱼:用于在多核并行程序中实现能源效率的库。 81
数值离散化
梁元 , 杭曹 , 张云泉 , 李坤 , 蓬奇路 , 岳岳 以下为:
模具的时间矢量化。 82 Ioannis Sakiotis公司 , 卡梅什·阿鲁穆加姆 , 马克·帕特诺 , 德什·兰扬 , 巴尔萨·特尔齐克 , 穆罕默德·朱巴伊尔 以下为:
PAGANI:用于数值积分的并行自适应GPU算法。 83 李坤 , 梁元 , 张云泉 , 岳岳 以下为:
减少模板计算的数据组织和算术计算冗余。 84
性能分析和优化
H.T.Kung(香港) , 维卡斯·纳特斯 , 安德鲁·萨博特 以下为:
CAKE:使用恒定带宽块的矩阵乘法。 85 Konstantinos Parasysis公司 , 乔治·乔治库迪斯 , 哈希塔·梅农 , 詹姆斯·迪芬德弗 , 伊格纳西奥·拉古纳 , 丹尼尔·奥塞·库福尔 , 马库斯·斯科丹 以下为:
HPAC:评估HPC OpenMP应用程序上的近似计算技术。 86 尤亚·尤扎托(Yuya Uezato) 以下为:
使用程序优化技术加速基于XOR的擦除编码。 87
数据分析和存储系统
Xin Liang(新亮) , 钱功 , 陈洁阳 , 本·惠特尼 , 李鹏丸 , 刘青(音) , 大卫·普格米尔 , 里克·阿奇博尔德 , 诺伯特·波多尔斯基 , 斯科特·克拉斯基 以下为:
通过多级分解对科学数据进行差错控制、渐进和适应性检索。 88 程良丰 , 胡育冲 , 赵康科 , 贾旭 , 巧日瑶 , 丹凤 , 王伟春 , 魏晨 以下为:
LogECMem:将擦除编码的内存键值存储与奇偶校验日志相耦合。 89
可扩展I/O和持久内存
Arifuzzaman马里兰州 , 阿尔斯兰发动机 以下为:
高速网络中文件传输的在线优化。 90 卓慧段 , 豪迪路 , 刘海昆 , 廖晓飞 , 海金 , 于章 , 宋武 以下为:
硬件支持分布式持久内存的远程持久性。 91 尼科利·德莱登 , 罗曼·勃林格 , 塔尔·本努 , 托尔斯滕·霍夫勒 以下为:
分布式机器学习I/O的透视预取。 92
数据压缩和工作流程
费比安·克诺尔 , 彼得·托曼 , 托马斯·法林格 以下为:
ndzip-gpu:在gpu上对科学浮点数据进行高效无损压缩。 93 李四环 , 圣迪(Sheng Di) , 赵凯(Kai Zhao) , Xin Liang(新亮) , 陈子忠 , 弗兰克·卡佩罗 以下为:
用于数据传输的弹性错误边界有损压缩程序。 94 亚历山大·尼古拉·齐奥加斯 , 蒂莫·施奈德 , 塔尔·本努 , 亚历山德鲁·卡洛托乌 , 蒂齐亚诺·德·马泰斯 , 约翰内斯·德·芬·利奇特 , 卢卡·拉瓦里尼 , 托尔斯滕·霍夫勒 以下为:
生产力、可移植性、性能:以数据为中心的Python。 95
量子计算与模拟
埃利斯·威尔逊 , 弗兰克·米勒 , 林赛·巴斯曼 , 科斯汀·伊恩库 以下为:
噪声量子器件电路近似的经验评估。 96 李安(Ang Li) , 薄芳 , 克里斯托弗·格兰纳德 , Guen Prawiroatmadjo村 , 贝蒂娜·海姆 , 马丁·罗特勒 , 斯里拉姆·克里希纳莫奥斯蒂 以下为:
SV-sim:基于可扩展PGAS的量子电路状态向量模拟。 97 方丽 , 刘欣(Xin Liu) , 刘勇(音) , 赵鹏鹏 , 杨玉玲 , 尚红辉 , 孙维哲 , 王震(音) , 恩明·东 , 陈德勋 以下为:
SW_Qsim:在新的Sunway超级计算机上具有高性能的最小内存量子模拟器。 98
GPU和流处理
基兰·兰加纳思 , 约书亚·D·苏特林 , 约瑟夫·曼扎诺 , 宋帅文 , 糖城市议员黄安祥 以下为:
MAPA:多租户GPU服务器的多加速模式分配策略。 99 正大边 , 李胜贵 , 王伟(音译) , 杨友 以下为:
用于在GPU集群中调度深度学习工作负载的在线进化批量编制。 100 杰坦 , 陈汉华(Hanhua Chen) , 王永辉 , 海金 以下为:
鲸鱼:RDMA支持的分布式流处理系统中高效的一对多数据分区。 101
存储和应用特性
张伟(音译) , 苏伦·拜纳 , Hyogi Sim公司 , 桑肯·李 , 苏达尔山瓦日库代 , 陈勇(音) 以下为:
利用用户的活跃性在HPC系统中保留数据。 102 孙京翰 , 黄健 , 史尼亚 以下为:
查明HPC I/O堆栈中的崩溃一致性错误:一种跨层方法。 103 胡庆浩 , 孙鹏(音译) , 严申根 , 温永刚 , 张天伟 以下为:
大规模GPU数据中心中深度学习工作负载的表征和预测。 104