ICPP 2022:法国波尔多
2022年8月29日至2022年9月1日在法国波尔多举行的第51届平行处理国际会议记录。 ACM公司 2022 ,十亿 978-1-4503-9733-9
分发学习算法
张浩 , 吴婷婷 , 程思耀 , 刘杰(音译) :
非周期本地SGD:超越本地SGD。 1:1-1:10 李一军 , 黄嘉伟 , 李兆毅 , 周圣文 , 万春江 , 王建新 :
HSP:用于快速分布式深度学习的混合同步并行性。 2:1-2:11 雷法尔·科恩 , 伊多·哈基米 , 阿萨夫·舒斯特 :
SMEGA2:具有单动量缓冲区的分布式异步深度神经网络训练。 3:1-3:10 米兰·沙阿 , Reece Neff公司 , 韩城吴 , 马尔科·米努托利 , 安东尼诺·图米奥 , 米歇拉·贝基 :
在GPU和FPGA上加速随机森林分类。 4:1-4:11
通过深度学习进行系统优化
刘刘 , 姜瑜 , 丁志军 :
适用于云中超参数调整的自适应高效GPU时间共享。 5:1-5:11 傅伯谦 , 陈法豪 , 彭丽 , 曾德泽 :
TCB:使用请求级联加速变压器推断服务。 6:1-6:11 李胜伟(Shengwei Li) , 赖志泉 , 李东生 , 张一鸣(音) , 香玉叶 , 段亚波 :
EmbRace:加速深度神经网络分布式训练的稀疏通信。 7:1-7:11 李光浩 , 岳虎 , 张苗 , 吉柳(Ji Liu) , 尹全军 , 永鹏 , 《德京斗》 :
FedHiSyn:一个用于资源和数据异构的分层同步联合学习框架。 8:1-8:11
并行算法
郝南基 , 宋惠民 , 石波路 , 周进(音) , 谭光明 , 刘伟峰 :
TileSpMSpV:GPU上稀疏矩阵稀疏向量乘法的分片算法。 9:1-9:11 斯丹·米拉科维奇 , 奥古斯·塞尔维托比 , 伊斯拉特·尼萨 , 佐兰·布迪姆利奇 , 艾丁·布鲁索 :
屏蔽稀疏矩阵乘积的并行算法。 10:1-10:11 弗朗西斯科·洛佩斯 , 拉斯·卡尔森 , 保罗·比伦蒂内西 :
FLOP作为稠密线性代数算法的判别器。 11:1-11:10 王伯祥 , 徐奇帆 , 正大边 , 杨友 :
Tesseract:有效地并行张量平行性。 12:1-12:11 扬·胡克尔海姆 , 劳伦特·哈斯科 :
用形式化方法自动区分并行循环。 13:1-13:11 安德烈·普罗科彭科 , Piyush Sao公司 , 达米恩·勒布朗·格兰迪 :
一种计算GPU上欧氏最小生成树的单树算法。 14:1-14:10 海东兰 , 朱文西 , 杜武 , 钱秋 , 朱红林 , 赵晶晶 , 傅兴辉 , 刘伟 , 孟锦涛 , 邓敏文 :
移动游戏中高效的阶段功能实时角色控制:一种支持TVM的方法。 15:1-15:9 吴玉涵(音) , 卓臣范 , 齐龙石 , 张一欣 , 童扬 , 程晨 , 郑忠 , 李俊楠 , Ariel Shtul公司 , 涂耀峰 :
SHE:滑动窗口上数据流挖掘的通用框架。 16:1-16:12
学习的体系结构支持
陈正波 , 齐宇 , 方正 , 冯果(音译) , 陈佐宁 :
DSSA:用于加速卷积神经网络训练的双侧稀疏收缩阵列结构。 17:1-17:10 民进堂 , 梅雯 , 曹亚松(Yasong Cao) , 沈俊忠 , 杨建超 , 贾伟飞 , 杨果(Yang Guo) , 刘盛(Sheng Liu) :
Mentha:支持收缩阵列上的稀疏填充计算。 18:1-18:11 莫伊兹·阿里夫 , 凯文·阿索巴 , 穆斯塔法·拉菲克 , 苏达尔山瓦日库代 :
利用基于CXL的内存进行分布式深度学习。 19:1-19:11 贾之江 , 江苏都 , 黄丹(Dan Huang) , 李东生 , 姜正 , 宇通路 :
ARM多核处理器上变压器推理的表征与优化。 20:1-20:11
存储恢复和修复
王林(Lin Wang) , 胡育冲 , 钱杜 , 丹凤 , 雷·吴(Ray Wu) , Ingo He公司 , 张学敏 :
通过擦除编码高密度存储服务器的部分条带修复利用磁盘故障恢复的并行性。 21:1-21:11 海州 , 丹凤 :
促进异构擦除编码集群中的跨包多阶段修复。 22:1-22:11 双马牌手表 , 斯武 , 程莉 , 许银龙 :
具有最优最小汉明距离的局部可修复码的修复最优数据布局。 23:1-23:11 王舒成 , 羌曹 , 紫衣路 , 杰瑶 :
Mlog:超高速SSD RAID上的多段写缓冲区。 24:1-24:11
数据系统、存储、I/O
陆凯(Kai Lu) , 李国宽 , 吉光湾 , 马瑞祥 , 魏昭 :
ADSTS:使用深度强化学习的自动分布式存储调整系统。 25:1-25:13 刘杰(音译) , 博格丹·尼古拉 , 董丽(Dong Li) :
龙虾:用于分布式DNN训练的负载平衡软件I/O。 26:1-26:11 王元璋 , 杨凤奎 , Ji Zhang先生 , 李春华 , 柯周 , 刘冲 , 卓成 , 魏芳 , 刘金虎 :
LDPP:分布式文件系统中的学习目录放置策略。 27:1-27:11 李柳 , 李春华 , 周章 , 刘玉涵(音) , 柯周 , Ji Zhang先生 :
高效写入的数据感知学习索引方案。 28:1-28:11
内存系统和I/O
林浩东 , 沙志兵 , 李军(Jun Li) , 蔡志刚 , 巴拉兹·杰罗菲 , 袁泉石 , 廖建伟 :
基于NAND的SSD具有请求粒度的DRAM缓存管理。 29:1-29:10 邹晓敏 , 王芳(Fang Wang) , 丹凤 , 天津关 , 南苏 :
ROWE-tree:持久内存的读优化和写效率高的B+树。 30:1-30:11 克里斯托弗·斯图尔特 , 纳撒尼尔·莫里斯 , Lydia Y.Chen女士 , 罗伯特·伯克 :
短期缓存分配的性能建模。 31:1-31:11 张凯(Kai Zhang) , 王志琦 , 邵子立 :
BSCache:一种用于基于云的性能监控时间序列系统的Brisk语义缓存方案。 32:1-32:10 露西娅·彭斯 , 朱利奥·萨胡基略 , 萨尔瓦多·佩蒂 , 胡里奥·庞斯 :
Cache-Poll:通过缓存分区在非侵入性缓存中包含污染。 33:1-33:11 雷梦雅 , 王芳(Fang Wang) , 丹凤 , 小雨帅 , 曹玉超 :
一种用于安全非易失性存储器的动态可恢复BMT方案。 34:1-34:11
图形算法
克里斯托夫·克莱因 , 罗伯特·斯特佐德卡 :
基于GPU的加权图的高度并行线性森林提取。 35:1-35:11 杰森·纽 , 雅罗斯瓦夫·佐拉 , 艾哈迈特·埃尔登·萨里尤斯 :
二部图中计数诱导的6圈。 36:1-36:10 帅林 , 王瑞(Rui Wang) , 李永坤 , 许银龙 , 约翰·路易斯 , 陈飞(音译) , 王鹏程 , 雷寒 :
通过二维平衡分区实现快速大规模图分析。 37:1-37:11 Anwesh熊猫 , 萨蒂什·瓦迪亚尔 :
知识图嵌入高性能训练的动态策略。 38:1-38:10 徐祥浩 , 洪江 , 王芳(Fang Wang) , 程永利(Yongli Cheng) , 彭芳 :
GraphSD:一个状态和依赖感知的核心外图形处理系统。 39:1-39:11
资源管理和调度
泰兰·奥兹登 , 蒂姆·贝林格 , 阿里亚·马扎赫里 , 哈米德·穆罕默德·法德 , 菲利克斯·沃尔夫 :
ElastiSim:可锻工作负荷的批处理系统模拟器。 40:1-40:11 许欢乐 , 杨柳 , 永昌楼 :
异构集群中任务克隆的多资源调度。 41:1-41:11 阿纳姆·塔希尔 , 崔凯 , Heinz Koeppl公司 :
大型排队系统中延迟信息负载平衡的学习平均场控制。 42:1-42:11 塔潘·斯利瓦斯塔瓦 , 张华哲 , 亨利·霍夫曼 :
佩内洛普:对等电源管理。 43:1-43:11 阿维纳什·库马尔·乔拉西亚 , 安舒杰·加格 , 巴斯卡兰·拉曼 , 乌代·库库雷 , 哈里·西瓦拉曼 , 兰乌 , 赛拉姆·韦拉斯瓦米 :
Simmer:速率比例调度,以减少基于vGPU的NF链中的数据包丢失。 44:1-44:11 马鲁夫·侯赛因(Maruf Hossain) , 埃里克·索尔 :
时间图上Pagerank的事后计算。 45:1-45:11 杨柳 , 许欢乐 , 永昌楼 :
具有遗憾保证的弹性流处理的在线资源优化。 46:1-46:11 王康进 , 李颖 , 王成(音译) , 童佳 , Kingsum Chow公司 , 杨文 , 姚勇斗 , 徐国耀 , 侯传嘉 , 杰瑶 , 张丽萍 :
大规模描述工作微观架构概况:数据集和分析。 47:1-47:11 王慧君 , 奥利弗·辛宁 :
具有通信延迟和相等处理时间的调度Fork-Join任务图。 48:1-48:9 邓文达(Wenda Tang) , 傅森波 , 柯玉涛 , 钱鹏 , 冯高 :
主题:公共云中具有差分QoS的公平内存子系统资源共享。 49:1-49:12 陈玉欣(Yuxin Chen) , 本杰明·布洛克 , 塞尔维亚人D.Porumbescu , 艾丁·布鲁索 , 凯瑟琳·耶利克 , 约翰·欧文斯 :
Atos:用于图形分析的任务并行GPU调度器。 50:1-50:11 安妮·本诺特 , 卢卡斯·佩罗廷 , 伊维斯·罗勃特 , 孙红阳 :
通用加速模型下可成型任务图的在线调度。 51:1-51:11
编程系统、运行时系统和编译器
陶晓翰 , 于竺 , 王伯阳 , 徐金龙 , 彭建民 , 赵杰(音译) :
在最新的Sunway处理器上自动生成高性能矩阵乘法内核。 52:1-52:12 新友 , 刘长熙 , 杨海龙 , 王鹏波 , 中智栾 , 钱德培 :
利用动态正则模式对SpMV进行矢量化。 53:1-53:12 丽娟江 , 徐萍(Ping Xu) , 朱谦超 , 李秀红 , 盛恩颜 , 张兴成 , 林大华 , 马文静(Wenjing Ma) , 李周阳 , 刘军(Jun Liu) , 马金明 , 闽西晋 , 朝阳 :
EasyView:在深度学习编译器中启用和调度张量视图。 54:1-54:11 吉米·阿吉拉尔·梅纳 , 奥马尔·沙班 , 维克托·洛佩兹 , 玛尔塔·加西亚 , 保罗·卡彭特 , 爱德华·伊瓜德 , 杰苏斯·拉巴特 :
使用[电子邮件保护]和DLB实现MPI程序的透明负载平衡。 55:1-55:11
网络与通信
韩荣信 , 陈德智 , 宋国 , 傅晓源 , 王靖宇 , 齐齐 , 廖建新 :
多SP服务的并行网络切片。 56:1-56:11 金叶 , 林莉(Lin Li) , 张文璐 , 陈贵豪 , 袁超山 , 李一军 , 李伟和 , 黄嘉伟 :
UA-Sketch:一种基于不间断到达检测大流量的准确方法。 57:1-57:11 吴钦哲 , 阿森·埃卡纳亚克 , 李瑞浩 , 白俊文博士 , 莉西·库里安·约翰 :
SPAMeR:多核系统中预期消息请求的推测推送。 58:1-58:12 约瑟夫·伊兹拉列维茨 , Gaukas Wang(高卡斯·王) , 瑞特·汉斯科姆 , 凯利银牌 , 塔马拉·西尔贝格利特·雷曼 , 格雷戈里·乔克勒 , 阿列克谢·戈斯曼 :
Acuerdo:RDMA上的快速原子广播。 59:1-59:11 袁刘(音) , 李文新 , 曲文玉 , 恒奇 :
BULB:快速数据中心网络的轻量级自动负载平衡。 60:1-60:11 单黄 , 德尊侗族 , 曾玲斌(Lingbin Zeng) , 周泽佳 , 周玉坤 , 廖祥科 :
DC4:重建数据中心的数据信用耦合拥塞控制。 61:1-61:11 王浩宇 , Kevin Zheng(郑凯文) , 查尔斯·赖斯 , 沈海英 :
NCC:基于强化学习的数据中心网络邻居感知拥塞控制。 62:1-62:10 米哈伊尔·伊萨夫 , 尼克·麦克唐纳 , 杰弗里·杨 , 理查德·瓦杜克 :
ParaGraph:一个应用程序模拟器接口和用于软硬件协同设计的工具包。 63:1-63:13
性能基准测试和自动调整
伊尔坦·哈桑·特穆赞 , 瑞恩·格兰特 , 艾哈迈德·阿夫萨希 :
微基准MPI分区点对点通信。 64:1-64:12 吉田小平 , Rio Sageyama公司 , Shinobu Miwa公司 , 山崎骏(Hayato Yamaki) , Hiroki本田 :
分析NVIDIA GPU之间的性能和能效变化。 65:1-65:12 寸阳卫 , 贾海鹏 , 张云泉 , 刘沙旭 , 季琦 :
IATF:基于ARMv8 CPU的紧凑BLAS输入软件调整框架。 66:1-66:11 慧豆 , 王益伦 , 张艺文 , 陈鹏飞 :
DeepCAT:一种经济高效的大数据框架在线配置自动调整方法。 67:1-67:11
边缘和云计算
夏晓雨 , 陈菲菲 , 强河 , 崔光明 , 约翰·C·格兰迪 , 穆罕默德·阿莫西·阿卜杜勒拉泽克 , 方东 :
制定边缘存储系统中的干扰软件数据交付策略。 68:1-68:11 崔光明 , 强河 , 夏晓雨 , 陈菲菲 , 云阳(Yun Yang) :
边缘计算的高能效边缘服务器管理:一种博弈论方法。 69:1-69:11 李明戈 , 王子钊 , 魏宝 , 董源(Dong Yuan) , 阮黄Tran , 周冰冰(Bing Bing Zhou) , 阿尔伯特·Y·佐马亚 :
集成边缘和云计算系统的带重启调度的半联机多机。 70:1-70:13 黄兆武 , 方东 , Dian Shen公司 , 王慧田 , 郭晓林 , 傅树村 :
通过联合优化模型手术和异构边缘资源分配,实现对潜伏期敏感的DNN推断。 71:1-71:11
联合学习的优化
丽娜·苏 , 周瑞亭 , 内王(Ne Wang) , 广发 , 李宗鹏 :
预算约束下联合边缘学习中客户选择的在线学习方法。 72:1-72:11 阮南雄 , 菲勒阮 , Thuy Dung Nguyen先生 , Trung Thanh Nguyen先生 , 杜龙阮(Duc Long Nguyen) , Thanh Hung Nguyen先生 , Huy Hieu Pham公司 , Truong Thao Nguyen先生 :
FedDRL:联合学习中基于深度强化学习的非IID数据自适应聚合。 73:1-73:11 盛源叶 , 曾烈康 , 吴琼 , 科洛 , 清泽坊 , 徐晨 :
Eco-FL:具有高效边缘协作管道训练的自适应联合学习。 74:1-74:11 创虎 , 黄黄梁 , 韩晓明 , 刘伯安(Boan Liu) , 程大钊 , 王丹(Dan Wang) :
传播:可扩展联合学习的分散模型聚合。 75:1-75:12 Jaehee Jang(Jaehe Jang) , Heonseok哈 , 大亨·荣格(Dahuin Jung) , Sungroh Yoon公司 :
FedClassAvg:异构神经网络上个性化联合学习的局部表示学习。 76:1-76:10
机器学习的性能
Zining Zhang(张子宁) , 何炳生 , 张振杰 :
HARL:基于分层自适应强化学习的神经网络自动调度程序。 77:1-77:13 梁刘 , 沈明珠 , 宫瑞浩 , 余凤伟 , 杨海龙 :
NNLQP:一个具有进化数据库的多平台神经网络延迟查询和预测系统。 78:1-78:14 穆罕默德·法提赫·巴林 , 卡安·桑卡 , U mit V.Joatalyürek公司 :
MG-GCN:一个可扩展的多GPU GCN训练框架。 79:1-79:11 徐荣新 , 希瓦·拉吉·波克雷尔 , 邱俊兰 , 李刚(音译) :
FAIR-BFL:基于区块链的联合学习的灵活激励重新设计。 80:1-80:11
应用程序的优化
刘玉豪 , 新都 , 陆志辉 , 强端 , 尖峰峰 , 王明龙 , 吴杰 :
超级计算机上基于体素的脑模拟稀疏和不平衡通信的正则化。 81:1-81:11 朱利娅·吉迪 , 加布里埃尔·劳莱特 , 丹尼尔·罗克萨尔 , 列奥尼德·奥利克 , 凯瑟琳·耶利克 , 艾丁·布鲁索 :
用于新长读基因组组装的分布式内存并行Contig生成。 82:1-82:11 Changdae Kim公司 , 光原岛 , Taehoon Kim公司 , 大禹·韩 , Jiwon Seo(吉元秀) :
BWA-MEM-SCALE:加快商品服务器上的基因组序列映射。 83:1-83:12 里卡多·诺布尔 , 阿列克桑达尔·伊利奇 , 塞尔吉奥·桑坦德·希门尼斯 , 莱昂内尔·索萨 :
GPU上的张量加速四阶上位检测。 84:1-84:11 姜庆才 , 李洁兰 , 陈俊时 , 秦新明 , 凌云湾 , 杨金龙 , 刘杰(音译) , 魏虎 , 洪安 :
利用K-Means聚类的低秩近似加速并行第一原理激励状态计算。 85:1-85:11 司凡龙 , 郭晓伟 , 范晓康 , 李超(音) , Kelvin Wong(开尔文·王) , 冉照 , 刘毅(音) , 张森(Sen Zhang) , 杨灿群 :
并行双流体物理:通过支持MPI的SPH方法支持高效的并行流体模拟。 86:1-86:11 弗兰克·万耶 , 维塔利·格雷泽 , 爱德华·K·高 , 吴春峰 :
关于MCMC用于社区检测的并行化。 87:1-87:13 林殿伦 , 任浩星 , 张延庆 , 布鲁斯·凯拉尼 , 黄宗伟 :
从RTL到CUDA:使用批刺激进行RTL仿真的GPU加速流程。 88:1-88:12
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)