{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部分”:[[2024,4,25]],“日期-时间”:“2024-04-25T16:34:31Z”,“时间戳”:1714062871881},“发布者位置”:“美国纽约州纽约市”,“引用-计数”:76,“发布商”:“ACM”,“内容-域”:{:“域”:[“dl.ACM.org”],“交叉标记限制“:true},”short-container-title“:[],“已发布的印刷品”:{“日期部分”:[[2023,3,25]]},“DOI”:“10.1145\/3582016.3582037”,“类型”:“议事录文章”,“已创建”:{“日期部分”:[[2023,3,20]],“日期时间”:“2023-03-20T16:59:03Z”,“时间戳”:1679331543000},“更新策略”:“http:\/\/dx.DOI.org/10.1145\/crosmark policy”,“来源”:“Crossref”,“由计数引用”:5,“标题”:[“分布式训练中具有传输透明性的网络内聚合”],“前缀”:“10.1145”,“作者”:[{“给定”:“朔”、“家族”:“刘”,“序列”:“第一”,“从属关系”:[}“名称”:“华为技术,中国”}]},{“给出”:“巧玲”,“家族”:“王”,“顺序”:“附加”,“附属关系”:[{“名称“华为技术”,中国}]},{(给定):“君毅”,“family”:“Zhang”,“sequence”:“additional”,“affiliation”:[{“name”:“Huawei Technologies,China”}]},{“given”:“Wenfei”,“faily”:”Wu“,”sequence“:”additional“,”affiliation:[{”name“:”Beijing University,China“}]}.,{”given“:”Qinliang“,”family“:”Lin“sequence:”additioned“,”filiation“:[{name”:”Huaweie Technologies(中国)}]},{,“givent”:“givention”:“:”刘“,“sequence”:“additional”,“affiliation”:[{“name”:“Sun Yat-sen University,China”}]},{“given”:“Meng”,“family”:“Xu”,“se序列”:“附加”,“从属关系”:[[{”name“:“Huawei Technologies,China(中国)}]},{”given“:”Marco“,”family“:”Canini“,”sequence“:”additional,{“given”:“Ray C.C.”,“family”:“Cheung”,“sequence”:“additional”,“affiliation”:[{“name”:“China Hong Kong City University”}]},{“given”:“Jianfei”,“家庭”:“He”,“serquence”:“additionable”,“filiation“:[{name”:”China HongKong Citive University,“}]}],“member”:“320”,“published online”:{“date-parts”:[2023,25]}、“reference”:[}”key“:”e_1_3_2_1_1“,“volume-title”:“TOFINO:World\u2019s最快的P4可编程以太网交换机ASICs.https:\\/barefootnetworks.com/products\/brieft-TOFINO\/”,“年份”:“2019年”,“非结构化”:“Barefoot.2019.TOFINO:World\u 2019s速度最快的P2可编程以太交换机ASICs。https:\\/farefootNetworks.com\/products\/brieft-TOFINO\/Barefoot.2019。TOFINO:世界上最快的P4可编程以太网交换机ASIC。https:\/\/barefootnetworks.com/products\/brieft-tofino\/“},{“key”:“e_1_3_2_1_2_1”,“volume-title”:“IEEE可扩展高性能计算会议论文集.357\u2013364”,“author”:“Barnett Mike”,“year”:“1994”,“unstructured”:“迈克·巴内特(Mike Barnett)、兰斯·舒勒(Lance Shuler)、罗伯特·范·德盖恩(Robert van De Geijn)、萨蒂亚·古普塔(Satya Gupta)、大卫·佩恩(David G Payne)和杰雷尔·瓦茨(Jerrell Watts)。1994 . 处理器间集体通信库(InterCom)。IEEE可扩展高性能计算会议论文集。357\u2013364。https:\/\/ieeexplore.iee.org\/abstract\/document\/296665迈克·巴内特、兰斯·舒勒、罗伯特·范·德盖恩、萨蒂亚·古普塔、大卫·佩恩和杰雷尔·瓦茨。1994.处理器间集体通信库(InterCom)。IEEE可扩展高性能计算会议论文集。357\u2013364。https:\/\/ieexplore.iee.org\/abstract\/document\/2966665“},{”key“:”e_1_3_2_1_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3317550.3321436”},“key”:“e_1_ 3_2_1_4_1”,“unstructured”:“Li Chen Justinas Lingys and Kai Chen.2018。可编程交换机作为并行计算设备。arXiv预打印arXiv:1803.01491。\t\t\t\t李晨-葛晨-贾斯汀娜斯·林吉斯和凯晨。2018.可编程交换机作为并行计算设备。arXiv预印本arXiv:1803.01491.“},{“key”:“e_1_3_2_1_5_1”,“volume-title”:“LightNF:简化可编程网络中的网络功能卸载。2021年IEEE\/ACM第29届国际服务质量研讨会(IWQOS).1\u201310”,“作者”:“Chen Xiang”,“年份”:“2021”,“非结构化”:“陈翔、黄群、王佩巧、孟自力、刘红艳、陈玉新、张栋、周海峰、周伯阳和吴春明。2021 . LightNF:简化可编程网络中的网络功能卸载。2021年,IEEE \/ACM第29届国际服务质量研讨会(IWQOS)。2013年1月10日。陈翔、黄群、王佩乔、孟子丽、刘红艳、陈玉欣、张栋、周海峰、周伯阳和吴春明。2021.LightNF:简化可编程网络中的网络功能卸载。2021年,IEEE \/ACM第29届国际服务质量研讨会(IWQOS)。1\u201310.“},{”key“:”e_1_3_2_1_6_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145 \/310689.3106998”},“key”:“e_1_ 3_2_1 _7_1”,“volume-title”:“Gossipgrad:使用基于流言通信的异步梯度下降进行可扩展的深度学习。arXiv预印本arXiv:1803.05880,arXiv:1803.05.880”,“author”:“Daily Jeff”,“year”:“2018”,“unstructured”:“”Jeff Daily、Abhinav Vishnu、Charles Siegel、Thomas Warfel和Vinay Amatya。2018 . Gossipgrad:使用基于gossip通信的异步梯度下降的可扩展深度学习。arXiv预印本arXiv:1803.05880,arXiv:1803.05.880 Jeff Daily,Abhinav Vishnu,Charles Siegel,Thomas Warfel和Vinay Amatya。2018年,Gossipgrad:使用基于gossip通信的异步梯度下降的可扩展深度学习。arXiv预印本arXiv:1803.05880,arXiv:1803.05.880“},{“key”:“e_1_3_2_1_8_1”,“volume-title”:“高性能计算、网络、存储和分析国际会议论文集.1\u201316”,“author”:“Sensi Daniele De”,《year》:“2021”,“unstructured”:“Daniele De Sensi、Salvatore Di Girolamo、Saleh Ashkboos、Shigang Li和Torsten Hoefler。2021 . Flare:灵活的网络内allreduce。《高性能计算、网络、存储和分析国际会议论文集》。2013年1月16日。Daniele De Sensi、Salvatore Di Girolamo、Saleh Ashkboos、Shigang Li和Torsten Hoefler。2021.Flare:灵活的网络内allreduce。高性能计算、网络、存储和分析国际会议论文集。1\u201316.“},{”key“:”e_1_3_2_1_9_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/CVPR.2009.5206848”},“key”:“e_1_ 3_2_1_1_1”,“volume-title”:“Bert:语言理解的深层双向转换器的预训练。arXiv预印本arXiv:1810.04805,arXiv:1810.04805”,“author”:“Devlin Jacob”,”年份:“2018”,“非结构化”:“雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。2018 . 伯特:深度双向变形金刚的语言理解预训练。arXiv预印arXiv:1810.04805,arXiv:1810.04805雅各布·德夫林、张明伟、Kenton Lee和Kristina Toutanova。2018年,伯特:深度双向变压器语言理解预培训。arXiv预印本arXiv:1810.04805,arXiv:1810.04805“},{“key”:“e_1_3_2_11_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/j.jpdc.2012.01.20”},}“key:”e_1_ 3_2_12_1“,“volume-title”:“I/O虚拟化研讨会。2.”,“author”:“Dong Yaozu”,“year”:“2008”,“unstructured”:“董耀祖、赵宇和格雷格·罗斯。2008 . Xen中的SR-IOV网络:架构、设计和实现。。在I/O虚拟化研讨会上。2.董耀祖、赵瑜和格雷格·罗斯。2008.Xen中的SR-IOV网络:架构、设计和实现。。在I/O虚拟化研讨会上。2.“},{”key“:”e_1_3_2_1_13_1“,”volume-title“:”SIGCOMM会议录“,”author“:”费加伟“,”year“:”2021“,”unstructured“:”费嘉伟、陈玉浩、阿塔尔·纳拉扬·萨胡、马可·卡尼尼和阿梅迪奥·萨皮奥。2021 . 高效的稀疏集体通信及其在加速分布式深度学习中的应用。SIGCOMM会议记录。费嘉伟、陈玉浩、阿塔尔·纳拉扬·萨胡、马可·卡尼尼和阿梅迪奥·萨皮奥。2021.高效稀疏集体通信及其在加速分布式深度学习中的应用。在SIGCOMM程序中。“},{”key“:”e_1_3_2_14_1“,”首页“:”829“,”article-title“:”共享机器学习群集的网络内聚合“,”volume“:“3”,”author“:”Gebara Nadeen“,”year“:”2021“,”unstructured“:”纳丁·盖巴拉(Nadeen Gebara)、曼亚·戈巴迪(Manya Ghobadi)和保罗·科斯塔(Paolo Costa)。2021 . 共享机器学习集群的网络内聚合。机器学习与系统学报,3(2021),829\u2013 844。纳丁·盖巴拉(Nadeen Gebara)、曼亚·戈巴迪(Manya Ghobadi)和保罗·科斯塔(Paolo Costa)。2021.共享机器学习集群的网络内聚合。机器学习与系统学报,3(2021),829\u2013844.“,”journal-title“:”Proceedings of Machine Learning and Systems“},{“key”:“e_1_3_2_1_15_1”,“volume-title”:“2019 IEEE第35届国际数据工程会议(ICDE).100\u2013111”,“author”:“耿金坤”,”year“2019”,“unstructured”:“耿金坤、李丹和王帅。2019年。Rima:大规模矩阵分解的RDMA加速模型并行解决方案。2019年IEEE第35届国际数据工程会议(ICDE)。100\u2013111。耿金坤、李丹和王帅。2019.Rima:大规模矩阵分解的RDMA加速模型并行解决方案。2019年IEEE第35届国际数据工程会议(ICDE)。100\u2013111.”},{“key”:“e_1_3_2_1_16_1”,“doi断言者”:“publisher”,“doi”:“10.1109\/COMPHPC.12016.006”},{“key”:“e_1_3_2_1_17_1”,“volume title”:“可扩展分层聚合和精简协议(SHARP)流聚合硬件设计与评估。在国际高性能计算大会上。41\u201359”,“author”:“格雷厄姆·理查德·L“,“年份”:“2020年”,“非结构化”:“理查德·格雷厄姆、利昂·列维、德文达尔·伯雷迪、吉尔·布洛赫、吉拉德·沙纳、大卫·乔、乔治·埃利亚斯、丹尼尔·克莱因、约书亚·拉德和奥斐尔·摩尔。2020 . 可扩展分层聚合与简化协议(SHARP)流聚合硬件设计与评估。在高性能计算国际会议上。41\u201359。https:\/\/link.springer.com/chapter\/10.1007\/978-3-030-50743-5_3 Richard L Graham、Lion Levi、Devendar Burredy、Gil Bloch、Gilad Shainer、David Cho、George Elias、Daniel Klein、Joshua Ladd和Ophir Maor。2020年。可扩展分层聚合和缩减协议(SHARP)流聚合硬件设计和评估。在高性能计算国际会议上。41\u201359。https:\/\/link.springer.com/chapter\/10.1007\/978-3-030-50743-5_3“},{”key“:”e_1_3_2_18_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/29334872.2934908”},“key”:“e_1_ 3_2_19_1”,“volume-title”:“SoftNIC:增加硬件的软件NIC。EECS部门”,“作者”:“韩桑金”,“年份”:“2015”,“非结构化”:“Sangjin Han、Keon Jang、Aurojit Panda、Shoumik Palkar、Dongsu Han和Sylvia Ratnasamy。2015.SoftNIC:一个用于增强硬件的软件NIC。加州大学伯克利分校EECS系。UCB代表\/EECS-2015-155。韩桑进、张坚毅、大熊猫Aurojit、帕尔卡Shoumik Palkar、韩东苏和西尔维娅·拉纳萨米(Sylvia Ratnasamy)。2015.SoftNIC:一个用于增强硬件的软件NIC。加州大学伯克利分校EECS系,技术代表UCB \/EECS-2015-155.“},{”key“:”e_1_3_2_1_20_1“,”volume-title“:”Sangeetha Abdu Jyothi,and Roy H Campbell“,“author”:“Hashemi Sayed Hadi”,“year”:“2018”,“unstructured”:“哈迪·哈希米(Hadi Hashemi)、桑吉塔·阿卜杜·乔蒂(Sangeetha Abdu Jyothi)和罗伊·坎贝尔(Roy H Campbell)说。2018 . Tictac:通过通信调度加速分布式深度学习。arXiv预打印arXiv:1803.03288。哈迪·哈希米(Hadi Hashemi)、桑吉塔·阿卜杜·乔蒂(Sangeetha Abdu Jyothi)和罗伊·坎贝尔(Roy H Campbell)说。2018年,Tictac:通过通信调度加快分布式深度学习。arXiv预印本arXiv:1803.03288.“},{“key”:“e_1_3_2_1_21_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/CVPR.2016.90”},“key“:”e_1_ 3_2_1_2 2_1“,”doi-assert-by“:”publisher“,”doi“:”10.1145\/3387514.3405849。变形金刚:PyTorch和TensorFlow 2.0的最先进的自然语言处理。https:\/\/github.com/huggingface\/transformers\t\t\t拥抱脸。2020年,《变形金刚:PyTorch和TensorFlow 2.0最先进的自然语言处理》。https:\/\/github.com/huggingface\/transformers“},{“key”:“e_1_3_2_1_24_1”,“unstructured”:“Sylvain Jeaugey.2017。NCCL 2.0。http:\/\/on-demand.gputechconf.com//gtc\/2017\/presentation\/s7155-jeaugey-nccl.pdf\t\t\t Sylvain jeaugey。2017年NCCL 2.0。http:\/\/on-demand.gputechconf.com//gtc\/2017\/presentation\/s7155-jeaugey-nccl.pdf“},{“key”:“e_1_3_2_1_25_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1007\/s10766-017-0520-3“}”,{”key“:”e_13_2_1_26_1“,”unstructured“:”仙岩贾树涛宋伟何扬子浩王海东荣飞虎周丽强谢振宇郭元洲杨和李伟于。2018年。具有混合决策的高度可扩展的深度学习培训系统:四分钟内培训Imagenet。arXiv预印arXiv:1807.11205 arXiv:1807.11205\t\t\t\t先燕贾树涛宋伟何扬子浩王海东荣飞虎周立强谢振宇郭元洲杨立伟。2018年。具有混合决策的高度可扩展的深度学习培训系统:四分钟内培训Imagenet。arXiv预印本arXiv:1807.11205 arXiv:1807.1120“},{“key”:“e_1_3_2_1_27_1”,“volume-title”:“NetChain:无标度Sub-RTT协调。在第十五届USENIX网络系统设计与实现研讨会(NSDI 18)上,“author”:“Jin Xin”,“year”:“2018”,“unstructured”:“Xin Jin、Xiaozhou Li、Haoyu Zhang、Nate Foster、Jeongkeun Lee、Robert Soul\u00e9、Changhoon Kim和Ion Stoica。2018 . NetChain:无标度Sub-RTT协调。在第15届USENIX网络系统设计与实现研讨会上(NSDI 18)。USENIX协会,华盛顿州伦顿。35\u201349。isbn:978-1-939133-01-4 https:\/\/www.usenix.org\/conference\/nsdi18\/presentation\/jin Xin jin、Xiaozhou Li、Haoyu Zhang、Nate Foster、Jeongkeun Lee、Robert Soul\u00e9、Changhoon Kim和Ion Stoica。2018.NetChain:无标度Sub-RTT协调。在第15届USENIX网络系统设计与实现研讨会上(NSDI 18)。华盛顿州伦顿USENIX协会。35\u201349。isbn:978-1-939133-01-4 https://www.usenix.org\/conference\/nsdi18\/presentation\/jin“},{“key”:“e_1_3_2_1_28_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1145\/3132747.3132764“}”,{”key“:”e_1_ 3_2_1_2 9_1“,”volume-title“2021 ACM SIGCOMM 2021 conference.657\u2013675”,“author”:“Khani Mehrdad”,“年份”:“2021年”,“非结构化”:“迈赫达德·卡尼、曼亚·戈巴迪、穆罕默德·阿利扎德、朱子怡、马德琳·格利克、克伦·伯格曼、阿明·瓦达特、本杰明·克伦克和艾曼·易卜拉希米。2021 . SiP-ML:用于机器学习培训的高带宽光纤网络互连。在2021年ACM SIGCOMM 2021会议记录中。657\u2013675。迈赫达德·卡尼、曼亚·戈巴迪、穆罕默德·阿利扎德、朱子怡、马德琳·格利克、克伦·伯格曼、阿明·瓦达特、本杰明·克伦克和艾曼·易卜拉希米。2021.SiP-ML:用于机器学习培训的高带宽光纤网络互连。在2021年ACM SIGCOMM 2021年会议记录中。657\u2013675.“},{”key“:”e_1_3_2_1_30_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3230543.3230572”},“key”:“e_1_ 3_2_1_1_31_1”,“volume-title”:“FreeFlow:基于软件的容器化云虚拟RDMA网络。在第16届USENIX网络系统设计与实现研讨会(NSDI 19)上,“作者”:“Kim Daehyeok”,“年份”:“2019”,“非结构化”:“Daehyok Kim、Tianlong Yu、Hongqiang Harry Liu、Yibo Zhu、Jitu Padhye、Shachar Raindel、Guo川芎、Vyas Sekar和Srinivasan Seshan。2019年。FreeFlow:用于容器化云的基于软件的虚拟RDMA网络。第16届USENIX网络系统设计与实现研讨会(NSDI 19)。USENIX协会,马萨诸塞州波士顿,113\u2013126。isbn:978-1-93 1971-49-2 https:\/\/www.usenix.org\/conference\/nsdi19\/presentation\/kim Daehyeok kim、Tianlong Yu、Hongqiang Harry Liu、Yibo Zhu、Jitu Padhye、Shachar Raindel、川芎Guo、Vyas Sekar和Srinivasan Seshan。2019.FreeFlow:基于软件的集装箱云虚拟RDMA网络。第16届USENIX网络系统设计与实现研讨会(NSDI 19)。USENIX协会,马萨诸塞州波士顿。113\u2013126。isbn:978-1-931971-49-2 https:\/\/www.usenix.org\/conference\/nsdi19\/presentation\/kim“},{“key”:“e_1_3_2_1_32_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/ISCA45697.2020.00085”},“key“:”e_1_ 3_2_1“,“unstructured”:“Alex Krizhevsky Ilya Sutskever and Geoffrey e Hinton.2012。基于深度卷积神经网络的Imagenet分类。神经信息处理系统进展。1097\u20131105。http:\/\/papers.nips.cc\/paper\/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf\t\t\t\t\t亚历克斯·克利舍夫斯基-伊利亚·萨茨克弗和杰弗里·欣顿。2012.使用深度卷积神经网络进行Imagenet分类。神经信息处理系统进展。1097\u20131105。http:\/\/papers.nips.cc\/paper\/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf“},{“key”:“e_1_3_2_1_34_1”,“volume-title”:“ACM数据通信特别兴趣小组会议记录.351\u2013366”,“author”:“Kumar Praveen”,“year”:“2019”,“unstructured”:“Praveen Kumar、Nandita Dukkipati、Nathan Lewis、Yi Cui、Yaogong Wang、Chonggang Li、Valas Valancius、Jake Adriaens、Steve Grible和Nate Foster。2019年。PicNIC:可预测的虚拟化NIC。在ACM数据通信特别兴趣小组会议记录中。351\u2013366。Praveen Kumar、Nandita Dukkipati、Nathan Lewis、Yi Cui、Yaogong Wang、Chonggang Li、Valas Valancius、Jake Adriaens、Steve Grible和Nate Foster。2019.PicNIC:可预测的虚拟化NIC。在ACM数据通信特别兴趣小组会议记录中。351\u2013366.“},{“key”:“e_1_3_2_1_35_1”,“volume-title”:“ATP:多租户学习的网络内聚合。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上,“author”:“Lao ChonLam”,“year”:“2021”,“unstructured”:“ChonLam Lao、Yanfang Le、Kshiteej Mahajan、Yixi Chen、Wenfei Wu、Aditya Akella和Michael Swift。2021 . ATP:多租户学习的网络内聚合。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上。USENIX协会,741\u2013761。isbn:978-1-939133-21-2 https:\/\/www.usenix.org\/conference\/nsdi21\/presentation\/lao ChonLam lao、Yanfang Le、Kshiteej Mahajan、Yixi Chen、Wenfei Wu、Aditya Akella和Michael Swift。2021.ATP:多租户学习的网络内聚合。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上。USENIX协会,741\u2013761。isbn:978-1-939133-21-2 https:\/\/www.usenix.org\/conference\/nsdi21\/presentation\/lao“},{“key”:“e_1_3_2_1_36_1”,“unstructured”:“Alberto Lerner Rana Hussein Philippe Cudre-Mauroux and U eXascale Infolab.2019。网络加速查询处理案例。。在CIDR中。\艾伯托·勒纳(Alberto Lerner Rana Hussein Philippe Cudre-Mauroux)和U eXascale Infolab。2019.网络加速查询处理案例。。在CIDR中。“},{”key“:”e_1_3_2_1_37_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/s10766-018-00623-w”},“key”:“e_1_a_2_1_38_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/3307650.3322259“}DistCache:使用分布式缓存的大型存储系统的可验证负载平衡。在第17届USENIX文件和存储技术会议(FAST 19)上,“作者”:“刘枣兴”,“年份”:“2019年”,“非结构化”:“刘枣兴、白志浩、刘振明、李小舟、金昌勋、弗拉基米尔·布拉弗曼、新进和离子斯托伊卡。2019年。DistCache:使用分布式缓存的大型存储系统的可验证负载平衡。在第17届USENIX文件和存储技术会议(FAST 19)上。USENIX协会,马萨诸塞州波士顿。143\u2013157。isbn:978-1-939133-09-0 https:\/\/www.usenix.org/conference\/fast19\/presentation\/liu Zaoxing liu、Zhihao Bai、Zhenming liu、Xiaozhou Li、Changhoon Kim、Vladimir Braverman、Xin Jin和Ion Stoica。2019.DistCache:使用分布式缓存实现大规模存储系统的可验证负载平衡。在第17届USENIX文件和存储技术会议(FAST 19)上。USENIX协会,马萨诸塞州波士顿。143\u2013157。isbn:978-1-939133-09-0 https:\/\/www.usenix.org\/conference\/fast19\/presentation\/liu“},{“key”:“e_1_3_2_1_40_1”,“volume-title”:“MLSys.程序”,“author”:“罗亮”,“year”:“2020”,“unstructured”:“Liang Luo、Peter West、Arvind Krishnamurthy、Luis Ceze和Jacob Nelson。2020 . PLink:发现和利用数据中心网络位置以实现高效的基于云的分布式训练。程序。MLSys的。Liang Luo、Peter West、Arvind Krishnamurthy、Luis Ceze和Jacob Nelson。2020年。PLink:发现和利用数据中心网络位置以实现高效的基于云的分布式培训。程序。MLSys的。“},{”key“:”e_1_3_2_1_41_1“,”volume-title“:”主题:公平高效的$GPU$集群调度。第17届$USENIX$网络系统设计与实现研讨会($NSDI$20)。289\u2013304。“,”author“:”Mahajan Kshiteej“,”year“:”2020“,”unstructured“:”Kshiteej Mahajan、Arjun Balasubramanian、Arjun-Singhvi、Shivaram Venkataraman、Aditya Akella、Amar Phanishayee和Shuchi Chawla。2020 . 主题:公平高效的$GPU$集群调度。在第17届$USENIX$网络系统设计与实现研讨会上($NSDI$20)。289\u2013304。Kshiteej Mahajan、Arjun Balasubramanian、Arjun-Singhvi、Shivaram Venkataraman、Aditya Akella、Amar Phanishayee和Shuchi Chawla。2020年。主题:公平高效的$GPU$集群调度。在第17届$USENIX$网络系统设计与实现研讨会上($NSDI$20)。289\u2013304。“},{”key“:”e_1_3_2_1_42_1“,”unstructured“:”Mellanox.2022。支持100Gb以太网的ConnectX-5 EN单双端口适配器。https:\/\/www.mellanox.com/products\/ethernet-adapters\/connectx-5-en\t\t\t mellanox。2022.支持100Gb以太网的ConnectX-5 EN单/双端口适配器。https:\/\/www.mellanox.com/products\/ethernet-adapters\/connectx-5-en“},{“key”:“e_1_3_2_1_43_1”,“unstructured”:“mellanox.2022。InfiniBand开关硅:Mellanox Quantum。https://www.mellanox.com/products\/infiniband开关ic\/quantum\t\t\t\tMellanox。2022.InfiniBand开关硅:Mellanox Quantum。https:\/\/www.mellanox.com/products\/infiniband-switches-ic\/quantum“},{“key”:“e_1_3_2_1_44_1”,“unstructured”:“Jeffrey C Mogul.2003。TCP卸载是一个愚蠢的想法,时机已经到来。。在HotOS中。2013年5月25日。\Jeffrey C Mogul。2003年TCP卸载是一个愚蠢的想法,时机已经到来。。在HotOS中。25\u201330.“},{“key”:“e_1_3_2_1_45_1”,“volume-title”:“Jumpgate:作为数据分析服务的网络内处理。在第11届$USENIX$云计算热门话题研讨会(HotCloud 19)中。”,“author”:“Mustard Craig”,“year”:“2019”,“unstructured”:“Craig Mustard、Fabian Ruffy、Anny Gakhokidze、Ivan Beschatnikh和Alexandra Fedorova。2019年。Jumpgate:作为数据分析服务的网络内处理。第11届$USENIX$云计算热门话题研讨会(HotCloud 19)。Craig Mustard、Fabian Ruffy、Anny Gakhokidze、Ivan Beschastnikh和Alexandra Fedorova。2019.Jumpgate:作为数据分析服务的网络内处理。第11届$USENIX$云计算热门话题研讨会(HotCloud 19)。“},{”key“:”e_1_3_2_1_46_1“,”volume-title“:”第14届$USENIX$操作系统设计与实现研讨会($OSDI$20).481\u2013498.“,”author“:”Narayanan Deepak“,“unstructured”:“Deepak-Narayanan,Keshav Santhanam,Fiodar Kazhamiaka,Amar Phanishayee,and Matei Zaharia.2020。针对深度学习工作负载的具有异构意识的集群调度策略。在第14届$USENIX$操作系统设计与实现研讨会上($OSDI$20)。481\u2013498。Deepak Narayanan、Keshav Santhanam、Fiodar Kazhamaka、Amar Phanishayee和Matei Zaharia,2020年。针对深度学习工作负载的具有异构意识的集群调度策略。在第14届$USENIX$操作系统设计与实现研讨会上($OSDI$20)。481\u2013498.“},{”key“:”e_1_3_2_1_47_1“,”unstructured“:”NVIDIA.2017。配备特斯拉V100系统架构的NVIDIA DGX-1。https:\/\/www.nvidia.com/en-us\/data-center\/resources\/dgx-1-system-architecture-whitepaper\/\t\t\t nvidia。2017年,NVIDIA DGX-1与特斯拉V100系统架构。https:\/\/www.nvidia.com/en-us\/data-center\/resources\/dgx-1-system-architecture-whitepaper\/“},{“key”:“e_1_3_2_1_48_1”,“volume-title”:“NCCL:多GPU集体通信的优化原语。https:\//github.com/nvidia\/NCCL”,“author”:“nvidia.”,“year”:“2019”,“unstructured”:“NVIDIA公司。2019年。NCCL:用于集体多GPU通信的优化原语。https:\/\/github.com//NVIDIA\/nccl-NVIDIA。2019.NCCL:用于集体多GPU通信的优化原语。https:\/\/github.com/NVIDIA\/nccl“},{“key”:“e_1_3_2_1_49_1”,“unstructured”:“NVIDIA.2019”。NVIDIA NVLink结构。https:\/\/www.nvidia.com/en-sg\/data-center\/nvlink\/\t\t\t nvidia。2019.NVIDIA NVLink面料。https:\/\/www.nvidia.com/en-sg\/data-center\/nvlink\/“},{“key”:“e_1_3_2_1_50_1”,“unstructured”:“nvidia.2020。NVIDIA V100:第一个Tensor核心GPU。https:\/\/wwwnvidia.com\/en-sg\/data-center\/v100\/\t\t\t\t\t nvidia。2020年,NVIDIA V100:第一个Tensor核心GPU。https:\/\/www.nvidia.com/en-sg\/data-center\/v100\/“},{“key”:“e_1_3_2_1_51_1”,“unstructured”:“nvidia.2021”。NVIDIA集体通信图书馆(NCCL)。https:\/\/developer.nvidia.com/nccl\t\t\t\t nvidia。2021.NVIDIA集体通信图书馆(NCCL)。https:\/\/developer.nvidia.com/nccl“},{“key”:“e_1_3_2_1_52_1”,“volume-title”:“GeForce RTX 2080”,“author”:“nvidia.”,“year”:“2023”,“unstructured”:“nvidia.2023.GeForce RT X 2080.https:\//www.nvidia.com\en-us\/GeForce\/graphics-cards-cards\/RTX-2080\/nvidia.2020。GeForce RTX 2080。https:\/\/www.nvidia.com/en-us\/geforce\/graphics-cards\/rtx-2080\/“},{“key”:“e_1_3_2_1_53_1”,“doi-asserted-by”:“publisher”、“doi”:“10.1145\/3341301.3359642”}、{“密钥”:“e_1_3_2_1_54_1”、”非结构化“:”Rolf Rabenseifner,1997。一种新的优化MPI约简算法。https:\/\/fs.hlrs.de\/projects\/par\/mpi\/\/myreduce.html\t\t\t罗尔夫·拉本塞夫纳。1997年。一种新的优化MPI缩减算法。https:\/\/fs.hlrs.de\/projects\/par\/mpi\/\/myreduce.html“},{“key”:“e_1_3_2_1_55_1”,“unstructured”:“Alec Radford Jeffrey Wu Dario Amodei Daniela Amodei Jack Clark Miles Brundage和Ilya Sutskever.2019。更好的语言模型及其含义。OpenAI博客https:\/\/OpenAI。com/blog\/better-language-models\t\t\t\t\t亚历克·拉德福德·杰弗里·伍·达里奥·阿莫代伊·丹妮拉·阿莫代伊杰克·克拉克·迈尔斯·布伦达奇和伊利亚·萨茨克弗。2019.更好的语言模型及其含义。OpenAI博客https:\/\/OpenAI。com/blog\/better-language-models“},{“key”:“e_1_3_2_1_56_1”,“doi-asserted-by”:“crossref”、“unstructured”:“Pranav Rajpurkar Jian Zhang Konstantin Lopyrev和Percy Liang.2016。SQUAD:100000多个问题用于机器理解文本。arXiv预印本arXiv:1606.05250 arXiv:1606.05.250\t\t\t\t普拉纳夫·拉杰浦卡尔·简·张·康斯坦丁·洛佩列夫和珀西·梁。2016.SQUAD:100000多个问题,用于机器理解文本。arXiv预印本arXiv:1606.05250 arXiv:1606.05550“,“DOI”:“10.18653\/v1\/D16-1264”},{“key”:“e_1_3_2_1_57_1”,“volume-title”:“irdma:分布式深度学习系统中rdma的高效使用。在2017 IEEE第19届高性能计算与通信国际会议上,“author”:“Ren Yufei”,“unstructured”:“任玉飞、吴兴波、张丽、王延东、张伟、王子军、米歇尔·哈克和宋江。2017年,irdma:在分布式深度学习系统中高效使用rdma。2017年IEEE第19届高性能计算与通信国际会议;IEEE第十五届智能城市国际会议;IEEE第三届数据科学与系统国际会议(HPCC\/SmartCity\/DSS)。231\u2013238。任玉飞、吴兴波、张丽、王延东、张伟、王子军、米歇尔·哈克和宋江。2017年,irdma:在分布式深度学习系统中高效使用rdma。2017年IEEE第19届高性能计算与通信国际会议;IEEE第十五届智能城市国际会议;IEEE第三届数据科学与系统国际会议(HPCC\/SmartCity\/DSS)。231\u2013238.“},{”key“:”e_1_3_2_1_58_1“,”volume-title“:”利用网络聚合扩展分布式机器学习。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上,“作者”:“Sapio Amedeo”,“年份”:“2021”,“非结构化”:“阿梅迪奥·萨皮奥(Amedeo Sapio)、马可·卡尼尼(Marco Canini)、陈玉浩(Chen-Yu Ho)、雅各布·纳尔逊(Jacob Nelson)、帕诺斯·卡尼斯(Panos Kalnis)、金昌勋(Changhoon Kim)、阿文德·克里希纳穆西(Arvind Krishnamurthy)、马苏德·莫瑟夫(Masoud Moshref)、丹·波特(Dan Ports)和彼得·里塔里克(Peter Richtarik)。2021 . 使用网络内聚合扩展分布式机器学习。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上。USENIX协会,785\u2013808。isbn:978-1-939133-21-2 https://www.usenix.org\/conference\/nsdi21\/presentation\/sapio Amedeo sapio、Marco Canini、Chen-Yu Ho、Jacob Nelson、Panos Kalnis、Changhoon Kim、Arvind Krishnamurthy、Masoud Moshref、Dan Ports和Peter Richtarik。2021.使用网络内聚合扩展分布式机器学习。在第18届USENIX网络系统设计与实现研讨会(NSDI 21)上。USENIX协会,785\u2013808。isbn:978-1-939133-21-2 https:\/\/www.usenix.org\/conference\/nsdi21\/presentation\/sapio“},{“key”:“e_1_3_2_1_59_1”,“unstructured”:“Alexander Sergeev and Mike Del Balso.2018。Horovod:在TensorFlow中快速轻松的分布式深度学习。arXiv预打印arXiv:1802.05799 arXiv:1802.05.799\t\t\t亚历山大·谢尔盖夫和迈克·德尔·巴尔索。2018年,Horovod:在TensorFlow中快速轻松地进行分布式深度学习。arXiv预印本arXiv:1802.05799 arXiv:1802.05.799“},{“key”:“e_1_3_2_1_60_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1109\/INFOCOM.2019.8737367“}”,{”key“:”e_1_ 3_2_1_1_61_1“,”unstructured“:”Jinwoo Shin and KyongSoo Park.2021。分布式深度学习的弹性资源共享。\2021年,金宇新和京秀公园。分布式深度学习的弹性资源共享。“},{”key“:”e_1_3_2_1_62_1“,”volume title“:”威震天lm:使用gpu模型并行度训练数十亿参数语言模型。arXiv预印本arXiv:1909.08053,arXiv:1909.08053“,”author“:”Shoeybi Mohammad“,”year“:”2019“,”nonstructured“:”Mohammad Shoeybi、Mostofa Patwarve、Raul Puri、Patrick LeGresley、Jared Casper和Bryan Catanzaro。2019年。Megatron-lm:使用gpu模型并行性训练数十亿参数语言模型。arXiv预印本arXiv:1909.08053,arXiv:1909.08053 Mohammad Shoeybi,Mostofa Patwarve,Raul Puri,Patrick LeGresley,Jared Casper和Bryan Catanzaro。2019.Megatron-lm:使用gpu模型并行性训练数十亿参数语言模型。arXiv预打印arXiv:1909.08053,arXiv:1909.080%“},{“key”:“e_1_3_2_1_63_1”,“unstructured”:“Karen Simonyan和Andrew Zisserman,2014。用于大规模图像识别的深度卷积网络。arXiv预打印arXiv:1409.1556 arXiv:1409.11556\t\t\t\t凯伦·西蒙扬和安德鲁·齐瑟曼。2014.用于大规模图像识别的超深卷积网络。arXiv预印本arXiv:1409.1556 arXiv:1409.15506“},{“key”:“e_1_3_2_1_64_1”,“volume-title”:“第二十届ACM网络热点研讨会论文集.61\u201368”,“author”:“Stephens Brent e”,“year”:“2021”,“unstructured”:“Brent E Stephens、Darius Grassi、Hamidreza Almasi、Tao Ji、Balajee Vamanan和Aditya Akella。2021 . TCP对网络计算有害:设计消息传输协议(MTP)。第二十届ACM网络热点研讨会论文集。61\u201368。Brent E Stephens、Darius Grassi、Hamidreza Almasi、Tao Ji、Balajee Vamanan和Aditya Akella。2021.TCP对网络内计算有害:设计消息传输协议(MTP)。第二十届ACM网络热点研讨会论文集。61\u201368.“},{”key“:”e_1_3_2_1_65_1“,”unstructured“:”PyTorch团队.2023。PyTorch。https:\/\/github.com//pytorch\/pytorch \t\t\t pytorch团队。2023年,PyTorch。https:\/\/github.com/pytorch\/pytorch“},{“key”:“e_1_3_2_1_66_1”,“unstructured”:“TensorFlow.2019”。Tensorflow的基准框架。https:\/\/github.com/tensorflow\/bequicks\t\t\t tensorflow。2019.Tensorflow的基准框架。https:\/\/github.com\/tensorflow\/breferences“},{“key”:“e_1_3_2_1_67_1”,“doi断言者”:“publisher”,“doi”:“10.1145\/33184643389698”},{“key”:“e_1_3_2_1_68_1”,“卷标题”:“第11届美国计算机学会云计算研讨会论文集.447\u2013461”,“作者”:“Viswanathan Raajay”,“年份”:“2020”,“非结构化”:“Raajay Viswanathan、Arjun Balasubramanian和Aditya Akella。2020 . 针对多租户设置的网络加速分布式机器学习。第11届ACM云计算研讨会论文集。447\u2013461。Raajay Viswanathan、Arjun Balasubramanian和Aditya Akella。2020年。针对多租户设置的网络加速分布式机器学习。第11届ACM云计算研讨会论文集。447\u2013461.“},{”key“:”e_1_3_2_1_69_1“,”volume-title“:”GLUE:一个用于自然语言理解的多任务基准测试和分析平台。arXiv预印本arXiv:1804.07461,arXiv:1804.074 61“,”author“:”Wang Alex“,”year“:”2018“,”unstructured“:”亚历克斯·王、阿曼普雷特·辛格、朱利安·迈克尔、费利克斯·希尔、奥马尔·利维和塞缪尔·鲍曼。2018 . GLUE:用于自然语言理解的多任务基准测试和分析平台。arXiv预印本arXiv:1804.07461,arXiv:1804.07461 Alex Wang,Amanpriet Singh,Julian Michael,Felix Hill,Omer Levy,and Samuel R Bowman。2018年。GLUE:用于自然语言理解的多任务基准和分析平台。arXiv预印本arXiv:1804.07461,arXiv:1804.07461“},{“键”:“e_1_3_2_1_70_1”,“卷标题”:“闪烁:分布式ml的快速通用集体。arXiv预印本arXiv:1910.04940.”,“作者”:“王冠华”,“年份”:“2019”,“非结构化”:“王冠华、Shivaram Venkataraman、Amar Phanishayee、Jorgen Thelin、Nikhil Devanur和Ion Stoica。2019年。闪烁:分布式ml.arXiv预印本arXiv:1910.04940的快速通用集合。王冠华、Shivaram Venkataraman、Amar Phanishayee、Jorgen Thelin、Nikhil Devanur和Ion Stoica。2019.闪烁:分布式ml.arXiv预印本arXiv:1910.04940.“},{”key“:”e_1_3_2_1_71_1“,”unstructured“:”Xilinx.2023。Virtex UltraScale-锡林克斯。https:\/\/www.xilinx.com/products\/silion-devices\/fpga\/virtex-ultrascale.html#productAdvances\t\t\t xilinx。2023.Virtex UltraScale-锡林克斯。https:\/\/www.xilinx.com/products\/silicon-devices\/fpga\/virtex-ultrascale.html#productAdvances“},{“key”:“e_1_3_2_1_72_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1145\/3302424.3303975”},“key“:”e_1_s_2_1_73_1“,”volume-title“:”支持RDMA的数据中心网络中用于分布式机器学习的流量管理。在ICC 2021-IEEE国际通信会议上。1\u20136.“,”作者“:”杨卫红“,”年份“:”2021“,”非结构化“:”杨卫红、杨琴、姜祖凯、朱晓文。2021 . 支持RDMA的数据中心网络中分布式机器学习的流量管理。在ICC 2021-IEEE国际通信会议上。2013年1月。杨伟红、杨琴、蒋祖凯和朱晓文。2021.支持RDMA的数据中心网络中分布式机器学习的流量管理。在ICC 2021-IEEE国际通信会议上。1\u20136.“},{“key”:“e_1_3_2_1_74_1”,“volume-title”:“解锁可编程交换机上内联浮点操作的能力。在第19届USENIX网络系统设计与实现研讨会(NSDI 22)上,“author”:“袁一凡”,“year”:“2022”,“unstructured”:“Yifan Yuan,Omar Alama,Jiawei Fei,Jacob Nelson,Dan R.K。Ports、Amedeo Sapio、Marco Canini和Nam Sung Kim。2022 . 解锁可编程交换机上的内联浮点操作的电源。在第19届USENIX网络系统设计与实现研讨会上(NSDI 22)。Yifan Yuan、Omar Alama、Jiawei Fei、Jacob Nelson、Dan R.K.Ports、Amedeo Sapio、Marco Canini和Nam Sung Kim。2022.解锁可编程交换机上的内联浮点操作的电源。在第19届USENIX网络系统设计与实现研讨会上(NSDI 22)。“},{”key“:”e_1_3_2_1_75_1“,”doi-asserted-by“:”publisher“,“doi”:“10.14778\/3368289.3368301”},“key”:“e_1_a_2_1_76_1”,“doi-assert-by”:“publisher”,”doi“:”10.1145\/2785956.2787484“}],”event“:{”name“:”ASPLOS'23:第28届ACM编程语言和操作系统体系结构支持国际会议,第3卷,”,“location”:“”加拿大温哥华”,“缩写词”:“ASPLOS'23”,“赞助商”:[“SIGARCH ACM计算机体系结构特别兴趣小组”,“SIGOPS ACM操作系统特别兴趣小组”,“SIGPLAN ACM编程语言特别兴趣小组”,“SIGBED ACM嵌入式系统特别兴趣小组”]},“容器标题”:[“第28届ACM编程语言和操作系统体系结构支持国际会议论文集,第3卷“],“原始标题”:[],“存放”:{“日期部分”:[[2023,3,20]],“日期-时间”:“2023-03-20T17:09:58Z”,“时间戳”:1679332198000},“分数”:1,“资源”:{“主要”:{“URL”:“https:\/\/dl.acm.org\/doi\/10.1145\/3582016.358202037“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2023,3,25]]},“引用计数”:76,”替代id“:[”10.1145\/358016.3582037“,”10.1145 \/3582016“],”URL“:”http://\/dx.doi.org\/10.1145 \/358216352037“,”关系“:{},“主题”:[],“发布”:{“日期部分”:[[2023,3,25]]},”断言“:[{”value“:”2023-03-25“,”order“:2,”name“:”published“,”label“:”published“,”group“:{“name”:”publication_history“,”标签“:”publication history“}}]}}