{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部分”：[[2024,5,1]]，“日期-时间”：“2024-05-01T14:29:26Z”，“时间戳”：1714573766557}，“发布者位置”：“美国纽约州纽约市”，“引用-计数”：55，“发布商”：“ACM”，“内容-域”：[dl.ACM.org“]，”交叉标记-受限离子“：true}，”短容器时间“：[]，“published-print”：{“date-parts”：[[2022,12,19]]}，“DOI”：“10.1145\/3567955.3567959”，“type”：“proceedings-article”，“created”：{“date-ports”：[2022,12,21]]，“date-time”：“2022-12-21T18:24:44Z”，“timestamp”：1671647084000}，《update-policy》：“http://\/dx.DOI.org\/10.1145\/crossmark-policy”，“source“：”Crossref“，”is-referenced-by-count“：7，”title“：[“在大型深度学习模型中，通过分解与依赖计算进行重叠通信”]，“前缀”：“10.1145”，“作者”：[{“给定”：“Shibo”，”family“：”Wang“，”sequence“：”first“，”affiliation“：[{“name”：“Google，USA”}]}，{“given”：“Jinliang”，“family”：“Wei”，“sequence”：“additional”，“affiliance”：[[{”name“Google，US”}]{，“givent”：“Amit”，“家族”：“Sabne”，“sequence”：“additional”，“affiliation”：[{“name”：“Google，USA”}]}，{“given”：“Andy”，“family”：“Davis”，“serquence”:“additionable”，“filiation“：[{name”：”Google，USA}]}.，{”given“：”Berkin“，”family“：”Ilbeyi“，“se序列”：“additional”、“affidiation”：[{“name”：“Google，USA]}，“givent”：“Blake”，“家族”：“Hec”htman“，”sequence“：”additional“，”affiliation“：[{“name”：“Google，USA”}]}，{“given”：“Dehao”，“family”：“Chen”，“sequence”：“additional”，“affiliation”：[[{”name“：“Waymo，USA“}]}.，{”given“：”Karthik Srinivasa“，”family“：”Murthy“，”sequence“：”additional“，”affiliation“：[{”name“：”Google，USA“}]}，{”given“：“乔”，“家庭”：“张”，“序列”：“附加”，“从属关系”：[{“名称”：“谷歌，美国”}]}，{“给定”：“萨米尔”，“家族”：“库马尔”，“顺序”：“额外”，“隶属关系”：[{“姓名”：“Google，美国”{]}，“family”：“Xu”，“sequence”：“additional”，“affiliation”：[{“name”：“Google，USA”}]}，{“given”：“Zongwei”，“family”：“Zhou”，“sequence”：“additional”，“affaliation”:[{（名称）：“Google，USA“}]}]，“member”：“320”，“published-online”：{“date-parts”：[2022,12,21]]}、“reference”：[[{”key：“e_3_2_1_1_1_1”，“unstructured”：“2020”。谷歌凭借世界上最快的训练超级计算机\u2019打破了人工智能在MLPerf中的性能记录。https:\/\/cloud.google.com/blog\/products\/ai-machine-learning\/google-breaks-ai-performance-records-in-mlperf-with-worlds-fastest-training-computer\t\t\t 2020。谷歌凭借世界上最快的训练超级计算机u2019打破了MLPerf的人工智能性能记录。https:\/\/cloud.google.com\/blog\/products\/ai机器学习\/google用世界上训练最快的超级计算机打破了mlperf中的ai性能记录”}，{“key”：“e_1_3_2_2_1”，“nonstructured”：“2021。MLPerf培训1.1版。https:\/\/mlcommons.org\/en\/training-normal-11\/\t\t\t 2021。MLPerf培训1.1版。https:\/\/mlcommons.org\/en\/training-normal-11\/“}，{“key”：“e_1_3_2_1_1”，“unstructured”：“2021。XLA:TensorFlow的优化编译器。https:\/\/www.tensorflow.org\/xla\t\t\t 2021。XLA:TensorFlow的优化编译器。https:\/\/www.tensorflow.org\/xla“}，{“key”：“e_1_3_2_1_4_1”，“unstructured”：“2022。NVIDIA H100 Tensor核心GPU架构。https:\/\/www.hpctech.co.jp\/catalog\/gtc22-whitepaper-hopper_v1.01.pdf\t\t\t 2022。NVIDIA H100 Tensor核心GPU架构。https:\/\/www.hpctech.co.jp\/catalog\/gtc22-whitepaper-hopper_v1.01.pdf“}，{“key”：“e_1_3_2_1_5_1”，“unstructured”：“2022。XLA动态切片语义。https:\/\/www.tensorflow.org\/xla\/operation_semantics##dynamicslice\t\t\t 2022。XLA动态切片语义。https:\/\/www.tensorflow.org\/xla\/operation_semantics##dynamicslice“}，{“key”：“e_1_3_2_1_6_1”，“unstructured”：“2022。XLA DynamicUpdateSlice语义。https:\/\/www.tensorflow.org\/xla\/operation_semantics##dynamicupdateslice\t\t\t 2022。XLA DynamicUpdateSlice语义。https:\/\/www.tensorflow.org\/xla\/operation_semantics##dynamicupdateslice“}，{“key”：“e_1_3_2_1_7_1”，“volume-title”：“tensorflow:大型机器学习系统。在第十二届USENIX操作系统设计与实现研讨会（OSDI 16）上，“author”：“Abadi Mart\u00edn”，“year”：“2016”，“unstructured”：“马特·阿巴迪、保罗·巴勒姆、陈建民、陈志峰、安迪·戴维斯、杰弗里·迪恩、马蒂厄·德文、桑杰·盖马沃特、杰弗里·欧文、迈克尔·伊萨德、曼朱纳特·库德鲁、乔什·利文伯格、拉贾特·蒙加、雪莉·摩尔、德里克·穆雷、贝诺伊特·斯坦纳、保罗·塔克、维杰伊·瓦苏德文、皮特·沃登、马丁·威克、袁宇、，和郑晓强。2016 . TensorFlow：大规模机器学习系统。在第12届USENIX操作系统设计与实现研讨会（OSDI 16）上。佐治亚州萨凡纳265\u2013283。马特·阿巴迪、保罗·巴勒姆、陈建民、陈志峰、安迪·戴维斯、杰弗里·迪恩、马蒂厄·德文、桑杰·盖马沃特、杰弗里·欧文、迈克尔·伊萨德、曼朱纳特·库德鲁、乔什·莱文伯格、拉贾特·蒙加、雪莉·摩尔、德里克·穆雷、贝诺伊特·斯坦纳、保罗·塔克、维杰伊·瓦苏德文、皮特·沃登、马丁·威克、袁宇和郑晓强。2016年，TensorFlow：大型机器学习系统。在第12届USENIX操作系统设计与实现研讨会（OSDI 16）上。Savannah，GA.265\u2013283.“}，{”key“：”e_1_3_2_1_8_1“，”volume-title“：”Le“，“author”：“Adivardana Daniel”，“year”：“2020”，“unstructured”：“Daniel Adivaradana，Minh-Thang Luong，David R。那么，杰米·霍尔、诺亚·菲德尔、罗马尔·托皮兰、紫阳、阿波罗夫·库尔什赫塔、高拉夫·内梅德、陆一峰和奎克五世。法国。2020 . 走向人性化的开放域聊天机器人。CoRR，abs \/2001.09977（2020），arXiv:2001.09977。arxiv:2001.09977丹尼尔·阿迪瓦尔达纳、梁明诚、大卫·R·苏、杰米·霍尔、诺亚·菲德尔、罗马尔·托皮兰、紫阳、阿波罗夫·库什塔、高拉夫·内梅德、陆一峰和郭文乐。2020年，打造人性化的开放域聊天机器人。CoRR，abs\/2001.09977（2020），arXiv:2001.09977。arxiv：2001.09977“｝，｛”key“：”e_1_3_2_1_9_1“，”doi断言“：”publisher“，”doi“：”10.1147\/rd.395.0575“｝，｛”key“：”e_1_3_2_10_1“，”卷标题“：”Shah“，”作者“：”Bezanson Jeff“，”年份“：”2014“，”非结构化“：”Jeff Bezanson、Alan Edelman、Stefan Karpinski和Viral B。沙阿。2014 . 朱莉娅：数值计算的新方法。CoRR，abs（2014），arXiv:1411.1607。arxiv:1411.1607杰夫·贝赞森（Jeff Bezanson）、阿兰·埃德尔曼（Alan Edelman）、斯特凡·卡宾斯基（Stefan Karpinski）和维拉尔·沙阿（Viral B.Shah）。2014年，朱莉娅：数值计算的新方法。CoRR，abs（2014），arXiv:1411.1607。arxiv:1411.1607“}，{“key”：“e_1_3_2_11_1”，“volume-title”：“Chris Leary，Dougal Maclaurin，George Necula，Adam Paszke，Jake VanderPlas，Skye Wanderman Milne，and Joao Zhang。”，“作者”：“Bradbury James”，“年份”：“2018”，“非结构化”：“詹姆斯·布拉德伯里（James Bradbury）、罗伊·弗罗斯蒂格（Roy Frostig）、彼得·霍金斯（Peter Hawkins）、马修·詹姆斯·约翰逊（Matthew James Johnson）、克里斯·利里（Chris Leary）、道格尔·麦克劳林（Dougal Maclaurin）、乔治·内库拉（George Necula）、亚当·帕斯克（Adam Paszke）、杰克·范德普拉斯（Jake VanderPlas）、斯基·旺德曼·米尔恩（Skye Wa。2018 . JAX:Python+NumPy程序的可组合转换。http://github.com/google//jax詹姆斯·布拉德伯里（James Bradbury）、罗伊·弗罗斯蒂格（Roy Frostig）、彼得·霍金斯（Peter Hawkins）、马修·詹姆斯·约翰逊（Matthew James Johnson）、克里斯·利里（Chris Leary）、道格尔·麦克劳林（Dougal Maclaurin）、乔治·内库拉（George Necula）、亚当·帕斯科（Adam Paszke）、杰克·范德普拉斯（Jake VanderPlas）、斯基·旺德曼·米尔恩（Skye Wanderman-Mille）和乔·张（Joo Zhang）。2018.JAX:Python+NumPy程序的可组合转换。http:\/\/github.com/google\/jax“}，{“key”：“e_1_3_2_12_1”，“volume-title”：“语言模型是少数学习者。CoRR，abs\/2005.14165”，“author”：“Brown Tom B.”，“year”：“2020”，“unstructured”：“Tom B。布朗、本杰明·曼恩、尼克·莱德、梅兰妮·苏比亚赫、贾里德·卡普兰、普拉福拉·达里瓦尔、阿文德·内拉坎坦、普拉纳夫·希亚姆、吉里什·萨斯特里、阿曼达·阿斯克尔、桑迪尼·阿加瓦尔、阿里尔·赫伯特·沃斯、格雷琴·克鲁格、汤姆·海尼汉、瑞温·查尔德、阿迪蒂亚·拉梅什、丹尼尔·齐格勒、杰弗里·吴、克莱门斯·温特、克里斯托弗·黑塞、马克·陈，埃里克·西格勒（Eric Sigler）、马特乌斯·利特温（Mateusz Litwin）、斯科特·格雷（Scott Gray）、本杰明·象棋（Benjamin Chess）、杰克·克拉克（Jack Clark）、克里斯托弗·伯纳（Christopher Berner）、山姆·麦肯德利什（Sam McCandlish）、亚历克·拉德福德（Alec Radford）、伊利亚·萨茨克弗（Ilya Sutskever）和达里奥·阿莫迪（Dario Amodei）。2020年。语言模型是少数快速学习者。CoRR，abs\/2005.14165（2020），arXiv:2005.14165。arxiv:2005.14165汤姆·布朗、本杰明·曼恩、尼克·莱德、梅兰妮·苏比亚赫、贾里德·卡普兰、普拉福拉·达里瓦尔、阿文德·内拉坎坦、普拉纳夫·希亚姆、吉里什·萨斯特里、阿曼达·阿斯克尔、桑迪尼·阿加瓦尔、阿里尔·赫伯特·沃斯、格雷琴·克鲁格、汤姆·海尼汉、瑞文·查尔德、阿迪蒂亚·拉梅什、丹尼尔·齐格勒、杰弗里·吴、克莱门斯·温特、克里斯托弗·黑塞、马克·陈，埃里克·西格勒（Eric Sigler）、马特乌斯·利特温（Mateusz Litwin）、斯科特·格雷（Scott Gray）、本杰明·象棋（Benjamin Chess）、杰克·克拉克（Jack Clark）、克里斯托弗·伯纳（Christopher Berner）、山姆·麦肯德利什（Sam McCandlish）、亚历克·拉德福德（Alec Radford）、伊利亚·萨茨克弗（Ilya Sutskever）和达里奥·阿莫迪（Dario Amodei）。2020年。语言模型是少数快速学习者。CoRR，abs\/2005.14165（2020），arXiv:2005.14165。arxiv:2005.14165“}，{”key“：”e_1_3_2_1_13_1“，”unstructured“：”Lynn Elliot Cannon.1969。实现卡尔曼滤波算法的蜂窝计算机。博士论文。美国AAI7010025\t\t\t\t林恩·埃利奥特加农炮。1969.实现卡尔曼滤波算法的蜂窝计算机。博士论文。美国AAI7010025“}，{“key”：“e_1_3_2_1_14_1”，“volume-title”：“TVM：用于深度学习的端到端优化堆栈.abs \/1802.04799”，“author”：“Chen Tianqi”，“year”：“2018”，“unstructured”：“Tianqi-Chen，Thierry Moreau，Ziheng Jiang，Haichen Shen，Eddie Q。Yan、Leyuan Wang、Yuwei Hu、Luis Ceze、Carlos Guestrin和Arvind Krishnamurthy。2018 . TVM：用于深度学习的端到端优化堆栈。abs \/1802.04799（2018），arXiv:1802.04799。arxiv:1802.04799陈田琪、蒂埃里·莫罗、姜子亨、沈海辰、颜爱迪、王乐源、胡玉伟、路易斯·塞兹、卡洛斯·盖斯特林和阿文德·克里希纳穆西。2018.TVM：针对深度学习的端到端优化堆栈。abs \/1802.04799（2018），arXiv:1802.04799。arxiv:1802.04799“}，{“key”：“e_1_3_2_1_15_1”，“doi-asserted-by”：“publisher”，”doi“：“10.1109\/SC.2005.75”}，“key“：”e_1_ 3_2_1_6_1“，”doi-assert-by“：”publisher“，“doi”：“10.1145\/1542275.1542321”}、{“密钥”：“e_1_3_2_1_17_1”、“volume-title”：“第十六届国际并行和分布式处理研讨会论文集。10 pp\u2013。”，“作者”：“Darte A.”，“非结构化”：“A.Darte、D.Chavarria Miranda、R.Fowler和J.Mellor Crummey。2002。多维数组的广义多部分。第16届国际并行和分布式处理研讨会论文集。2013年第10页。A.Darte、D.Chavarria-Miranda、R.Fowler和J.Mellor-Crummey。2002.多维数组的广义多分区。第16届国际并行和分布式处理研讨会论文集。10 pp\u2013.“}，{”key“：”e_1_3_2_1_18_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1137\/021049”}，“key”：“e_1_3_2_1_19_1”，“volume-title”：“BERT:语言理解深层双向变形金刚的预训练。CoRR，abs\/1810.04805”，“author”：“Devlin Jacob”，”年份：“2018”，“非结构化”：“雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2018 . BERT：语言理解深度双向变形金刚的预训练。CoRR，abs\/1810.04805（2018），arXiv:1810.04805。arxiv:1810.04805雅各布·德夫林（Jacob Devlin）、张明伟（Ming-Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2018.BERT：深度双向变形金刚语言理解预培训。CoRR，abs\/1810.04805（2018），arXiv:1810.04805。arxiv:1810.04805“}，{“key”：“e_1_3_2_1_20_1”，“unstructured”：“南都延平黄安德鲁M。戴西蒙·通·德米特里·列皮钦·袁忠徐马克西姆·克里昆·扬奇周亚当斯·魏宇·奥罕·菲拉特·佐夫·利亚姆·费德斯·马尔滕·博斯马·宗伟周涛王玉玛王爱玛王凯利韦伯斯特玛丽·佩拉特·凯文·罗宾逊·凯西·迈尔赫斯特恩·托朱·卢卡斯·狄克逊·张奎奇V勒永辉·吴志峰·陈和克莱尔·崔。2021.GLaM：混合专家的语言模型的有效缩放。arxiv:2112.06905。\t\t\t\t南都延平黄安德鲁M。戴西蒙·通·德米特里·列皮钦·袁忠徐马克西姆·克里昆·扬奇周亚当斯·魏宇·奥罕·菲拉特·佐夫·利亚姆·费德斯·马尔滕·博斯马·宗伟周涛王玉玛王爱玛王凯利韦伯斯特玛丽·佩拉特·凯文·罗宾逊·凯西·迈尔赫斯特恩·托朱·卢卡斯·狄克逊·张奎奇V勒永辉·吴志峰·陈和克莱尔·崔。2021.GLaM：混合专家的语言模型的有效缩放。arxiv:2112.06905.“}，{”key“：”e_1_3_2_1_21_1“，”doi-asserted-by“：”publisher“，”doi“：”10.5555\/898758“}”，{“key”：“e_1_ 3_2_1_2 2_1”，“doi-assert-by”：“publisher”，“doi”：“10.5555\/2388996.2389132”}，“key“:”e_3_2_23_1“，集群.2016.62“}，{“key”：“e_1_3_2_1_24_1”，“volume-title”：“GPipe：使用管道并行性高效训练巨型神经网络。CoRR，abs \/1811.06965“，“作者”：“黄燕平”，“年份”：“2018年”，“非结构化”：“黄燕平、郑永龙、陈德浩、李孝忠、Ngiquan Ngiam、Quoc V.Le和陈志峰。2018年，GPipe：使用管道并行性高效训练巨型神经网络。CoRR，abs（2018），arXiv:1811.06965。arxiv：1811.06965黄艳平、郑永龙、陈德豪、李贤重、Ngiam Jiquan、Le Quoc V.和陈志峰。2018年，GPipe：使用管道并行性高效训练巨型神经网络。CoRR，abs（2018），arXiv:1811.06965。arxiv：1811.06965“｝，{“key”：“e_1_3_2_1_25_1”，“doi断言”：“publisher”，“doi”：“10.1023\/A:1007554715418”}，{“key”：“e_1_3_2_26_1”，“volume title”：“George Kurian，Sheng Li，Nishant Patil，James Laudon，Cliff Young，and David Patterson。”，“author”：“Jouppi Norman P.”，“year”：“2020”，“nonstructured”：“Norman P。Jouppi、Doe Hyun Yoon、George Kurian、Sheng Li、Nishant Patil、James Laudon、Cliff Young和David Patterson。2020 . 用于训练深层神经网络的领域专用超级计算机。Commun公司。ACM，63，7（2020），jun，67\u201378。Norman P.Jouppi、Doe Hyun Yoon、George Kurian、Sheng Li、Nishant Patil、James Laudon、Cliff Young和David Patterson。2020年，用于训练深层神经网络的领域专用超级计算机。Commun公司。ACM，63，7（2020），jun，67\u201378。“}，{“key”：“e_1_3_2_1_27_1”，“volume-title”：“神经语言模型的缩放规律。CoRR，abs\/2001.08361”，“author”：“Kaplan Jared”，年：“2020”，“非结构化”：“Jared Kaplan，Sam McCandlish，Tom Henighan，Tom B。Brown、Benjamin Chess、Rewon Child、Scott Gray、Alec Radford、Jeffrey Wu和Dario Amodei。2020.神经语言模型的标度定律。CoRR，abs\/2001.08361（2020），arXiv:2001.08361。arxiv：2001.08361贾里德·卡普兰、萨姆·麦坎德里什、汤姆·赫尼汉、汤姆·B·布朗、本杰明·切斯、雷文·查尔德、斯科特·格雷、亚历克·拉德福、杰弗里·吴和达里奥·阿莫迪。2020年，神经语言模型的缩放律。CoRR，abs \/2001.08361（2020），arXiv:2001.08361。arxiv:2001.08361“}，{“key”：“e_1_3_2_1_28_1”，“volume-title”：“深度学习的大批量训练：泛化差距和夏普极小值。CoRR，abs\/1609.04836”，“author”：“Keskar Nitish Shirish”，“year”：“2016”，“unstructured”：“Nitish Shrish Keskar，Dheevata Mudigere，Jorge Nocedal，Mikhail Smelyanskiy，and Ping Tak Peter Tang。2016。关于深度学习的大批量培训：泛化差距和极大极小。CoRR，abs（2016），arXiv:1609.04836。arxiv:1609.04836 Nitish Shirish Keskar、Dheevata Mudigere、Jorge Nocedal、Mikhail Smelyanskiy和Ping Tak Peter Tang。2016年，关于深度学习的大批量培训：泛化差距和极大极小。CoRR，abs（2016），arXiv:1609.04836。arxiv:1609.04836“}，{“key”：“e_1_3_2_1_29_1”，“volume-title”：“大规模流水线反向传播：无批次训练大型模型。CoRR，abs\/2003.11666”，“author”：“Kosson Atli”，“year”：“2020”，“unstructured”：“Atli Kosson，Vitaliy Chiley，Abhinav Venigalla，Joel Hestness，和Urs K\u00f6ster.2020。大规模流水线反向传播：无批训练大型模型。CoRR，abs \/2003.11666（2020），arXiv:2003.11666。arxiv:2003.11666 Atli Kosson、Vitaliy Chiley、Abhinav Venigalla、Joel Hestness和Urs K\u00f6ster。2020年。大规模流水线反向传播：无批量训练大型模型。CoRR，abs \/2003.11666（2020），arXiv:2003.11666。arxiv:2003.11666“}，{“key”：“e_1_3_2_1_30_1”，“volume-title”：“GShard:使用条件计算和自动切分缩放巨型模型。CoRR，abs\/2006.1668”，“author”：“Lepikhin Dmitry”，“year”：“2020”，“unstructured”：“德米特里·勒皮钦（Dmitry Lepikhin）、李孝忠（HyoukJoong Lee）、徐元忠（Yuanchong Xu）、陈德浩（Dehao Chen）、奥汉·菲拉特（Orhan Firat）、黄延平（Yanping Huang）、马克西姆·克里坤（Maxim Krikun）、诺姆·沙泽尔（Noam Shazeer）和陈志峰（Zhifeng Chen）。2020年，GShard：使用条件计算和自动切分缩放巨型模型。CoRR，abs \/2006.16668（2020），arXiv:2006.16668。arxiv:2006.16668德米特里·勒皮钦、李孝忠、徐元忠、陈德浩、奥汉·菲拉特、黄延平、马克西姆·克里坤、诺姆·沙泽尔和陈志峰。2020年，GShard：使用条件计算和自动切分缩放巨型模型。CoRR，abs \/2006.16668（2020），arXiv:2006.16668。arxiv:2006.16668“}，{“key”：“e_1_3_2_1_31_1”，“unstructured”：“Nilesh Mahajan Sajith Sasidharan Arun Chauhan和Andrew Lumsdaine，2012。从声明指定的通信自动生成粗粒度软件管道。05.\t\t\t\tNilesh Mahajan Sajith Sasidharan Arun Chauhan和Andrew Lumsdaine。2012.从声明式指定通信自动生成粗粒度软件流水线。05.“}，{“key”：“e_1_3_2_1_32_1”，“非结构化”：“Dheevata Mudigere Yuchen Hao Jianyu Huang Andrew Tulloch Srinivas Sridharan Xing Liu Mustafa Ozdal Jade Nie Jongsoo Park Liang Luo Jie Amy Yang Leon Gao Dmytro Ivchenko Aarti Basant Yuxi Hu Jiyan Yang Ehsan K。Ardestani Xiaodong Wang Rakesh Komuraveli Ching-Hsiang Chu Serhat Yilmaz Huayu Li Jiyuan Qian Zhoobo Feng Yinbin Ma Junjie Yang Ellie Wen Hong Li Lin Yang Chonglin Sun Whitney Zhao Dimitry熔化Krishna Dhulipala K.R。基肖尔·泰勒格拉夫·阿萨夫·艾森曼·基兰·库马尔·马塔姆·阿迪·甘吉迪·国强杰里·陈曼诺·克里希南·阿维纳什·纳亚克·克里希纳库马尔·奈尔学院穆提亚·马哈茂德·霍拉沙迪·巴塔查里亚·佩特·拉普霍夫·马克西姆·诺莫夫·林乔·米哈伊尔·斯梅利扬斯基·比尔·贾和维杰伊·拉奥。2021.大型深度学习推荐模型的高性能分布式培训。CoRR abs \/2104.05158（2021）arXiv:2104.05158。arxiv:2104.05158\t\t\t\t Dheevata Mudigere Yuchen Hao Jianyu Huang Andrew Tulloch Srinivas Sridharan Xing Liu Mustafa Ozdal Jade Nie Jongsoo Park Liang Luo Jie Amy Yang Leon Gao Dmytro Ivchenko Aarti Basant Yuxi Hu Jiyan Yang Ehsan K。Ardestani Xiaodong Wang Rakesh Komuraveli Ching-Hsiang Chu Serhat Yilmaz Huayu Li Jiyuan Qian Zhoobo Feng Yinbin Ma Junjie Yang Ellie Wen Hong Li Lin Yang Chonglin Sun Whitney Zhao Dimitry熔化Krishna Dhulipala K.R。基肖尔·泰勒格拉夫·阿萨夫·艾森曼·基兰·库马尔·马塔姆·阿迪·甘吉迪·国强杰里·陈曼诺·克里希南·阿维纳什·纳亚克·克里希纳库马尔·奈尔学院穆提亚·马哈茂德·霍拉沙迪·巴塔查里亚·佩特·拉普霍夫·马克西姆·诺莫夫·林乔·米哈伊尔·斯梅利扬斯基·比尔·贾和维杰伊·拉奥。2021.大型深度学习推荐模型的高性能分布式培训。CoRR abs \/2104.05158（2021）arXiv:2104.05158。arxiv:2104.05158“}，{”key“：”e_1_3_2_1_33_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1145\/3341301.3359646”}，“key”：“e_1_a_2_1_34_1”，“volume-title”：“Memory-Effective Pipeline-Parallel DNN Training.CoRR，abs\/2006.09503”，“author”：“Narayanan Deepak”，”年份：“2020”，“unstructured”：“”Deepak Narayanan、Amar Phanishaye、Kaiyu Shi、Xie Chen和Matei Zaharia。2020.内存高效管道并行DNN训练。CoRR，abs \/2006.09503（2020），arXiv:2006.09503。arxiv:2006.09503 Deepak Narayanan、Amar Phanishayee、Kaiyu Shi、Xie Chen和Matei Zaharia，2020年。记忆高效的管道并行DNN培训。CoRR，abs \/2006.09503（2020），arXiv:2006.09503。arxiv:2006.09503“}，{“key”：“e_1_3_2_1_35_1”，“volume-title”：“GPU集群上的高效大规模语言模型训练。CoRR，abs\/2104.04473”，“author”：“Narayanan Deepak”，《年份》：“2021”，“非结构化”：“Deepak Narayanan、Mohammad Shoeybi、Jared Casper、Patrick LeGresley、Mostofa Patwarve、Vijay Korthikanti、Dmitri Vainbrand、Prethvi Kashinkunti、Julie Bernauer、Bryan Catanzaro、Amar Phanishayee和Matei Zaharia。2021.在GPU集群上进行高效的大规模语言模型培训。CoRR，abs（2021年），arXiv:2104.04473。阿西夫：2104.04473迪帕克·纳拉亚南（Deepak Narayanan）、穆罕默德·肖伊比（Mohammad Shoeybi）、贾里德·卡斯珀（Jared Casper）、帕特里克·勒格斯利（Patrick LeGresley）、莫斯托法·帕特维尔（Mostofa Patwarve）、维杰伊·科尔蒂坎蒂（Vijay Kortikanti）、德米特里·瓦恩布兰德（Dmitri Vainbrand）、普雷什维·卡辛通蒂（Prethvi Kasingunti）、朱莉·贝纳（Julie Bernauer）、布莱恩·卡坦扎罗（Bryan Catanzaro）。基于GPU集群的高效大尺度语言模型训练。CoRR，abs（2021年），arXiv:2104.04473。arxiv:2104.04473“}，{”key“：”e_1_3_2_1_36_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/MM.2021.3058217”}，“key”：“e_1_3_2_1_37_1”，“unstructured”：“Ali Alvi Paresh Kharya.2021。使用DeepSpeed和威震天训练威震天——NLG 530B是2019年世界上最大、最强大的生成语言模型。https:\/\/developer.nvidia.com/blog\/using-deepspeed-and-megatron-train-megator-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model\/\t\t\t\t阿里·阿尔维·帕雷什·卡里亚。2021.使用DeepSpeed和威震天训练威震天——NLG 530B成为2019年世界上最大、最强大的生成语言模型。https:\/\/developer.nvidia.com/blog\/using-deepspeed-and-megatron-train-megartron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model\/“}，{“key”：“e_1_3_2_1_38_1”，“volume-title”：“高性能深度学习库。《神经信息处理系统进展》第32期：2019年神经信息处理年会》，“作者”：“Paszke Adam”，“年份”：“2019年”，“非结构化”：“Adam Paszke，Sam Gross，Francisco Massa，Adam Lerer，James Bradbury，Gregory Chanan，Trevor Killeen，Zeming Lin，Natalia Gimelshein，Luca Antiga，Alban Desmaison，安德烈亚斯·K\u00f6pf、爱德华·Z.杨、扎卡里·德维托、马丁·莱森、阿利坎·特贾尼、萨桑克·奇拉姆库蒂、本诺伊特·施泰纳、卢芳、白俊杰和索米斯·钦塔拉。2019 . PyTorch：一个势在必行的风格、高性能的深度学习库。《神经信息处理系统进展》第32期：2019年神经信息处理体系年会，2019年12月8日至14日，加拿大不列颠哥伦比亚省温哥华。8024\u20138035。Adam Paszke、Sam Gross、Francisco Massa、Adam Lerer、James Bradbury、Gregory Chanan、Trevor Killeen、Zeming Lin、Natalia Gimelshein、Luca Antiga、Alban Desmaison、Andreas K\u00f6pf、Edward Z.Yang、Zachary DeVito、Martin Raison、Alykhan Tejani、Sasank Chilamkurthy、Benoit Steiner、Lu Fang、Junjie Bai和Soumith Chintala。2019.PyTorch：一个势在必行的风格、高性能的深度学习图书馆。《神经信息处理系统进展32：2019年神经信息处理系统年会》，NeurIPS 2019，2019年12月8日至14日，加拿大不列颠哥伦比亚省温哥华。8024\u20138035.“}，{“key”：“e_1_3_2_1_39_1”，“volume-title”：“碳排放与大型神经网络训练。CoRR，abs\/2104.10350”，“author”：“Patterson David A.”，“year”：“2021”，“unstructured”：“David A.Patterson，Joseph Gonzalez，Quoc V.Le，Chen Liang，Lluis-Miquel Munguia，Daniel Rothchild，David R。那么，莫德·特克西和杰夫·迪恩。2021.碳排放和大型神经网络培训。CoRR，abs\/2104.10350（2021），arXiv:2104.10350。arxiv:2104.10350大卫·A·帕特森、约瑟夫·冈萨雷斯、奎克·V·勒、陈亮、卢伊斯·米克尔·蒙吉亚、丹尼尔·罗思奇尔德、大卫·R·苏、莫德·特克西尔和杰夫·迪恩。2021.碳排放和大型神经网络培训。CoRR，abs\/2104.10350（2021），arXiv:2104.10350。arxiv:2104.10350“}，{“key”：“e_1_3_2_1_40_1”，“volume-title”：“消息传递接口的最新进展”，“author”：“Pellegrini Simone”，《unstructured》：“Simone Pellegriniti，Torsten Hoefler，and Thomas Fahringer，2012。增加通信重叠的精确相关性分析。消息传递接口的最新进展。施普林格-柏林-海德堡，柏林，海德堡。89\u201399。isbn:978-3-642-33518-1西蒙·佩莱格里尼、托尔斯滕·霍夫勒和托马斯·法林格。2012.通信重叠增加的精确依赖性分析。消息传递接口的最新进展。施普林格-柏林-海德堡，柏林，海德堡。89\u201399。isbn:978-3-642-33518-1“}，{“key”：“e_1_3_2_1_41_1”，“volume-title”：“Liu”，“author”：“Raffel Colin”，“year”：“2019”，“unstructured”：“科林·拉斐尔（Colin Raffel）、诺姆·沙泽尔（Noam Shazeer）、亚当·罗伯茨（Adam Roberts）、凯瑟琳·李（Katherine Lee）、莎兰·纳朗（Sharan Narang）、迈克尔·马泰纳（Michael Matena）、周燕琪（Yanqi Zhou）、李伟（Wei Li）和彼得·J。线路接口单元。2019 . 使用统一的文本到文本转换器探索迁移学习的局限性。CoRR，abs（1910.10683）（2019年），arXiv:1910.10683。arxiv:1910.10683科林·拉斐尔（Colin Raffel）、诺姆·沙泽尔（Noam Shazeer）、亚当·罗伯茨（Adam Roberts）、凯瑟琳·李（Katherine Lee）、莎兰·纳朗（Sharan Narang）、迈克尔·马泰纳（Michael Matena）、周燕琪（Yanqi Zhou）、李伟（Wei Li）和彼得·刘（Peter J.Liu）。2019.使用统一文本对文本转换器探索迁移学习的局限性。CoRR，abs（1910.10683）（2019年），arXiv:1910.10683。arxiv:1910.10683“}，{“key”：“e_1_3_2_1_42_1”，“非结构化”：“Aditya Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen和Ilya Sutskever.2021。零快照文本到图像生成。阿西夫：2102.12092\t\t\t\t阿迪蒂亚·拉梅什·米哈伊尔·巴夫洛夫·加布里埃尔·戈·斯科特·格雷·切尔西·沃斯·亚历克·拉德福德·马克·陈和伊利亚·萨茨克弗。2021.零快照文本到图像生成。arxiv:2102.12092“}，{”key“：”e_1_3_2_1_43_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ISCA52012.2021.00049”}，“key”：“e_1_a_2_1_44_1”，“volume-title”：“Glow：神经网络图形降低编译器技术.abs\/1805.00907”，“author”：“Rotem Nadav”，“year”：“2018”，“unstructured”：“”纳达夫·罗特姆（Nadav Rotem）、乔丹·菲克斯（Jordan Fix）、萨利姆·阿卜杜拉索尔（Saleem Abdullasool）、萨默特·邓（Summer Deng）、罗曼·扎巴罗夫（Roman Dzhabarov）、詹姆斯·赫格曼（James Hegeman）、罗马·列文斯坦（Roman Levenstein）、伯特·马赫（Bert Maher）、纳达图尔·。2018 . 发光：神经网络的图形降低编译器技术。abs \/1805.00907（2018），arXiv:1805.00907。arxiv:1805.00907纳达夫·罗特姆（Nadav Rotem）、乔丹·菲克斯（Jordan Fix）、萨利姆·阿卜杜拉索尔（Saleem Abdullasool）、萨默特·邓（Summer Deng）、罗曼·扎巴罗夫（Roman Dzhabarov）、詹姆斯·赫格曼（James Hegeman）、罗曼·列文斯坦（Roman Levenstein）、伯特·马希尔（Bert Maher）、纳达图尔·。2018年，Glow：神经网络图形降低编译器技术。abs \/1805.00907（2018），arXiv:1805.00907。arxiv:1805.00907“}，{“key”：“e_1_3_2_1_45_1”，“volume-title”：“Hechtman”，“author”：“Shazeer Noam”，“year”：“2018”，“unstructured”：“诺姆·沙泽尔（Noam Shazeer）、郑友龙（Youlong Cheng。赫克特曼。2018 . Mesh-TensorFlow：超级计算机的深度学习。CoRR，abs\/1811.02084（2018），arXiv:1811.02084。arxiv:1811.02084诺姆·沙泽尔、郑友龙、尼基·帕马尔、达斯汀·Tran、阿什什·瓦斯瓦尼、潘朋·科纳塔科尔、彼得·霍金斯、HyoukJoong Lee、洪明生、克里夫·杨、瑞安·塞帕西和布莱克·赫奇曼。2018年，Mesh-TensorFlow：超级计算机的深度学习。CoRR，abs\/1811.02084（2018），arXiv:1811.02084。arxiv:1811.02084“}，{“key”：“e_1_3_2_1_46_1”，“volume-title”：“Megatron-LM:使用模型并行性训练数百万参数语言模型。CoRR，abs\/1909.08053”，“author”：“Shoeybi Mohammad”，“year”：“2019”，“unstructured”：“Mohammad-Shoeybi-Mostofa Patwarve，Raul Puri，Patrick LeGresley，Jared Casper，and Bryan Catanzaro.2019。Megatron-LM：使用模型并行性训练数百万参数语言模型。CoRR，abs（2019），arXiv:1909.08053。阿西夫：1909.08053 Mohammad Shoeybi、Mostofa Patwarve、Raul Puri、Patrick LeGresley、Jared Casper和Bryan Catanzaro。2019.Megatron-LM：使用模型并行性训练数百万参数语言模型。CoRR，abs（2019），arXiv:1909.08053。arxiv：1909.08053“｝，｛“key”：“e_1_3_2_1_47_1”，“doi asserted by”：“publisher”，“doi”：“10.5555\/203408.2033420”｝，｛“key”：“e_1_3_2_1_48_1”，“volume title”：“van de Geijn and Jerrell Watts”，“author”：“Robert”，“year”：“1995”，“nonstructured”：“Robert A.van de Geijn and Jerrell Watts。1995。SUMMA：可扩展通用矩阵乘法算法。美国。Robert A.van de Geijn和Jerrell Watts。1995年。SUMMA：可扩展通用矩阵乘法算法。美国“}，{”key“：”e_1_3_2_1_49_1“，”volume-title“：”\u0141 ukasz Kaiser，and Illia Polosukhin“，“author”：“Vaswani Ashish”，“year”：“2017”，“unstructured”：“阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌兹科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、乌卡斯·凯泽（u0141 ukasz Kaiser）和伊利亚·波卢什金（Illia Polosukhin）。2017 . 注意力是你所需要的。神经信息处理系统进展。30，https:\/\/processes.neurips.cc\/paper\/2017\/file\/3f5ee243547dee91fbd053c1c4a845aa-paper.pdf Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、\u0141 ukasz Kaiser和Illia Polosukhin。2017年。关注是你所需要的。神经信息处理系统进展。30，https:\/\/procedures.neurips.cc\/paper\/2017\/file\/3f5ee243547dee91fbd053c1c4a845aa-paper.pdf“}，{“key”：“e_1_3_2_1_50_1”，“volume-title”：“abs\/2105.14500”，“author”：“Wang Boxiang”，“year”：“2021”，“unstructured”：“Boxiang，Qifan Xu，Zhengda Bian，and Yang You.2021”。2.5维分布式模型训练。CoRR，abs（2021年），arXiv:2105.14500。arxiv:2105.14500王伯祥、徐启凡、卞正大和杨友。2021.2.5维分布式模型训练。CoRR，abs（2021年），arXiv:2105.14500。arxiv:2105.14500“}，{“key”：“e_1_3_2_1_51_1”，“volume-title”：“The Free Encyclopedia”，“unstructured”：“Wikipedia.2022”。爱因斯坦注释\u2014维基百科，自由百科全书。http:\/\/en.wikipedia.org\/w\/index.php？title=Einstein%20notations&oldid=1083457917[在线；2022年6月21日访问]维基百科。2022.爱因斯坦注释\u2014维基百科，自由百科全书。http:\/\/en.wikipedia.org\/w\/index.php？title=Einstein%20notations&oldid=1083457917[在线；2022年6月21日访问]“}，{“key”：“e_1_3_2_1_52_1”，“volume-title”：“GSPMD:ML计算图的通用和可伸缩并行化。arxiv:2105.04663.”，“author”：“Xu Yuand钟”，“year”：“2021”，“unstructured”：“徐元忠、李孝忠、陈德浩、布莱克·赫奇曼、黄延平、拉胡尔·乔希、马克西姆·克里坤、德米特里·勒皮钦、安迪·李、马塞洛·马吉奥尼、彭若明、诺亚姆·沙泽尔、王世波、王涛、吴永辉和陈志峰。2021 . GSPMD：ML计算图的通用可扩展并行化。arxiv：2105.04663。徐元忠、李孝忠、陈德浩、布莱克·赫奇曼、黄延平、拉胡尔·乔希、马克西姆·克里坤、德米特里·勒皮钦、安迪·李、马塞洛·马吉奥尼、彭若明、诺亚姆·沙泽尔、王世波、王涛、吴永辉和陈志峰。GSPMD：ML计算图的通用和可扩展并行化。arxiv:2105.04663.“}，{“key”：“e_1_3_2_1_53_1”，“volume-title”：“PipeMare：异步管道并行DNN培训。CoRR，abs\/1910.05124”，“author”：“Yang Bowen”，“year”：“2019”，“unstructured”：“Bowen Yang，Jian Zhang，Jonathan Li，Christopher R\u00e9，Christopor R.Aberger，and Christopher-De Sa.2019。PipeMare：异步管道并行DNN培训。CoRR，abs\/1910.05124（2019），arXiv:1910.05124。arxiv:1910.05124杨伯文、张健、李乔纳森、克里斯托弗·鲁00e9、克里斯托弗·R·阿伯杰和克里斯托弗·德萨。2019。PipeMare：异步管道并行DNN培训。CoRR，abs\/1910.05124（2019），arXiv:1910.05124。arxiv:1910.05124“}，{”key“：”e_1_3_2_1_54_1“，”doi-asserted-by“：”crossref“，“unstructured”：“Xiaohua Zhai Alexander Kolesnikov Neil Houlsby和Lucas Beyer.2021。缩放视觉变形金刚。arxiv：2106.04560。\t\t\t\t翟晓华Alexander Kolesnikov Neil Houlsby和Lucas Beyer。2021.缩放视觉变形金刚。arxiv:2106.04560.“，”DOI“：”10.1109\/CVPR52688.2022.01179“}，{“key”：“e_1_3_2_1_55_1”，“volume-title”：“Bhuvana Ramabhadran，Tara N.Sainath，Fran\u00e7oise Beaufays，Zhifeng Chen，Quoc V.Le，Chung-Cheng Chiu，Ruoming Pang，and Yonghui Wu。”，“author”：“Zhang Yu”，“year”：“2021”，“unstructured”：“Yu Zhang，Daniel S。Park、魏翰、詹姆斯·秦刚、安莫尔·古拉蒂、乔尔·肖尔、阿伦·扬森、徐元忠、黄延平、王世波、周宗伟、李波、马敏、陈威廉、余家慧、王永强、曹良良、齐柴西姆、布瓦纳·拉马巴德兰、塔拉·N·赛纳、弗兰克·博费斯、陈志峰、郭文乐、钟成秋、彭若明、，和吴永辉。2021 . BigSSL：探索用于自动语音识别的大规模半监督学习的前沿。arxiv:2109.13226。张瑜、丹尼尔·S·帕克、魏翰、詹姆斯·秦刚、安莫尔·古拉蒂、乔尔·肖尔、阿伦·简森、徐元忠、黄延平、王世波、周宗伟、李波、马敏、陈威廉、余家辉、王永强、曹良良、齐柴·西蒙、布瓦娜·拉马巴德兰、塔拉·N·赛纳、弗兰克·博费斯、陈志峰、郭文乐、钟成秋、彭若明、，和吴永辉。2021.BigSSL：探索大规模半监督自动语音识别学习的前沿。arxiv:2109.13226.“}]，“event”：{“name”：“ASPLOS’23:第28届ACM编程语言和操作系统架构支持国际会议，第1卷”，“location”：“加拿大不列颠哥伦比亚省温哥华”，“缩写词”：“ASPLOS’23”，“赞助商”：[“SIGARCH ACM计算机架构特别兴趣小组”，“SIGOPS ACM操作系统特别兴趣小组“，“SIGPLAN ACM编程语言特别兴趣小组”]}，“container-title”：[“第28届ACM国际编程语言和操作系统架构支持会议记录，第1卷”]，“原文标题”：[]，“链接”：[{“URL”：“https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3567955.3567959“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]，”deposed“：{”date-parts“：[[2023,3,27]]，”date-time“：“2023-03-27T19:10:59Z”，”timestamp“：1679944259000}，”score“：1，”resource“：”{“primary”：{“URL”：“https:\/\/dl.acm.org\/doi\/10.1145\/3567955.3567959“}}，”副标题“：[]，”短标题“：[]，”已发布“：{”日期部分“：[2022,12,19]]}，“引用计数”：55，“alternative-id”：[“10.1145\/356755.3567959”，“10.1145\/3567955”]，“URL”：“http://\/dx.doi.org\/10.1145 \/35679”，“关系”：{}，“主题”：[]，“已发布”：{“日期部分”：[[2022,12,19]]}，”断言“：[{”value“：”2022-12-21“，”order“：2，”name“：”published“，”label“：”published“，”group“：{”name“:”publication_history“，”标签“：”publication history“}}]}}