{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,5,28]],“日期-时间”:“2024-05-28T20:09:50Z”,“时间戳”:1716926990247},“出版商位置”:“美国纽约州纽约市”,“引用-计数”:32,“出版者”:“ACM”,“内容-域”:[“dl.ACM.org”],“交叉标记-striction“:true},”short-container-title“(限制):[],“published-print”:{“date-parts”:[[2023,3,25]]},“DOI”:“10.1145\/3582016.3582016.35822018”,“type”:“proceedings-article”,“created”:{“date-parts”:[[2023,3,20]],“date-time”:“2023-03-20T16:59:03Z”,“timestamp”:1679331543000},《update-policy》:“http://\/dx.DOI.org\/10.1145\/crossmark-policy”,“source”:“Crossref”,“is-referenced-by-count”:3,“title”:[“石墨烯:GPU上优化张量计算的IR”],“前缀”:“10.1145”,“作者”:[{“given”:“Bastian”,“family”:“Hagedorn”,“sequence”:“first”,“affiliation”:[}“name”:“NVIDIA,Germany”}]},{“给定”:“Bin”,“家族”:“Fan”,:“Chen”,“sequence”:“additional”,“从属关系”:[{“name”:“NVIDIA,USA”}]},{“given”:“Cris”,“family”:“Cecka”,“sequence”:“additional”,“affiliation”:[[{”name“:”NVIDIA,USA“}]},{”given“:”Michael“,”family“:”Garland“,“se序列”:“additional”、“affidiation”:[{“name':”NVIDIA,USA:“additional”,“affiliation”:[{“name”:“NVIDIA,USA”}]}],“member”:“320”,“published-online”:{“date-parts”:[[2023,3,25]]},“reference”:[{“key”:“e_1_3_2_1_1_1”,“volume-title”:“CUTLASS:Python API、增强功能和CUTLASS 3.0预览(宣布CuTe编程模型)。https:\/\/static.rafocus.com\/nvidia\/gtcfall2022\/sesss\/1655735950588001cX98\/supmat\/A4131”,“author”:“nvidia GTC“,”年份“:”2022“,“非结构化”:“NVIDIA GTC 2022年秋季。2022 . CUTLASS:Python API、增强功能和CUTLASS 3.0预览版(宣布CuTe编程模型)。https:\/\/static.rainocus.com/nvidia\/gtcfall2022\/sesss\/1655735950588001cX98\/supmat\/A41131 nvidia GTC 2022秋季。2022.CUTLASS:Python API、增强功能和CUTLASS 3.0预览版(宣布CuTe编程模型)。https:\/\/static.erainfocus.com\/nvidia\/gtcfall2022\/sses\/165735950588001cX98\/supmat\/A41131“},{“key”:“e_1_3_2_2_1”,“unstructured”:“Robert Atkey Michel Steuwer Sam Lindley and Christophe Dubach.2017。并行功能代码的保留策略编译。\罗伯特·阿特基·米歇尔·斯特沃·萨姆·林德利和克里斯托夫·杜巴赫。2017.并行功能代码的策略保留编译。“},{”key“:”e_1_3_2_1_3_1“,”volume-title“:”Volta Tensor Cores的自动内核生成。CoRR abs \/2006.12645“,”author“:”Bhaskaracharya Somashekaracharya G.“,“年”:“2020”,“非结构化”:“Somashecaracharya G.Bhaskacharya,Julien Demouth,and Vinod Grover.2020。Volta张量核的自动核生成。CoRR abs \/2006.12645(2020)。arxiv:2006.12645 https://arxiv.org/abs\/2006.12645 Somashekaracharya G.Bhaskaracharya、Julien Demouth和Vinod Grover。2020年,Volta Tensor内核自动生成。CoRR abs \/2006.12645(2020)。arxiv:2006.12645 https:\/\/arxiv.org\/abs\/2006.12645“},{”key“:”e_1_3_2_1_4_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3485137”},“{”key“:“e_1_ 3_2_1_1_5_1”,“volume-title”:“TVM:一种用于深度学习的自动化端到端优化编译器。在第13届USENIX操作系统设计与实现研讨会上,OSDI 2018”,“作者”:“陈天奇”,“年份”:“2018年”,“非结构化”:“陈田琪(Tianqi Chen)、蒂埃里·莫罗(Thierry Moreau)、姜子亨(Ziheng Jiang)、郑连民(Lianmin Zheng)、严爱迪(Eddie Q.Yan)、沈海晨(Haichen Shen)、梅根·考恩(Meghan Cowan)、王乐远(Leyuan)、胡玉伟。2018 . TVM:用于深度学习的自动端到端优化编译器。在2018年10月8日至10日于美国加利福尼亚州卡尔斯巴德举行的第13届USENIX操作系统设计与实现研讨会上,OSDI 2018。578\u2013594。https:\/\/www.usenix.org\/conference\/osdi18\/presentation\/chen Tianqi chen、Thierry Moreau、Ziheng Jiang、Lianmin Zheng、Eddie Q.Yan、Haichen Shen、Meghan Cowan、Leyuan Wang、Yuwei Hu、Luis Ceze、Carlos Guestrin和Arvind Krishnamurthy。2018.TVM:用于深度学习的自动化端到端优化编译器。2018年10月8日至10日,在美国加利福尼亚州卡尔斯巴德举行的2018年OSDI第13届USENIX操作系统设计与实现研讨会上。578\u2013594。https:\/\/www.usenix.org\/conference\/osdi18\/presentation\/chen“},{”key“:”e_1_3_2_1_6_1“,”doi-asserted-by“:”publisher“,“doi”:“10.18653\/v1\/n19-1423”},“key”:“e_1_3_2_1_7_1”,“volume-title”:“Yong Yu,Tianqi chen。”,“author”:“Feng Siyuan”,“year”:“2022”,“unstructured”:“”冯思源、侯伯翰、金宏毅、林无伟、邵俊如、赖瑞航、叶子豪、郑连敏、余浩、余勇、陈天奇。2022 . TensorIR:自动张力化程序优化的抽象。冯思源、侯伯翰、金宏毅、林无伟、邵俊如、赖瑞航、叶子豪、郑连敏、余浩、余勇、陈天奇。2022.TensorIR:自动张力化程序优化的抽象。},{“key”:“e_1_3_2_1_8_1”,“非结构化”:“谷歌,2017。TensorFlow XLA公司。https:\/\/www.tensorflow.org\/xla\t\t\t谷歌。2017年TensorFlow XLA。https:\/\/www.tensorflow.org\/xla“},{“key”:“e_1_3_2_1_9_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1145\/341063.3414632“}”,{”key“:”e_1_ 3_2_1_10_1“,”doi-assert-by“:”publisher“,I“:”10.1109\/CGO51591.2021.9370308“},{“键”:“e_1_3_2_12_1”,“卷时间”:“GShard:使用条件计算和自动切分缩放巨型模型。在第九届国际学习代表大会上,ICLR 2021,“作者”:“Lepikhin Dmitry”,“年份”:“2021”,“非结构化”:“Dmitry Lepikhi,Hyouk Joong Lee,Yuan zhong Xu,Dehao Chen,Orhan Firat,Yanping Huang,Maxim Krikun,Noam Shazeer,and Zhifeng Chen。2021 . GShard:使用条件计算和自动切分缩放巨型模型。在2021年5月3日至7日于奥地利举行的第九届国际学习代表大会上,ICLR 2021,虚拟活动。OpenReview.net。https:\/\/openreview.net\/forum?id=qrwe7XHTmYb Dmitry Lepikhin、HyoukJoong Lee、Yuanzhong Xu、Dehao Chen、Orhan Firat、Yanping Huang、Maxim Krikun、Noam Shazeer和Zhifeng Chen。2021.GShard:使用条件计算和自动切分缩放巨型模型。在2021年5月3日至7日于奥地利举行的第九届国际学习代表大会上,ICLR 2021,虚拟活动。OpenReview.net。https:\/\/openreview.net\/forum?id=qrwe7XHTmYb“},{“key”:“e_1_3_2_13_1”,“非结构化”:“MLIR.2022。\u2019gpu\u2019方言。https:\/\/mlir.llvm.org\/docs\/Dialects\/GUP\/\t\t\t\t\tMLIR。2022.\u2019gpu\u2019方言。https:\/\/mlir.llvm.org\/docs\/Dialects\/GPU\/“},{“key”:“e_1_3_2_14_1”,“unstructured”:“NVIDIA.2017。沃尔特建筑白皮书。https:\/\/images.nvidia.com/content\/volta-architecture\/pdf\/volata-architecture-whitepaper.pdf\t\t\t nvidia。2017年,沃尔特建筑白皮书。https:\/\/images.nvidia.com/content\/volta-architecture\/pdf\/volata-architecture whitepaper.pdf“},{“key”:“e_1_3_2_15_1”,“unstructured”:“nvidia.2018。图灵建筑白皮书。https:\/\/images.nvidia.com/aem-dam\/en-zz\/Solutions\/design-visualization\/technologies\/turing-architecture\/nvidia-turing-architecture-Whitepaper.pdf\t\t\t nvidia。2018年,图灵建筑白皮书。https:\/\/images.nvidia.com/aem-dam\/en-zz\/Solutions\/design-visualization\/technologies\/turing-architecture\/nvidia-turing-architecture-Whitepaper.pdf“},{“key”:“e_1_3_2_16_1”,“unstructured”:“nvidia.2021”。Ampere建筑白皮书。https:\/\/www.nvidia.com/content\/PDF\/nvidia-ampera-ga-102-gpu-architecture-whitepaper-v2.1.PDF\t\t\t nvidia。2021.安培建筑白皮书。https:\/\/www.nvidia.com/content\/PDF\/nvidia-ampera-ga-102-gpu-architecture-whitepaper-v2.1.PDF“},{“key”:“e_1_3_2_17_1”,“unstructured”:“nvidia.2022”。CUTLASS-CuTe文件。https:\/\/github.com//NVIDIA\/cutlass\/tree\/master\/media\/docs\/cute\t\t\t NVIDIA(英伟达)。2022.CUTLASS-CuTe文件。https:\/\/github.com//NVIDIA\/cutlass\/tree\/master\/media\/docs\/cute“},{“key”:“e_1_3_2_18_1”,“unstructured”:“NVIDIA.2022”。CUTLASS-CuTe预测。https:\/\/github.com//NVIDIA\/cutlass\/blob\/master\/media\/docs\/cute\/0y_prestition.md\t\t\t NVIDIA。2022.CUTLASS-CuTe预测。https:\/\/github.com//NVIDIA\/cutlass\/blob\/master\/media\/docs\/cute\/0y_prescription.md“},{“key”:“e_1_3_2_19_1”,“unstructured”:“NVIDIA.2022”。PTX ISA公司。https:\/\/docs.nvidia.com/cuda\/parallel-thread-execution\/index.html \t\t\t nvidia。2022.PTX ISA公司。https:\/\/docs.nvidia.com/cuda\/parallel-thread-execution\/index.html“},{“key”:“e_1_3_2_1_20_1”,“unstructured”:“nvidia.2022”。PTX ISA-SM70 mma-884-f16。https:\/\/docs.nvidia.com/cuda\/parallel-thread-execution\/index.html#warp-level-matrix-fragment-mma-884-f16\t\t\t nvidia。2022.PTX ISA-SM70 mma-884-f16。https:\/\/docs.nvidia.com/cuda\/parallel-thread-execution\/index.html#warp-level-matrix-fragment-mma-884-f16“},{“key”:“e_1_3_2_1_21_1”,“volume-title”:“Mesh-TensorFlow:超级计算机的深度学习。神经信息处理系统进展31:2018年神经信息处理系年会”,“author”:“Shazeer Noam”,“年份”:“2018”,“非结构化”:“Noam Shazeer、Youlong Cheng、Niki Parmar、Dustin Tran、Ashish Vaswani、Penporn Koanantakoool、Peter Hawkins、HyoukJoong Lee、Mingseng Hong、Cliff Young、Ryan Sepassi和Blake A.Hechtman。2018 . Mesh-TensorFlow:超级计算机的深度学习。《神经信息处理系统进展》第31期:2018年神经信息处理体系年度会议,NeurIPS 2018,2018年12月3日至8日,加拿大Montr\u00e9al,Samy Bengio,Hanna M.Wallach,Hugo Larochelle,Kristen Grauman,Nicol\u00f2 Cesa-Bianchi和Roman Garnett(编辑)。10435\u201310444。https:\/\/procedures.neurips.cc\/paper\/2018\/hash\/3a37abdeefe1dab1b30f7c5c7e581b93-Abstract.html诺姆·沙泽尔、郑友龙、尼基·帕马尔、杜斯汀·特兰、阿什什·瓦斯瓦尼、潘朋·科安纳塔科尔、彼得·霍金斯、HyoukJoong Lee、Mingsheng Hong、克利夫·杨、瑞恩·塞帕西和布莱克·赫特曼。2018年,Mesh-TensorFlow:超级计算机的深度学习。《神经信息处理系统进展31:2018年神经信息处理系统年会》,NeurIPS 2018,2018年12月3日至8日,加拿大蒙特利尔,Samy Bengio,Hanna M.Wallach,Hugo Larochelle,Kristen Grauman,Nicol\u00f2 Cesa Bianchi和Roman Garnett(编辑)。10435\u201310444。https:\/\/procedures.neurips.cc\/paper\/2018\/hash\/3a37abdeefe1dab1b30f7c5c7e581b93-Abstract.html“},{“密钥”:“e_1_3_2_1_22_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/353090.3532733”},}“密钥“:”e_3_2_23_1“,”doi-assert-by“:”publisher“,“doi-”:“10.5555\/3049832.3049841”},{“key”:“e_1_3_2_1_24_1”,“非结构化”:“Vijay Thakkar Pradeep Ramani Cris Cecka Aniket Shivam Honghao Lu Ethan Yan Jack Kosaian Mark Hoemmen Haicheng Wu Andrew Kerr Matt Nicely Duane Merrill Dustyn Blasig Fengqi Qiao Piotr Majcher Paul Springer Markus Hohnerbach Jin Wang和Manish Gupta。2023.卡特拉斯。https:\/\/github.com/NVIDIA\/cutlass\t\t\t\t维杰伊·塔卡·普拉迪克·拉马尼·克里斯·塞卡·安妮基特·希瓦姆·洪浩路伊桑·颜·杰克·科赛安·马克·霍姆曼·海城吴安德鲁·科尔·马特·尼切利·杜安·梅里尔·达斯特恩·布拉西格·丰奇·乔·彼得·马切尔·保罗·斯普林格·马库斯·霍内巴赫·金·王和马尼什·古普塔。2023.卡特拉斯。https:\/\/github.com/NVIDIA\/cutlass“},{”key“:”e_1_3_2_1_25_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/3315508.3329973”},“key”:“e_1_ 3_2_1_2 6_1”,“unstructured”:“OpenAI Triton.2022”。Triton指令选择转换过程。https:\/\/github.com//openai\/Triton\/blob\/master\/lib\/codegen\/Selection\/generator.cc\t\t\t openai Triton。2022.Triton指令选择转换过程。https:\/\/github.com/openai\/Triton\/blob\/master\/lib\/codegen\/Selection\/generator.cc“},{“key”:“e_1_3_2_1_27_1”,“unstructured”:“Apache TVM.2022。使用Tensorize来利用硬件内部特性。https:\/\/tvm.apache.org/docs\/how_to\/work_with_schedules\/tensorize.html\t\t\t\t apache tvm。2022.使用Tensorize来利用硬件内部特性。https:\/\/tvm.apache.org\/docs\/how_to\/work_with_schedules\/tensimize.html“},{“key”:“e_1_3_2_1_28_1”,“volume-title”:“MLIR中的可组合和模块代码生成:张量编译器构造的结构化和可重定目标方法。CoRR abs\/2202.03293”,“author”:“Vasilache Nicolas”,“year”:“2022”,“unstructured”:“”尼古拉·瓦西拉切(Nicolas Vasilache)、奥列克桑德·齐恩科(Oleksandr Zinenko)、阿尔特·杰克·比克(Aart J.C.Bik)、马赫什·拉维珊卡(Mahesh Ravishankar)、托马斯·劳克斯(Thomas Raoux)、亚历山大·贝利亚耶夫(Alexander Belyaev)、马提亚斯·斯普林格(Matthias Springer)、托比亚。2022.MLIR中的可组合和模块化代码生成:构建Tensor编译器的结构化和可重定向方法。CoRR abs \/2202.03293(2022)。arxiv:2202.03293 https:\/\/arxiv.org\/abs\/2202.03293Nicolas Vasilache、Oleksandr Zinenko、Aart J.C.Bik、Mahesh Ravishankar、Thomas Raoux、Alexander Belyaev、Matthias Springer、Tobias Gysi、Diego Caballero、Stephan Herhut、Stella Laurenzo和Albert Cohen。2022.MLIR中的可组合和模块化代码生成:构建Tensor编译器的结构化和可重定向方法。CoRR abs \/2202.03293(2022)。arxiv:2202.03293 https:\/\/arxiv.org\/abs\/2202.03293},{“key”:“e_1_3_2_1_29_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1109\/CGO51591.2021.9370330“}”,{”key“:”e_1_ 3_2_1_30_1“,”volume-title“:”机器学习与系统2022年会报“,”author“:”谢宁宁“,”2022年“,”非结构化“:”谢宁宁(Ningning Xie)、塔玛拉·诺曼(Tamara Norman)、多米尼克·格雷(Dominik Grewe)和迪米特里奥斯·维蒂尼奥蒂斯(Dimitrios Vytiniotis)。2022 . 针对深度学习的层次系统,综合最优并行布局和约简策略。2022年8月29日至9月1日,美国加利福尼亚州圣克拉拉,《机器学习与系统2022年会议录》,MLSys 2022,Diana Marculescu,Chi Yuejie,and Carole-Jean Wu(编辑)。mlsys.org.https:\/\/procedures.mlsys.org\/paper\/2022\/hash\/b73ce398c39f506af761d2277d853a92-Abstract.html谢宁宁、塔玛拉·诺曼、多米尼克·格雷韦和迪米特里奥斯·维蒂尼奥蒂斯。2022.针对深度学习的层次系统,综合最佳并行放置和简化策略。2022年8月29日至9月1日,美国加利福尼亚州圣克拉拉,《机器学习与系统2022年会议录》,MLSys 2022,Diana Marculescu,Chi Yuejie,and Carole-Jean Wu(编辑)。mlsys.org.https:\\//procedures.mlsys.org\/paper\/2022\/hash\/b73ce398c39f506af761d2277d853a92-Abstract.html“},{“key”:“e_1_3_2_1_31_1”,“volume-title”:“GSPMD:ML计算图的通用和可扩展并行化。CoRR abs \/2105.04663”,“author”:“Xu Yuanchong”,“year”:“2021”,”“unstructured”:“徐元忠、李孝忠、陈德浩、布莱克·赫奇曼、黄延平、拉胡尔·乔希、马克西姆·克里坤、德米特里·勒皮钦、安迪·李、马塞洛·马吉奥尼、彭若明、诺亚姆·沙泽尔、王世波、王涛、吴永辉和陈志峰。2021 . GSPMD:ML计算图的通用和可扩展并行化。CoRR abs(2021年)。arxiv:2105.04663 https:\/\/arxiv.org\/abs\/2100.04663许远忠、李孝忠、陈德豪、布莱克·赫奇曼、黄燕平、拉胡尔·乔希、马克西姆·克里坤、德米特里·列皮钦、安迪·李、马塞洛·马吉奥尼、彭若明、诺亚姆·沙泽尔、王世波、王涛、吴永辉和陈志峰。GSPMD:ML计算图的通用和可扩展并行化。CoRR abs(2021年)。arxiv:2105.04663 https:\/\/arxiv.org\/abs\/2105.04663},{“key”:“e_1_3_2_1_32_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1145\/3470496.3527440”}],“event”:{“name”:“ASPLOS'23:第28届ACM编程语言和操作系统架构支持国际会议,第3卷”,“location”:“加拿大温哥华”,“缩写”:“ASPLOS'23”,“赞助商“:[”SIGARCH ACM计算机体系结构特别兴趣小组“,”SIGOPS ACM操作系统特别兴趣小组”,“SIGPLAN ACM编程语言特别兴趣小组第28届美国计算机学会编程语言和操作系统体系结构支持国际会议论文集,第3卷“],“原标题”:[],“存放”:{“日期部分”:[[2023,3,20]],“日期-时间”:“2023-03-20T16:59:23Z”,“时间戳”:1679331563000},“分数”:1,“资源”:{“主要”:{“URL”:“https:\/\/dl.acm.org\/doi\/10.1145\/3582016.3582016.35822018“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[2023,3,25]]},“引用计数”:32,”替代id“:[”10.1145\/358016.35812018“,”10.1145\/3582016“],”URL“:”http://\/dx.doi.org\/10.1145 \/358216.352018“,“关系”:{},“主题”:[],“发布”:{“日期部分”:[[2023,3,25]]},“断言”:[{“value“:”2023-03-25“,”order“:2,”name“:”published“,”label“:”published“,”group“:{“name”:”publication_history“,”标签“:”publication history“}}]}}