通过动态反射平铺加速稀疏数据协调

作者：
Toluwanii O.Odemuyiwa先生

美国加州大学戴维斯分校

美国加州大学戴维斯分校
查看个人资料

,
哈迪·阿斯加里·莫哈达姆

美国伊利诺伊大学香槟分校

美国伊利诺伊大学香槟分校
查看个人资料

,
迈克尔·佩劳尔

美国NVIDIA

美国NVIDIA
查看个人资料

,
卡提克·赫格德

美国伊利诺伊大学香槟分校

美国伊利诺伊大学香槟分校
查看个人资料

,
蔡波安（Po-An Tsai）

美国NVIDIA

美国NVIDIA
查看个人资料

,
尼尔·C·克拉戈

美国NVIDIA

美国NVIDIA
查看个人资料

,
阿默·贾勒尔

美国NVIDIA

美国NVIDIA
查看个人资料

,
约翰·欧文斯

美国加州大学戴维斯分校

美国加州大学戴维斯分校
查看个人资料

,
埃德加·索洛莫尼克

美国伊利诺伊大学香槟分校

美国伊利诺伊大学香槟分校
查看个人资料

,
乔尔·埃默

美国麻省理工学院/美国NVIDIA

美国麻省理工学院/美国NVIDIA
查看个人资料

,
克里斯托弗·弗莱彻

美国伊利诺伊大学香槟分校

美国伊利诺伊大学香槟分校
查看个人资料

作者信息和声明

ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录，第3卷2023年3月第18-32页https://doi.org/10.1145/3582016.358202064

出版：2023年3月25日出版历史

ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录，第3卷

第18-32页

摘要

涉及多个稀疏操作数的张量代数具有严重的内存限制，这使得它成为一个具有挑战性的加速目标。此外，不规则稀疏性使传统技术复杂化，例如平铺以改善内存瓶颈。以前的稀疏平铺方案不知道稀疏性：它们将张量切割成均匀的坐标空间形状，这导致低占用率平铺，从而降低可利用的重用性。为了应对这些挑战，本文提出动态反射平铺（DRT）是一种新的平铺方法，与现有技术相比，它改进了稀疏张量核的数据重用，从而释放了显著的性能改进机会。DRT的关键思想是动态稀疏性感知平铺。DRT基于活动区域的当前稀疏性，在运行时连续重新计算稀疏张量所有输入张量，以最大限度地提高加速器缓冲区利用率，同时保留在不同张量块之间进行协同迭代的能力。

通过对一组SuiteSparse矩阵的广泛评估，我们展示了如何将DRT应用于具有不同数据流（ExTensor、OuterSPACE、MatRaptor）的多个先前加速器，从而提高其性能（分别提高3.3倍、5.1倍和1.6倍），同时增加可忽略的面积开销。我们将DRT应用于高阶张量内核，以在CPU实现和先验技术平铺方案上分别减少3.9倍和16.9倍的DRAM流量。最后，我们证明了该技术是可移植到软件上的，与未折叠稀疏矩阵乘法（SpMSpM）相比，其内存开销提高了7.29倍和2.94倍。

工具书类

2023.动态反射瓷砖。https://github.com/FPSG-UIUC/DRT网址谷歌学者
彼得·阿伦斯（Peter Ahrens）和埃里克·波曼（Erik G.Boman）。2020年。关于可变块行格式中稀疏矩阵的最佳分区。CoRR，abs/2005.12414（2020），arXiv:2005.12414。arxiv:2005.12414年谷歌学者
哈桑·梅丁·阿克图尔加、艾丁·布卢奇、塞缪尔·威廉姆斯和朝阳。2014.优化核组态相互作用计算的稀疏矩阵-多向量乘法。在国际并行和分布式处理研讨会（IPDPS）上。1213–1222. https://doi.org/10.109/IPDPS.2014.125谷歌学者数字图书馆
巴哈尔·阿斯加里（Bahar Asgari）、拉米亚德·哈迪迪（Ramyad Hadidi）、图沙尔·克里希纳（Tushar Krishna）、海森·金（Hyeson Kim）和苏哈卡尔·亚拉曼奇利（Sudhakar Yalamanchili）。2020年，ALRESCHA：轻量级可重构稀疏计算加速器。在高性能计算机体系结构（HPCA）国际研讨会上。249–260. 国际标准号码：9781728161495https://doi.org/10.1109/hpca47549.2020.00029谷歌学者交叉引用
W.Austin、G.Ballard和T.G.Kolda。2016。大规模科学数据的并行张量压缩。在国际并行和分布式处理研讨会（IPDPS）上。912–922. https://doi.org/10.109/IPDPS.2016.67谷歌学者交叉引用
阿里夫·阿扎德（Ariful Azad）、艾丁·布鲁克（Aydin Buluc）和约翰·吉尔伯特（John Gilbert）。2015.使用矩阵代数进行平行三角形计数和计数。在国际并行和分布式处理研讨会研讨会（IPDPS）上。804–811. 国际标准号码：9781467376846https://doi.org/10.109/ipdpsw.2015.75谷歌学者数字图书馆
Ariful Azad、Georgios A Pavlopoulos、Christos A Ouzounis、Nikos C Kyrpides和Aydin Buluç。2018.HipMCL：大规模网络中Markov聚类算法的高性能并行实现。《核酸研究》，46，6（2018），1月，e33:1-11。编号：0305-1048https://doi.org/10.1093/nar/gkx1313谷歌学者交叉引用
Daehyeon Baek、Soojin Hwang、Taekyung Heo、Daehoon Kim和Jaehyuk Huh。2021.InnerSP：具有局部感知内积处理的内存高效稀疏矩阵乘法加速器。在第30届并行架构和编译技术国际会议上，Jaejin Lee和Albert Cohen（编辑）（PACT 2021）。IEEE，116-128。https://doi.org/10.1109/PACT52795.2021.00016谷歌学者交叉引用
杰拉尔德·鲍姆加特纳（Gerald Baumgartner）、亚历山大·奥尔（Alexander A.Auer）、大卫·伯恩霍尔德（David E.Bernholdt）、阿里娜·比比雷塔（Alina Bibireata）、文卡特斯·乔佩拉（Venkatesh Choppella）、丹尼尔·科奇奥娃（Daniel Cociorva）、高晓阳（Xiaoyang Gao）、罗伯特·哈里森（Robert J.Harrison）、索·希拉塔（So Hirata）、斯里拉姆·克里希纳莫沃西（Sriram K。2005.一类从头算量子化学模型的高性能并行程序合成。程序。IEEE，93，2（2005），276–292年2月。https://doi.org/10.109/JPROC.2004.840311谷歌学者交叉引用
奥斯汀·R·本森和格雷·巴拉德。2015.实用并行快速矩阵乘法框架。第20届ACM SIGPLAN并行编程原理与实践研讨会论文集（PPoPP 2015）。42–53. https://doi.org/10.1145/2688500.2688513谷歌学者数字图书馆
马西耶·贝斯塔（Maciej Besta）、拉格汉德拉·卡纳卡吉里（Raghavendra Kanakagiri）、哈伦·穆斯塔法（Harun Mustafa）、米哈伊尔·卡拉西科夫（Mikhail Karasikov）、冈纳尔·雷奇（Gunnar Rätsch）、托尔斯滕·霍夫勒（Torsten。2020年，通信——高效分布式基因组比较的Jaccard相似性。在国际并行和分布式处理研讨会（IPDPS）上。1122–1132. https://doi.org/10.109/IPDPS47924.2020.00118谷歌学者交叉引用
保罗·博尔迪和塞巴斯蒂亚诺·维格纳。WebGraph框架I：压缩技术。程序中。第十三届国际万维网大会（WWW 2004）。ACM出版社，595-601。谷歌学者数字图书馆
史蒂夫·博瓦。1997年查尔斯顿港模型。https://spare.tamu.edu/bova网站尼科尔斯研究公司谷歌学者
Ayd∈Buluç和John R.Gilbert。2012.并行稀疏矩阵乘法和索引：实现和实验。SIAM科学计算杂志，34，4（2012），170–191。https://doi.org/10.1137/10848244谷歌学者数字图书馆
陈云吉、罗涛、刘少丽、张世进、何丽强、王佳、李凌、陈天石、徐志伟、孙宁辉和奥利维·特曼。2014年，《大店脑：学习机器的超级计算机》。在微体系结构国际研讨会（MICRO）上。609–622. https://doi.org/10.109/MICRO.2014.58谷歌学者数字图书馆
Yu Xin Chen、Joel Emer和Vivienne Sze。2016年，《Eyeriss:卷积神经网络节能数据流的空间架构》。在计算机体系结构国际研讨会（ISCA）上。367–379. 国际标准号码：9781467389471https://doi.org/10.109/isca.2016.40谷歌学者数字图书馆
Stephen Chou、Fredrik Kjolstad和Saman Amarasinghe。2018.稀疏张量代数编译器的格式抽象。程序。ACM计划。Lang.，2，OOPSLA（2018），第123条，10月，30页。发行编号：2475-1421https://doi.org/10.1145/3276493谷歌学者数字图书馆
克里斯蒂安·达姆豪格。1999.来自DNV软件公司Christian Damhaug的正定矩阵。。https://spare.tamu.edu/DNVS网站谷歌学者
蒂莫西·戴维斯（Timothy A.Davis）和胡一凡（Yifan Hu），2011年。佛罗里达大学稀疏矩阵收藏。ACM事务处理。数学。软件，38，1（2011），11月，1:1–1:25。https://doi.org/10.1145/2049662.2049663谷歌学者数字图书馆
伊恩·达夫（Iain S Duff）、罗杰·格里姆（Roger G Grimes）和约翰·刘易斯（John G Lewis）。1989。稀疏矩阵测试问题。ACM数学软件汇刊（TOMS），15，1（1989），3月1日至14日。谷歌学者数字图书馆
A.爱因斯坦。1916.广义相对论的基础。《物理年鉴》（Annalen der Physik），354、7（1916），769年1月至822年1月。https://doi.org/10.1002/andp.19163540702谷歌学者交叉引用
格伦·伊文布利。2020.教程1：张量收缩。https://www.tensors.net/tutorial-1谷歌学者
方子森、杨晓伟、韩乐、刘小兰。2019.基于序列截断高阶奇异值分解的张量补全算法。IEEE控制论汇刊，49，5（2019），1956-1967年5月。https://doi.org/10.109/TCYB.2018.2817630谷歌学者交叉引用
藤木大一、Niladish Chatterjee、Lee Dongyuk和Mike O'Connor。2019.用于高效稀疏矩阵多向量乘法的近内存数据转换。参加高性能计算、网络、存储和分析国际会议。ACM，第55条，17页。编号：9781450362290https://doi.org/10.1145/3295500.3356154谷歌学者数字图书馆
特雷弗·盖尔（Trevor Gale）、马泰·扎哈里亚（Matei Zaharia）、克利夫·杨（Cliff Young）和埃里希·埃尔森（Erich Elsen）。2020.用于深度学习的稀疏GPU内核。参加高性能计算、网络、存储和分析（SC）国际会议。IEEE/ACM，第17条，14页。https://doi.org/10.109/SC41405.2020.00021谷歌学者交叉引用
Ashish Gondimalla、Noah Chesnut、Mithuna Thottehodi和T.N.Vijaykumar。2019.SparTen：卷积神经网络的稀疏张量加速器。在微体系结构国际研讨会（MICRO）上。ACM，151–165。编号：9781450369381https://doi.org/10.1145/3352460.3358291谷歌学者数字图书馆
朱利娅·吉迪（Giulia Guidi）、马尔基塔·埃利斯（Marquita Ellis）、丹尼尔·罗克萨尔（Daniel Rokhsar）、凯瑟琳·耶利克（Katherine Yelick）和艾德·盖·布卢奇（Ayd∈Buluç）。2019.BELLA：伯克利高效长读对长读校准器和覆盖器。bioRxiv，10月。，https://doi.org/10.101/1464420谷歌学者交叉引用
史蒂夫·哈姆。2001.Steve Hamm，Motorola，Inc.的半导体模拟矩阵。。https://spare.tamu.edu/Hamm网站谷歌学者
Kartik Hegde、Rohit Agrawal、Yulun Yao和Christopher W.Fletcher。2018.Morph：基于3D CNN的视频理解的灵活加速。IEEE/ACM微体系结构国际研讨会（MICRO’18）。933–946. https://doi.org/10.109/MICRO.2018.00080谷歌学者数字图书馆
卡蒂克·赫格德（Kartik Hegde）、哈迪·阿斯加里·莫哈达姆（Hadi Asghari-Moghaddam。2019.ExTensor：稀疏张量代数加速器。在微体系结构国际研讨会（MICRO）上。319–333之间。编号：9781450369381https://doi.org/10.1145/3352460.3358275谷歌学者数字图书馆
Kartik Hegde、Jiyong Yu、Rohit Agrawal、Mengjia Yan、Michael Pellauer和Christopher W.Fletcher。2018年，UCNN：通过权重重复开发深度神经网络中的计算重用。在计算机体系结构国际研讨会（ISCA）上。IEEE，674–687。国际标准号码：9781538659847https://doi.org/10.109/isca.2018.0062谷歌学者数字图书馆
Changwan Hong、Aravind Sukumaran Rajam、Israt Nisa、Kunal Singh和P.Sadayappan。2019.稀疏矩阵乘法的自适应稀疏平铺。第24届并行编程原理与实践研讨会论文集。美国医学会，300-314。国际标准化组织：9781450362252https://doi.org/10.1145/3293883.3295712谷歌学者数字图书馆
丹尼尔·凯茨和弗雷德里克·曼比。2013年，实施一般局部相关方法的稀疏张量框架。《化学物理杂志》，138，14（2013），144101。https://doi.org/10.1063/1.4798940谷歌学者交叉引用
Fredrik Kjolstad、Shoaib Kamil、Stephen Chou、David Lugato和Saman Amarasinghe。2017.张量代数编译器。《美国计算机学会程序设计语言会议录》，1，OOPSLA（2017），10月，77:1–77:29。发行编号：2475-1421https://doi.org/10.1145/313901谷歌学者数字图书馆
苏雷亚·埃姆雷·库尔特（Süreyya Emre Kurt）、阿拉文德·苏库马兰·拉贾姆（Aravind Sukumaran Rajam）、法布里斯·拉斯特罗（Fabrice Rastello）和P.萨达亚潘（P.Sadayyapan）。2020年。通过矩阵签名实现高效平铺稀疏矩阵乘法。高性能计算、网络、存储和分析国际会议论文集。第87条，14页。https://doi.org/10.109/SC41405.2020.00091谷歌学者交叉引用
Jure Leskovec和Andrej Krevl。2014.SNAP数据集：斯坦福大型网络数据集收集。http://snap.stanford.edu/data谷歌学者
林毅（Y.Lin）、卢鸿昌（Hung Chang Lu）、曹杨斌（Yang Bin Tsao）、池义民（Yi-Min Chih）、陈伟超（Weichao Chen）和钱学森（S.Chien）。2020年。GrateTile：CNN处理的高效稀疏张量瓷砖。在IEEE信号处理系统（SiPS）研讨会上。1–6. https://doi.org/10.109/SiPS50750.2020.9195243谷歌学者交叉引用
蒂姆·马特森（Tim Mattson）、大卫·巴德（David A.Bader）、乔纳森·巴杜尔（Jonathan W.Berry）、艾丁·布鲁索（Aydin Buluç）、杰克·多纳拉（Jack J.Dongarra）、克里斯托斯·法洛索斯（Christos Faloutsos）、约翰·费奥（John Feo）、约翰·吉尔伯特（John R.Gilbert）、约瑟夫·冈萨雷斯（Joseph Gonzalez）、布鲁斯·亨德里克森（Bruce Hendrickson。2013.图形算法基本体标准。在IEEE高性能极限计算会议上。IEEE，1–2。https://doi.org/10.109/HPEC.2013.6670338谷歌学者交叉引用
杜安·梅里尔和迈克尔·加兰德。2016.使用CSR存储格式的基于合并的稀疏矩阵向量乘法（SpMV）。第21届ACM SIGPLAN并行编程原理与实践研讨会论文集。第43条，2页。https://doi.org/10.1145/2851141.2851190谷歌学者数字图书馆
阿努拉·穆卡拉（Anurag Mukkara）、内森·贝克曼（Nathan Beckmann）和丹尼尔·桑切斯（Daniel Sanchez）。2019.PHI：同步和带宽高效交换散射更新的架构支持。在微体系结构国际研讨会（MICRO）上。ACM，1009–1022。编号：9781450369381https://doi.org/10.1145/3352460.3358254谷歌学者数字图书馆
Yusuke Nagasaka、Satoshi Matsuoka、Ariful Azad和Ayd∈Buluç。2019.多核和多核处理器上稀疏矩阵产品的性能优化、建模和分析。并行计算。，90（2019），第102545条，12月，13页。https://doi.org/10.1016/j.parco.2019.102545谷歌学者数字图书馆
Subhankar Pal、Jonathan Beaumont、Dong-Hyeon Park、Aporva Amarnath、Siying Feng、Chaitali Chakrabarti、Hun-Seok Kim、David Blaauw、Trevor Mudge和Ronald Dreslinski。2018年，OuterSPACE：基于外部产品的稀疏矩阵乘法加速器。在高性能计算机体系结构（HPCA）国际研讨会上。IEEE，724–736。国际标准号码：9781538636596https://doi.org/10.109/hpca.2018.00067谷歌学者交叉引用
Michael Pellauer、Yakun Sophia Shao、Jason Clemons、Neal Crago、Kartik Hegde、Rangharajan Venkatesan、Stephen W.Keckler、Christopher W.Fletcher和Joel Emer.2019年。自助餐：用于显式解耦数据编排的高效可组合存储习惯用法。在编程语言和操作系统的体系结构支持国际会议上。美国医学会，137–151。编号：9781450362405https://doi.org/10.1145/3297858.3304025谷歌学者数字图书馆
Eric Qin、Ananda Samajdar、Hyoukjun Kwon、Vineet Nadella、Sudarshan Srinivasan、Dipankar Das、Bharat Kaul和Tushar Krishna。2020年，SIGMA：用于DNN培训的具有柔性互连的稀疏和不规则GEMM加速器。在高性能计算机体系结构（HPCA）国际研讨会上。IEEE，58–70。国际标准号码：9781728161495https://doi.org/10.1109/hpca47549.2020.00015谷歌学者交叉引用
Fazle Sadi、Joe Sweeney、Tze Meng Low、James C.Hoe、Larry Pileggi和Franz Franchetti。2019.使用可扩展多路合并并行化的大型和高度稀疏矩阵的高效SpMV操作。在微体系结构国际研讨会（MICRO）上。美国医学会，347-358。编号：9781450369381https://doi.org/10.1145/3352460.3358330谷歌学者数字图书馆
Shaden Smith、Jee W.Choi、Jiajia Li、Richard Vuduc、Jongsoo Park、Xing Liu和George Karypis。2017.FROSTT:开放稀疏张量和工具的可成形存储库。http://frostt.io网站/谷歌学者
Edgar Solomonik、Maciej Besta、Flavio Vella和Torsten Hoefler。2017.使用通信高效稀疏矩阵乘法在中心度之间进行缩放。高性能计算、网络、存储和分析国际会议论文集。第47条，14页。https://doi.org/10.1145/3126908.3126971谷歌学者数字图书馆
埃德加·索洛莫尼克和托尔斯滕·霍夫勒。2015。稀疏张量代数作为一种并行编程模型。CoRR，abs/1512.00066（2015），arxiv:1512.00066。arxiv:1512.00066谷歌学者
Nitish Srivastava、Hanchen Jin、Jie Liu、David Albonesi和Zhiru Zhang。2020年。MatRaptor：基于行积的稀疏矩阵乘法加速器。在微体系结构国际研讨会（MICRO）上。766–780. https://doi.org/10.109/MICRO50266.2020.00068谷歌学者交叉引用
Nitish Srivastava、Hanchen Jin、Shaden Smith、Hongbo Rong、David Albonesi和Zhiru Zhang。2020年。Tensaurus：混合稀疏密集张量计算的通用加速器。在高性能计算机体系结构（HPCA）国际研讨会上。IEEE，689–702。国际标准号码：9781728161495https://doi.org/10.1109/hpca47549.2020.00062谷歌学者交叉引用
马库斯·斯坦伯格（Markus Steinberger）、拉勒布·扎耶（Rhaleb Zayer）和汉斯·彼得·塞德尔（Hans-Peter Seidel）。2017.GPU上的全球均匀、局部自适应稀疏矩阵向量乘法。在超级计算国际会议记录中。第13条，共11页。https://doi.org/10.1145/3079079.3079086谷歌学者数字图书馆
米歇尔·米尔斯·斯特劳特、拉里·卡特、珍妮·费兰特和芭芭拉·克莱塞克。2004.平稳迭代方法的稀疏平铺。国际期刊高性能计算。申请。，18, 1 (2004), 95–113. https://doi.org/10.1177/109434204041294谷歌学者数字图书馆
Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang和Joel S.Emer.2017年。深度神经网络的高效处理：教程和调查。程序。IEEE，105，12（2017），12月2295–2329。https://doi.org/10.1109/JPROC.2017.2716740谷歌学者交叉引用
Stijn Marinus van Dongen。2000.通过流模拟进行图形聚类。博士论文。乌得勒支大学数学与计算机科学中心（CWI）。谷歌学者
理查德·武杜克（Richard W.Vuduc）和玄进·文（Hyun-Jin Moon）。2005.利用可变块结构进行快速稀疏矩阵矢量乘法。高性能计算与通信（HPCC）。3726, 807–816. https://doi.org/10.1007/11557654_91谷歌学者数字图书馆
塞缪尔·威廉姆斯（Samuel Williams）、列奥尼德·奥利克（Leonid Oliker）、理查德·武杜克（Richard Vuduc）、约翰·沙尔夫（John Shalf）、凯瑟琳·耶利克（Katherine Yelick）和詹姆斯·德梅尔（James Demmel）。2009.新兴多核平台上稀疏矩阵向量乘法的优化。并行计算。，35，3（2009年），178-194年3月。https://doi.org/10.1016/j.parco.2008.12.006谷歌学者数字图书馆
Yannan Nellie Wu、Joel S.Emer和Vivienne Sze。2019.加速器：加速器设计的架构级能量估算方法。《计算机辅助设计国际会议论文集》，David Z.Pan（编辑）（ICCAD 2019）。ACM，1-8。https://doi.org/10.109/ICCAD45719.2019.8942149谷歌学者交叉引用
阿卜杜拉赫曼·亚沙尔、穆罕默德·法提赫·巴林、安晓静、卡安·桑卡克和乌米特·沙塔利·吕克。2022.关于对称矩形分区。ACM实验算法杂志，27（2022），8月1日至26日。发行编号：1084-6654https://doi.org/10.1145/3523750谷歌学者数字图书馆
Carl Yang、Ayd∈Buluç和John D.Owens。2018.GPU上稀疏矩阵乘法的设计原则。《2018年欧洲-巴黎：第24届国际并行和分布式计算欧洲会议论文集》，Marco Aldinucci、Luca Padovani和Massimo Torquati（编辑）。672–687. https://doi.org/10.1007/978-3-319-96983-1_48谷歌学者数字图书馆
张国伟（Guowei Zhang）、尼蒂亚·阿塔鲁里（Nithia Attaluri）、乔尔·埃默（Joel S.Emer）和丹尼尔·桑切斯（Daniel Sanchez）。2021.伽马：利用古斯塔夫森算法加速稀疏矩阵乘法。第26届ACM编程语言和操作系统体系结构支持国际会议论文集（ASPLOS 2021）。687–701. 编号：9781450383172https://doi.org/10.1145/3445814.3446702谷歌学者数字图书馆
张哲凯（Zhekai Zhang）、王汉瑞（Hanrui Wang）、宋汉（Song Han）和威廉·戴利（William J.Dally）。2020年。SpArch：稀疏矩阵乘法的高效架构。在高性能计算机体系结构国际研讨会（HPCA）上。IEEE，261-274。国际标准号码：9781728161495https://doi.org/10.1109/HPCA47549.2020.00030谷歌学者交叉引用

索引术语

通过动态反射平铺加速稀疏数据协调
1. 计算机系统组织
  1. 体系结构
    1. 其他架构
      1. 专用系统
2. 硬件
  1. 集成电路
    1. 可重构逻辑和FPGA
      1. 硬件加速器

建议

SparseTIR：深度学习中稀疏编译的可组合抽象
ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录，第3卷

稀疏张量正迅速成为现代深度学习工作量的关键组成部分。然而，开发高性能稀疏操作符可能是困难和乏味的，现有的供应商库无法满足新。。。
阅读更多信息
通过动态反射平铺加速稀疏数据协调（扩展抽象）
HOPC’23：2023年ACM并行计算亮点研讨会论文集

涉及多个稀疏操作数的张量代数具有严重的内存限制，这使得它成为一个具有挑战性的加速目标。此外，不规则稀疏性使用于改善内存瓶颈的传统技术（如平铺）复杂化。之前。。。
阅读更多信息
FEASTA:机器学习中稀疏张量代数的灵活高效加速器
ASPLOS’24：第29届ACM编程语言和操作系统体系结构支持国际会议记录，第3卷

近年来，稀疏张量代数（SpTA）在机器学习中发挥着越来越重要的作用。然而，由于SpTA的非结构化稀疏性，通用处理器（例如GPU和CPU）由于硬件利用不足而效率低下。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录，第3卷
2023年3月
820页
国际标准图书编号：9781450399180
内政部：10.1145/3582016
总主席：
托尔·阿莫特
加拿大不列颠哥伦比亚大学
,
课程主席：
娜塔莉·恩里特·杰格
加拿大多伦多大学
,
迈克尔·斯威夫特
美国威斯康星大学麦迪逊分校
版权所有©2023 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2023年3月25日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
硬件加速
稀疏计算
张量代数
限定符
- 研究论文
会议

接受率
总体验收率535属于2713年提交文件，20%
资金来源
其他指标
查看文章指标

文章指标
- 5
  引文总数
  查看引文
- 1224年
  总下载次数
- 下载次数（过去12个月）893
- 下载量（最近6周）96
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

通过动态反射平铺加速稀疏数据协调

ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录，第3卷

摘要

工具书类

引用人

索引术语

建议

SparseTIR：深度学习中稀疏编译的可组合抽象

通过动态反射平铺加速稀疏数据协调（扩展抽象）

FEASTA:机器学习中稀疏张量代数的灵活高效加速器

评论