研究文章

免费访问

刚刚接受

用于深度学习的高效SpMM加速器：Sparkle及其自动生成器

作者:

金威徐、和

西府钱作者信息和声明

ACM可重构技术和系统汇刊

2024年5月7日验收

https://doi.org/10.1145/3665896

在线AM:2024年6月7日出版历史记录

PDF格式电子阅读器

摘要

深度学习（DL）技术在视觉、语言、推荐系统等广泛的智能任务中取得了突破。稀疏矩阵乘法（SpMM）是大多数稀疏模型的关键计算内核。具有常规处理单元的CPU、GPU和AI芯片等传统计算平台由于其固定的结构和指令集，无法有效支持稀疏计算。这项工作扩展了Sparkle，一种加速器体系结构，它是专门为在DL中处理SpMM而开发的。在平衡数据加载过程中，进行了一些修改，以增强Sparkle体系结构的灵活性。此外，还提出了一个Sparkle生成器，以适应不同的资源约束并促进适应性部署。利用Sparkle的结构参数和基于模板的设计方法，该生成器可以在不同参数下自动生成Sparkler电路。实例化的Sparkle加速器在具有特定配置的Xilinx xqvu11p FPGA平台上实现。与最先进的SpMM加速器SIGMA相比，Sparkle加速器实例将稀疏计算效率提高了约10到20\(\%\)此外，Sparkle实例达到7.76\（\次\）性能优于Nvidia Orin NX GPU。评估了更多具有不同参数的加速器实例，表明Sparkle架构可以有效地加速SpMM。

工具书类

[1]

Shail Dave、Riyadh Baghdadi、Tony Nowatzki、Sasikanth Avancha、Aviral Shrivastava和Baoxin Li。ml模型稀疏和不规则张量计算的硬件加速：一项调查和见解。IEEE学报，109（10）：1706–17522021。

[2]

郝丽（Hao Li）、阿西姆·卡达夫（Asim Kadav）、伊戈尔·杜丹诺维奇（Igor Durdanovic）、哈南·萨梅特（Hanan Samet）和汉斯·彼得·格拉夫（Hans-Peter Graf）。修剪过滤器以实现高效转换。arXiv预印本arXiv：1608.087102016。

[3]

谭明兴（Mingxing Tan）和郭乐（Quoc Le）。Efficientnet：重新思考卷积神经网络的模型缩放。在2019年国际机器学习会议（ICML）上，第6105–6114页。

[4]

李志尧、李嘉祥、陈太杰、牛迪敏、郑洪忠、袁燮和高明宇。Spada：使用自适应数据流加速稀疏矩阵乘法。第28届ACM编程语言和操作系统架构支持国际会议论文集，第2卷，ASPLOS 2023，第747-761页，美国纽约州纽约市，2023年。计算机协会。

数字图书馆

[5]

金光焕、张明宰、南海进和金宋泰。竖琴：稀疏矩阵乘法加速器的基于硬件的伪时间。2023年，第56届IEEE/ACM微体系结构国际研讨会（MICRO），第1148–1162页，2023年。

数字图书馆

[6]

穆斯塔法·马哈茂德（Mostafa Mahmoud）、伊萨克·埃多（Isak Edo）、阿里·哈迪·扎德（Ali Hadi Zadeh）、奥马尔·穆罕默德·阿瓦德（Omar Mohamed Awad）、根纳迪·佩基蒙科（Gennady Pekhimenko）、豪尔赫·阿尔贝里西奥（Jo。Tensordash：利用稀疏性加速深层神经网络训练。2020年，第53届IEEE/ACM国际微体系结构研讨会（MICRO），第781-795页，2020年。

[7]

宋凌浩（Linghao Song）、池玉泽（Yuze Chi）、Atefeh Sohrabizadeh、Choi Young-kyu、Jason Lau和Jason Cong。Sextans:通用稀疏矩阵密集矩阵乘法的流式加速器。2022年ACM/SIGDA现场可编程门阵列国际研讨会论文集，FPGA’22，第65–77页，美国纽约州纽约市，2022年。计算机协会。

数字图书馆

[8]

王恩东（Endong Wang）、张庆（Qing Zhang）、沈波（Bo Shen）、张光勇（Guangyong Zhang，音译）、卢晓伟（Xiaowei Lu）、吴青（Qing Wu）和王亚娟（Yajuan Wang）。英特尔数学内核库。《英特尔&#xAE；至强Phi™上的高性能计算》，第167-188页。斯普林格，2014年。

[9]

马西米利亚诺·法蒂卡。Cuda工具包和库。2008年IEEE热芯片20研讨会（HCS），第1-22页。IEEE，2008年。

[10]

Norman P Jouppi、Cliff Young、Nishant Patil、David Patterson、Gaurav Agrawal、Raminder Bajwa、Sarah Bates、Suresh Bhatia、Nan Boden、Al Borchers等。张量处理单元的数据中心内性能分析。2017年第44届计算机体系结构国际研讨会论文集，第1-12页。

数字图书馆

[11]

Jeff Jun Zhang、Nicolas Bohm Agostini、Shihao Song、Cheng Tan、Ankur Limaye、Vinay Amatya、Joseph Manzano、Marco Minutoli、Vito Giovanni Castellana、Antonino Tumeo等。采用端到端合成实现自动化和敏捷ai/ml加速器设计。2021年IEEE第32届应用特定系统、架构和处理器国际会议（ASAP），第218-225页。IEEE，2021年。

[12]

徐世尧、蒋京飞、徐金伟、刘超润、何元洪、刘晓航和雷高。Sparkle：用于深度学习的高效稀疏矩阵乘法加速器。2022年IEEE第40届国际计算机设计会议（ICCD），第479-486页，2022年。

[13]

Eric Qin、Ananda Samajdar、Hyoukjun Kwon、Vineet Nadella、Sudarshan Srinivasan、Dipankar Das、Bharat Kaul和Tushar Krishna。Sigma：一种稀疏且不规则的gemm加速器，具有灵活的互连，用于dnn训练。2020年IEEE高性能计算机体系结构国际研讨会（HPCA），第58-70页，2020年。

[14]

巴哈尔·阿斯加里（Bahar Asgari）、拉米亚德·哈迪迪（Ramyad Hadidi）、图沙尔·克里希纳（Tushar Krishna）、海森·金（Hyeson Kim）和苏哈卡尔·亚拉曼奇利（Sudhakar Yalamanchili）。Alrescha：一种轻量级可重构稀疏计算加速器。2020年IEEE高性能计算机体系结构国际研讨会（HPCA），第249-260页，2020年。

[15]

Nitish Srivastava、Hanchen Jin、Shaden Smith、Hongbo Rong、David Albonesi和Zhiru Zhang。Tensaurus：用于混合稀疏密集张量计算的通用加速器。2020年IEEE高性能计算机体系结构国际研讨会（HPCA），第689–702页，2020年。

[16]

张哲凯（Zhekai Zhang）、王汉瑞（Hanrui Wang）、宋汉（Song Han）和威廉·戴利（William J.Dally）。Sparch：稀疏矩阵乘法的高效架构。2020年IEEE高性能计算机体系结构国际研讨会（HPCA），第261-274页，2020年。

[17]

Reza Hojabr、Ali Sedaghati、Amirli Sharifian、Ahmad Khonsari和Arrvindh Shriraman。意大利面：用于fpgas上高度稀疏gemm的流媒体加速器。2021年IEEE高性能计算机体系结构（HPCA）国际研讨会，第84-96页，2021年。

[18]

Nitish Srivastava、Hanchen Jin、Jie Liu、David Albonesi和Zhiru Zhang。Matraptor：基于行积的稀疏矩阵乘法加速器。2020年，第53届IEEE/ACM国际微体系结构研讨会（MICRO），第766–780页，2020年。

[19]

陆晓阳、龙伯玉、陈晓明、韩银河、孙显赫。Aces：通过自适应执行流和并发感知缓存优化加速稀疏矩阵乘法。第29届ACM编程语言和操作系统体系结构支持国际会议论文集，第3卷，ASPLOS’24，第71–85页，美国纽约州纽约市，2024年。计算机协会。

数字图书馆

[20]

李世清、朔怀和刘伟晨。一种高效的基于gustavson的嵌入式fpgas稀疏矩阵乘法加速器。IEEE集成电路和系统计算机辅助设计汇刊，42（12）：4671–46802023。

数字图书馆

[21]

Arish Sateesan、Sharad Sinha和KG Smitha。Dash：用于合成的设计自动化和用于cnn的硬件生成。2020年国际现场可编程技术会议（ICFPT），第72–75页。IEEE，2020年。

[22]

Danielle Tchiunkou Kwadjo和Christophe Bobda。最新成果：在fpgas上自动生成cnn模型的硬件。2020年第57届ACM/IEEE设计自动化会议（DAC），第1-2页，2020年。

[23]

Nitish Srivastava、Hongbo Rong、Prithayan Barua、Guanyu Feng、Huanqi Cao、Zhiru Zhang、David Albonesi、Vivek Sarkar、Wenguang Chen、Paul Petersen等。T2s张量：高效生成高性能空间硬件，用于密集张量计算。2019年IEEE第27届现场可编程定制计算机（FCCM）年度国际研讨会，第181-189页，2019年。

[24]

蒂埃里·莫罗（Thierry Moreau）、陈田琪（Tianqi Chen）、姜子亨（Ziheng Jiang）、路易斯·塞泽（Luis Ceze）、卡洛斯·奎斯特林（Carlos Guestrin）和阿文德·克里希纳穆斯。Vta：用于深度学习的开放式软硬件堆栈。arXiv预印arXiv:1807.041882018。

[25]

汤姆·布朗（Tom Brown）、本杰明·曼（Benjamin Mann）、尼克·莱德（Nick Ryder）、梅兰妮·苏比亚赫（Melanie Subbiah）、贾里德·卡普兰（Jared D Kaplan）、普拉福拉·达里瓦尔（Prafulla Dhariwal）、阿文德·内拉坎坦（Arvind Neelakantan）、普拉纳夫·希亚姆（Pranav Shya。神经信息处理系统进展，33:1877–19012020。

[26]

Andrew Howard、Rooming Pang、Hartwig Adam、Quoc V.Le、Mark Sandler、Bo Chen、Weijun Wang、Liang-Chieh Chen、Mingxing Tan、Grace Chu、Vijay Vasudevan和Yukun Zhu。正在搜索mobilenetv3。IEEE/CVF计算机视觉国际会议论文集，第1314-1324页。IEEE，2019年。

[27]

马宁宁、张祥玉、郑海涛、孙健。Shufflenet v2：高效cnn架构设计的实用指南。在2018年欧洲计算机视觉会议（ECCV）上，第116-131页。

[28]

Jonathan Bachrach、Huy Vo、Brian Richards、Yunsup Lee、Andrew Waterman、Rimas Aviíienis、John Wawrzynek和Krste Asanović。Chisel：用scala嵌入式语言构建硬件。2012年DAC设计自动化会议，第1212–1221页，2012年。

[29]

亚当·莫拉威克和菲利普·库西。高级综合：从算法到数字电路。施普林格荷兰，2008年。

[30]

何塞·努内斯·亚内兹。张量流岩中密集和稀疏矩阵处理的融合架构。IEEE Micro，42（6）：55-662022。

数字图书馆

[31]

高映雪、雷公、王超、王腾和周学海。Sdma：一种高效灵活的gnn稀疏密集矩阵乘法体系结构。2022年，第32届现场可编程逻辑与应用国际会议（FPL），第307–3122022页。

[32]

陈德铭。闪电对话：下一波高级合成。2023年第60届ACM/IEEE设计自动化会议（DAC），第1-3页，2023年。

[33]

爱德华多·安德烈·内维斯（Eduardo AndréNeves）和塞缪尔·泽维尔·德索萨（Samuel Xavier de Souza）。探索多核设计空间：赫拉克勒斯与火箭芯片生成器。J.计算。，13(5):555–563, 2018.

[34]

Alon Amid、Albert Ou、Krste Asanović、Yakun Sophia Shao和Borivoje Nikolić。使用开源硬件生成器和云端fpga的垂直集成计算实验室。2021年IEEE国际电路与系统研讨会（ISCAS），2021年第1-5页。

[35]

杨伟玲（Weiling Yang）、方建斌（Jianbin Fang）、董德尊（Dezun Dong）、苏兴（Xing Su）和王郑（Zheng Wang）。Libshalom：优化armv8多核上的小型和不规则矩阵乘法。SC21：高性能计算、网络、存储和分析国际会议，2021年第1-15页。

[36]

Hyoukjun Kwon、Ananda Samajdar和Tushar Krishna。Maeri：通过可重新配置的互连在dnn加速器上实现灵活的数据流映射。《第二十届编程语言和操作系统体系结构支持国际会议论文集》，ASPLOS’18，第461-475页，美国纽约州纽约市，2018年。计算机协会。

数字图书馆

[37]

马克西姆·诺莫夫（Maxim Naumov）、L Chien、菲利普·范德默施（Philippe Vandermersch）和乌杰瓦尔·卡帕西（Ujval Kapasi）。Cuspare库。在2010年GPU技术会议上。

[38]

雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。伯特：深度双向变形金刚的语言理解预训练。arXiv预印arXiv:1810.048052018。

[39]

吴永辉（Yonghui Wu）、迈克·舒斯特（Mike Schuster）、陈志峰（Zhifeng Chen）、奎克·V·勒（Quoc V Le）、穆罕默德·诺鲁齐（Mohammad Norouzi）、沃尔夫冈·马切里（Wolfgang Macherey）、马克西姆·克里坤（Maxim Krikun）、袁操（Yuan Cao）、秦高（Qin Gao）。arXiv预印arXiv:1609.081442016。

[40]

何向南、廖丽姿、张汉旺、聂丽强、胡霞和蔡大胜。神经协作过滤。《第26届万维网国际会议论文集》，第173-182页，2017年。

数字图书馆

[41]

托马斯·基普夫（Thomas N Kipf）和马克斯·威林（Max Welling）。图卷积网络半监督分类。arXiv预印arXiv:1609.029072016。

索引术语

用于深度学习的高效SpMM加速器：Sparkle及其自动生成器
1. 计算机系统组织
  1. 体系结构
    1. 其他架构
      1. 可重组计算

建议

HARP：稀疏矩阵乘法加速器的硬件伪调试
MICRO’23：第56届IEEE/ACM微体系结构国际研讨会论文集

由于使用的压缩格式，通用稀疏矩阵矩阵乘法（SpGEMM）是一种内存绑定工作负载。为了最小化输入矩阵的数据移动，提出了外部产品加速器。由于这些加速器访问输入。。。
阅读更多信息
SPADE：用于SpMM和SDDMM的灵活且可扩展的加速器
ISCA’23：第50届计算机体系结构年度国际研讨会论文集

稀疏矩阵密集矩阵乘法（SpMM）和采样密集矩阵密集矩阵乘法（SDDMM）内核的广泛使用使它们成为硬件加速的候选对象。然而，这些内核的加速器设计面临两个主要问题。。。
阅读更多信息
一种用于大规模神经网络的小足迹加速器

机器学习任务正在广泛的领域和广泛的系统（从嵌入式系统到数据中心）中普及。同时，一小套机器学习算法（尤其是卷积和深度神经网络）。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图像ACM可重构技术和系统汇刊

ACM可重构技术和系统汇刊刚刚接受

国际标准编号：1936-7406

EISSN公司：1936-7414

版权所有©2024版权归所有人/作者所有。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。从请求权限[电子邮件保护].

出版商

计算机协会

美国纽约州纽约市

出版历史记录

在线AM：2024年6月7日

认可的：2024年5月7日

修订过的：2024年5月5日

收到：2023年11月18日

检查更新

作者标记

限定符

研究文章

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
55
总下载次数

下载次数（过去12个月）55
下载次数（最近6周）55

其他指标

查看作者指标

引文

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

媒体

数字

其他

桌子