摘要
2023.动态反射瓷砖。 https://github.com/FPSG-UIUC/DRT网址 谷歌学者 彼得·阿伦斯(Peter Ahrens)和埃里克·波曼(Erik G.Boman)。 2020年。关于可变块行格式中稀疏矩阵的最佳分区。 CoRR,abs/2005.12414(2020),arXiv:2005.12414。 arxiv:2005.12414年 谷歌学者 哈桑·梅丁·阿克图尔加、艾丁·布卢奇、塞缪尔·威廉姆斯和朝阳。 2014.优化核组态相互作用计算的稀疏矩阵-多向量乘法。 在国际并行和分布式处理研讨会(IPDPS)上。 1213–1222. https://doi.org/10.109/IPDPS.2014.125 谷歌学者 数字图书馆 巴哈尔·阿斯加里(Bahar Asgari)、拉米亚德·哈迪迪(Ramyad Hadidi)、图沙尔·克里希纳(Tushar Krishna)、海森·金(Hyeson Kim)和苏哈卡尔·亚拉曼奇利(Sudhakar Yalamanchili)。 2020年,ALRESCHA:轻量级可重构稀疏计算加速器。 在高性能计算机体系结构(HPCA)国际研讨会上。 249–260. 国际标准号码:9781728161495 https://doi.org/10.1109/hpca47549.2020.00029 谷歌学者 交叉引用 W.Austin、G.Ballard和T.G.Kolda。 2016。大规模科学数据的并行张量压缩。 在国际并行和分布式处理研讨会(IPDPS)上。 912–922. https://doi.org/10.109/IPDPS.2016.67 谷歌学者 交叉引用 阿里夫·阿扎德(Ariful Azad)、艾丁·布鲁克(Aydin Buluc)和约翰·吉尔伯特(John Gilbert)。 2015.使用矩阵代数进行平行三角形计数和计数。 在国际并行和分布式处理研讨会研讨会(IPDPS)上。 804–811. 国际标准号码:9781467376846 https://doi.org/10.109/ipdpsw.2015.75 谷歌学者 数字图书馆 Ariful Azad、Georgios A Pavlopoulos、Christos A Ouzounis、Nikos C Kyrpides和Aydin Buluç。 2018.HipMCL:大规模网络中Markov聚类算法的高性能并行实现。 《核酸研究》,46,6(2018),1月,e33:1-11。 编号:0305-1048 https://doi.org/10.1093/nar/gkx1313 谷歌学者 交叉引用 Daehyeon Baek、Soojin Hwang、Taekyung Heo、Daehoon Kim和Jaehyuk Huh。 2021.InnerSP:具有局部感知内积处理的内存高效稀疏矩阵乘法加速器。 在第30届并行架构和编译技术国际会议上,Jaejin Lee和Albert Cohen(编辑)(PACT 2021)。 IEEE,116-128。 https://doi.org/10.1109/PACT52795.2021.00016 谷歌学者 交叉引用 杰拉尔德·鲍姆加特纳(Gerald Baumgartner)、亚历山大·奥尔(Alexander A.Auer)、大卫·伯恩霍尔德(David E.Bernholdt)、阿里娜·比比雷塔(Alina Bibireata)、文卡特斯·乔佩拉(Venkatesh Choppella)、丹尼尔·科奇奥娃(Daniel Cociorva)、高晓阳(Xiaoyang Gao)、罗伯特·哈里森(Robert J.Harrison)、索·希拉塔(So Hirata)、斯里拉姆·克里希纳莫沃西(Sriram K。 2005.一类从头算量子化学模型的高性能并行程序合成。 程序。 IEEE,93,2(2005),276–292年2月。 https://doi.org/10.109/JPROC.2004.840311 谷歌学者 交叉引用 奥斯汀·R·本森和格雷·巴拉德。 2015.实用并行快速矩阵乘法框架。 第20届ACM SIGPLAN并行编程原理与实践研讨会论文集(PPoPP 2015)。 42–53. https://doi.org/10.1145/2688500.2688513 谷歌学者 数字图书馆 马西耶·贝斯塔(Maciej Besta)、拉格汉德拉·卡纳卡吉里(Raghavendra Kanakagiri)、哈伦·穆斯塔法(Harun Mustafa)、米哈伊尔·卡拉西科夫(Mikhail Karasikov)、冈纳尔·雷奇(Gunnar Rätsch)、托尔斯滕·霍夫勒(Torsten。 2020年,通信——高效分布式基因组比较的Jaccard相似性。 在国际并行和分布式处理研讨会(IPDPS)上。 1122–1132. https://doi.org/10.109/IPDPS47924.2020.00118 谷歌学者 交叉引用 保罗·博尔迪和塞巴斯蒂亚诺·维格纳。 WebGraph框架I:压缩技术。 程序中。 第十三届国际万维网大会(WWW 2004)。 ACM出版社,595-601。 谷歌学者 数字图书馆 史蒂夫·博瓦。 1997年查尔斯顿港模型。 https://spare.tamu.edu/bova网站 尼科尔斯研究公司 谷歌学者 Ayd∈Buluç和John R.Gilbert。 2012.并行稀疏矩阵乘法和索引:实现和实验。 SIAM科学计算杂志,34,4(2012),170–191。 https://doi.org/10.1137/10848244 谷歌学者 数字图书馆 陈云吉、罗涛、刘少丽、张世进、何丽强、王佳、李凌、陈天石、徐志伟、孙宁辉和奥利维·特曼。 2014年,《大店脑:学习机器的超级计算机》。 在微体系结构国际研讨会(MICRO)上。 609–622. https://doi.org/10.109/MICRO.2014.58 谷歌学者 数字图书馆 Yu Xin Chen、Joel Emer和Vivienne Sze。 2016年,《Eyeriss:卷积神经网络节能数据流的空间架构》。 在计算机体系结构国际研讨会(ISCA)上。 367–379. 国际标准号码:9781467389471 https://doi.org/10.109/isca.2016.40 谷歌学者 数字图书馆 Stephen Chou、Fredrik Kjolstad和Saman Amarasinghe。 2018.稀疏张量代数编译器的格式抽象。 程序。 ACM计划。 Lang.,2,OOPSLA(2018),第123条,10月,30页。 发行编号:2475-1421 https://doi.org/10.1145/3276493 谷歌学者 数字图书馆 克里斯蒂安·达姆豪格。 1999.来自DNV软件公司Christian Damhaug的正定矩阵。。 https://spare.tamu.edu/DNVS网站 谷歌学者 蒂莫西·戴维斯(Timothy A.Davis)和胡一凡(Yifan Hu),2011年。 佛罗里达大学稀疏矩阵收藏。 ACM事务处理。 数学。 软件,38,1(2011),11月,1:1–1:25。 https://doi.org/10.1145/2049662.2049663 谷歌学者 数字图书馆 伊恩·达夫(Iain S Duff)、罗杰·格里姆(Roger G Grimes)和约翰·刘易斯(John G Lewis)。 1989。稀疏矩阵测试问题。 ACM数学软件汇刊(TOMS),15,1(1989),3月1日至14日。 谷歌学者 数字图书馆 A.爱因斯坦。 1916.广义相对论的基础。 《物理年鉴》(Annalen der Physik),354、7(1916),769年1月至822年1月。 https://doi.org/10.1002/andp.19163540702 谷歌学者 交叉引用 格伦·伊文布利。 2020.教程1:张量收缩。 https://www.tensors.net/tutorial-1 谷歌学者 方子森、杨晓伟、韩乐、刘小兰。 2019.基于序列截断高阶奇异值分解的张量补全算法。 IEEE控制论汇刊,49,5(2019),1956-1967年5月。 https://doi.org/10.109/TCYB.2018.2817630 谷歌学者 交叉引用 藤木大一、Niladish Chatterjee、Lee Dongyuk和Mike O'Connor。 2019.用于高效稀疏矩阵多向量乘法的近内存数据转换。 参加高性能计算、网络、存储和分析国际会议。 ACM,第55条,17页。 编号:9781450362290 https://doi.org/10.1145/3295500.3356154 谷歌学者 数字图书馆 特雷弗·盖尔(Trevor Gale)、马泰·扎哈里亚(Matei Zaharia)、克利夫·杨(Cliff Young)和埃里希·埃尔森(Erich Elsen)。 2020.用于深度学习的稀疏GPU内核。 参加高性能计算、网络、存储和分析(SC)国际会议。 IEEE/ACM,第17条,14页。 https://doi.org/10.109/SC41405.2020.00021 谷歌学者 交叉引用 Ashish Gondimalla、Noah Chesnut、Mithuna Thottehodi和T.N.Vijaykumar。 2019.SparTen:卷积神经网络的稀疏张量加速器。 在微体系结构国际研讨会(MICRO)上。 ACM,151–165。 编号:9781450369381 https://doi.org/10.1145/3352460.3358291 谷歌学者 数字图书馆 朱利娅·吉迪(Giulia Guidi)、马尔基塔·埃利斯(Marquita Ellis)、丹尼尔·罗克萨尔(Daniel Rokhsar)、凯瑟琳·耶利克(Katherine Yelick)和艾德·盖·布卢奇(Ayd∈Buluç)。 2019.BELLA:伯克利高效长读对长读校准器和覆盖器。 bioRxiv,10月。, https://doi.org/10.101/1464420 谷歌学者 交叉引用 史蒂夫·哈姆。 2001.Steve Hamm,Motorola,Inc.的半导体模拟矩阵。。 https://spare.tamu.edu/Hamm网站 谷歌学者 Kartik Hegde、Rohit Agrawal、Yulun Yao和Christopher W.Fletcher。 2018.Morph:基于3D CNN的视频理解的灵活加速。 IEEE/ACM微体系结构国际研讨会(MICRO’18)。 933–946. https://doi.org/10.109/MICRO.2018.00080 谷歌学者 数字图书馆 卡蒂克·赫格德(Kartik Hegde)、哈迪·阿斯加里·莫哈达姆(Hadi Asghari-Moghaddam。 2019.ExTensor:稀疏张量代数加速器。 在微体系结构国际研讨会(MICRO)上。 319–333之间。 编号:9781450369381 https://doi.org/10.1145/3352460.3358275 谷歌学者 数字图书馆 Kartik Hegde、Jiyong Yu、Rohit Agrawal、Mengjia Yan、Michael Pellauer和Christopher W.Fletcher。 2018年,UCNN:通过权重重复开发深度神经网络中的计算重用。 在计算机体系结构国际研讨会(ISCA)上。 IEEE,674–687。 国际标准号码:9781538659847 https://doi.org/10.109/isca.2018.0062 谷歌学者 数字图书馆 Changwan Hong、Aravind Sukumaran Rajam、Israt Nisa、Kunal Singh和P.Sadayappan。 2019.稀疏矩阵乘法的自适应稀疏平铺。 第24届并行编程原理与实践研讨会论文集。 美国医学会,300-314。 国际标准化组织:9781450362252 https://doi.org/10.1145/3293883.3295712 谷歌学者 数字图书馆 丹尼尔·凯茨和弗雷德里克·曼比。 2013年,实施一般局部相关方法的稀疏张量框架。 《化学物理杂志》,138,14(2013),144101。 https://doi.org/10.1063/1.4798940 谷歌学者 交叉引用 Fredrik Kjolstad、Shoaib Kamil、Stephen Chou、David Lugato和Saman Amarasinghe。 2017.张量代数编译器。 《美国计算机学会程序设计语言会议录》,1,OOPSLA(2017),10月,77:1–77:29。 发行编号:2475-1421 https://doi.org/10.1145/313901 谷歌学者 数字图书馆 苏雷亚·埃姆雷·库尔特(Süreyya Emre Kurt)、阿拉文德·苏库马兰·拉贾姆(Aravind Sukumaran Rajam)、法布里斯·拉斯特罗(Fabrice Rastello)和P.萨达亚潘(P.Sadayyapan)。 2020年。通过矩阵签名实现高效平铺稀疏矩阵乘法。 高性能计算、网络、存储和分析国际会议论文集。 第87条,14页。 https://doi.org/10.109/SC41405.2020.00091 谷歌学者 交叉引用 Jure Leskovec和Andrej Krevl。 2014.SNAP数据集:斯坦福大型网络数据集收集。 http://snap.stanford.edu/data 谷歌学者 林毅(Y.Lin)、卢鸿昌(Hung Chang Lu)、曹杨斌(Yang Bin Tsao)、池义民(Yi-Min Chih)、陈伟超(Weichao Chen)和钱学森(S.Chien)。 2020年。GrateTile:CNN处理的高效稀疏张量瓷砖。 在IEEE信号处理系统(SiPS)研讨会上。 1–6. https://doi.org/10.109/SiPS50750.2020.9195243 谷歌学者 交叉引用 蒂姆·马特森(Tim Mattson)、大卫·巴德(David A.Bader)、乔纳森·巴杜尔(Jonathan W.Berry)、艾丁·布鲁索(Aydin Buluç)、杰克·多纳拉(Jack J.Dongarra)、克里斯托斯·法洛索斯(Christos Faloutsos)、约翰·费奥(John Feo)、约翰·吉尔伯特(John R.Gilbert)、约瑟夫·冈萨雷斯(Joseph Gonzalez)、布鲁斯·亨德里克森(Bruce Hendrickson。 2013.图形算法基本体标准。 在IEEE高性能极限计算会议上。 IEEE,1–2。 https://doi.org/10.109/HPEC.2013.6670338 谷歌学者 交叉引用 杜安·梅里尔和迈克尔·加兰德。 2016.使用CSR存储格式的基于合并的稀疏矩阵向量乘法(SpMV)。 第21届ACM SIGPLAN并行编程原理与实践研讨会论文集。 第43条,2页。 https://doi.org/10.1145/2851141.2851190 谷歌学者 数字图书馆 阿努拉·穆卡拉(Anurag Mukkara)、内森·贝克曼(Nathan Beckmann)和丹尼尔·桑切斯(Daniel Sanchez)。 2019.PHI:同步和带宽高效交换散射更新的架构支持。 在微体系结构国际研讨会(MICRO)上。 ACM,1009–1022。 编号:9781450369381 https://doi.org/10.1145/3352460.3358254 谷歌学者 数字图书馆 Yusuke Nagasaka、Satoshi Matsuoka、Ariful Azad和Ayd∈Buluç。 2019.多核和多核处理器上稀疏矩阵产品的性能优化、建模和分析。 并行计算。, 90(2019),第102545条,12月,13页。 https://doi.org/10.1016/j.parco.2019.102545 谷歌学者 数字图书馆 Subhankar Pal、Jonathan Beaumont、Dong-Hyeon Park、Aporva Amarnath、Siying Feng、Chaitali Chakrabarti、Hun-Seok Kim、David Blaauw、Trevor Mudge和Ronald Dreslinski。 2018年,OuterSPACE:基于外部产品的稀疏矩阵乘法加速器。 在高性能计算机体系结构(HPCA)国际研讨会上。 IEEE,724–736。 国际标准号码:9781538636596 https://doi.org/10.109/hpca.2018.00067 谷歌学者 交叉引用 Michael Pellauer、Yakun Sophia Shao、Jason Clemons、Neal Crago、Kartik Hegde、Rangharajan Venkatesan、Stephen W.Keckler、Christopher W.Fletcher和Joel Emer.2019年。 自助餐:用于显式解耦数据编排的高效可组合存储习惯用法。 在编程语言和操作系统的体系结构支持国际会议上。 美国医学会,137–151。 编号:9781450362405 https://doi.org/10.1145/3297858.3304025 谷歌学者 数字图书馆 Eric Qin、Ananda Samajdar、Hyoukjun Kwon、Vineet Nadella、Sudarshan Srinivasan、Dipankar Das、Bharat Kaul和Tushar Krishna。 2020年,SIGMA:用于DNN培训的具有柔性互连的稀疏和不规则GEMM加速器。 在高性能计算机体系结构(HPCA)国际研讨会上。 IEEE,58–70。 国际标准号码:9781728161495 https://doi.org/10.1109/hpca47549.2020.00015 谷歌学者 交叉引用 Fazle Sadi、Joe Sweeney、Tze Meng Low、James C.Hoe、Larry Pileggi和Franz Franchetti。 2019.使用可扩展多路合并并行化的大型和高度稀疏矩阵的高效SpMV操作。 在微体系结构国际研讨会(MICRO)上。 美国医学会,347-358。 编号:9781450369381 https://doi.org/10.1145/3352460.3358330 谷歌学者 数字图书馆 Shaden Smith、Jee W.Choi、Jiajia Li、Richard Vuduc、Jongsoo Park、Xing Liu和George Karypis。 2017.FROSTT:开放稀疏张量和工具的可成形存储库。 http://frostt.io网站/ 谷歌学者 Edgar Solomonik、Maciej Besta、Flavio Vella和Torsten Hoefler。 2017.使用通信高效稀疏矩阵乘法在中心度之间进行缩放。 高性能计算、网络、存储和分析国际会议论文集。 第47条,14页。 https://doi.org/10.1145/3126908.3126971 谷歌学者 数字图书馆 埃德加·索洛莫尼克和托尔斯滕·霍夫勒。 2015。稀疏张量代数作为一种并行编程模型。 CoRR,abs/1512.00066(2015),arxiv:1512.00066。 arxiv:1512.00066 谷歌学者 Nitish Srivastava、Hanchen Jin、Jie Liu、David Albonesi和Zhiru Zhang。 2020年。MatRaptor:基于行积的稀疏矩阵乘法加速器。 在微体系结构国际研讨会(MICRO)上。 766–780. https://doi.org/10.109/MICRO50266.2020.00068 谷歌学者 交叉引用 Nitish Srivastava、Hanchen Jin、Shaden Smith、Hongbo Rong、David Albonesi和Zhiru Zhang。 2020年。Tensaurus:混合稀疏密集张量计算的通用加速器。 在高性能计算机体系结构(HPCA)国际研讨会上。 IEEE,689–702。 国际标准号码:9781728161495 https://doi.org/10.1109/hpca47549.2020.00062 谷歌学者 交叉引用 马库斯·斯坦伯格(Markus Steinberger)、拉勒布·扎耶(Rhaleb Zayer)和汉斯·彼得·塞德尔(Hans-Peter Seidel)。 2017.GPU上的全球均匀、局部自适应稀疏矩阵向量乘法。 在超级计算国际会议记录中。 第13条,共11页。 https://doi.org/10.1145/3079079.3079086 谷歌学者 数字图书馆 米歇尔·米尔斯·斯特劳特、拉里·卡特、珍妮·费兰特和芭芭拉·克莱塞克。 2004.平稳迭代方法的稀疏平铺。 国际期刊高性能计算。 申请。, 18, 1 (2004), 95–113. https://doi.org/10.1177/109434204041294 谷歌学者 数字图书馆 Vivienne Sze、Yu-Hsin Chen、Tien-Ju Yang和Joel S.Emer.2017年。 深度神经网络的高效处理:教程和调查。 程序。 IEEE,105,12(2017),12月2295–2329。 https://doi.org/10.1109/JPROC.2017.2716740 谷歌学者 交叉引用 Stijn Marinus van Dongen。 2000.通过流模拟进行图形聚类。 博士论文。 乌得勒支大学数学与计算机科学中心(CWI)。 谷歌学者 理查德·武杜克(Richard W.Vuduc)和玄进·文(Hyun-Jin Moon)。 2005.利用可变块结构进行快速稀疏矩阵矢量乘法。 高性能计算与通信(HPCC)。 3726, 807–816. https://doi.org/10.1007/11557654_91 谷歌学者 数字图书馆 塞缪尔·威廉姆斯(Samuel Williams)、列奥尼德·奥利克(Leonid Oliker)、理查德·武杜克(Richard Vuduc)、约翰·沙尔夫(John Shalf)、凯瑟琳·耶利克(Katherine Yelick)和詹姆斯·德梅尔(James Demmel)。 2009.新兴多核平台上稀疏矩阵向量乘法的优化。 并行计算。, 35,3(2009年),178-194年3月。 https://doi.org/10.1016/j.parco.2008.12.006 谷歌学者 数字图书馆 Yannan Nellie Wu、Joel S.Emer和Vivienne Sze。 2019.加速器:加速器设计的架构级能量估算方法。 《计算机辅助设计国际会议论文集》,David Z.Pan(编辑)(ICCAD 2019)。 ACM,1-8。 https://doi.org/10.109/ICCAD45719.2019.8942149 谷歌学者 交叉引用 阿卜杜拉赫曼·亚沙尔、穆罕默德·法提赫·巴林、安晓静、卡安·桑卡克和乌米特·沙塔利·吕克。 2022.关于对称矩形分区。 ACM实验算法杂志,27(2022),8月1日至26日。 发行编号:1084-6654 https://doi.org/10.1145/3523750 谷歌学者 数字图书馆 Carl Yang、Ayd∈Buluç和John D.Owens。 2018.GPU上稀疏矩阵乘法的设计原则。 《2018年欧洲-巴黎:第24届国际并行和分布式计算欧洲会议论文集》,Marco Aldinucci、Luca Padovani和Massimo Torquati(编辑)。 672–687. https://doi.org/10.1007/978-3-319-96983-1_48 谷歌学者 数字图书馆 张国伟(Guowei Zhang)、尼蒂亚·阿塔鲁里(Nithia Attaluri)、乔尔·埃默(Joel S.Emer)和丹尼尔·桑切斯(Daniel Sanchez)。 2021.伽马:利用古斯塔夫森算法加速稀疏矩阵乘法。 第26届ACM编程语言和操作系统体系结构支持国际会议论文集(ASPLOS 2021)。 687–701. 编号:9781450383172 https://doi.org/10.1145/3445814.3446702 谷歌学者 数字图书馆 张哲凯(Zhekai Zhang)、王汉瑞(Hanrui Wang)、宋汉(Song Han)和威廉·戴利(William J.Dally)。 2020年。SpArch:稀疏矩阵乘法的高效架构。 在高性能计算机体系结构国际研讨会(HPCA)上。 IEEE,261-274。 国际标准号码:9781728161495 https://doi.org/10.1109/HPCA47549.2020.00030 谷歌学者 交叉引用
建议
SparseTIR:深度学习中稀疏编译的可组合抽象 ASPLOS 2023:第28届ACM编程语言和操作系统架构支持国际会议记录,第3卷 稀疏张量正迅速成为现代深度学习工作量的关键组成部分。 然而,开发高性能稀疏操作符可能是困难和乏味的,现有的供应商库无法满足新。。。 通过动态反射平铺加速稀疏数据协调(扩展抽象) HOPC’23:2023年ACM并行计算亮点研讨会论文集 涉及多个稀疏操作数的张量代数具有严重的内存限制,这使得它成为一个具有挑战性的加速目标。 此外,不规则稀疏性使用于改善内存瓶颈的传统技术(如平铺)复杂化。 之前。。。 FEASTA:机器学习中稀疏张量代数的灵活高效加速器 ASPLOS’24:第29届ACM编程语言和操作系统体系结构支持国际会议记录,第3卷 近年来,稀疏张量代数(SpTA)在机器学习中发挥着越来越重要的作用。 然而,由于SpTA的非结构化稀疏性,通用处理器(例如GPU和CPU)由于硬件利用不足而效率低下。。。