×

使用参数化模型在FPGA上进行稀疏Cholesky分解。 (英语) Zbl 1426.65042号

小结:Cholesky因子分解是大多数工程和科学计算应用中的一个基本问题。在处理大型稀疏矩阵时,数值分解消耗的时间最多。我们提出了一种向量结构来并行化Cholesky分解的数值分解。我们构建了一个完整的分析参数化性能模型,以准确预测不同参数下典型矩阵的执行时间。我们提出的方法对加速器是通用的,不受现场可编程门阵列(FPGA)和专用集成电路的限制。我们在FPGA中实现了一个简化的模块来证明模型的准确性。实验表明,在大多数情况下,预测执行和测量执行之间的性能差异小于10%。在性能模型的基础上,我们对各种参数设置的性能进行了分析,优化了参数,获得了资源和性能的平衡。最先进的CPU和GPU实现,我们发现最佳参数的性能是CPU的2倍。我们的模型有几个优点,特别是在功耗方面。它为未来加速度部件的设计提供了指导。

MSC公司:

65平方英尺 线性系统和矩阵反演的直接数值方法
65日元10 特定类别建筑的数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 古普塔,A。;Karypis,G。;Kumar,V.,《稀疏矩阵分解的高度可扩展并行算法》,IEEE Transactions on parallel and Distributed Systems,8,5,502-520,(1997)·数字对象标识代码:10.1109/71.598277
[2] 加里凡,K。;Plemmons,R.J.,矩阵计算的并行算法,4,(1990),宾夕法尼亚州费城,美国:SIAM,宾夕法尼亚州,美国·Zbl 0697.65010号
[3] A.乔治。;麻省理工学院Heath。;Liu,J.,共享内存多处理器上的并行Cholesky因子分解,线性代数及其应用,77,C,165-187,(1986)·Zbl 0587.65017号 ·doi:10.1016/0024-3795(86)90167-9
[4] 麻省理工学院Heath。;Ng、E。;Peyton,B.W.,稀疏线性系统的并行算法,SIAM评论。工业和应用数学学会出版,33,3,420-460,(1991)·兹伯利0738.65014 ·数字对象标识代码:10.1137/1033099
[5] Haridas,S.G。;Ziavras,S.G.,F{PGA}共享内存多处理器体系结构的Cholesky算法实现,并行、紧急和分布式系统国际期刊,19,4,211-226,(2004)·Zbl 1063.68019号 ·网址:10.1080/10637190412331279957
[6] 周,L。;刘,H。;Zhang,J.,基于集群的CGRA环路加速,IEICE电子快报,10,16,(2013)·doi:10.1587/电子邮箱10.20130506
[7] Yang,D。;Peterson,G.D.,用于cholesky分解的高性能可重构计算,高性能计算应用加速器研讨会(SAAHPC’09)
[8] Yang,D.,GPU和FPGA上cholesky分解的性能比较,高性能计算应用加速器研讨会论文集(SAAHPC’10)
[9] Lin,C.Y。;所以,香港-香港。;Leong,P.H.W.,FPGA矩阵乘法性能模型,第21届现场可编程逻辑与应用国际会议论文集,FPL 2011·doi:10.1109/FPL.2011.62
[10] Liu,J.W.,消除树在稀疏因子分解中的作用,SIAM矩阵分析与应用杂志,11,1,134-172,(1990)·Zbl 0697.65013号 ·doi:10.1137/0611010
[11] Vuduc,R。;Chandramowlishwaran,A.,《关于GPU加速的极限》,《USENIX研讨会并行性热点议题会议录》('10),USENIX-伯克利协会
[12] 乔治·T。;Saxena,V.公司。;古普塔,A。;辛格,A。;Choudhury,A.R.,GPU上稀疏SPD矩阵的多前沿因式分解,第25届IEEE国际并行与分布式处理研讨会论文集(IPDPS’11)·doi:10.1109/IPDPS.2011.44
[13] 卢卡斯,R.F。;Wagenbreth,G。;Davis,D.M。;Grimes,R.,《GPU及其多核主机上的多前沿计算》,《计算机科学讲义》(包括人工智能子系列讲义和生物信息学讲义):前言,6449,71-82,(2011)·Zbl 1323.65136号 ·文件编号:10.1007/978-3-642-19328-6_9
[14] 鳄鱼,X。;Ramet,P。;Faverge,M。;山崎,I。;Dongarra,J.,《在DAG运行时使用加速器的稀疏直接解算器》,HAL-INRIA,(2012)
[15] 霍格,J.D。;里德,J.K。;Scott,J.A.,使用DAG设计多核稀疏Cholesky因子分解,SIAM科学计算杂志,32,6,3627-3649,(2010)·Zbl 1221.65088号 ·doi:10.1137/090757216
[16] 陈,Y。;Davis,T.A。;海格,W.W。;Rajamanickam,S.,算法887:CHOLMOD,超节点稀疏Cholesky因子分解和更新/下降日期,ACM数学软件汇刊,35,1,(2008)·doi:10.1145/1391989.1391995
[17] 邹,D。;Dou,Y。;郭,S。;李,R。;邓,L.,图形处理单元上的超节点稀疏Cholesky因子分解,并发与计算:实践与经验,26,16,2713-2726,(2014)·doi:10.1002/cpe.3158
[18] 马萨伦尼科夫,O。;列佩卡,V。;Sergiyenko,A。;A.托马斯。;Wyrzykowsk,R.,《Cholesk LLT算法在基于FPGA的处理器中的并行实现》,496,(2008),德国海德堡:施普林格-弗拉格-柏林-海德堡,德国海德堡
[19] 达夫,I.S。;Reid,J.K.,《不定稀疏对称线性方程的多面解》,ACM数学软件汇刊,9,3,302-325,(1983)·Zbl 0515.65022号 ·doi:10.1145/356044.356047
[20] Liu,J.W.,《稀疏矩阵解的多波前方法:理论与实践》,《SIAM评论》。工业和应用数学学会出版,34,1,82-109,(1992)·Zbl 0919.65019号 ·doi:10.1137/1034004
[21] 威廉姆斯。;沃特曼,A。;Patterson,D.,《Roofline:多核架构的一个有洞察力的视觉性能模型》,《ACM的通信》,52,4,65-76,(2009)·数字对象标识代码:10.1145/1498765.1498785
[22] 陈,X。;任,L。;Wang,Y。;Yang,H.,GPU加速的稀疏LU因子分解,用于电路模拟和性能建模,IEEE并行和分布式系统汇刊,26,3876-795,(2015)·doi:10.1109/TPDS.2014.231199
[23] 李凯。;杨伟(Yang,W.)。;Li,K.,使用概率建模对GPU上的SpMV进行性能分析和优化,IEEE并行和分布式系统事务,26,1,196-205,(2015)·doi:10.1109/TPDS.2014.2308221
[24] 郭,P。;Wang,L。;Chen,P.,GPU上稀疏矩阵向量乘法的性能建模和优化分析工具,IEEE并行和分布式系统事务,25,5,1112-1123,(2014)·doi:10.1109/TPDS.2013.123
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。