×

高密度线性最小二乘问题的GPU参数调整。 (英语) Zbl 1445.90107号

概述:线性最小二乘问题(LLSP)经常出现在许多科学和工程问题中。求解LLSP的最快方法之一是在图形处理单元(GPU)上并行执行计算。然而,GPU算法通常是为一个GPU体系结构设计的,可能是次优的,或者在另一个GPU上不可用。为了在不需要修改代码的情况下为任何GPU设计最佳算法,可调参数可以简化GPU算法到不同GPU体系结构的转换。本文研究了使用无导数优化(DFO)和模拟优化(SO)系统优化GPU或混合CPU/GPU LLSP求解器的可调参数的好处。计算实验表明,DFO和SO都是确定最佳调谐参数的有效工具,与MAGMA针对大型高瘦矩阵的默认参数相比,它们可以将流行的LLSP解算器MAGMA的性能提高约1.8倍。使用DFO求解器,在枚举比直接枚举少一个数量级的参数组合后,我们能够确定最佳参数。此外,该方法比最先进的自动调谐器更快,并提供更好的调谐参数。

MSC公司:

90立方 非线性规划
90 C56 无导数方法和使用广义导数的方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿巴伦科夫斯,M。;阿卜杜勒法塔赫,A。;东加拉,J。;盖茨,M。;海达尔,A。;Kurzak,J。;Luszczek,P。;托莫夫,S。;山崎,I。;Yarkhan,A.,异构系统上稠密线性代数的并行编程模型,超级计算前沿。因诺夫。,2, 67-86 (2015)
[2] Abramson,M.A.、Audet,C.、Couture,G.、Dennis Jr,J.E.和Le Digabel,S.,《游牧人项目》。可在http://www.gerad.ca/游牧民。
[3] Adams,B.M.,Bohnhoff,W.J.,Dalbey,K.R.,Eddy,J.P.,Eldred,M.S.,Gay,D.M.,Haskell,K.,Hough,P.D.,and Swiler,L.P.,DAKOTA,设计优化、参数估计、不确定性量化和灵敏度分析的多级并行面向对象框架:5.2版用户手册。桑迪亚国家实验室,新墨西哥州阿尔伯克基和加利福尼亚州利弗莫尔,2011年
[4] Agullo,E.、Augonnet,C.、Dongarra,J.、Faverge,M.、Ltaief,H.、Thibault,S.和Tomov,S.,用多个GPU加速器增强的多核节点上的QR分解。并行与分布式处理研讨会(IPDPS),2011年IEEE国际,2011年,第932-943页。
[5] Agullo,E.、Dongarra,J.、Nath,R.和Tomov,S.,《多核架构的完全经验自动调谐密集QR分解》。《欧洲并行处理会议》,2011年,第194-205页。
[6] 阿马兰,S。;Sahinidis,N.V。;沙尔达,B。;Bury,S.J.,《模拟优化:算法和应用综述》,《Ann.Oper》。研究,240,351-380(2016)·Zbl 1342.90113号 ·数字对象标识代码:10.1007/s10479-015-2019-x
[7] 安德森,E。;Bai,Z。;比肖夫,C。;布莱克福德,L.S。;德梅尔,J。;东加拉,J。;杜克罗兹,J。;Hammarling,S。;格林鲍姆,A。;麦肯尼,A。;Sorensen,D.,《LAPACK用户指南》(1999年),工业和应用数学学会:美国宾夕法尼亚州费城·Zbl 0934.65030号
[8] Anderson,M.、Ballard,G.、Demmel,J.和Keutzer,K.,《通信——避免GPU的QR分解》。并行与分布式处理研讨会(IPDPS),2011年IEEE国际,2011年,第48-58页。
[9] Ansel,J.、Kamil,S.、Veeramachaneni,K.、Ragan-Kelly,J.和Bosboom,J.,O'Reilly,U.-M.以及Amarasinghe,S..,《Opentuner:程序自动调整的可扩展框架》。第23届并行体系结构和编译技术国际会议(PACT),2014年,第303-315页。
[10] Audet,C。;Dennis Jr,J.E.,用于约束优化的网格自适应直接搜索算法,SIAM。J.Optim。,17, 188-217 (2006) ·Zbl 1112.90078号 ·数字对象标识代码:10.1137/040603371
[11] Audet,C。;Orban,D.,《使用无导数优化寻找最佳算法参数》,Soc.Ind.Appl。数学。,17, 642-664 (2006) ·邮编1128.90060
[12] Barton,R.R.,《最新评论》。1994年冬季模拟会议记录,1994年,第237-244页。
[13] 贝利斯,C.J。;罗梅因,H.E。;Smith,R.L.,生成多元分布的点击运行算法,数学。操作。决议,18,255-266(1993)·兹比尔0771.60052 ·doi:10.1287/门18.2.255
[14] 布莱克福德,L.S。;佩蒂特,A。;波佐,R。;雷明顿,K。;R.C.惠利。;德梅尔,J。;东加拉,J。;达夫,I。;哈默林,S。;Henry,G.,《更新的基本线性代数子程序集(BLAS)》,ACM Trans。数学。软质。,28, 135-151 (2002) ·兹比尔1070.65520 ·数字对象标识代码:10.1145/567806.567807
[15] 布克·A·J。;小丹尼斯·J·E。;P.D.弗兰克。;Serafini,D.B。;Torczon,V.J。;Trosset,M.W.,通过代理优化昂贵函数的严格框架,Struct。优化。,17, 1-13 (1999) ·doi:10.1007/BF01197708
[16] Brent,R.P.,《无导数最小化算法》(1973),Prentice-Hall:Prentice-Hall,Englewood Cliffs,NJ·Zbl 0245.65032号
[17] Cadzow,J.,最小二乘法,建模和信号处理,数字。信号。工艺。,4, 2-20 (1994) ·doi:10.1006/dspr.1994.1002
[18] Chang,K.-H.,模拟优化的一种新的全局收敛的直接搜索方法——随机网络单纯形法,Eur.J.Oper。研究,220,684-694(2012)·Zbl 1253.90178号 ·doi:10.1016/j.ejor.2012.02.028
[19] Chang,K.-H。;Hong,L.J。;Wan,H.,随机信任区域响应面方法(STRONG)-一种新的模拟优化响应面框架,INFORMS J.Compute。,25, 2, 230-243 (2013) ·doi:10.1287/ijoc.1120.0498
[20] 陈,R。;蔡英文。;Wang,W.,通过统计建模实现混合CPU-GPU系统中密集QR分解的自适应块大小,并行。计算。,40, 70-85 (2014) ·doi:10.1016/j.parco.2014.03.001
[21] COIN-OR项目。无导数优化。可在http://projects.coin-or.org/Dfo。
[22] Cozad,A。;Sahinidis,N.V。;Miller,D.C.,优化代数模型的自动学习,AIChE J.,60,2211-2227(2014)·doi:10.1002/aic.14418
[23] Csendes,T。;Pál,l。;发送,J.O.H。;Banga,J.R.,《重新审视全球优化方法》,Optim。莱特。,2, 445-454 (2008) ·Zbl 1160.90660号 ·doi:10.1007/s11590-007-0072-3
[24] Custódio,A.L.和Vicente,L.,SID-PSM:由单纯形导数引导的模式搜索方法,用于无导数优化。葡萄牙哥印布拉科印布拉大学马特马提卡分校,2008年。
[25] Demmel,J.,《应用数值线性代数》(1997),SIAM:SIAM,宾夕法尼亚州费城·Zbl 0879.65017号
[26] 德梅尔,J。;格里戈里,L。;霍姆曼,M。;Langou,J.,通信优化并行和序列QR和LU分解,SIAM J.科学。计算。,34,A206-A239(2012)·Zbl 1241.65028号 ·doi:10.1137/080731992年
[27] Eberhart,R.和Kennedy,J.,使用粒子群理论的新优化器。《第六届微型机器与人类科学国际研讨会论文集》,日本名古屋,1995年,第39-43页。
[28] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33 (2010) ·doi:10.18637/jss.v033.i01
[29] 吉尔摩,P。;Kelley,C.T.,用于优化具有许多局部极小值的函数的隐式滤波算法,SIAM J.Optim。,5, 269-285 (1995) ·Zbl 0828.65064号 ·doi:10.1137/0805015
[30] Golub,G。;Van Loan,C.,《矩阵计算》(2012),JHU出版社:JHU Press,马里兰州巴尔的摩
[31] Hadri,B.,Ltaief,H.,Agullo,E.,and Dongarra,J.,Tile QR因式分解与多核架构的并行面板处理。并行与分布式处理(IPDPS),2010年IEEE国际研讨会,2010年,第1-10页。
[32] Hansen,N.,《CMA进化策略:教程》。可在网址:http://www.lri.fr/~hansen/cmaesintro.html。
[33] Holland,J.H.,《自然和人工系统的适应》(1975),密歇根大学出版社:密歇根州安阿伯市密歇根州立大学出版社·Zbl 0317.68006号
[34] Holmström,K.、Göran,A.O.和Edvall,m.m.,《TOMLAB 7用户指南》。Tomlab Optimization,2010年。可在http://tomopt.com。
[35] 胡克,R。;Jeeves,T.A.,《数值和统计问题的直接搜索解法》,J.Assoc.Compute。机械,8212-219(1961)·Zbl 0111.12501号 ·数字对象标识代码:10.1145/321062.321069
[36] Huyer,W。;Neumaier,A.,通过多级坐标搜索进行全局优化,J.Glob。优化。,14, 331-355 (1999) ·Zbl 0956.90045号 ·doi:10.1023/A:1008382309369
[37] Huyer,W。;Neumaier,A.,SNOBFIT-通过分支和拟合进行稳定噪声优化,ACM Trans。数学。软质。,35, 1-25 (2008) ·doi:10.1145/1377612.1377613
[38] ICL。MAGMA,截至2017年7月6日有效,网址:http://icl.cs.utk.edu/projectsfiles/magma/doxygen/index.html。
[39] Ingber,L.,《自适应模拟退火(ASA):经验教训》,《控制网络》。,25, 33-54 (1996) ·Zbl 0860.93035号
[40] Jia,W.,Shaw,K.和Martonosi,M.,Stargazer:基于自动回归的GPU设计空间探索。《系统和软件性能分析》(ISPASS),2012年IEEE国际研讨会,2012年,第2-13页。
[41] Jones,D.R。;佩特顿,C.D。;Stuckman,B.E.,《无利普希茨常数的利普希兹优化》,J.Optim。理论应用。,79157-181(1993年)·Zbl 0796.49032号 ·doi:10.1007/BF00941892
[42] Kelley,C.T.,IMFIL 1.0版用户指南。可在网址:http://www4.ncsu.edu/~ctk/imfil.html。
[43] Lagarias,J.C。;Reeds,J.A。;Wright,M.H。;Wright,P.E.,低维Nelder-Mead单纯形方法的收敛性,SIAM J.Optim。,9, 112-147 (1998) ·Zbl 1005.90056号 ·doi:10.1137/S1052623496303470
[44] Li,Y.,Dongarra,J.和Tomov,S.,关于GPU的GEMM自动调优的注释。2009年国际计算科学会议,第884-892页。
[45] 罗,Y。;Duraiswami,R.,《多核架构上的高效并行非负最小二乘法》,SIAM J.Sci。计算。,33, 2848-2863 (2011) ·Zbl 1232.65194号 ·doi:10.1137/100799083
[46] 马杜古,S。;瓦班斯库,A。;德拉特,C。;van Nieuwpoort,R.,GPGPU性能建模工具的前景,并行。计算。,56, 18-33 (2016) ·doi:10.1016/j.parco.2016.04.002
[47] 北卡罗来纳州大都会。;罗森布鲁斯,A.W。;Rosenbluth,M.N。;出纳员,A.H。;Teller,E.,快速计算机器的状态方程计算,J.Chem。物理。,21, 1087-1092 (1953) ·Zbl 1431.65006号 ·数字对象标识代码:10.1063/1.1699114
[48] Nelder,J.A。;Mead,R.,函数最小化的单纯形法,计算。J.,7308-313(1965)·Zbl 0229.65053号 ·doi:10.1093/comjnl/7.4.308
[49] Neumaier,A.,MCS:通过多级坐标搜索进行全局优化。可在http://www.mat.univie.ac.网址:/~neum/software/mcs/·Zbl 0956.90045号
[50] NVIDIA公司。cuBLAS,截至2016年12月28日。http://docs.nvidia.com/cuda/cublas/#axzz4SZ3ssQJO。
[51] NVIDIA公司。cuSolver,截至2016年12月28日的当前版本。可在http://docs.nvidia.com/cuda/cusolver/#axzz4SZ3ssQJO。
[52] Owens,J.D.、Luebke,D.、Govindaraju,N.、Harris,M.、Krüger,J.、Lefohn,A.和Purcell,T.,《图形硬件通用计算调查》。《计算机图形论坛》(2007),第80-113页。
[53] Pintér,J.D.、Holmström,K.、Göran,A.O.和Edvall,m.m.,《TOMLAB/LGO用户指南》。Tomlab Optimization,2006年,在线阅读http://tomopt.com。
[54] Plantenga,T.D.,HOPSPACK 2.0用户手册,技术报告SAND2009-6265,Sandia National Laboratories,Albuquerque,NM和Livermore,CA,2009,网址:https://software.sandia.gov/trac/hopspack/。
[55] Powell,M.J.D.,《剑桥大学最近关于径向基函数的研究》,技术报告,剑桥大学应用数学和理论物理系,1998年·兹比尔0958.41501
[56] Powell,M.J.D.,UOBYQA:二次近似无约束优化,数学。程序。,92, 555-582 (2002) ·Zbl 1014.65050号 ·doi:10.1007/s101070100290
[57] Powell,M.J.D.,《无导数最小化NEWUOA的发展》,IMA J.Numer。分析。,28, 649-664 (2008) ·Zbl 1154.65049号 ·doi:10.1093/imanum/drm047
[58] Powell,M.J.D.,《无导数边界约束优化的BOBYQA算法》,技术报告,剑桥大学应用数学和理论物理系,2009年。
[59] 里奥斯,L.M。;Sahinidis,N.V.,《无导数优化算法综述和软件实现比较》,J.Glob。优化。,56, 1247-1293 (2013) ·Zbl 1272.90116号 ·doi:10.1007/s10898-012-9951-y
[60] Schreiber,R。;Van Loan,C.,《Householder转换产品的存储效率WY表示法》,SIAM J.Sci。计算。,10, 53-57 (1989) ·Zbl 0664.65025号 ·数字对象标识代码:10.1137/0910005
[61] Shubert,B.O.,求函数全局最大值的序列方法,SIAM J.Numer。分析。,9, 379-388 (1972) ·Zbl 0251.65052号 ·数字对象标识代码:10.1137/0709036
[62] Smith,R.L.,生成均匀分布在有界区域上的点的高效蒙特卡罗程序,Oper。第321296-1308号决议(1984年)·Zbl 0552.65004号 ·doi:10.1287/opre.32.6.1296
[63] Spall,J.C.,第7章:同时扰动随机逼近。随机搜索和优化导论:估计、模拟和控制。威利国际科学,2003年·邮编1088.90002
[64] 托莫夫,S。;东加拉,J。;Baboulin,M.,《面向混合GPU加速多核系统的稠密线性代数》,并行。计算。,36, 232-240 (2010) ·Zbl 1204.68268号 ·doi:10.1016/j.parco.2009.12.005
[65] Torczon,V.J.,《关于多向搜索算法的收敛性》,SIAM J.Optim。,1, 123-145 (1991) ·兹比尔0752.90076 ·数字对象标识代码:10.1137/0801010
[66] Torczon,V.J.,关于模式搜索算法的收敛性,SIAM J.Optim。,7, 1-25 (1997) ·Zbl 0884.65053号 ·doi:10.1137/S1052623493250780
[67] A.I.F.Vaz,PSwarm主页。可在http://www.norg.uminho.pt/aivaz/pswarm/。
[68] Volkov,V.和Demmel,J.,调整密集线性代数的基准GPU。2008年SC-高性能计算、网络、存储和分析国际会议,2008年,第1-11页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。