×

一种有效的基于时间步长的自适应算法,用于Runge-Kutta型预测-校正方法。 (英语) Zbl 1228.65112号

摘要:为计算科学和工程中的问题的数值求解找到一个有效的实现变量涉及到许多受特定硬件架构强烈影响的实现决策。这些体系结构的复杂性使得很难通过手动调整找到最佳的实现变体。对于线性代数的数值求解方法,基于全局搜索引擎的自动调整技术可以成功地用于ATLAS或FFTW。这些技术在安装时生成不同的实现变量,并在计算开始之前在安装时或运行时选择其中一个实现变量。对于某些数值方法,安装时的自动调整不能直接应用,因为最佳实现变量可能在很大程度上取决于要解决的特定数值问题。
一个例子是常微分方程(ODE)的初值问题(IVP)的求解方法,其中要求解的ODE系统的耦合结构对硬件架构的存储器层次结构的有效使用有很大影响。在这种情况下,在运行时使用自动调整技术很重要,这是可能的,因为ODE解算器具有时间步进特性。
在本文中,我们提出了一个顺序自适应ODE解算器,该解算器在第一个时间步骤的运行时从候选池中选择最佳的实现变量,即,自动调整阶段已经有助于计算进度。实现变量在循环结构和用于实现数值算法的数据结构上有所不同,这里以Runge-Kutta(RK)校正器的预测-校正(PC)迭代方案为例。对于候选池中使用循环平铺来利用给定硬件平台的内存层次结构的那些实现变体,我们研究了平铺大小的选择。自适应ODE求解器将经验搜索与基于模型的方法相结合,以减少可能的瓷砖大小的搜索空间。运行时实验证明了自适应求解器在不同问题规模和不同硬件架构上对不同IVP的效率。

MSC公司:

65升06 常微分方程的多步、Runge-Kutta和外推方法
65升05 常微分方程初值问题的数值方法
34A34飞机 非线性常微分方程和系统
2005年5月 并行数值计算
65岁15岁 数值算法的封装方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aho,A.V。;Lam,M.S。;Sethi,R。;Ullman,J.D.,《编译器:原理、技术和工具》(2007),培生教育·Zbl 1429.68002号
[2] 艾伦·R。;Kennedy,K.,《为现代架构优化编译器:基于依赖的方法》(2002),Morgan Kaufmann
[3] 范德胡温,P.J。;Sommeijer,B.P.,带步长控制的高阶Runge-Kutta方法的并行迭代,计算与应用数学杂志,29111-127(1990)·Zbl 0682.65039号
[4] 科赫,M。;Rauber,T.,迭代Runge-Kutta方法的局部优化共享内存实现,(Euro-Par.2007,并行处理,Euro-Par,2007,并行加工,LNCS,第4641卷(2007),Springer),737-747
[5] 哈托诺,A。;Baskaran,M。;Ramanujam,J。;Sadayappan,P.,DynTile:多核处理器上并行执行的参数平铺循环生成,(IPDPS 2010:2010年IEEE并行与分布式处理国际研讨会论文集(2010),IEEE计算机学会)
[6] R.C.Whaley,J.J.Dongarra,自动调谐线性代数软件,技术代表UT-CS-97-366,田纳西大学,1997年。;R.C.Whaley,J.J.Dongarra,自动调谐线性代数软件,技术代表UT-CS-97-366,田纳西大学,1997年。
[7] J.Bilmes,K.Asanovic,C.W.Chin,J.Demmel,《使用PHiPAC优化矩阵乘法:一种便携式、高性能的ANSI C编码方法》,载于:第11届ACM超级计算国际会议,ICS'97年,1997年。;J.Bilmes,K.Asanovic,C.W.Chin,J.Demmel,《使用PHiPAC优化矩阵乘法:一种便携式、高性能的ANSI C编码方法》,载于:第11届ACM超级计算国际会议,ICS'971997。
[8] Tiwari,A。;陈,C。;查姆,J。;霍尔,M。;Hollingsworth,J.K.,《编译器优化的可扩展自动调整框架》,(IPDPS’09:2009年IEEE并行与分布式处理国际研讨会论文集(2009),IEEE计算机学会:IEEE计算机协会,美国华盛顿特区)
[9] 赵,J。;霍斯内尔,M。;M.Luján。;罗杰斯,I。;柯克汉姆,C。;Watson,I.,多集群CMP的自适应环路拼接,(ICA3PP’08:第八届并行处理算法和架构国际会议论文集(2008),Springer),220-232
[10] 弗里戈,M。;Johnson,S.G.,《FFTW3的设计和实现》,美国电气与电子工程师协会论文集,216-231(2005)
[11] Püschel,M。;J.M.F.莫拉。;约翰逊,J。;帕多瓦,D。;维洛索,M。;Singer,B.,SPIRAL:DSP转换的代码生成,IEEE会议录,93,2,232-275(2005),(“程序生成、优化和适配”专刊)
[12] 约托夫,K。;李,X。;Ren,G。;Garzaran,M。;帕多瓦,D。;Pingali,K.,搜索真的有必要生成高性能BLAS吗?,IEEE会议录,93,2,358-386(2005)
[13] Pouchet,U.Bondhugula,C.Bastoul,A.Cohen,J.Ramanujam,P.Sadayappan,《自动并行框架中的迭代和模型驱动组合优化》,摘自:2010年ACM/IEEE高性能计算、网络、存储和分析国际会议论文集,SC10,路易斯安那州新奥尔良,2010年。;法律公告Pouchet,U.Bondhugula,C.Bastoul,A.Cohen,J.Ramanujam,P.Sadayappan,在自动并行化框架中结合迭代和模型驱动优化,摘自:2010年ACM/IEEE高性能计算、网络、存储和分析国际会议论文集,SC10,路易斯安那州新奥尔良,2010年·Zbl 1284.68094号
[14] 拉赫曼,M。;Pouchet,L.N。;Sadayappan,P.,神经网络辅助瓷砖尺寸选择,(自动性能调节国际研讨会。自动性能调节的国际研讨会,IWAPT’2010(2010),Springer:Springer Berkeley,CA)
[15] 埃伊霍特,V。;Fuentes,E.,《数值方法多阶段选择的机器学习》,(机器学习新进展(2010),INTECH),117-136,(第章)
[16] 海尔,E。;诺塞特,S.P。;Wanner,G.,《求解常微分方程I:非刚性问题》(2000),Springer:Springer-Blin
[17] 诺塞特,S.P。;Simonsen,H.H.,并行Runge-Kutta方法方面,(常微分方程的数值方法。常微分方程数值方法,LNM,第1386卷(1989)),103-117·Zbl 0683.65057号
[18] 埃里格,R。;美国诺瓦克。;Deufhard,P.,《作为过程模拟有力工具的大规模并行线性隐式外推算法》(parallel Computing:Fundamentals,Applications and New Directions,1998),Elsevier,517-524·Zbl 0923.68064号
[19] 卡佩勒,M。;Kiehl,M。;佩兹尔,M。;Lenke,M.,不同计算机体系结构上IVP并行求解的优化外推方法,应用数学与计算,77,2-3301-315(1996)·Zbl 0859.65070号
[20] Burrage,K.,《常微分方程的并行和序列方法》(1995),牛津大学出版社:牛津大学出版社纽约·Zbl 0838.65073号
[21] 施密特,学士。;韦纳,R。;Jebens,S.,显式并行对等两步法的参数优化,应用数值数学,59769-782(2008)·Zbl 1163.65051号
[22] 海尔,E。;Wanner,G.,《求解常微分方程II:刚性和微分代数问题》(2002),施普林格出版社:施普林格-柏林
[23] 马蒂,R。;坎波斯,V。;Piñana,E.,矩阵带宽最小化的分枝定界算法,《欧洲运筹学杂志》,186,2,513-528(2008)·兹比尔1138.90037
[24] 王,Q。;郭永川。;Shi,X.W.,《有限元分析中矩阵带宽和剖面缩减的改进算法》,《电磁学研究进展快报》,9,29-38(2009)
[25] 性能应用程序编程接口,PAPI主页。http://icl.cs.utk.edu/papi/; 性能应用程序编程接口,PAPI主页。http://icl.cs.utk.edu/papi/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。