×

EigenKernel公司。 (英语) Zbl 1418.65051号

摘要:开发了一个名为EigenKernel的开源中间件,用于并行广义特征值求解器或大规模电子状态计算,以实现高可扩展性和可用性。该中间件使用户能够根据问题规范和目标体系结构,在ScaLAPACK、ELPA、EigenExa三个并行特征值库中选择最优解算器。该基准测试在Oakforest-PACS超级计算机上进行,结果表明,与纯ScaLAPACK解算器相比,ELPA、EigenExa及其混合解算器显示出更好的性能。K计算机上的基准也用于讨论。此外,还对性能预测进行了初步研究,以预测所用时间(T)作为所用节点数的函数(P(T=T(P))。该预测基于马尔可夫链蒙特卡罗(MCMC)方法中的贝叶斯推断,测试计算表明,该方法不仅适用于性能插值,也适用于外推。这种中间件对于当前、下一代(exascale)和未来一代(后摩尔时代)超级计算机之间的应用程序算法体系结构协同设计至关重要。

MSC公司:

2015财年65 矩阵特征值和特征向量的数值计算
2015年1月62日 贝叶斯推断
65-04 与数值分析有关的问题的软件、源代码等
2005年5月 并行数值计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Shalf,J.,Quinlan,D.,Janssen,C.:重新思考exascale系统的硬件-软件协同设计。计算机44,22-30(2011)·doi:10.1109/MC.2011.300
[2] Dosanjh,S.、Barrett,R.、Doerfler,D.、Hammond,S.,Hemmert,K.、Heroux,M.、Lin,P.、Pedretti,K.,Rodrigues,A.、Trucano,T.、Luitjens,J.:Exascale设计空间探索和联合设计。未来。发电机计算。系统。30, 46-58 (2014) ·doi:10.1016/j.future.2013.04.018
[3] FLAGSHIP 2020项目:Post-K超级计算机项目。http://www.r-ccs.riken.jp/fs2020p/en/。2019年4月25日访问
[4] CoDEx:为Exascale共同设计。http://www.codexhpc.org/。2019年4月25日访问
[5] EuroEXA:用于Exascale应用的欧洲联合设计。https://euroexa.eu/。2019年4月25日访问
[6] Imachi,H.,Hoshi,T.:用于大规模并行特征值计算的混合数值解算器及其与电子结构计算的基准。J.信息处理。24, 164-172 (2016)
[7] Hoshi,T.、Imachi,H.、Kumahata,K.、Terai,M.、Miyamoto,K.和Minami,K.,Shoji,F.:在K计算机的整个系统上进行原子量子材料模拟的可扩展算法。主题:2016年11月13-18日,犹他州盐湖城,高性能计算、网络、存储和分析国际会议,与SC16联合举办的第七届大型系统可缩放算法最新进展研讨会(ScalA’16),第33-40页
[8] 特征内核:https://github.com/eigenkernel/。2019年4月25日访问
[9] ELSI公司:https://wordpress.elsi-interchange.org/。2019年4月25日访问
[10] Yu,V.W.-Z.,Corsetti,F.,Garcia,A.,Huhn,W.P.,Jacquelin,M.,Jia,W.,Lange,B.,Lin,L.,Lu,J.,Mi,W。,Yang,C.,Yang,H.,Blum,V.:ELSI:科恩-沙姆电子结构求解器的统一软件接口。计算。物理学。Commun公司。222, 267 (2018) ·Zbl 07693050号 ·doi:10.1016/j.cp.2017.09.07
[11] Hirokawa,Y.,Boku,T.,Sato,S.,Yabana,K.:基于骑士着陆的多核团簇下大规模电子动力学模拟的性能评估。摘自:《亚太地区高性能计算国际会议论文集》(HPS Asia 2018),第183-191页(2018)
[12] Idomura,Y.、Ina,T.、Mayumi,A.、Yamada,S.、Matsumoto,K.、Asahi,Y.和Imamura,T.:在许多核心平台上,将避免通信的广义最小残差方法应用于回旋五维欧拉码。在:第八届大型系统可扩展算法最新进展研讨会论文集(ScalA'17),与SC17联合举行:高性能计算、网络、存储和分析国际会议犹他州盐湖城,第7:1-7:8页(2017)
[13] ScaLAPACK系列:http://www.netlib.org/scalapack/。2019年4月25日访问
[14] ELPA:Petaflop-应用的特征值SoLvers。http://elpa.mpcdf.mpg.de/。2019年4月25日访问
[15] EigenExa:高性能特征解算器。http://www.r-ccs.riken.jp/labs/lpnctrt/en/projects/eigenexa/。访问日期:2019年4月25日
[16] Blum,V.、Gehrke,R.、Hanke,F.、Havu,P.、Hawu,V.,Ren,X.、Reuter,K.、Schefler,M.:数值原子中心轨道的从头算分子模拟。计算。物理学。Commun公司。180, 2175-2196 (2009). https://aimsclub.fhi-berlin.mpg.de/。2019年4月25日访问·Zbl 1197.81005号
[17] Auckenthaler,T.、Blum,V.、Bungartz,J.、Huckle,T.,Johanni,R.、Kramer,L.、Lang,B.、Lederer,H.、Willems,P.:电子结构计算中部分对称特征值问题的并行解。并行计算。27, 783-794 (2011) ·doi:10.1016/j.parco.2011.05.002
[18] Marek,A.、Blum,V.、Johanni,R.、Havu,V.,Lang,B.、Auckenthaler,T.、Heinecke,A.,Bungartz,H.J.、Lederer,H.:ELPA图书馆电子结构理论和计算科学的可缩放并行特征值解。《物理学杂志》。冷凝水。马特。26, 213201 (2014) ·doi:10.1088/0953-8984/26/21/213201
[19] Imamura,T.、Yamada,S.、Machida,M.:在PB级下一代超级计算机系统上开发高性能特征解算器。进度编号。科学。Technol公司。2, 643-650 (2011) ·doi:10.15669/pnst.2.643
[20] Imamura,T.:EigenExa库——大尺度计算科学的高性能和可扩展直接特征解算器,ISC 2014,莱比锡(2014)
[21] Fukaya,T.,Imamura,T.:Oakleaf-FX上特征Exa特征解算器的性能评估:三对角化与五对角化。摘自:2015 IEEE国际并行和分布式处理研讨会论文集,第960-969页(2015)
[22] Sears,M.P.,Stanley,K.,Henry,G.:高性能并行特征解算器在电子结构计算中的应用。摘自:《ACM/IEEE超级计算会议论文集》,IEEE计算机学会,第1-1页(1998年)
[23] Poulson,J.,Marker,B.,van de Geijn,R.A.,Hammond,J.R.,Romero,N.A.:元素:分布式内存密集矩阵计算的新框架。ACM事务处理。数学。柔和。39(13), 1-24 (2013) ·Zbl 1295.65137号 ·doi:10.1145/2427023.2427030
[24] KMATH_EIGEN_GEV:高性能广义特征解算器。http://www.r-ccs.riken.jp/labs/lpnctrt/en/projects/kmath-eigen-gev/。2019年4月25日访问
[25] JCAHPC:高级高性能计算联合中心。http://jcahpc.jp/eng/index.html。2019年4月25日访问
[26] ELSES矩阵库。http://www.elses.jp/matrix/。2019年4月25日访问
[27] Hoshi,T.、Yamamoto,S.、Fujiwara,T.和Sogabe,T.,Zhang,S.-L.:具有广义特征值方程的有序[NN]电子结构理论及其在一千万原子系统中的应用。《物理学杂志》。冷凝水。马特。21, 165502 (2012) ·doi:10.1088/0953-8984/24/16/165502
[28] 超大规模电子结构计算。http://www.elses.jp/index_e.html。2019年4月25日访问
[29] Cerda,J.、Soria,F.:精确且可转移的扩展Hückel型紧束缚参数。物理学。版本B 61,7965-7971(2000)·doi:10.1103/PhysRevB.61.7965
[30] Wilkinson,J.H.,Reinsch,C.:自动计算手册。《线性代数》,第二卷。施普林格,纽约(1971)·Zbl 0219.65001号 ·数字对象标识代码:10.1007/978-3-642-86940-2
[31] Dackland,K.,Kágström,B.:使用分布式线性代数机对基于ScaLAPACK的例程进行性能分析的层次方法。摘自:PARA'96《第三届应用并行计算、工业计算和优化国际研讨会论文集》,第186-195页(1996)
[32] Amdahl,G.:实现大规模计算能力的单处理器方法的有效性。AFIPS确认程序。30, 483-485 (1967)
[33] 帕切科,P.:MPI并行编程。Morgan Kaufmann,马萨诸塞州(1996)·Zbl 0877.68013号
[34] Ristov,S.、Prodan,R.、Gusev,M.、Skala,K.:HPC系统中的超线性加速:为什么以及何时?摘自:《计算机科学和信息系统联合会议记录》,第889-898页(2016年)
[35] Pješivac-Grbović,J.、Angskun,T.、Bosilca,G.、Fagg,E.、Gabriel,E.、Dongarra,J.:MPI集体作业的性能分析。俱乐部。计算。10, 127-143 (2007) ·doi:10.1007/s10586-007-0012-0
[36] Hoefler,T.、Gropp,W.、Thakur,R.、Träff,L.:关于MPI实现的性能模型,以了解应用程序扩展问题。第17届欧洲MPI用户小组会议消息传递接口最新进展会议记录,第21-30页(2010年)
[37] Peise,E.,Bientinsi,B.:稠密线性代数的性能建模。摘自:《2012 SC Companion:高性能计算、网络存储和分析》,第406-416页(2012)
[38] Reisert,P.,Calotiou,A.,Shudler,S.,Wolf,F.:追随盲目预言者,使用更少的信息创建更好的绩效模型。摘自:《2017年欧洲-巴黎会议记录:并行处理》。《计算机科学讲义》10417,斯普林格,纽约,第106-118页(2017)
[39] Fukaya,T.,Imamura,T..,Yamamoto,Y.:面向自动算法选择的Householder-type并行tall-skinny QR分解的性能分析。收录于:《2014年VECPAR会议录:计算科学的高性能计算》——VECPAR 2014,计算机科学课堂讲稿8969,纽约斯普林格,第269-283页(2015)·Zbl 1514.65041号
[40] Fukaya,T.、Imamura,T.和Yamamoto,Y.:稠密矩阵计算性能建模的案例研究:K计算机上特征Exa特征解算器中的三对角化。摘自:2018 IEEE国际并行和分布式处理研讨会论文集,第1113-1122页(2018)
[41] Suda,R.:ATMathCoreLib:自动调谐数学核心库,IPSJ SIG技术报告,2011-HPC-129(14),1-12(2011)(日语)
[42] Nagashima,S.,Fukaya,T.,Yamamoto,Y.:使用ATMathCoreLib构建在线自动调整的成本模型:通过多核处理器上的SVD计算进行的案例研究。IEEE第十届嵌入式多核/多核芯片系统国际研讨会论文集(MCSoC-16),第345-352页(2016)
[43] Suda,R.:《在线自动调整的贝叶斯方法》,《软件自动调整:从概念到最先进的结果》,275-293。施普林格,纽约(2010)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。