{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部件”：[[2024,2,9]]，“日期-时间”：“2024-02-09T04:08:14Z”，“时间戳”：1707451694736}，“引用-计数”：43，“出版商”：“威利”，“问题”：“13”，“许可证”：[{“开始”:{“日期-零件”：[2014,2,5]]，”日期-时间“：”2014-02-05 T00:00:00Z“，”时间戳“：1391558400000}，“content-version”：“vor”，“delay-in-days”：0，“URL”：“http://\/onlinelibrary.wiley.com/termsAndConditions#vor”}]，“content-domain”：{“domain”:[]，“crossmark-restriction”：false}，“short-container-title”：[“Concurrency and Computation”]，“published-print”：{“date-parts”：[[2015,9,10]]}，”abstract“：”摘要<\/jats:title>在开发与广泛的科学和技术应用相关的模型时，需要三维亥姆霍兹方程的分辨率。对于在复数运算中求解该方程，双共轭梯度（BCG）方法是最相关的求解方法之一。然而，由于涉及大量稀疏矩阵和向量运算，这种迭代方法具有较高的计算成本。本文提出了一种适用于亥姆霍兹方程规律性的特殊BCG方法。该BCG基于一种新格式（名为\u2018Regular format\u2019）的实现，该格式允许以紧凑的形式存储稀疏矩阵向量乘积中涉及的大型稀疏矩阵。这项工作的贡献是双重的：（1）使用\u2018Regular Format\u2019降低3D亥姆霍兹方程的内存需求，（2）使用高性能计算资源加快方程的解析。实现了一种能够在短时间内解决复杂问题的混合消息传递接口（MPI）\u2010图形处理单元CUDA GPU并行化（Fast\u2010Helmholtz）。Fast\u2010Helmholtz结合了消息传递接口和GPU级别的优化，以降低通信成本并改进GPU体系结构的利用。由于内存需求和运行时的相应减少，此策略使扩展要解决的亥姆霍兹问题的维度成为可能。版权所有\u00a9 2014 John Wiley&Sons，Ltd.<\/jats:p>“，”DOI“：”10.1002\/cpe.3212“，”type“：”期刊文章“，”已创建“：｛”日期部分“：[[2014,2,5]]，”日期时间“：”2014-02-05T05:47:40Z“，”时间戳“：1391579260000｝，”页面“：”3205-3219“，”来源“：”Crossref“，”由计数引用“：5，”标题“：[”基于多\u2010图形处理单元簇的3D亥姆霍兹方程的并行分辨率“]，前缀：“10.1002”，“卷”：“27”，“作者”：[{“给定”：“Gloria”，“家族”：“Ortega”，“序列”：“第一”，“从属关系”：[}“名称”：“阿尔默大学国际卓越学院（ceiA3）信息学系}，{“givena”：“Julia”，“family”：“Lobera”，“sequence”：“additional”，“affiliation”：[{“name”：“Centro Universitatio de la Defensa de Zaragoza，Ctra.Huesca s\/n 50090 Zaragosa Spain”}]}，{”given“：”Inmaculada“，”family“：”Garc\u00eda“，”sequence“：”additional“，”affiliance“:[{”name“：“西班牙M\u00e1laga 29071计算机架构与电子大学”}]}，{“given”：“M.”，“family”：“Pilar Arroyo”，”sequence“：”additional“，”affiliation“：[{“name”：“Arag\u00f3n工程研究所（I3A）。西班牙萨拉戈萨大学50009，”}]{，“givent”：“Ester M.”：“附加”，“附属机构”：[｛“名称”：“信息学系，国际卓越农业食品校区（ceiA3）Almer\u00eda 04120，Almer\u00eda Spain”｝]，“成员”：“311”，“在线发布”：｛“日期部分”：[[2014,2,5]]｝，“参考”：[｛“密钥”：“e_1_2_9_2_1”，“doi由”断言：“发布者”，“doi”：“10.1007\/978-3-642-61529-0”｝，｛“密钥”：“e_1_2_9_3_1”，“volume-title”：“声音、结构及其相互作用”，“author”：“Junger MC”，“year”：“1986”}，{“key”：“e_1_2_9_4_1”，“doi-asserted-by”：“crossref”，”unstructured“：“HarrisM.GPU ACM SIGGRAPH 2005 Courses New York USA 2005；637\u2013665.”，“doi”：“10.1145\/119855.1198790”}、{“key”：：“电磁学中的数值技术”，“author”：“Sadiku MNO”，“year”：“2001”}，{“key”：“e_1_2_9_6_1”，“volume-title”：“三维亥姆霍兹方程的快速多极方法”，“author”:“Nail A”，“year”:“2004”}：“4”，“author”：“Ihlenburg F”，“year”：“1997”，“journal-title”：“CAMES”}，{“key”：“e_1_2_9_8_1”，“doi-asserted-by”：“publisher”，”doi“：”10.1137\/S0036142994269186“}，”{“key”：”e_1_i_9_9_1“，”doi-assert-by“：”publisher“，，“doi-asserted-by”：“publisher”，“doi”：“10.1088\/0957-0233\/19\/7\/074013”}，{“key”：“e_1_2_9_11_1”，“unstructured”：“TOP 500 supercomputing site。可用形式：http://www.top500.org\/[于2014年1月21日访问]。”}，{“key”：“e_1_2_9_12_1”，“doi-asserted-by”：“crossref”，“unsructured“：”JacobsenDA ThibaultJC SenocakI.一个MPI\u2010CUDA实现，用于多\u2010GPU集群上的大规模并行不可压缩流计算。可从以下网址获得：http://\/scholarworks.boisestate.edu\/cgi\/viewcontent.cgi？article=1004&context=mecheng_facpubs【2014年1月21日访问】。“，”DOI“：”10.2514\/6.2010-522“}，{”key“：”e_1_2_9_13_1“，”DOI-asserted-by“：”crossref“，“unstructured”：“OrtegaG LoberaJ ArroyoMP Garc\u00edaI Garz\u00f3nEM.光学衍射层析成像的高性能计算。2012年高性能计算与模拟国际会议论文集（HPCS 2012）2012；195\u2013201。”，“DOI”：“10.1109\/HPCSim.2012.6266911“}，{“key”：“e_1_2_9_14_1”，“doi-asserted-by”：“publisher”，”doi“：“10.1137\/1.9780898718003”}，“key“：”e_1_i_9_15_1“，”doi-assert-by“：”publisher“，\/CBO9780511615115“}，{”key“：”e_1_2_9_17_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1137\/1.9781611970937“}，{“key”：“e_1_2_9_18_1”，“doi-asserted-by”：“publisher”，”doi“：”10.1002\/1099-1506（200005）7:4<197:：AID-NLA194>3.0.CO；2-S“}”，{”key“：”e_1_i_9_1“，”doi-assert-by“：”publisher“，BalayS等人.PETSc用户手册，第3.3版。网址：http://www.mcs.anl.gov\/petsc\/petsc\u2010current\/docs\/manual.pdf[2014年1月21日访问]。“}，{”key“：”e_1_2_9_21_1“，”doi-asserted-by“：”publisher“，”doi“：”10.1002“\/cpe.2979”}“，{“key”：”e_ 1_9_22_1“、”doi-aserted-by-“：BordageC公司。使用运行时系统对Helmholtz方程快速多极方法的异构多核和多u2010GPU系统进行并行化。ADVCIMP12巴萨2012年9月；90\u201395。可从以下网址获得：http://\/hal.inria.fr\/hal\u201000773114[于2014年1月21日访问]。“}，{”key“：”e_1_2_9_24_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1007\/s00791\u2010007\u20100069\u20106”}，“key”：“e_1_i_9_25_1”，“doi-assert-by”：“publisher”，”doi“：”10.1016\/j.parco.2008.12.006“}”，{。可从以下网址获得：http://\/software.intel.com/en\u2010us\/articles \/intel\u2010math\u2010kernel\u2010 library\u2010 documentation[于2014年1月21日访问]。“}，{”key“：”e_1_2_9_27_1“，”doi-asserted-by“：”publisher“，“doi”：“10.1016\/j.parco.2008.12.010”}“，{“key”：“e_1_i_9_28_1”，“doi-assert-by”：“crossref”，”unstructured“：”BellN GarlandM公司。在面向吞吐量的处理器上实现稀疏矩阵\u2010矢量乘法。2009年美国纽约州纽约市高性能计算网络存储与分析会议论文集；1\u201311.“，”DOI“：”10.1145\/1654059.1654078“}，{”key“：”e_1_2_9_29_1“，”DOI-asserted-by“：”publisher“，“DOI”：“10.1080\/17445760802337010”}，“key”：“e_1_i_9_30_1”，“DOI-assert-by”：“crossref”，”unstructured“：”MonakovA LokhmotovA AvetisyanA公司。为GPU架构自动调整稀疏矩阵\u2010矢量乘法。HiPEAC 2010 LNCS 5952意大利比萨2010会议记录；111\u2013125.“，”DOI“：”10.1007\/978-3642-11515-8_10“}，{“key”：“e_1_2_9_31_1”，“DOI-asserted-by”：“publisher”，“DOI”：“10.1002\/cpe.1658”}，“key“：”e_1_i_9_32_1“，”DOI-assert-by“：”crossref“，”unstructured“：”V\u00e1zquezF OrtegaG蕨类植物JJ Garz\u00f3nEM。使用GPU改进稀疏矩阵向量积的性能。第10届IEEE计算机和信息技术国际会议。2010年CIT；1146\u20131151.“，”DOI“：”10.1109\/CIT.2010.208“}，{”key“：”e_1_2_9_33_1“，”unstructured“：”NVIDIA.Cusparse library V5.5 2013。可从以下网址获得：http://\/docs.nvidia.com//cuda\/cusparse\/[于2014年1月21日访问]。“}，{”key“：”e_1_2_9_34_1“，”volume-title“：”矩阵计算（约翰·霍普金斯数学科学研究）“，”author“：”Golub GH“，“年份”：“1996”}，“key”：“e_1_i_9_35_1”，“doi-asserted-by”：“publisher”，”doi“：”10.1016\/j.jsb.2010.021“}”，{016\/0898\u20101221（95）00144\u2010N“}，{“键”：”e_1_2_9_37_1“，”doi由“：”publisher“断言，”doi“：”10.1142\/S0219876204000083“｝，｛”key“：”e_1_2_9_38_1“，”doi由“：”publisher“断言，”doi“：”10.1016\/S0167-8191（97）00005-7“｝，｛”key“：”e_1_9_39_1“，”doi由“：”publisher“断言，”doi“：”10.1093\/acprof:oso\/9780198529392.001.0001“｝，｛”key“：”e_1_2_ 9_40_1“，”doi由“：”publisher“断言，”doi“：”10.1007\/s11227\u2010012\u20100761\u20102“}，{“key”：“e_1_2_9_41_1”，“volume-title”：“Computer Organization and Design \u2010 The Hardware\/Software Interface”，“author”：“Patterson DA”，“year”：“2012”}，“key“：”e_1_i_9_42_1“，”volume-title“：”MPI\u2010The Complete Reference，volume 1:The MPI Core“，”author“：”Snir M“，”year“：”：“1998”}、{“key”：“e_1_2_9_43_1”，“非结构化“：”NVIDIA Corporation 2701 San Tomas高速公路。圣克拉拉95050 USA.CUDA C最佳实践指南。2013.可从以下网址获取：http:\/\/docs.nvidia.com\/cuda\u2010c\u2010best\u2010practices\u2010guide\/index.html[于2014年1月21日访问]。“}，{”issue“：”4“，”key“：”e_1_2_9_44_1“，”首页“：”299“，”article-title“：”图形处理器上稀疏线性系统迭代解的功耗优化“，”volume“：“27”，”author“：”Anzt H“，”year“：”2012“，”journal-title”：“Computer Science\u2010 R&D”}]，”container-title，“original-title”：[]，“language”：“en”，“link”：[{“URL”：“https:\/\/api.wiley.com/onlinelibrary\/tdm\/v1\/articles\/10.1002%2Fcpe.3212”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“text-mining”}，{“URL”：“http://onlinelibrary.wiley-com/doi\/pdf\/101002\/cpe.3212”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}]，“deposed”：{“date-parts”：[[2023,9,2]，“date-time”：“2023-09-02T12:52:47Z”，“timestamp”：1693659167000}，“score”：1，“resource”：{“primary”：}“URL”：“https:\/\/onlinelibrary.wiley.com/doi\/101002\/cpe.3212”date-parts“：[[2014,2,5]]}，”references-count“：43，“新闻发布”：{“发布”：“13”，“发布-打印”：{“日期-部分”：[[2015,9,10]]}}，“替代id”：[“10.1002”//cpe.3212”]，“URL”：“http://\/dx.doi.org \/10.1002\/cpe.3212”，“存档”：[”Portico“]，“关系”：{}，”ISSN“：[”1532-0626“，”1532-0.634“]，”ISSN-type“：[{”value“：“1532-0626”，“type”：“print”}，{“value”：”1532-0634“，”type“：”electronic“}]，“subject”：[]，“published”：{“日期部分”：[[2014,2,5]]}}