{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2023,10,7]],“日期-时间”:“2023-10-07T06:18:08Z”,“时间戳”:1696659488786},“引用-计数”:26,“发布者”:“威利”,“问题”:“3”,“许可证”:[{“开始”:{:“日期-零件”:[[2013,5,14]],“时间”:”2013-05-14T00:00:00Z“,”时间戳“:13684896000000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“http://\/onlinelibrary.wiley.com/termsAndConditions#vor”}],“content-domain”:{“domain”:[],“crossmark-restriction”:false},“short-container-title”:[“Concurrency and Computation”],“published-print”:{“date-parts”:[[2014,3,10]]},”abstract“:”摘要<\/jats:title>小工具是一个模拟应用程序N</jats:italic>u2010天体和光滑粒子流体力学问题在宇宙学中得到了广泛应用,并被广泛应用于解决一系列宇宙学问题。N</jats:italic>u2010body关注的是N粒子和平滑粒子流体动力学是一种通过粒子模拟研究流体运动的流体模拟算法。大多数学者将注意力集中在在多核CPU或图形处理单元(GPU)平台上加速Gadget。然而,这些研究活动未能实现CPU\u2013GPU混合计算,导致CPU计算资源的巨大浪费<\/jats:p>本文提出了一种CPU\u2013GPU混合并行策略来加速Gadget\u20102,这是一种用于宇宙模拟的大规模并行结构形成代码。该策略使用CPU和GPU处理短距离力的计算。为了保证CPU和GPU的工作负载平衡,根据CPU和GPU的计算性能差异,提出了一种动态任务分配方案<\/jats:p>实验结果表明,与单核CPU实现的百万量级粒子相比,我们的CPU2013GPU混合并行策略的总体加速因子为18.6,短距离力计算的部分加速因子为28.35。此外,与包含12个CPU核和1个GPU的GPU平台相比,我们的混合并行策略获得了6%和20%的总体加速比和部分加速比。此外,混合策略的可扩展性非常好\u2013,随着问题规模的增加,其性能将得到增强。然而,此策略也有其局限性,即如果比率(CPU内核数除以GPU卡数)降低,性能增强将降低。最后,在我们的混合策略中,CPU利用率提高了17.14%或更好。版权所有\u00a9 2013 John Wiley&Sons,Ltd.用于宇宙学模拟“],“prefix”:“10.1002”,“volume”:“26”,“author”:[{“给定”:“乐清”,“family”:“Wang”,“sequence”:“first”,“affiliation”:[}“name”:“中国长沙国防科技大学计算机科学系并行与分布式处理国家实验室”}]},{“赋值”:“勇”,“家族”:“窦”,“序列”:“additional”,“从属”:[{“name”:“中国长沙国防科技大学计算机科学系并行与分布式处理国家实验室”}]},{“given”:“Song”,“family”:“Guo”,“sequence”:“additional”,“affiliation”:[{“name”:“中国长沙国防科技大学计算机科学系并行与分布式处理国家实验室”}]},{“given”:“Yuanwu”,“family”:“Lei”,“sequence”:“additional”,“affiliation”:[{“name”:“中国长沙国防科技大学计算机科学系并行与分布式处理国家实验室”}]},{“given”:“Dan”,“family”:“Zou”,“sequence”:“additional”,“affiliation”:[{“name”:“中国长沙国防科技大学计算机科学系并行与分布式处理国家实验室”}]}],“成员”:“311”,“在线发布”:{“日期部分”:[[2013,5,14]]},“参考”:[{“密钥”:“e_1_2_9_2_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/S1384-1076(01)00042-2“},{“key”:“e_1_2_9_3_1”,“首页”:“629”,“文章标题”:“模拟类星体、星系的联合演化及其大规模分布”,“卷”:“435”,“作者”:“斯普林格尔V”,“年份”:“2005”,“期刊标题”:《天体物理学(astro\u2010ph):自然》},{“key”:“e_1_2_9_4_1”,“非结构化”:“CUDATM 4.0编程指南NVIDIAR Corporation 2011。(可从http://www.nvidia.com/[2011年11月访问]获取)。“},{”key“:”e_1_2_9_5_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1145\/1654059.1654123”},“key”:“e_1_i_9_6_1”,“doi-assert-by”:“publisher”,”doi“:”10.1038\/32446a0“}、{”密钥“:”d_2_9/7_1“、”doi-aserted-by”“:”publisher“,”doi:“10.1145\/1654058.1654118”}“,{“”key“:”e_1_2_9_8_1“,”doi-asserted-by“:”crossref“,“unstructured”:“AubertD Teyssier R。GPU驱动的再电离模拟I:紫外线辐射场的结构ArXiv e \u2010prints 2010。”,“DOI”:“10.1088\/0004-637X\/724\/1\/244”},{“key”:“e_1_2_9_9_1”,“DOI断言”:“crossref”,“非结构化”:“JetleyP WesolowskiL GioachinF QuinnR公司。在GPU集群高性能计算网络存储和分析(SC)上扩展分层N\u2010车身模拟。2010年洛杉矶新奥尔良国际会议;1\u201311.“,”DOI“:”10.1109\/SC.2010.49“},{“key”:“e_1_2_9_10_1”,“DOI-asserted-by”:“publisher”,”DOI:“10.1111\/j.1365-2966.2005.09655.x”},“{”key“:”e_1_i_9_11_1“,“首页”:“1”,“volume-title”:“Kitchen,GADGET2在商品集群上的表现,简短报告”,“author”:“Igor NK”,“year”:“2006”}、{“key”:“e_1_2_9_12_1”,“首页”:“358”,“article-title“:”MPJ express meets gadget:towards a Java code for cosmological simulations“,”volume“:”4192“,”author“:”Baker M“,”year“:”2006“,”journal-title”:“Computer Science”},{“key”:“e_1_2_9_13_1”,“unstructured”:“EiefrigardC.g2X。(可从:http://sussi.megahost.dk\/frigaard\/获得)[于2010年9月访问]。“},”{“密钥”:“e_1_9_14_1”doi-asserted-by“:”publisher“,”doi“:”10.1111\/j.1467-8659.2010.01832.x“},{”issue“:”2008“,”key“:”e_1_2_9_15_1“,“first page”:“16”,“article-title”:“MCUDA:多核CPU CUDA内核的高效实现,计算机科学”,“volume”:”5335“,”author“:”Stratton JA“,年”:“2008”,“日记标题”:“”并行计算的语言和编译器计算机科学课堂讲稿“},{“key”:“e_1_2_9_16_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1145\/1353534.1346318“}”,{”key“:”e_1_i_9_17_1“,”首页“:”23“,”volume-title“:”ACM SIGMETRICS Performance Evaluation Review \u2010第一届高性能计算系统性能建模、基准测试和仿真国际研讨会专刊(PMBS 10)“,”author“:”Pennycook SJ“,”year“:”2011“},{”key“:”e_1_2_9_18_1“,”doi-asserted-by“:”crossref“,“unstructured”:“JacobsenDA Thibault JC SenocakI。MPI\u2010CUDA实现,用于多\u2010GPU集群上的大规模并行不可压缩流计算。第48届AIAA航空科学会议和2010年佛罗里达州奥兰多展览;1\u201316.“,”DOI“:”10.2514\/6.2010-522“},{“key”:“e_1_2_9_19_1”,“DOI-asserted-by”:“publisher”,”DOI:“10.1007\/978-3642-03869-3_79”},“key“:”e_1_i_9_20_1“,:“GNU科学图书馆。(可从http://www.GNU.org\/software\/gsl\/获取)【2011年8月访问】。“},{”key“:”e_1_2_9_22_1“,”非结构化“:”FFTW库。(可从:http:\/\/www.FFTW.org获取)[2011年8月访问]。“},{”key“:”e_1_2_9_23_1“,”doi asserted by“:”publisher“,”doi“:”10.1145\\1015706.1015800“},{”key“:”e_1_2_9_24_1“,”非结构化“:”ATI流计算2009技术概述。(可从以下网址获得:http://\/developer.amd.com/gpuassets\/StreamComputingOverview.pdf)【2011年11月访问】。“},{”key“:”e_1_2_9_25_1“,”unstructured“:”2004 MM Cool SD Toit Metaprogramming GPU with Sh“}”,{“key”:“e_1_i_9_26_1”,“unstructure”:“Khronos Group.OpenCL 2008。(可从以下网址获得:http://www.khronos.org\/opencl\/)。“},{”key“:”e_1_2_9_27_1“,”unstructured“:”MPICH library。(可从http://www.unix.mcs.anl.gov\/research\/projects\/mpich2\/获得)[于2009年8月\u2011年8月访问]。“}],”container-title“:[”Concurrency and Computation:Practice and Experience“],”original-title“:[],”language“:”en“,”link“:[{”URL“:”https:\/\/api.wiley.com/onlinelibrary\/tdm\/v1\/articles \/10.1002%2Fcpe.3046“,”content-type“:”unspecified“,”内容-version“:”vor“,”intended-application“:”text-mining“},{”URL“:”https:\//onlinelibrary.wiley-com/doi\/pdf\/10.10002\/cpe.3046“,”content-type”:“unspeciated”,“content-version”:“vor”,“intended-application”:“相似性检查”}],“deposited”:{“日期部分”:[[2023,10,6]],“日期-时间”:“2023-10-06T16:59:26Z”,“时间戳”:1696611566000},“分数”:1,“资源”:{“主要”:{“URL”:“https:\/\/onlinelibrary.wiley.com\/doi\/10.1002\/cpe.3046”},“副标题”:[],“短标题”:[],“已发布”:{“日期部分”:[[2013,5,14]]]},“引用次数”:26,“期刊发行”:{问题“:”3“,”已出版印刷品“:{”date-parts“:[[2014,3,10]]}},”alternative-id“:[”10.1002\/cpe.3046“],”URL“:”http://\/dx.doi.org\/10.1002\/cpe.3.046“,”archive“:[“Portico”],”relation“:{},“ISSN”:[“1532-0626”,”1532-0634“],“ISSN-type”:[{“value”:“1532-0.626”,“type”:“print”},{“value”:“1512-0636”4“,”type“:”electronic“}],”subject“:[],”published“:{”date-parts“:[[2013,5,14]]}}