×

vec分解

swMATH ID: 22287
软件作者: Vincenti,H。;Lobet,M。;Lehe,R。;萨桑卡,R。;维伊,J.-L。
描述: 一种高效、便携的SIMD算法,用于颗粒细胞代码中的电荷/电流沉积。在当前的计算机体系结构中,数据移动(从芯片到网络)是算法中最耗能的部分(≈20 pJ/word-on-ie到≈10000 pJ/word on the network)。为了在硬件级别增加内存局部性并减少与数据移动相关的能耗,未来的exascale计算机倾向于在每个计算节点上使用多核处理器,这些处理器的时钟速度将降低,以实现高效冷却。为了补偿频率下降,机器供应商正在使用长SIMD指令寄存器,该寄存器能够在一个时钟周期内用一个算术运算符处理多个数据。SIMD寄存器长度预计每四年翻一番。因此,颗粒细胞(PIC)代码必须实现良好的矢量化,才能充分利用这些即将到来的架构。在本文中,我们提出了一种新的算法,该算法允许对电流/电荷沉积例程进行高效且可移植的SIMD矢量化,这些例程与场采集例程一起是PIC算法中最耗时的部分。我们的新算法使用了一种特殊的数据结构,该结构考虑了内存对齐约束,并避免了可能严重影响当前CPU上矢量化性能的聚集/分散指令。新算法在3D骨架PICSAR代码中成功实现,并在Haswell Xeon处理器(AVX2-256位宽数据寄存器)上进行了测试。结果表明,对于1-3级的颗粒形状因子,加速因子为×2至×2.5,精度为两倍。新算法可以按原样应用于未来的KNL(骑士登陆)体系结构,该体系结构将包括512位寄存器长度的AVX-512指令集(8个双字节/16个单字节)。
主页: 网址:http://www.sciencedirect.com/science/article/pii/S0104655516302764
关键词: 颗粒-细胞法;开放式多媒体播放器;单指令多数据矢量化;AVX2(平均值2);AVX512型;平铺;缓存重用;多核架构
相关软件: MUMPS公司;斯迈雷;PETSc公司
引用于: 2文件

2篇连载文章中引用

1 计算机物理通信
1 计算物理杂志

在1个字段中引用

2 数值分析(65-XX)

按年份列出的引文