总结

我们提出了使用块低秩(BLR)多前沿直接求解器来有效求解由三维电磁(EM)问题的频域麦克斯韦方程组的有限差分离散化引起的线性方程组的想法。该求解器对多波前方法中产生的中间稠密矩阵的非对角块使用低秩表示,以减少计算量。通过平衡计算EM场中的误差和浮点运算(flops)中的节省,优化了控制低秩表示精度的数字阈值,即所谓的BLR阈值。对代表海洋可控源EM测量典型场景的大规模三维电阻率模型进行了模拟,特别是包含不规则盐体的SEG SEAM模型。通过使用BLR表示,矩阵分解的浮点计数、因子矩阵的大小和所用的运行时间都大大减少,对于我们最大的系统,可以分别降低到其满秩值的10%、30%和40%N个 = 2060万未知数。减少的数量几乎与MPI任务和线程的数量无关,至少可达90×10=900个内核。对于更大的系统,BLR节省的成本增加了,这降低了因(N个2)对于全秩解算器(N个)带有= 1.4–1.6. 对于将高阻空气层排除在计算域之外的深水环境,BLR节省要大得多。在需要在多个震源位置进行仿真的场景中进行的一项研究表明,BLR解算器与迭代解算器相比,作为三维受控源电磁高斯-牛顿反演的引擎,具有竞争力,该引擎需要对几千个右手边进行正向建模。

简介

海洋可控源电磁(CSEM)测量是一种广泛使用的方法,用于探测油气藏和导电地层中的其他电阻结构(Ellingsrud.2002; 治安官2010; 钥匙2012). 传统方法使用高功率电偶极子作为电流源,在周围介质中激发低频(0.1–10 Hz)电磁场,并通过海底电磁接收器记录响应。在工业CSEM测量中,将数百个接收器和数千个震源位置的数据进行反演,以生成地下电阻率的三维分布。

为了反演和解释记录的电磁场,一个关键要求是要有一个有效的三维电磁场建模算法。电磁场数值建模的常用方法包括有限差分(FD)、有限体积(FV)、有限元(FE)和积分方程方法(参见Avdeev等人的评论2005; 伯纳2010; 达维迪切娃2010). 在频域中,这些方法将控制麦克斯韦方程简化为线性方程组Mx公司=对于每个频率,其中M(M)是由介质属性和网格离散化定义的系统矩阵,x是未知电磁场的矢量,并且表示当前源和边界条件。对于FD、FV和FE方法,系统矩阵M(M)是稀疏的,因此可以使用稀疏迭代或直接求解器有效地求解相应的线性系统。

迭代求解器长期以来一直主导着三维EM建模算法,如Newman&Alumbaugh(1995),史密斯(1996),穆德(2006),普兹列夫. (2013)和杰萨瓦尔. (2016)除其他外。它们在内存和计算需求方面相对便宜,并在并行环境中提供更好的可伸缩性。然而,它们的鲁棒性通常取决于M(M)而且它们通常需要特定于问题的预处理程序。此外,它们的计算成本随着源数量的增加而线性增长(即。载体;布洛梅.2009; 奥尔登堡.2013)在CSEM的工业调查中,这个数字可能达到数千。

另一方面,直接解算器通常更健壮、可靠,并且非常适合多源模拟。它们涉及单个昂贵的矩阵分解,然后对每个右手边(RHS)或RHS组进行廉价的前向-后向替换。不幸的是,因子分解所需的内存和浮点运算(flop)数量巨大,并且也随着系统大小非线性增长。因此,传统上认为直接求解器应用于三维问题的计算要求太高。然而,稀疏矩阵分解包的最新进展,例如MUMPS(Amestoy.2001,2006)帕迪索(Schenk&Gärtner)2004)、SuperLU(Li和Demmel2003)、UMFPACK(戴维斯2004)和WSMP(Gupta&Avron2000)以及现代并行计算环境的可用性,为吸引对中等规模三维电磁问题直接求解者的兴趣创造了必要条件,如Blome. (2009)、斯特里奇(2009)达席尔瓦. (2012),普兹列夫. (2016)和杰萨瓦尔. (2014).

一类重要的高性能直接求解器包(例如MUMPS、UMFPACK和WSMP)基于多前沿因子分解方法(Duff.1986; 线路接口单元1992)它将全局稀疏矩阵分解重新组织为一系列涉及相对较小但稠密矩阵的分解。这些密集矩阵被称为前沿矩阵,或者简称为前沿。对于椭圆型偏微分方程(PDE),已经观察到这些稠密前沿和相应的Schur补块或贡献块(从前沿的部分因子分解中获得,在本文的剩余部分中称为CBs)具有所谓的低阶性质(Bebendorf2004; 钱德拉塞克兰.2010). 换言之,它们可以用低阶近似表示,其精度可以由数值阈值控制,从而减小了因子矩阵的大小、浮点运算和基于多前沿的直接求解方法的计算运行时间。

. (2011)使用层次半可分(HSS)矩阵框架(Xia.2010)利用密集锋面和CB的低阶特性,并在解决三维地震问题的浮点运算和存储方面取得了显著进展。埃姆斯泰. (2015)提出了一种更简单、无层次的块体低层(BLR)框架,并将其应用于三维地震和三维热问题,结果表明其获得的收益与HSS方法相当。例如,据Amestoy报道,一个具有1740万未知量的三维地震问题. (2016)与传统的全秩(FR)因式分解方法相比,使用基于BLR方法的直接解,只需7%的运算次数和30%的因子矩阵大小就可以获得足够精确的解。

到目前为止,还没有关于将低阶近似的多面解算器应用于三维电磁问题的报告。地球物理应用中的EM场通常具有扩散性质,这使得下面的方程与描述地震波的方程有根本的不同。它们也与热扩散方程非常不同,因为EM场是矢量。最重要的是,电磁问题中材料特性的分散性非常大,例如,对于海洋CSEM应用,海水和电阻率岩石的电阻率通常相差四个数量级或更多。除此之外,空气层的电阻率基本上是无限的,除非水很深,否则应将其纳入计算范围。因此,系统矩阵的元素可能会发生许多数量级的变化,这可能会影响矩阵分解的低秩方法的性能。

在本文中,我们将MUMPS直接求解器应用于最近开发的BLR功能(Amestoy.2015)大规模3-D CSEM问题。我们为低秩近似寻找最佳阈值,该阈值为感兴趣领域中的电磁场提供了可接受的精度,并分析了与不同大小的线性系统(高达2100万未知量)的FR方法相比,在浮点运算、矩阵因子大小和计算时间方面的减少。研究还表明,在深水环境(不包括高阻空气)中,低阶近似的增益明显大于浅水环境。最后,对于一个真实的三维CSEM反演场景,我们比较了使用BLR多面解算器和使用迭代解算器运行反演的计算成本。

本文的结构如下:我们首先描述了我们的频域有限差分电磁建模方法。接下来简要概述了BLR多额叶解算器的主要功能。然后,我们给出了模拟结果,重点是低秩近似引入的误差;低阶数值阈值的选择,本文余下部分称为BLR阈值;flop中的低阶增益、因子大小和计算时间;不同核数的可扩展性;基体尺寸的影响;以及深水和浅水情况的比较。

有限差分电磁模型

如果电磁场的时间依赖性为e(电子)ωt吨表示角频率ω的频域麦克斯韦方程组J型
\开始{方程式}\nabla\times{{\bfE}}\={\rm{\i}}\omega\mu{\bf H}}\end{方程式{
(1)
\开始{方程式}\nabla\times{{\bf H}}\=\boldsymbol{\bar{\sigma}}{{\ff E}}-{\rm{i}}\omega\mu{{\bf E}}+{\bf-J}},结束{方程式{
(2)
哪里E类H(H)分别是电场矢量和磁场矢量,μ和ε分别是磁导率和介电常数。假设μ值为常数,并等于自由空间值μ0= 4π × 10− 7H米− 1.|$\boldsymbol{\bar{\sigma}}$|是电导率张量,可以在所有三维中变化。在垂直横向各向同性(VTI)介质中,|$\boldsymbol{\bar{\sigma}}$|采取形式
\开始{等式}\boldsymbol{\bar{\sigma}}=\left[{\begin{array}{c@{quad}c@{quad}c}{{\simma_H}}&0&0\\0&{{\sigma_H}{&0&{\sigra_V}}\end{arrary}}}\right]\\end{等号}
(3)
其中σH(H)(或1/ρH(H))和σ(或1/ρ)分别是水平电导率和垂直电导率(反电阻率)。
磁场可以从方程中消除(1)和(2)通过取等式的卷曲(1)并将其代入等式(2). 这就产生了电场的矢量亥姆霍兹方程,
\开始{方程式}\nabla\times\nabla\times{{\bfE}}-{\rm{i}}\omega\mu\boldsymbol{\bar{\sigma}}{\bf E}}-{\omega^2}\mu\varepsilon{\bf-E}}\={\rm}}i\omega\ mu{\bvJ}}}。\结束{方程式}
(4)
对于0.1至10 Hz范围内的典型CSEM频率,位移电流σ可忽略不计H(H), σ≫ ωε. 因此,等式(4)成为
\开始{方程式}\nabla\times\nabla\times{{\bf E}}-i\omega\mu\boldsymbol{\bar{\sigma}}{{\ff E}{={\rm{\}}i\omega\ mu{\bfJ}}。\结束{方程式}
(5)
我们假设有界域|${\rm{\Omega}}\子集{{\cal R}^3}$|其中,等式(5)保持足够大,使得畴边界处的电磁场能忽略不计,并允许完美导电的Dirichlet边界条件
\开始{方程式}{\left.{{\bf\hat{n}}\ times{\bf E}}\right|_{\partial{\rm{\Omega}}}}={\rm}}0\quad{\rm and}}\quad}{
(6)
应用,其中|${{bf\hat{n}}$|是指向域边界的向外法线。
为了计算电场,公式(5)使用Yee网格上的有限差分(Yee1966)遵循Newman&Alumbaugh的方法(1995). 这导致了一个线性方程组
\开始{方程式}{{\bf-Mx}},结束{方程式{
(7)
哪里M(M)是维度3的系统矩阵N个× 3N个对于建模网格N个 =N个x×N个×N个z(z)细胞,x是3维未知电场矢量N个、和(尺寸3N个)是由等式右侧得出的源向量(5). 矩阵M(M)是一个复值稀疏矩阵,一行中最多有13个非零项。一般来说,M(M)是不对称的,但通过简单地将比例因子应用于离散化的有限差分方程,可以很容易地使其成为对称的(但不是厄米特的)(参见Newman&Alumbaugh1995). 对于本文中的所有模拟,我们考虑矩阵对称,因为它减少了方程的求解时间(7)大约增加了2倍,并增加了最大可行问题规模。最后,通过求解矩阵方程来计算电场(7),法拉第定律(等式。1)可以用来计算磁场。

块低阶多前沿方法

在本节中,我们首先简要介绍了多波前方法,并回顾了密集矩阵的BLR表示。然后,我们展示了如何将这种表示与多面方法结合使用,以实现减少矩阵因子大小和触发器计数。

多前沿方法

等式中的矩阵(7)对于典型的CSEM模拟,可能涉及数百万未知项,并且可以使用迭代或直接求解器进行求解。在这项工作中,我们使用了MUMPS包(Amestoy.2001,2006)基于高斯消去和多波前方法的大规模并行稀疏直接解算器(达夫.1986; 线路接口单元1992). 通过三个步骤获得解决方案:(1)求解器重新排序的分析阶段M(M)减少因子中的填充量,并执行符号分解步骤来确定枢轴序列和内部数据结构;(2)分解系统矩阵的分解阶段M(M)作为|${\bf M}\=\{\bf-LD}{{\bf-L}^{\boldsymbol T}}$|逻辑单元取决于是否M(M)对称或不对称;和()通过前向消元计算每个RHS的解的求解阶段本地设计院 = b条计算中间向量,然后是向后替换L(左)T型x = 计算未知电场矢量x.

在多锋面方法中M(M)通过一系列相对较小但稠密的矩阵(称为fronts)的部分分解来实现。如图所示1,每个前端都与两组变量相关联:完全求和(FS)变量,这些变量被删除以获得L(左)11U型11(通过部分因子分解);以及非完全求和(NFS)变量,这些变量接收因删除FS变量而产生的更新。前端排列在一个树形的依赖关系图中,称为“消除树”(Schreiber1982; 线路接口单元1990),它确定哪些变量属于哪个前端以及前端处理的顺序(自下而上)。减少填充的顺序,如嵌套解剖(乔治1973)可用于构建有效的消除树。

在(A)和(b)部分因子分解之前和之后的锋面。将删除完全总计(FS)变量,并更新非完全总计(NFS)变量。CB是消除FS变量后获得的Schur补码。
图1。

在(A)和(b)部分因子分解之前和之后的锋面。完全求和(FS)变量将被消除,而非完全求和(NFS)变量将被更新。立方英尺是消除FS变量后获得的Schur补码。

一旦锋面部分分解,得到的部分因子L(左)11,L(左)21,U型11U型12存储在内存中,而Schur补码,即所谓的贡献块(CB),暂时存储在单独的堆栈中。一旦在分解过程中稍后使用它来组装父前端,就可以释放CB内存。

块低秩矩阵

已经证明,由椭圆偏微分方程离散化得到的前沿和边界元具有低阶性质(Bebendorf2004; 钱德拉塞克兰.2010). 尽管矩阵本身是FR,但它们的大多数非对角块通常是低秩的。这些非对角块可以用低秩表示进行近似,这减少了浮点运算和内存,并对解的准确性产生了可控的影响。这种近似的一种有效方法是基于Amestoy研究的BLR格式. (2015). 它使用扁平块矩阵结构,与分层矩阵格式(如|${\cal H}$|-矩阵(Hackbusch1999),|${{\cal H}^2}$|-矩阵(Hackbusch.2000)和HSS矩阵(Xia等。2010).

等式(8)说明了BLR表示第页×第页块密集矩阵一个其中非对角块一个IJ公司尺寸的IJ公司×n个IJ公司具有数字等级|$k_{IJ}^\ε$|由低阶乘积近似为|${{{\bf A}}_{{\bf IJ}}}}\近似{{{5Y}}}{{5Z}}:
(8)

这里是矩阵Y(Y)IJ公司ZIJ公司大小相同|${m_{IJ}}\乘以k_{IJ}^\ε$||${n_{IJ}}\乘以k_{IJ}^\ε$|,低秩近似保持精度ε(BLR阈值):|$||{{{\bf A}}_{{\bf IJ}}}-{{\bf Y}}_{{\bf IJ}}}}{\bf Z}}_{{\bf IJ}}}^{\bf T}}||,这里和论文中的规范是L(左)2规范。只有当块的秩足够低时(通常是在以下情况下),近似才会导致节省|$k_{IJ}^\ε({{m_{IJ}}+{n_{IJ.}}).

对于涉及BLR矩阵的代数运算,非对角块一个IJ公司应尽可能低阶,以最大限度地减少内存和浮点数。为了理解是什么决定了秩,我们应该提醒自己,从PDE系统获得的矩阵中的每个未知项都对应于物理空间中的特定位置。如果块中未知项占据的空间域与区块中的未知数相去甚远J型,可以说未知项是弱连通的一个伊吉应该很低。实际上,块之间的几何距离之间存在非常明显的相关性J型在许多研究中都观察到了相应块矩阵的秩。特别是,对于三维地震问题,Weisbecker观察到了这一点. (2013)和艾姆斯泰. (2016). 因此,可以使用此几何原理对未知项进行最优聚类,其基本目的是实现块的最佳可能低阶属性。或者,如果没有可用的几何信息,可以使用基于矩阵图的类似原理,如Amestoy所示. (2015).

然而,几何学原理在EM问题上可能不如在地震问题上有效,因为系统电阻率的极端变化导致矩阵元素大不相同。因此,对于弱连接且具有低秩相互作用的两个簇,相应的未知项在空间中彼此相距较远是不够的。还应要求它们之间的介质不具有高电阻。我们将在下一节中看到,这种细微差别可能会强烈影响涉及高电阻空气层的CSEM问题的BLR增益。请注意,从用户的角度来看,这种方法能够根据介质的物理特性自动调整低阶压缩量是非常理想的。

块低阶多额叶解算器

为了使用BLR多波前方法执行LU分解,每个波前的标准部分分解算法(如图1)必须修改。在前线作战的不同阶段应用低阶压缩时,可以考虑采用几种BLR策略(Amestoy.2015). 算法中概述了本工作中使用的策略1为了清晰起见,该算法是针对一般稠密矩阵提出的,但很容易适用于正面矩阵的部分分解。前沿矩阵是使用BLR格式以ε精度近似的,所有后续操作都得益于使用低秩乘积的压缩。

算法1。

稠密矩阵的BLR分解。

输入:对称矩阵一个属于第页×第页阻碍
输出:因子矩阵L(左),D类
对于k个 = 1 第页
因素:|美元$|
对于 = k个+1个第页
求解:|${{{\bf L}}_{{\bf ik}}}={{{A}}{{ik}}}}{$|
压缩:|${{{\bf L}}_{{\bf ik}}}}近似{{{Y}}{{ik}}}{Z}}$|
对于j个 = k个+ 1 
更新:|${{{\bf A}}_{{{\bf ij}}}={{{bf A{}}}}}$|
|$\\近似{{{\bf A}}}}{{{\bf ij}}}-{{{\ bf Y}}{}}){{\bf Y}}_{{\bf jk}}}^{\bf-T}}$|
结束
结束
结束
输入:对称矩阵一个属于第页×第页阻碍
输出:因子矩阵L(左),D类
对于k个 = 1 第页
因素:|${{{\bf L}}_{{{\bf kk}}}}{{\bf D}_{{{\bf kk}}}}$|
对于 = k个+ 1 第页
求解:|${{{\bf L}}_{{\bf ik}}}={{{A}}{{ik}}}}{$|
压缩:|${{{\bf L}}{{{\ bf ik}}}}近似{{{Y}}{Z}}{}{$|
对于j个 = k个+ 1 
更新:|${{{\bf A}}_{{{\bf ij}}}={{{bf A{}}}}}$|
|$\\近似{{{\bf A}}}}{{{\bf ij}}}-{{{\ bf Y}}{}}){{\bf Y}}_{{\bf jk}}}^{\bf-T}}$|
结束
结束
结束
算法1。

稠密矩阵的BLR分解。

输入:对称矩阵一个属于第页×第页阻碍
输出:因子矩阵L(左),D类
对于k个 = 1 第页
因素:|美元$|
对于 = k个+ 1 第页
求解:|${{{\bf L}}_{{\bf ik}}}={{{A}}{{ik}}}}{$|
压缩:|${{{\bf L}}_{{\bf ik}}}}近似{{{Y}}{{ik}}}{Z}}$|
对于j个 = k个+ 1 
更新:|${{{\bf A}}_{{{\bf ij}}}={{{bf A{}}}}}$|
|$\\近似{{{\bf A}}}}{{{\bf ij}}}-{{{\ bf Y}}{}}){{\bf Y}}_{{\bf jk}}}^{\bf-T}}$|
结束
结束
结束
输入:对称矩阵一个属于第页×第页阻碍
输出:因子矩阵L(左),D类
对于k个 = 1个第页
因素:|美元$|
对于 = k个+ 1 第页
求解:|${{{\bf L}}_{{\bf ik}}}={{{A}}{{ik}}}}{$|
压缩:|${{{\bf L}}_{{\bf ik}}}}近似{{{Y}}{{ik}}}{Z}}$|
对于j个 = k个+ 1 
更新:|${{{\bf A}}_{{{\bf ij}}}={{{bf A{}}}}}$|
|$\\近似{{{\bf A}}}}{{{\bf ij}}}-{{{\ bf Y}}{}}){{\bf Y}}_{{\bf jk}}}^{\bf-T}}$|
结束
结束
结束

从算法推导出的改进的多平面方法1已在MUMPS求解器中实现,并在下面用于求解与CSEM问题中出现的许多不同矩阵相关的方程组。应该注意的是,BLR方法提供的因子大小的减小尚未被利用,以减少求解器的有效内存使用-此功能的实现正在进行中。请注意,BLR格式也可用于近似/压缩正面矩阵的CB。这可用于进一步减少求解器的内存占用,但不在本文的讨论范围内。如理论所示(Amestoy.2017),BLR格式的块大小应取决于矩阵大小。几乎所有矩阵的块大小都设置为256,但对于最大的矩阵S21,块大小增加到416。我们将修改后的多额叶方法称为“BLR”解算器,而没有BLR功能的MUMPS解算器称为FR解算器。

结果

在本节中,我们将从因子大小、触发器计数和运行时间方面说明BLR解算器相对于FR解算器的效率。随后,对BLR解算器在浅水和深水CSEM建模场景中的性能进行了比较研究。然后,我们将这两个直接解算器的效率与实际CSEM反演的迭代解算器进行了比较。

在所有仿真中,系统矩阵都是使用Jaysaval中的有限差分建模代码生成的. (2014). 对其中一个进行了模拟(1)CALMIP超级计算机EOS(https://www.calmip.univ-toulouse.fr/),这是一个由612个计算节点组成的BULLx DLC系统,每个节点由两个Intel Ivybridge处理器组成,具有10个内核(共12个) 240核)以每节点2.8 GHz和64 GB/节点的速度运行,或(2)FARAD计算机,16核Intel Xeon CPU E5-2690处理器,2.90 GHz和264 GB内存。报告的浮点数对应于复数运算中的双精度运算数。

模型和系统矩阵

为了检查BLR解算器的性能,让我们考虑图2图中的模型2(我们以后称之为H(H)-模型)是一个简单的各向同性半空间地球模型,其中电阻率为100Ωm,尺寸为10×10×0.2 km的三维储层嵌入在电阻率为1Ωm的均匀背景中。这是一个浅水模型:海水深度为100 m,电阻率为0.25ΩmH(H)-型号为20×20×10km一种深水变体,水深增加到3公里(以下简称D类-模型),并且将在后面进一步描述。这个H(H)D类模型产生了大小和结构相同但数值性质不同的矩阵。

y=10 km处通过简单各向同性三维电阻率模型(H模型)的垂直横截面。
图2。

通过简单各向同性三维电阻率模型的垂直截面(H(H)-型号)=10公里。

y=23.7 km时SEAM模型(S模型)垂直(a)和水平(b)电阻率的垂直横截面。
图3。

SEAM模型垂直(a)和水平(b)电阻率的垂直横截面(S公司-型号)=23.7公里。

图中的模型(以下简称S公司-模型)是SEAM(SEG高级建模程序)第一阶段盐电阻率模型,是油气勘探界设计的复杂三维地球模型,广泛用于测试三维建模和反演算法。这个S公司-模型是墨西哥湾地质的代表,其尺寸为35×40×8.6 km它包括一个电阻率为100Ωm的各向同性复盐体和几个油气藏(Stefani.2010). 背景地层具有VTI各向异性和水平ρH(H)和垂直ρ电阻率的变化主要在0.5~0.6Ωm范围内。海水是各向同性的,电阻率为0.3Ωm,厚度为625~2250 m。然而,我们选择在原始SEAM模型中从水柱中移除400米,从而导致水深从225米到1850米不等,以确保空气波(通过空气从源传播到接收器的信号分量)对数据有重大影响。

这两个模型的顶边界包括厚度为65 km的空气层和电阻率为106Ωm.在其他五个边界上增加了30 km的填料,以确保强空气波和零场Dirichlet边界条件的组合不会导致边缘效应。当前源是x-定向水平电偶极子(HED),单位偶极子力矩为0.25 Hz,位于海床上方30 m处。

在填充区域,网格严重不均匀,并遵循Jaysaval描述的规则. (2014)其中空气由15个单元离散,其他边界由7个单元离散。除了填充区域外,我们还使用了在所有三个方向上一致的有限差分网格。用于离散H(H)-,D类-和S公司-表中列出了型号1:单元大小、单元数、未知结果数和系统矩阵中非零项的数量。这些离散化产生了六个不同的系统矩阵:上半年,H3级/第3天第17页对于H(H)-D类-模型;第3章S21型对于S公司-模型。数字表示与每个矩阵相关的线性系统中未知量的近似数量,单位为百万;例如,与矩阵对应的线性系统S21型有大约2100万个未知。到目前为止,对于三维地球物理EM问题,已经报道的用直接求解器求解的最大复值线性系统有780万个未知数(Puzyrev.2016).

表1。

用于离散三维浅水区的均匀网格参数H(H)-深水模型D类-模型和SEAMS公司-模型。在这里dx公司,第y天、和第纳尔是以米为单位的单元格大小,而N个x,N个N个z(z)是中的单元格数x-,-、和z(z)-方向还包括添加的非均匀单元,用于在边缘填充模型。N个 = N个x×N个×N个z(z)是未知数的总数无核武器是系统矩阵中非零项的总数。

浅水区H(H)-模型/深水D类-模型
网格系统矩阵dx公司 = 第y天第纳尔N个x=N个N个z(z)N个NNZ公司
G公司1上半年4002006474909 31211 658 644
G公司2H3级/第3天200200114742 885 11237 148 644
G公司第17页10010021412717 448 276225 626 874
接缝S公司-模型
网格系统矩阵dx公司 = 第y天第纳尔N个xN个N个z(z)N个NNZ公司
G公司4第3章4808098871303 325 14042 836 538
G公司5S21型2404018116023720 590 560266 361 112
浅水区H(H)-模型/深水D类-模型
网格系统矩阵dx公司 = 第y天第纳尔N个x=N个N个z(z)N个NNZ公司
G公司1上半年4002006474909 31211 658 644
G公司2H3级/第3天200200114742 885 11237 148 644
G公司第17页10010021412717 448 276225 626 874
接缝S公司-模型
网格系统矩阵dx公司 = 第y天第纳尔N个xN个N个z(z)N个NNZ公司
G公司4第3章4808098871303 325 14042 836 538
G公司5S21型2404018116023720 590 560266 361 112
表1。

用于离散三维浅水区的均匀网格参数H(H)-深水模型D类-模型和SEAMS公司-模型。在这里dx公司,第y天、和第纳尔是以米为单位的单元格大小,而N个x,N个N个z(z)是中的单元格数x-,-、和z(z)-方向还包括添加的非均匀单元,用于在边缘填充模型。N个 = N个x×N个×N个z(z)是未知数的总数NNZ公司是系统矩阵中非零项的总数。

浅水区H(H)-模型/深水D类-模型
网格系统矩阵dx公司 = 第y天N个x=N个N个z(z)N个无核武器
G公司1上半年4002006474909 31211 658 644
G公司2H3级/第3天200200114742 885 11237 148 644
G公司第17页10010021412717 448 276225 626 874
接缝S公司-模型
网格系统矩阵dx公司 = 第y天N个xN个N个z(z)N个NNZ公司
G公司4第3章4808098871303 325 14042 836 538
G公司5S21型2404018116023720 590 560266 361 112
浅水区H(H)-模型/深水D类-模型
网格系统矩阵dx公司 = 第y天第纳尔N个x=N个N个z(z)N个NNZ公司
G公司1上半年4002006474909 31211 658 644
G公司2H3级/第3天200200114742 885 11237 148 644
G公司第17页10010021412717 448 276225 626 874
接缝S公司-模型
网格系统矩阵dx公司 = 第y天第纳尔N个xN个N个z(z)N个NNZ公司
G公司4第3章4808098871303 325 14042 836 538
G公司5第21页2404018116023720 590 560266 361 112

BLR阈值的选择

BLR阈值ε控制着BLR多波前方法中稠密中间矩阵低阶近似的精度。更大的ε意味着更大的压缩,以及更大的因子大小和浮点数减少,但解决方案的准确性较差。因此,有必要找出ε的哪些选择提供了可接受的CSEM解决方案精度,以及因子大小、浮点运算和运行时间的相关减少。

让我们定义矩阵方程的相对剩余范数δ(7)作为剩余范数的比率||Mx公司ε||对于近似BLR解决方案xε在BLR阈值ε到零解残差范数||||作为
\开始{方程式}\delta\=\frac{|{{\bfs}}-{\bfM}}{{\Bfx}}^\epsilon}}||}{{|{\bf s}||{}}。\结束{方程式}
(9)

矩阵对应的线性系统上半年,H3级,第3章,第17页S21型然后求解不同的ε值,以检查其对δ的影响。对于所有线性系统,RHS矢量对应于模型中心海床上方30 m处的HED源。4显示了绘制为BLR阈值ε函数的相对剩余范数δ。每个图上的不同曲线对应不同数量的迭代细化步骤。迭代求精通过算法中所示的迭代过程提高了线性系统解的精度2阿里奥利展示过. (1989)当初始近似解合理时,仅需两到三步迭代精化即可显著提高近似解的精度,这一结果也适用于我们的BLR解。

对应于矩阵H1、H3、S3、H17和S21的线性系统的相对剩余范数δ作为BLR阈值ε的函数的图。如果选择ε≤10−7,则残余δ始终低于10−6。
图4。

对应于矩阵的线性系统的相对剩余范数δ作为BLR阈值ε的函数的图上半年,H3级,第3章,第17页S21型.残余δ始终低于10− 6如果选择ε≤10− 7.

算法2。

迭代细化步骤。

1计算残差:第页 = Mx公司εBLR解决方案xε
2重复
三。  解决M(M)Δx = 第页使用逻辑单元低密度脂蛋白T型因素M(M)
4  xεxε+ Δx
5  第页 = Mx公司ε
6  计算δ=|Mx公司ε|/||
7直到δ低于公差水平或达到最大迭代次数
1计算残差:第页 = Mx公司εBLR解决方案xε
2重复
三。  解决M(M)Δx = 第页使用逻辑单元低密度脂蛋白T型因素M(M)
4  xεxε+ Δx
5  第页 = Mx公司ε
6  计算δ=|Mx公司ε|/|| 
7直到δ低于公差水平或达到最大迭代次数
算法2。

迭代优化步骤。

1计算残差:第页 = Mx公司εBLR解决方案xε
2重复
三。  解决M(M)Δx = 第页使用逻辑单元低密度脂蛋白T型因素M(M)
4  xεxε+ Δx
5  第页 = Mx公司ε
6  计算δ=|百万像素ε|/|| 
7直到δ低于公差水平或达到最大迭代次数
1计算残差:第页 = Mx公司εBLR解决方案xε
2重复
三。  解决M(M)Δx = 第页使用逻辑单元低密度脂蛋白T型因素M(M)
4  xεxε+ Δx
5  第页 = Mx公司ε
6  计算δ=|Mx公司ε|/|| 
7直到δ低于公差水平或达到最大迭代次数

EM问题迭代求解器收敛准则的传统选择,参见Newman&Alumbaugh(1995),史密斯(1996)和穆德(2006)δ≤10− 6.图4表明BLR阈值ε应≤10− 7以满足所有线性系统的这一标准。迭代求精减少了相对剩余范数δ,但其代价是每个求精步骤(算法步骤32)在解决阶段。对于数千个RHS的情况,这是CSEM反演问题的典型情况,这些迭代步骤可能代价太高。因此,以下讨论的重点是在没有任何迭代细化的情况下获得的BLR解。它遵循图4对于研究中包含的所有矩阵,相应的曲线δ(ε)看起来非常相似。这是一个很好的迹象,让我们有理由希望选择ε<10− 7将确保大多数实际CSEM问题的解决方案具有良好的准确性。此外,当ε增加时,解的精度会平滑降低,这也增加了BLR方法在生产环境中的稳健性和可用性的信心。

现在让我们研究一下BLR解决方案的准确性xε针对不同的ε值,分析了解的空间分布误差。误差定义为BLR解决方案之间的相对差异xε和FR解决方案x:
\开始{等式}{xi{m,i,j,k}}=\sqrt{frac{{{left|{{bfx}}{m,i,j,k}^\epsilon-{{bf x}}}}\right|}^2}}{left 2}+{{\left|{{{{\bfx}}_{m,i,j,k}}\right|}^2}}\right)/2+{\eta^2}{}\,{\rm{\}}\end{方程式}
(10)
对于 = x, z(z); = 1, 2, …N个x;j个 = 1, 2, …N个;k个 = 1, 2, …N个z(z).给,x,,j个,k个代表-电场分量(,j个,k个)第个网格节点,而η=10− 16V米− 1表示环境噪声级。5显示了相对差异ξ的三维图x,,j个,k个之间xεx对于x-矩阵的电场分量H3级.
不同BLR阈值ε的BLR解xε与对应于矩阵H3的线性系统的FR解x之间的相对差异。对于ε=10−7,除顶部的空气层外,任何地方的解决方案精度都是可以接受的。结果是电场的x分量。空气层和PML层没有按比例排列。
图5。

BLR解决方案之间的相对差异xε对于不同的BLR阈值ε和FR解决方案x对于与矩阵对应的线性系统H3级对于ε=10− 7,除顶部的空气层外,解决方案精度在任何地方都可以接受。结果是针对x-电场的分量。空气层和PML层没有按比例排列。

在所有地图中,空气中的相对误差比水或地层中的相对偏差大几个数量级。Grayver&Streich早先曾报道过类似的观察结果(2012). 幸运的是,在大多数实际的CSEM应用程序中,空中的大错误不会造成问题。对于海洋CSEM反演,需要非常高的精度来计算海底接收器的电磁场,以便将其与测量数据进行比较,以及在整个反演域中相当准确的场,以便计算相应的雅可比矩阵和/或梯度。然而,空气电阻率永远不会反转,因此我们可以将空气排除在分析之外,只关注水和地球中的解误差。

从图中可以看出5对于最小BLR阈值,ε=10− 10 , 相对误差ξx,,j个,k个在水中和地层中可以忽略不计(~10−4),但对于较大的ε和ε=10,它会增加−8和10− 7深度达到1%至2%,但在海床附近和浅水处仍然可以忽略不计。ε=10− 6模型深层的误差超过10%,这意味着BLR解决方案xεε=10时获得− 6质量很差。同时,得到ε≤10的解− 7足够准确,可以认为适合CSEM建模和反演。我们还计算了误差ξz(z),,j个,k个对于z(z)-电场的分量,发现其行为与图中非常相似5.

BLR求解器的性能

现在,我们来看看与FR解算器相比,BLR解算器中存储LU因子的因子分解浮点数和内存需求是如何减少的。图中显示了明显的减少6,显示五个矩阵的结果上半年,H3级,第3章,第17页S21型,对于不同的BLR阈值ε。BLR解算器的好处非常显著:因子存储可以降低到FR值的30%,而失败甚至可以低于10%。还应注意,当ε从10增加时,因子存储和浮点值只会略有减少− 10到10− 7这是BLR解算器的一个非常重要的属性;首先,因为找到阈值的最佳值因此不是一个关键问题,其次,因为即使在对解的精度有严格要求的情况下,它也可以显著节省计算量。

BLR解算器针对不同BLR阈值ε分解H1、H3、S3、H17和S21所需的FR因子存储(a)和浮点运算(b)的分数。
图6。

BLR解算器分解所需的FR因子存储(a)和触发器(b)的分数上半年,H3级,第3章,第17页S21型对于不同的BLR阈值ε。

7举例说明了EOS超级计算机上使用90个MPI进程和10个线程(即总共900个核)时,观察到的浮点数减少如何转化为运行时间减少。关于FR因子分解时间的时间缩减,重要的是要提到在矩阵上第21页FR解算器达到900核峰值性能的22%,这对于稀疏直接解算器来说是相当好的性能。这里的所有因子分解都假设BLR阈值设置为ε=10− 7 , 如前一节所示,它提供了良好的解决方案准确性。我们选择了一种混合并行化设置:每个节点1个MPI任务,每个MPI任务10个线程,以满足最大矩阵因式分解的内存需求第17页S21型同时允许在MUMPS中高效使用多线程BLAS例程。2显示了使用FR和BLR解算器对所有矩阵进行因子分解的因子存储、浮点运算和运行时间。对于FR求解器,这些指标以绝对数给出,而对于BLR求解器,它们被归一化为相应的FR指标。归一化的BLR度量也绘制在图中7。与图相比6,图中的低阶结果7和表2在可以提高性能的情况下,可以使用稍微少一些压缩的设置来获得,有时会导致触发器计数和因子大小的值稍大(例如,启用上半年). 然而,很容易看出,观察到的运行时间的减少比触发器的减少要弱;例如,对于最大的S21型矩阵BLR触发器是其FR值的8%,而运行时间仅为FR值的40%。这是由于BLR分解涉及的粒度较小,导致低阶核的效率相对较低;此外,在BLR情况下,与非浮点操作(如MPI通信、汇编操作和数据访问)相对应的开销相对权重较高。

ε=10−7的BLR解算器分解H1、H3、S3、H17和S21所需的FR因子存储、浮点运算和运行时间的分数(在EOS的90×10核上)。
图7。

ε=10的BLR解算器所需的FR因子存储、触发器和耗时(在90×10个EOS核上)的分数− 7因式分解上半年,H3级,第3章,第17页S21型.

表2。

所有因子分解所需的因子存储、浮点运算和运行时间H(H)S公司使用FR和BLR解算器的矩阵。BLR解算器的值是对应FR值的百分比。BLR方法带来的节约非常显著,并且随着矩阵大小的增加而增加。因子分解是在EOS超级计算机上使用90个MPI任务×10个线程设置进行的。

矩阵FR解算器ε=10的BLR解算器−7  (对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
上半年166.17e+12岁1766.533.268.3
H3级765.70电子+1387.7511863.7
第3章927.50秒+13秒101.9441462.2
第17页8972.19e+15岁2468.134.19.741.8
S21型11223.07秒+15秒2803.330.57.939.6
矩阵FR解算器ε=10的BLR解算器− 7  (对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
上半年166.17e+12岁1766.533.268.3
H3级765.70秒+13秒87.7511863.7
第3章927.50秒+13秒101.9441462.2
第17页8972.19e+15岁2468.134.19.741.8
S21型11223.07秒+15秒2803.330.57.939.6
表2。

所有因子分解所需的因子存储、浮点运算和运行时间H(H)S公司使用FR和BLR解算器的矩阵。BLR解算器的值以相应FR值的百分比形式给出。BLR方法带来的节约非常显著,并且随着矩阵大小的增加而增加。因子分解是在EOS超级计算机上使用90个MPI任务×10个线程设置执行的。

矩阵FR解算器ε=10的BLR解算器− 7  (对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
上半年166.17e+12岁1766.533.268.3
H3级765.70秒+13秒87.7511863.7
第3章927.50秒+13秒101.9441462.2
第17页8972.19e+15岁2468.134.19.741.8
S21型11223.07秒+15秒2803.330.57.939.6
矩阵FR解算器ε=10的BLR解算器− 7  (对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)保理时间(%)
上半年166.17e+12岁1766.533.268.3
H3级765.70秒+13秒87.7511863.7
第3章927.50秒+13秒101.9441462.2
第17页8972.19e+15岁2468.134.19.741.8
S21型11223.07秒+15秒2803.330.57.939.6

众所周知,随着矩阵大小的增加,低阶近似变得更加有效。因此,对于更大的矩阵,BLR近似的增益更大,这与从图中可以看出的当前研究一致7对于所有绘制的度量:flops、存储和运行时间。早期对三维拉普拉斯人的研究(Amestoy.2015)实验表明,MUMPS-BLR解算器具有(N个1.65)触发器数量的复杂性,与标准相比有了显著改进(N个2)FR分解的复杂性,而三维地震问题的实验复杂性(N个1.78). 所有这些结果都非常接近BLR分解复杂性的理论预测,(N个1.7),最近由Amestoy计算. (2017). 我们还对表中的触发器数据进行了幂回归分析2:显示预期N个2FR数据的趋势,而BLR的依赖性为N个具有 =1.6 ± 0.1. 因此,观察到的3-D CSEM问题的触发器复杂度降低与理论结果一致,并且与3-D亥姆霍兹方程的结果相近。在下一节中,我们将讨论去除空气层对触发器计数的影响,这将大大降低模型中电阻率变化的范围。

研究BLR近似产生的增益如何随磁芯数量变化也很重要。8显示了BLR分解时间与FR分解时间的比值。对于不同数量的MPI进程和/或系统矩阵的线程数,显示了此比率第17页S21型。理想情况下,当岩芯数量增加时,此比率应保持不变。这种情况或多或少是这样的,因为只能观察到微小的变化。因此,图8说明了BLR解算器保持与FR解算器相关的重要增益的能力,即使在核数较多的情况下也是如此。表中列出了相应的分解时间(其中数据或矩阵上半年也包括在内)。

对于不同数量的MPI任务和线程,BLR分解所需的FR分解时间的分数。当核心数量增加时,BLR和FR时间之间的比率没有显著变化,这说明BLR解算器即使在核心数量增加的情况下也能保持重要增益。
图8。

对于不同数量的MPI任务和线程,BLR分解所需的FR分解时间的分数。当核心数量增加时,BLR和FR时间之间的比率没有显著变化,这说明BLR解算器即使在核心数量增加的情况下也能保持重要增益。

表3。

的分解次数上半年,第17页S21型FR和BLR矩阵(ε=10− 7)不同并行化设置的求解器(MPI任务×EOS超级计算机的线程)。

矩阵解算器使用MPI×线程的因式分解时间=
64 × 164 × 464 × 1090 × 10128 × 10192 × 10
上半年法国53.823.118.8
BLR公司36.719.414.8
第17页法国2468.218481329.5
BLR公司1033.1885589.7
S21型法国2803.32536.62196.1
BLR公司1112.9878.4768.4
矩阵解算器使用MPI×线程的因式分解时间=
64 × 164 × 464 × 1090 × 10128 × 10192 × 10
上半年法国53.823.118.8
BLR公司36.719.414.8
第17页法国2468.218481329.5
BLR公司1033.1885589.7
S21型法国2803.32536.62196.1
BLR公司1112.9878.4768.4
表3。

的分解次数H1型,第17页S21型FR和BLR矩阵(ε=10−7)用于不同并行设置的解算器(MPI任务×EOS超级计算机的线程)。

矩阵解算器使用MPI×线程的因式分解时间=
64 × 164 × 464 × 1090 × 10128 × 10192 × 10
上半年法国53.823.118.8
BLR公司36.719.414.8
第17页法国2468.218481329.5
BLR公司1033.1885589.7
S21型法国2803.32536.62196.1
BLR公司1112.9878.4768.4
矩阵解算器使用MPI×线程的因式分解时间=
64 × 164 × 464 × 1090 × 10128 × 10192 × 10
上半年法国53.823.118.8
BLR公司36.719.414.8
第17页法国2468.218481329.5
BLR公司1033.1885589.7
第21页法国2803.32536.62196.1
BLR公司1112.9878.4768.4

深水与浅水

BLR解算器的优点取决于使用低秩近似压缩正面矩阵块的效率。如上所述,块矩阵的压缩一个IJ公司当对应于未知的空间域时,预期是有效的J型彼此相距甚远,因此这两组未知数弱连接通过直接绘制三维地震问题的秩一个IJ公司与域之间的距离J型(埃姆斯泰.2015). CSEM问题的一个复杂因素是绝缘空气层的存在,其电阻率通常比计算域的其余部分高出许多数量级。与通过导电水或沉积物相对较慢的传播相比,电磁信号几乎在瞬间通过空气传播。因此,靠近空气的两个区域通过所谓的空气波有效地相互连接,即使这些区域在几何上相距甚远。有趣的是,通过空气层的这种互连性是否会降低相应矩阵的低阶属性,并影响BLR解算器的性能。因此,在本节中,我们将为不包括空气层的地球模型提供额外的模拟。

前几节中给出的结果基于浅水区H(H)-模型(水深100 m)和S公司-水深为225至1850m的模型。在这两种情况下,在所选频率为0.25 Hz的大多数源-接收器偏移处,电波强烈影响地下响应(Andreis和MacGregor2008). 另一方面,如果水深增加到3 km,由于导电海水中的电磁场会强烈衰减,因此空气波的贡献可以忽略不计(参见例如Jaysaval.2015). 考虑到这一点,我们建立了一个深水模型(D类-模型)从浅水处H(H)-通过简单地去除空气层和添加2.9公里海水,使水层变厚3公里来建立模型。源再次是x-将频率为0.25 Hz的定向HED放置在海床上方30 m处。这个D类-使用相同的网格对模型进行离散化(表1)作为H(H)-模型,生成矩阵第3天具有与相同的维数和非零条目数H3级在FARAD计算机上使用2个MPIs×8个线程=16个内核和BLR阈值ε=10进行的模拟结果−7如表所示4.

表4。

浅水因子分解所需的因子存储、浮点运算和运行时间(H3级)和深水(第3天)矩阵。BLR解算器的值是对应FR值的百分比。在FARAD计算机的16个核心上执行因子分解。

基质,水深FR解算器ε=10的BLR解算器−7(对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
H3级,浅765.7 × 101398649.516.332.8
第3天,深765.7 × 101398645.31229.7
基质,水深FR解算器ε=10的BLR解算器− 7(对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
H3级,浅765.7 × 101398649.516.332.8
第3天,深765.7 × 101398645.31229.7
表4。

浅水因子分解所需的因子存储、浮点运算和运行时间(H3级)和深水(第3天)矩阵。BLR解算器的值是对应FR值的百分比。在FARAD计算机的16个核心上执行因子分解。

基质,水深FR解算器ε=10的BLR解算器− 7(相应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
H3级,浅765.7 × 101398649.516.332.8
第3天,深765.7 × 101398645.31229.7
基质,水深FR解算器ε=10的BLR解算器− 7(对应FR值的百分比)
因子存储(GB)跳水分解时间(s)因子存储(%)蛙跳(%)分解时间(%)
H3级,浅765.7 × 101398649.516.332.8
第3天,深765.7×101398645.31229.7

浅水矩阵和深水矩阵的FR数基本相同,这在一定程度上是意料之中的,因为这些矩阵具有相同的未知数和相同的结构。另一方面,它再次证明了直接求解器的稳健性,其效率不受用极电阻空气替换导电水层的影响,而极电阻空气会将相应矩阵元素的值改变六到七个数量级。相比之下,许多迭代求解器在空气层存在的情况下很难收敛,因为它使系统矩阵由于某些单元的高电阻率和大纵横比而更加不适定(参见例如Mulder2006).

最重要的是,对于深水矩阵,使用BLR功能获得的收益更大第3天而不是浅水基质H3级这对于仅占FR失败12.0%的因子分解失败尤其明显第3天,而对于H3级这个数字增加到16.3%。有趣的是,研究深水和浅水矩阵之间观察到的flop差异是如何取决于矩阵大小的。为此,我们生成了11个附加网格,用于离散H(H)-和D类-模型。我们从产生490万未知量的网格开始,该网格与表中的其他网格沿着相同的线构建1,但有dx公司=第y天=第纳尔=167 m。下一个网格是通过使其所有单元按比例粗化5%–10%来获得的,以此类推。细胞大小增加的速度在模型的所有部分(空气、水、地层、水库、非均匀填料)和所有方向上都是相同的:x,z(z)最小网格的未知数为~516000。

9显示了因子分解失败是如何依赖于数字的N个这组网格的未知项。FR解算器具有预期的(N个2)这两类矩阵的复杂性。BLR压缩显著降低了复杂性,但降低程度取决于矩阵类型。对于从浅水模型获得的矩阵H(H),我们观察到(N个)行为= 1.58 ± 0.02. 这与价值观非常吻合=1.6±0.1,见上节模型H(H)S公司(两者都可以被视为浅水模型),但网格不同。同时,图9表明对于深水模型D类复杂性进一步降低,降低到= 1.40 ± 0.01. 这证实了深水基质的BLR节约量始终较大,也表明对于较大的系统,这种影响变得更强。例如,对于具有490万未知量的系统,浅水矩阵的因式分解需要比深水矩阵因式分解多71%的浮点运算。

具有不同未知数的浅水和深水矩阵的因子分解失败计数。全秩复杂度O(N2)与水深无关。低秩方法将浅水矩阵的复杂性降低到O(Nm),m=1.58。在深水中,这种改善甚至更强,其中m=1.40,表明在没有阻力空气的情况下,BLR压缩率更好。
图9。

具有不同未知数的浅水和深水矩阵的分解失败计数。全面的复杂性(N个2)与水深无关。低秩方法将浅水矩阵的复杂性降低到(N个),使用= 1.58. 深水区的改善更为明显=1.40,表示在没有电阻空气的情况下BLR压缩率更好。

10显示了为同一组11个网格计算的因子存储数据,这些网格具有不同的未知数。可以看出,BLR方法还降低了因子存储的复杂性。即,FR行为(N个)带有=1.38±0.01改为 = 对于浅水情况,为1.18±0.01,而对于深水情况,BLR下降更大:降至 = 1.14±0.01。这些值非常接近三维地震问题中报告的FR和BLR指数1.36和1.19,分别与理论FR和BLC预测值1.33和1.17一致(Amestoy.2017).

具有不同未知数N的浅水和深水矩阵的因子存储。存储因子所需的内存以幂律O(Nm)增长,使用BLR解算器显著降低指数m的值。对于深水情况,降低幅度略大。
图10。

不同未知数的浅水和深水矩阵的因子存储N个。存储因子所需的内存按幂律增长,(N个)BLR解算器的使用大大降低了指数的值。对于深水情况,降低幅度略大。

深水模型D类与模型不同H(H)有两种方式:它有较厚的水层,不含空气。我们对同时具有厚水层和空气层的模型进行了额外的测试,发现结果与H(H)-模型。这使我们可以得出结论,对于深水矩阵,BLR解算器的性能改进主要是由于去除了高电阻空气层。如上所述,空气层的存在有效地将靠近空气界面的模型域互连起来。它会导致相应块矩阵的秩更高,并降低低秩近似的效率。换句话说,空气将非局部性引入系统:在一些数值方案中,空气被简单地排除在计算域之外,并被空气-水界面的非局部边界条件所取代(Wang&Hohmann1993). 因此,人们可能会争辩说,空气有效地增加了系统的维度,而这反过来也应该增加复杂性。

BLR解算器对反演的适用性

直接求解器非常适合多源模拟,因为一旦系统矩阵M(M)如果是因式分解,则可以使用相对便宜的正向-反向替换来计算每个RHS的解。因此,它们对于涉及大规模CSEM反演的应用特别有吸引力,其中RHS的数量可以达到数千。尽管如此,因子分解阶段的计算成本仍然巨大,并且往往占主导地位,从而使平衡向更简单的迭代求解器倾斜。例如,即使对于具有~300万个未知数的相对较小的CSEM矩阵,只要RHS的数量保持在150以下,迭代求解器也被证明是优越的(Grayver&Streich2012). 在本节中,我们针对基于SEAM模型的实际CSEM反演中的应用程序,将具有或不具有BLR功能的直接解算器与迭代解算器进行基准测试。

让我们考虑在S公司-图的模型。我们假设n个第页=121个接收器用于记录模拟响应。对于每个接收器,HED源沿22条拖曳线(11条位于x-和中的11-方向),联行间距为1km。每条拖缆长度为30km,独立震源位置相距200m。这意味着每条拖缆有150个震源位置,或总共n个=22×150=3300个震源位置。模型用网格离散化G公司表中定义的51,从而生成系统矩阵S公司21人,未知2060万人。频率为0.25 Hz。

为了用上述采集参数反演CSEM响应,我们考虑了两种反演方案:(1)Zach中描述的准Newton反演格式. (2008); 和(2)Amaya中描述的Gauss-Newton反演格式(2015). 与准牛顿反演相比,基于高斯-牛顿格式的反演收敛速度更快,对初始模型的依赖性更小,但这是以增加计算复杂性为代价的。我们指的是哈巴西和阿布巴卡尔(2004)详细讨论两种反演方案之间的理论差异。一个关键区别是每次反演迭代需要处理的RHS数量。对于准Newton格式,它与接收器的数量成比例n个第页,在高斯-牛顿方案中,还应包括所有震源炮点的计算n个。在典型的海洋CSEM调查中,有n个n个第页因此,高斯-牛顿格式所需的RHS数量远大于准牛顿格式。

让我们从准牛顿反演方案开始。对于基于SEAM模型的所选示例,它需要968个RHS(4个[现场组件E类x,E类,H(H)x、和H(H)]×2[直接和伴随建模]×121[n个第页])一个频率的每次反演迭代。表的第一行5显示了使用90 MPI×10线程设置和ParMetis(Karypis&Kumar1998)为了进行比较,表中还列出了迭代求解器的时间估计5此迭代求解器是根据Mulder的思想开发的(2006):一个复杂的双共轭梯度型解算器,BICGStab(2)(范德沃斯特1992; 骨奈克1993)与多重网格预处理程序和块Gauss–Seidel型平滑器结合使用。在这里,假设有968个建模作业(每个RHS一个作业),每个作业运行在一个专用核心上,核心总数与直接求解器的核心总数相同,即900。特定迭代求解器作业的运行时间是通过一次将同一作业发送到所有核心并取平均运行时间来估算的。我们还考虑到这样一个事实,即给定RHS的建模工作仅限于SEAM模型中由给定光源有效照明的部分。该子模型的横向尺寸选择为28×28 km2虽然BLR求解器的速度几乎是FR直接求解器的两倍,但它仍然比968个RHS的迭代求解器慢两到三倍(表的第一行5).

表5。

EOS计算机上FR和BLR直接解算器的运行时间,以及对大量RHS执行CSEM模拟的多重网格预处理迭代解算器运行时间。第一行968个RHS对应于使用SEAM模型上的CSEM数据的准Newton格式进行的反演迭代,而第二行3784个RHS则对应于Gauss–Newton反演格式。对系统矩阵进行了仿真S21型使用900个计算核心。对于直接解算器,T型是分析时间,T型(f)是分解时间,T型是解算时间(对于所有RHS的正向-反向替换),以及T型全部的是总时间,以秒为单位。

RHS数量FR解算器ε=10的BLR解算器− 7迭代解算器
T型T型(f)T型T型全部的T型T型(f)T型T型全部的
968872803965385610311139652181803
3784872803377266631031113377249883141
RHS数量FR解算器ε=10的BLR解算器− 7迭代解算器
T型T型(f)T型T型全部的T型T型(f)T型T型全部的
968872803965385610311139652181803
3784872803377266631031113377249883141
表5。

EOS计算机上FR和BLR直接解算器的运行时间,以及对大量RHS执行CSEM模拟的多重网格预处理迭代解算器运行时间。第一行968个RHS对应于使用SEAM模型上的CSEM数据的准Newton格式进行的反演迭代,而第二行3784个RHS则对应于Gauss–Newton反演格式。对系统矩阵进行了仿真S21型使用900个计算核心。对于直接解算器,T型是分析时间,T型(f)是分解时间,T型是解算时间(对于所有RHS的正向-反向替换),以及T型全部的是总时间,以秒为单位。

RHS数量FR解算器ε=10的BLR解算器− 7迭代解算器
T型T型(f)T型T型全部的T型T型(f)T型T型全部的
968872803965385610311139652181803
3784872803377266631031113377249883141
RHS数量FR解算器ε=10的BLR解算器− 7迭代解算器
T型T型(f)T型T型全部的T型T型(f)T型T型全部的
968872803965385610311139652181803
3784872803377266631031113377249883141

现在让我们看看表的第二行5显示了高斯-牛顿反演方案的结果。尽管雅可比矩阵中的行数按n个n个第页(每个频率),它的所有元素都可以通过求解正向问题来计算n个+4个n个第页右侧,例如参见Amaya中的附录(2015). 因此,我们得出3300+484=3784 RHS/每个频率的反演迭代。BLR解算器的总时间为4988秒,仍大于迭代解算器3141秒,这意味着在两个解算器当前的实现中,迭代求解器是三维CSEM反演建模引擎的更好选择。然而,使用BLR解算器进行矩阵因式分解所花费的时间(1113 s)现在比迭代解算器的时间小得多。实际上,在求解阶段,对每个RHS执行正向反向替换,这仍然相对较慢(大约每1个RHS 1秒),并使直接求解器的竞争力降低。这里我们应该强调,BLR解算器的当前实现利用求解阶段因子的BLR压缩。因此,FR和BLR解算器的计算复杂性保持不变;从表中可以很容易地看到5两个解算器的解算相位时间相同。通过使用因子分解阶段计算的BLR压缩因子,以及通过研究求解阶段的并行性和性能,可以明显加快前向-后向替换的速度。这是计划中的未来工作。在本例中,如果BLR在求解阶段的增益与因子分解阶段的增益相当,那么对于2500个或更多RHS,BLR解算器将比迭代解算器更有吸引力。

结论

我们已经证明,与FR解算器(无BLR功能)相比,应用BLR多前沿功能求解有限差分三维EM问题中出现的线性系统,可以显著减少矩阵因子大小、触发器计数和运行时间。储蓄随着未知量的增加而增加N个; 例如,对于因式分解浮点计数(N个2)FR解算器的缩放比例减少为(N个)带有 = BLR解算器为1.4-1.6。这略好于Amestoy计算的理论复杂性. (2017). 对多达2000万未知量的矩阵进行了因子分解,结果表明BLR失败率下降到10%,因子分解时间下降到FR值的40%。对于浅水电磁问题,我们已经表明,BLR方法导致的减少量小于深水电磁问题。这可能与高电阻空气层有关,该空气层增加了系统未知项之间的连接,从而降低了低阶压缩率。在需要在多个源位置进行模拟的反演场景中,将BLR解算器的运行时间与带有多重网格预处理的迭代解算器进行了比较。对于几千个RHS(这在今天的Gauss-Newton CSEM反演方案中是典型的),BLR解算器提供了可比较的运行时间,并且一旦BLR功能不仅用于矩阵分解,而且用于前向备份替换,就可能优于迭代解算器。

致谢

我们感谢EMGS允许发布结果。我们还感谢MUMPS团队A.Guermouche、G.Joslin和C.Puglisi的合作者,以及EMGS的T.Støren。这项工作被授予访问2015–P0989拨款下CALMIP的HPC资源的权限。

参考文献

阿马亚
M。
,
2015
.
大规模三维CSEM数据反演的高阶优化方法,博士论文
,
挪威科技大学
,
特隆赫姆
.
网址:http://hdl.handle.net/1250/23653412017年3月27日。

埃姆斯泰
管理层代表。
,
达夫
I.S.公司。
,
L'优秀
J.-Y.公司。
,
科斯特
J。
,
2001
.
一种使用分布式动态调度的全异步多线程求解器
,
SIAM J.矩阵分析。申请。
,
23
,
15
41
.

埃姆斯泰
管理层代表。
,
盖尔穆什
答:。
,
L'优秀
J.-Y.公司。
,
普拉特
秒。
,
2006
.
线性系统并行解的混合调度
,
并行计算。
,
32
,
136
156
.

埃姆斯泰
管理层代表。
,
阿什克拉夫特
C、。
,
布瓦托
O。
,
布塔里
答:。
,
L'优秀
J.-Y.公司。
,
魏斯贝克尔
C、。
,
2015
.
利用块低阶表示改进多前沿方法
,
SIAM J.科学。计算。
,
37
(
),
A1451型
A1474号
.

埃姆斯泰
管理层代表。
,
布罗西耶
R。
,
布塔里
答:。
,
L'优秀
J.-Y.公司。
,
玛丽
T。
,
Métiver公司
L。
,
米尼乌西
答:。
,
Operto公司
秒。
,
2016
.
用并行块低秩多锋面直接解算器快速三维频域全波形反演:应用于北海OBC数据
,
地球物理学
,
81
(
6
),
363
83
.

埃姆斯泰
管理层代表。
,
布塔里
答:。
,
L'优秀
J.-Y.公司。
,
玛丽
T。
,
2017
.
块低秩多额叶因子分解的复杂性
,
接受发表于SIAM J.科学。计算机
.

安德雷伊斯
D。
,
麦格雷戈
L。
,
2008
.
浅水控制源电磁测深原理与应用
,
地球物理学
,
73
,
21层
32层
.

阿里奥利
M。
,
德梅尔
J。
,
达夫
I.S.公司。
,
1989
.
具有稀疏后向误差的稀疏线性系统的求解
,
SIAM J.矩阵分析。申请。
,
10
(
2
),
165
190
.

阿夫迪夫
D.B.公司。
,
2005
.
从理论到应用的三维电磁建模和反演:
Surv公司。地球物理学。
,
26
,
767
799
.

贝本多夫
M。
,
2004
.
非光滑系数一般二阶椭圆算子Galerkin矩阵的有效反演
,
数学。计算。
,
251
,
1179
1199
.

布洛梅
M。
,
莫雷尔
H.R.公司。
,
施密特
英国。
,
2009
.
三维地电正演技术进展,
地球物理学。J.国际。
,
176
(
),
740
752
.

伯纳
相对单位。
,
2010
.
地磁数值模拟:进展与挑战,
Surv公司。地球物理学。
,
31
,
225
245
.

钱德拉塞克兰
秒。
,
德维尔德
第页。
,
M。
,
索马里德拉姆
N。
,
2010
.
关于离散椭圆偏微分方程Schur补的非对角块的数值秩,
SIAM J.矩阵分析。申请。
,
31
,
2261
2290
.

治安官
秒。
,
2010
.
海洋油气勘探CSEM十年
,
地球物理学
,
75
(
5
),
A67型
A81类
.

达席尔瓦
N.V.(常压)。
,
摩根
合资公司。
,
麦格雷戈
L。
,
华纳公司
M。
,
2012
.
三维CSEM频域建模的有限元多波前方法
,
地球物理学
,
77
(
2
),
E101型
E115号机组
.

戴维斯
T.A.公司。
,
2004
.
算法832:UMFPACK V4.3——非对称模式多波前方法
,
ACM事务处理。数学。柔和。
,
30
,
196
199
.

达维迪切娃
秒。
,
2010
.
新一代(1999-2010)电阻率测井仪的三维建模
,
前沿
,
29
(
7
),
780
789
.

达夫
一、。
,
埃里斯曼
答:。
,
里德
J。
,
1986
.
稀疏矩阵的直接方法
,
牛津大学出版社
.

埃林斯鲁德
秒。
,
艾迪斯莫
T。
,
辛哈
M.C.公司。
,
麦格雷戈
L.M.有限公司。
,
治安官
秒。
,
2002
.
通过海床测井(SBL)遥感油气层:安哥拉近海巡航结果,
前沿
,
21
,
972
982
.

乔治
答:。
,
1973
.
常规有限元网格的嵌套剖分,
SIAM J.数字。分析。
,
10
,
345
63
.

格雷弗
答:。
,
施特赖希
R。
2012
.
三维CSEM建模迭代求解器和直接求解器的比较
,
SEG扩展摘要
,第页。
1
6
,
doi:10.1190/segam2012-0727.1。

古普塔
答:。
,
艾夫龙
H。
,
2000
.
WSMP:Watson稀疏矩阵包第一部分-对称系统的直接解
,
网址:http://researcher.watson.ibm.com/researcher/files/us-anshul/wsmp1.pdf,上次访问日期:2017年3月27日
.

骨奈克
M.H.医学博士。
,
1993
.
复谱矩阵的BiCGStab变量
,
SIAM J.科学。统计计算。
,
14
(
5)
,
1020
1033
.

狂妄自大
总经理。
,
布巴卡尔
答:。
,
2004
.
电磁测量反演约束最小化的一般框架,
反向探测。
,
46
,
265
312
.

哈克布希
西。
,
1999
.
一种基于H(H)-矩阵。第一部分:简介H(H)-矩阵
,
计算
,
62
,
89
108
.

哈克布希
西。
,
Khoromskij公司
B。
,
沙特
南非。
,
2000
.
打开H(H)2-矩阵
,英寸
应用数学讲座:Sonderforschungsbereich 438举办的Karl-Heinz Hoffmann 60岁生日研讨会会议记录
,
慕尼黑,1999年6月30日至7月1日
,编辑
邦加茨
H.-J.公司。
,
霍普
相对湿度。
,
曾格
C、。
,
施普林格
.

贾萨瓦尔
第页。
,
尚采夫
D。
,
德拉凯图勒·德莱霍夫(de la Kethulle de Ryhove)
秒。
,
2014
.
基于Schur补码方法的快速多模有限差分受控源电磁仿真
,
地球物理学
,
79
(
6
),
E315型
E327型
.

杰萨瓦尔
第页。
,
尚采夫
D.V.公司。
,
德拉凯图勒·德莱霍夫(de la Kethulle de Ryhove)
秒。
,
2015
.
使用指数有限差分法进行高效的三维受控源电磁建模,
地球物理学。J.国际。
,
203
(
),
1541
1574
.

杰萨瓦尔
第页。
,
尚采夫
直流电压
,
德拉凯图勒·德莱霍夫(de la Kethulle de Ryhove)
秒。
,
布拉特兰
T。
,
2016
.
Lebedev网格上带多重网格预处理的全各向异性三维EM建模及其在反演中的应用
,
地球物理学。J.国际。
,
207
,
1554
1572
.

卡里皮斯
G.公司。
,
古玛
五、。
,
1998
.
多级图划分和稀疏矩阵排序的并行算法,
J.平行分布计算。
,
48
,
71
95
.

钥匙
英国。
,
2012
.
海底资源和构造的海洋电磁研究
,
Surv公司。地球物理学。
,
33
,
135
167
.

X、S、。
,
德梅尔
J.W.公司。
,
2003
.
SuperLU DIST:非对称线性系统的可扩展分布式内存稀疏直接求解器
,
ACM事务处理。数学。柔和。
,
29
,
110
140
.

线路接口单元
J。
,
1992
.
稀疏矩阵解的多前沿方法:理论与实践,
SIAM修订版。
,
34
,
82
109
.

线路接口单元
J.W.H.公司。
,
1990
.
消除树在稀疏因子分解中的作用
,
SIAM J.矩阵分析。申请。
,
11
,
134
172
.

穆德
W.A.公司。
,
2006
.
三维电磁扩散的多重网格求解器
,
地球物理学。前景。
,
54
,
633
649
.

纽曼
总会计师。
,
Alumbaugh公司
D.L.公司。
,
1995
.
基于交错有限差分的机载电磁响应频域建模
,
地球物理学。前景。
,
43
,
1021
1042
.

奥尔登堡
D.W.公司。
,
哈伯
E.公司。
,
谢赫特曼
R。
,
2013
.
多源时域电磁数据的三维反演
,
地球物理学
,
78
(
1
),
E47型
E57型
.

普济廖夫
五、。
,
科尔丹
J。
,
德拉普恩特
J。
,
豪泽(Houzeaux)
G.公司。
,
巴斯克斯
M。
,
西拉
J.M.公司。
,
2013
.
三维可控源电磁正演模拟的并行有限元方法,
地球物理学。J.国际。
,
193
(
2
),
678
693
.

普济廖夫
五、。
,
科里克语
秒。
,
威尔金
秒。
,
2016
.
电磁地球物理问题中并行直接稀疏线性解算器的评估
,
计算。地质科学。
,
89
,
79
87
.

申克
O。
,
加特纳
英国。
,
2004
.
用PARDISO求解非对称稀疏线性方程组
,
未来一代。计算。系统。
,
20
,
475
487
.

施赖伯
R。
,
1982
.
稀疏高斯消去的一种新实现
,
ACM事务处理。数学。柔和。
,
8
,
256
276
.

史密斯
J.T.公司。
,
1996
.
三维电磁场的守恒模型,第二部分:双共轭梯度解和加速器
,
地球物理学
,
61
,
1319
1324
.

斯特凡尼
J。
,
法国
M。
,
本达洛
N。
,
R。
,
费勒
M。
,
2010
.
SEAM更新:电磁和重力模拟模型
,
前沿
,
29
,
132
135
.

施特赖希
R。
,
2009
.
受控源电磁数据的三维有限差分频域建模:直接求解和高精度优化
,
地球物理学
,
74
(
5
),
95层
105财年
.

范德福斯特
高级管理人员。
,
1992
.
BI-CGSTAB:非对称线性系统解的BI-CG的一种快速平滑收敛变体
,
SIAM J.科学。统计计算。
,
13
(
2
),
631
644
.

T。
,
霍曼
G.W.公司。
,
1993
.
三维电磁建模的时域有限差分解
,
地球物理学
,
58
(
6
),
797
809
.

秒。
,
去环(de-Hoop)
M.V.公司。
,
J。
,
2011
.
基于结构化并行多波面直接亥姆霍兹解算器的地震波传播三维建模
,
地球物理学。前景。
,
59
,
857
873
.

Weisbecker公司
C、。
,
埃姆斯泰
第页。
,
布瓦托
O。
,
布罗西耶
R。
,
布塔里
答:。
,
L'优秀
J.Y.(纽约)。
,
奥佩托
秒。
,
病毒属
J。
,
2013
.
基于块低阶代数多波前直接解算器的三维频域地震建模
,
SEG扩展摘要
,第页。
3411
3416
.

J。
,
钱德拉塞克兰
秒。
,
M。
,
X、S、。
,
2010
.
层次半可分矩阵的快速算法
,
数字。线性代数。申请。
,
17
,
953
976
.

Yee是的
英国。
,
1966
.
各向同性介质中麦克斯韦方程初边值问题的数值解
,
IEEE传输。天线传播。
,
14
,
302
307
.

扎克
J.J.公司。
,
比约克
英国。
,
斯特伦
T。
,
马奥
F、。
,
2008
.
基于快速时域有限差分正演编码和近似Hessian优化的海洋CSEM数据三维反演
,英寸
第78届国际年会会议记录
,
SEG公司
,
扩展摘要
,第页。
614
618
.