2.方法
我们使用深度NND类对应于具有输入层的网络,D类 − 1个隐藏层和一个输出层。在k个第个隐藏层,N个k个存在神经元数量。网络的每个隐藏层都接收一个输出从上一层开始,其中形式的仿射变换
执行。网络权重和偏差项与关联k个第th层选择自独立同分布取样。非线性激活函数σ在将其作为输入发送到下一层之前,将(·)应用于变换向量的每个分量。激活函数是输出层之后的标识函数。因此,最终的NN表示由
其中,运算符°是合成运算符,表示网络中的可训练参数,以及是参数空间;u个和z(z)0 = z(z)分别是网络的输出和输入。
雅格塔普等。[12]提出了一种自适应激活函数,其中添加了一个额外的可扩展参数纳,其中n个 ≥ 1是预定义的缩放因子。参数作为激活函数的斜率。因为,参数一定义为完整网络,我们称其为全局自适应激活函数(GAAF)。这种参数的优化动态地改变了损失情况,从而提高了神经网络的收敛性,特别是在早期训练阶段。也可以通过本地定义激活斜率来扩展此策略。在这方面,我们提出了以下两种局部优化激活函数的方法。
—分层局部自适应激活函数(L-LAAF)而不是全局定义参数一对于自适应激活函数,让我们将每个隐藏层的参数定义为这将提供额外的D类 − 1个参数与权重和偏差一起优化。在这里,每个隐藏层都有自己的激活函数斜率。 —神经元局部自适应激活函数(N-LAAF)也可以在神经元级别定义这样的激活函数这将提供额外的要优化的参数。神经元激活函数在每个隐藏层中充当向量激活函数,其中每个神经元都有自己的激活函数斜率,而不是L-LAAF和GAAF方法给出的标量激活函数。
在这两种情况下,n个 ≥ 1是比例因子。对于每个问题,都存在一个临界比例因子n个致命一击超过该阈值,优化算法变得非常敏感。由此产生的优化问题导致通过优化激活斜率以及权重和偏差来找到损失函数的最小值。然后,通过下式给出了最终的基于分层自适应激活函数的解决方案的NN表示
类似地,我们可以编写基于神经网络的自适应激活函数表示的解决方案。在这种情况下,可训练参数集包括和在所提出的方法中,可伸缩参数的初始化是这样进行的.
局部引入激活斜率参数相对于全局参数的优点是,它为每个隐藏层以及所有隐藏层中的每个神经元提供了额外的自由度,从而提高了网络的学习能力。LAAF的另一个优点是可以为每个层以及每个神经元指定不同的缩放因子,而不是GAAF中的全局缩放因子。
与GAAF的单个附加参数相比,基于局部自适应激活函数的PINN具有多个附加的可扩展参数来训练。因此,重要的是要考虑所需的额外计算成本。参数空间的增加导致了一个高维优化问题,其解可能很难获得。在前面讨论的两种方法中,即L-LAAF和N-LAAF,N-LAAF-引入了最多数量的额外参数进行优化。接下来,我们讨论参数数量增加的定性图片。让ω和β是NN中权重和偏差的总数。然后,比率,即N-LAAF的参数空间与基于固定激活的神经网络的参数空间的大小为,其中ϱ=β/ω例如,考虑一个具有单个输入和输出的全连接NN,它包含三个隐藏层,每个层中有20个神经元,其值为ω = 840和β = 61.因此,即参数数量增加了6.77%。随着层数和每层神经元数的增加,这个增量可以进一步减少,最终导致参数数量的增加可以忽略不计。在这种情况下,固定激活函数和神经元局部自适应激活的计算成本是相当的。
(a) 物理信息神经网络
在本节中,我们将简要介绍PINN算法[4]. PINN是求解包含噪声、稀疏和多保真度数据的正、逆微分和积分微分方程的一种非常有效的方法。PINN的主要特点是,它可以很容易地将所有给定的信息(如控制方程、实验数据、初始/边界条件等)合并到损失函数中,从而将原始问题重新转换为优化问题。PINN算法的主要局限性之一是其在高维优化问题上的高计算成本,该问题在[13]采用区域分解方法。PINN算法旨在学习代理预测解决方案u个控制PDE。在PINN算法中,损失函数定义为
其中均方误差(MSE)为
表示残差点集,而表示训练数据点。和W公司u个分别是残差和训练数据点的权重,可以动态选择[14]. NN解必须满足由残差给出的控制方程在域中随机选择的残差点处进行评估。例如,对于形式为卢 = (f),剩余项由下式给出,其中L(左)表示线性/非线性微分项。为了构造损失函数中的残差,需要解对自变量的导数,可以使用自动微分(公元)[15]. 与数值微分相比,AD是计算图形中导数的准确方法,因为它们不受截断和舍入误差等误差的影响。因此,PINN方法是一种无网格方法,不需要网格来求解方程。这构成了NN的物理信息部分,如等式中的第一项所示(2.2). 方程中的第二项(2.2)包括NN解必须满足的已知边界/初始条件、实验数据。
由此产生的优化问题导致通过优化可训练参数来寻找损失函数的最小值这个最小化问题的解可以用梯度下降算法的一种形式迭代逼近。随机梯度下降(SGD)算法广泛应用于机器学习社区[16]进行完整的调查。在这项工作中,ADAM优化器[17],这是使用的SGD方法的变体。
(b) 带坡度恢复项的损失函数
自适应激活函数的主要动机是增加激活函数的斜率,从而产生非零梯度和网络的快速训练。显然,为了提高神经网络的性能,应该快速增加激活斜率。因此,实现这一点的另一种方法不是仅依赖于优化方法,而是包括边坡恢复项定义为
这背后的主要原因是,该项有助于损失函数的梯度而不消失。包括这个术语的总体效果是,它迫使网络快速增加激活斜率的值,从而提高训练速度。
显示了神经元的草图基于局部自适应激活函数的物理信息神经网络(LAAF-PINN),其中可以看到NN部分和物理通知部分。每个神经元的激活斜率也以斜率恢复项的形式对损失函数作出贡献。以下算法总结了带有坡度恢复项的LAAF-PINN算法。
伯格方程的LAAF-PINN示意图。左边的NN是未知网络,而由控制微分方程导出的右边的NN则是已知网络。输入是坐标(x、 t吨)而输出就是解决方案u个(x、 吨)它必须满足控制方程。这两个NN共享参数,它们都有助于损失函数。(彩色在线版本。)
算法1:带有坡度恢复项的LAAF-PINN算法-
第1步:计算域中训练集的规范
培训数据:网络,剩余培训点: {网络}
第2步:构建神经网络随机初始化参数.
步骤3:构建残差神经网络{}通过替换代理使用自动微分和其他算术运算将其转换为控制方程。
哪里是边坡恢复期的权重。
第5步:找到最佳参数使用合适的优化方法最小化损失函数作为
3.具有自适应激活的梯度动力学:收敛点和收敛加速
与标准方法相比,自适应激活方法引入了一种新的梯度动力学,导致了不同的收敛点和收敛速度。下面的定理说明了使目标函数最小化的梯度下降算法在给定适当的初始化和学习速率的情况下,对于L-LAAF和N-LAAF,in(??)都不会收敛到次优临界点或次优局部极小值。为了简单起见,和W公司一被认为是统一的。在下面的定理中,我们处理作为实值向量。让用恒定网络对所有人来说z(z),z(z)'其中c(c)是一个常数。
定理3.1-
让
是由梯度下降算法生成的序列
.假设
对于任何
是可微的,并且对于每个
我 ∈ {1, …,N个(f)},存在可微函数φ我
和输入
ρ我
这样的话
假设以下三个条件中至少有一个条件成立。
- (我) (恒定学习速率)
Lipschitz与Lipschitz常数连续吗
C类(即
对所有人来说
在其领域内),和
ϵ ≤ η米 ≤ (2 − ϵ)/C类,哪里
ϵ
是一个固定的正数.
- (ii(ii)) (学习率递减)
Lipschitz是连续的,η米 → 0和
- (三) (自适应学习率)学习率
η米
由最小化规则、有限最小化规则、Armjio规则或Goldstein规则选择[18].
那么,对于L-LAAF和N-LAAF,没有极限点
是次优临界点或次优局部极小值。
初始条件表示初始值需要小于恒定网络加上坡度恢复项的最大值。这里,请注意.定理3.1的证明包含在附录A中。
我们现在研究所提出的方法如何逼近收敛点,以及为什么它可以加速收敛。为了说明加速背后的主要机制,我们将所提方法的梯度动力学与标准方法在J型.标准方法的梯度动力学J型是
并生成序列标准客观价值观。自适应激活方法的梯度动力学是,并生成序列修改后的目标值。这些动力学位于两个不同的空间,即J型和。为了比较它们,我们转换了动力学在…领域动态在…领域J型.
更具体地说,我们证明了梯度动力学的全球的自适应激活方法生成序列标准目标值的
哪里是在空间中被翻译Θ米+1,这是()是的域J型),
和
比较方程式(3.1)和(3.2),我们可以看到自适应激活的梯度动力学通过乘以条件矩阵修改了标准动力学梯度和通过添加近似二阶项这提供了数学直觉,说明为什么全局自适应激活方法可以加速收敛,而它并不等同于改变或调整学习速率。
理解近似二阶项,注意标准方法的梯度动力学(3.1)可以看作是梯度流微分方程的最简单离散化(欧拉方法),
我们估计的位置通过设置对于t吨 ∈ [t吨0,t吨1]. 从这个角度来看,我们可以考虑(3.3). 例如,不是设置,我们可以近似
哪里H(H)J型是黑森人J型.术语英寸(3.2)可以通过设置进一步近似第二项来获得和.
更一般地,我们表明梯度动力学属于任何自适应激活方法生成序列标准目标值,其中
具有
和
这里,给定一个向量,用diag表示对角矩阵(v(v))ii(ii) = v(v)我和v(v)2代表v(v)°v(v)哪里v(v)°u个是两个向量的元素乘积v(v)和u个.矩阵A类不同的自适应激活函数方法具有不同的局部性,并且是给定GAAF、L-LAAF或N-LAAF方法的固定矩阵。例如,就GAAF而言,d日′=1和.堵住这个A类到(3.4)并注意到用这个A类,我们可以获得(3.2)来自(3.4); 即(3.4)是(3.2). 在任何具有不同类型局部性的自适应激活方法的一般情况下,我们可以,其中和用一些矩阵如果是L-LAAF,d日'是层数是满足以下条件的矩阵用于L-LAAF。如果是N-LAAF,d日'是所有神经元的数量是满足以下条件的矩阵对于N-LAAF。
比较方程式(3.1)和(3.4),我们可以看到不同自适应激活方法的梯度动力学通过乘以不同的条件矩阵修改了标准动力学梯度,使用不同的矩阵A类这提供了为什么各种自适应激活方法可以在不同矩阵的情况下以不同的方式加速收敛的数学直觉A类它们并不等同于改变或调整学习速度。此外,我们的分析(3.4)适用于GAAF、L-LAAF和N-LAAF以外的任何自适应激活方法,并为设计与新矩阵对应的新自适应激活方法提供了见解A类英寸(3.4)为了进一步加快收敛速度。
条件矩阵具有足够小的学习率η米自诊断以来((澳大利亚米)2)是正定的,并且是半正定的(当一米非零)。因此,学习率足够低η米,方程中的参数更新(3.4)减小的值J型作为J型(Θ米+1)<J型(Θ米)在可微点。这是因为在具有函数φ的可微点处.
我们现在推导方程(3.2)和(3.4),并更详细地解释每个符号的定义。让我们首先关注没有回收项的GAAF方法。让是没有恢复条款。让,其中W公司包括所有标准权重和偏差参数.那么,我们有了.而标准方法生成标准目标值序列,GAAF方法生成标准目标值序列。为了根据相同的标准目标值比较这两种方法,我们对所提方法的以下梯度动力学感兴趣:
给,我们有和根据链式法则,其中,(我是单位矩阵)和将这些插入到(3.5),
和
和
从而获得(3.2)根据需要。与GAAF的情况类似,在一般情况下,我们有
通过使用和,
通过将这些插入(3.6),我们获得(3.4).
说明了自适应激活方法对目标值和归一化条件数的影响。结果表明,自适应激活方法在减少条件数的同时加快了目标值的收敛。条件数的改善与目标值的改善大致一致。感兴趣的条件数为(M(M))/(最小奇异值M(M))其中用于自适应激活函数方法和对于没有自适应激活的标准方法。随着这个条件数的减少,当矩阵M(M)是正常的[18]. 每个子图中的归一化条件数是前一个时期的最小条件数,通过将条件数除以标准方法的初始条件数进行归一化。对于这个实验,我们设置n个 = 1,我们使用由1000,噪音=0.01,,系数=0.7。该数据集不是线性可分的。我们采用了带有单个隐藏层的全连接神经网络。标准交叉熵损失用于训练和绘图。
考虑中的实验:自适应激活对目标值和标准化条件数的影响(即条件数除以标准方法的初始条件数)。在每个子图中,宽度=隐藏层中的单位数。(一)乙状结肠,宽度=10(b条)乙状结肠,宽度=20(c(c))ReLU,宽度=20(d日)ReLU,宽度=100(e(电子))Softplus,宽度=100。(在线彩色版本。)
4.计算结果
在本节中,我们将使用PINN算法和所提出的方法,解决涉及二维泊松方程和无粘Burgers方程的深度NN和逆PDE函数逼近问题。一些标准的深度学习基准问题也得到了解决。从收敛速度和精度方面评估了所提方法的性能。
(a) 非线性不连续函数的神经网络逼近
在这个测试用例中,使用深度NN(没有物理信息部分)来近似不连续函数。这里,损失函数由数据失配和斜率恢复项组成。以下不连续函数x个 = 0位置由深度NN近似。
该函数包含高频和低频分量以及不连续性。域是[-3,3],使用的训练点数是300,这是随机选择的。激活功能为坦纳,学习率为2.0×10−4隐藏层数量为4层,每层50个神经元。比例因子为10,两者都是W公司u个,W公司一是统一的。显示了解决方案(第一列)和对数刻度的点方向绝对误差(第二列)。第一行给出了标准固定活化函数的解,第二行给出了GAAF解,而第三行和第四行分别给出了L-LAAF和N-LAAF的解。我们发现,与其他方法相比,带有坡度恢复项的L-LAAF和N-LAAF都能加快训练速度。我们还注意到,具有边坡恢复项(未显示)的GAAF解决方案在训练速度方面也与所提出的方法相当,并且由于边坡恢复项的参与,它可以被认为是一个新的贡献。
不连续函数:使用标准固定激活(第一行)、GAAF(第二行)、L-LAAF(三行)和N-LAAF坦纳激活。第一列显示了解决方案。第二列给出了所有情况下对数刻度中的点向绝对误差。(彩色在线版本。)
(b) 反问题:二维泊松方程
在这个例子中,我们将确定扩散系数中的未知参数。这个例子取自Pakravan等。[19],其中可变扩散系数参数化为需要评估,随机选择值为α ∈ [0.05, 0.95]. 计算域为控制泊松方程如下所示
带边界条件u个b条 = 科斯(πx)科斯(πy,) (x个,年) ∈ ∂Ω.
使用三个隐藏层的前馈神经网络,每层有30个神经元,通过随机选择参数,在500个生成的解上进行训练α从给定范围开始。双曲正切激活函数的学习率为0.0008。缩放因子的值在所有情况下都是统一的,W公司u个 = 10,W公司一 = 10.随后,我们在50个独立解决方案字段上测试了其性能,以确定参数α使用固定激活、GAAF、L-LAAF和N-LAAF,无高斯噪声和有2.5%高斯噪声。为了显示早期训练阶段的收敛性,在4000次迭代后用干净数据和有噪声数据绘制结果。显示了标准激活、GAAF、L-LAAF和N-LAAF(从上到下一行)的结果,无噪声(第一列)和高斯噪声(第二列)。L-LAAF和N-LAAF的性能均优于GAAF,其中学习的参数与真实值吻合良好。显示了相对L(左)2在所有没有噪声的情况下都会产生误差,在所有方法中,L-LAAF的误差最小。
反问题2D泊松方程:标准激活、GAAF、L-LAAF和N-LAAF(从上到下一行)无噪声(第一列)和高斯噪声(第二列)。(彩色在线版本。)
表1。
| 标准活动。 | GAAF公司 | L-LAAF公司 | N-LAAF公司 |
---|
相对。L(左)2错误 | 1.012 × 10−1 | 1.654 × 10−2 | 7.328 × 10−3 | 1.482 × 10−2 |
(c) 反问题:二维无粘Burgers方程
我们的下一个例子是Burgers方程中粘性系数识别的反问题。即使初始条件足够光滑,无粘Burgers方程的解也可以是间断的。二维无粘Burgers方程如下所示
受边界条件约束
u个( − 0.2,年) = 一和.情况的精确解一 = 2和b条 = 0在中给出[20]具有稳定的斜间断。
在这项工作中,我们使用了最近提出的保守PINN(cPINN)方法[13]这基本上是PINN中守恒定律的区域分解方法。计算域被划分为12个子域,每个子域中使用一个单独的PINN,这些子域是串联工作的。利用界面条件缝合每个子域中的解,包括保守通量的强制执行和沿公共界面的平均解。计算域划分为12个子域,如所示。上的接口位置x个-和年-轴分别为[0.2,0.6]和[0.25,0.5,0.75]。
在cPINN算法中,不提供原始方程,而是提供以下参数化的粘性Burgers方程
我们的目的是确定粘度系数的值ν,对于无粘Burgers方程为零。对于这个测试用例,我们使用双曲正切激活函数,0.0006学习率,所有情况下的缩放因子都是5给出了每个子域中神经元的数量、隐藏层的数量和剩余点的数量。在这种情况下,,W公司u个 = 10,W公司一 = 使用20个。的初始值ν在所有12个子域中任意选择,分别为[1、2、3、4、−5、6、−7、8、9、10、11、12]/2。我们注意到,cPINN是一种稳健的方法,即使在粘度为负值的情况下,标准解算器也无法容忍。
表2。
二维无粘性Burgers方程的每个子域中的NN架构。
域名。 | 1 | 2 | 三 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|
#层 | 6 | 6 | 三 | 6 | 6 | 三 | 6 | 三 | 三 | 三 | 三 | 三 |
#神经元 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 | 20 |
#剩余pts。 | 2200 | 2200 | 400 | 600 | 2200 | 800 | 400 | 2200 | 2200 | 400 | 800 | 2200 |
所有模拟最多执行40 k次迭代。训练数据点的数量和位置(300分)和剩余分数(8000分)在所有情况下都是固定的。显示了ν固定激活、GAAF、L-LAAF和N-LAAF(从上到下一行)情况下的(第一列)和逐点误差(第二列)。在所有情况下,ν收敛到其实际值,即零。使用固定激活函数的cPINN算法需要14 750次迭代才能收敛,而GAAF、L-LAAF和N-LAAF分别需要13 600次、11 090次和11 170次迭代。在所有情况中,L-LAAF给出的绝对点向误差最小,如图所示。在这个测试案例中,无论是N-LAAF还是带有斜率恢复项的L-LAAF,在收敛速度和求解精度方面都优于GAAF。
反问题2D Burgers方程:变量ν标准(固定激活)、GAAF、L-LAAF和N-LAAF(从上到下一行)的(第一列)和点向误差(第二列)。(彩色在线版本。)
(d) 标准深度学习基准问题
前一小节展示了PINN自适应激活函数在物理相关问题中的优势。剩下的一个问题是,对于其他类型的深度学习应用程序,标准深度神经网络是否仍然具有自适应激活的优势。为了探讨这个问题,本节提供了深度学习中各种标准基准问题的数值结果。
MNIST公司[21],时尚MNIST[22]和KMNIST[23]是包含手写数字、服装和配饰图像以及日语字母的数据集。除了MNIST、Semeion[24]是一个手写数字数据集,包含从80个人收集的1593个数字。SVHN公司[25]是从谷歌街景图像中的房屋编号获得的街景房屋编号的另一个数据集。CIFAR公司[26]是一个包含彩色图像的流行数据集。特别是,CIFAR-10数据集包含10个类中的50000个训练图像和10000个测试图像,图像分辨率为32×32。CIFAR-100与CIFAR--10类似,只是它有100个类,每个类中有600个图像。
数字和使用标准的深度学习基准,显示固定激活函数(标准)、GAAF、L-LAAF和N-LAAF的训练损失的平均值和不确定区间。实线和虚线是随机种子三次随机试验的平均值。阴影区域表示每种方法的2×(样本标准偏差)间隔。数字和一致表明,自适应激活加速了训练损失值的最小化过程。这里,所有GAAF、L-LAAF和N-LAAF都使用了坡度恢复项,这改进了没有恢复项的方法。
在没有数据增加的情况下,对数尺度与历元的训练损失。(一)塞梅因(b条)MNIST、(c(c))国民党(d日)时尚-MNIST(e(电子))CIFAR-10中((f))CIFAR-100(克)SVHN公司。(彩色在线版本。)
训练损失(对数尺度与历元)与数据增强。(一)塞梅因(b条)MNIST、(c(c))国民党(d日)时尚-MNIST(e(电子))CIFAR-10((f))CIFAR-100(克)SVHN公司。(彩色在线版。)
标准交叉熵损失用于训练和绘图。我们使用了18层预激活ResNet[27]对于CIFAR-10、CIFAR-100和SVHN数据集,而我们使用LeNet的标准变体[21]其他数据集使用ReLU;即,LeNet变体的体系结构由以下五个层组成(具有三个隐藏层):(1)输入层,(2)卷积层,带有64个5×5滤波器,然后是2×2和ReLU的最大池,(3)卷积图层,带有64 5×5个过滤器,然后是大小为2乘2和ReLU的最大池,(4)具有1014个输出单元的全连接层,然后是ReLU,以及(5)输出单元数量等于目标类数量的完全连接层。在所有不同的数据集和模型中,所有超参数都是预先确定的。我们调整了迷你背带的尺寸秒为64,初始学习率为0.01,动量系数为0.9。所有实验(有数据增强和无数据增强)在第10个历元开始时的学习率除以10,而有数据增强的实验在第100个历元时的学习速率除以10。对于卷积层,L-LAAF在每个层内的所有像素和通道中共享相同的单个参数,而N-LAAF的额外参数与每个通道中的像素数一样多。在本节中,我们使用了比例因子n个 = 1和2,因为具有ReLU激活的NN代表均质函数,因此具有其他值的行为n个在这种情况下,可以通过改变学习率来实现。请注意,在前面的PINN部分中,情况并非如此。
附录A.定理3.1的证明
我们首先用矛盾的方式证明了L-LAAF的说法。假设参数向量包括和是的极限点以及次优临界点或次优局部极小值。
让和.让和是的输出k个第th层ρ我和分别是。定义
和
对所有人来说j个 ∈ {1…,N个k个},其中和.
遵循中的证明[18,建议1.2.1–1.2.4]和对于所有三种情况下对应的不同规则的学习率。因此,我们拥有这一切k个 ∈ {1, …,D类 − 1},
此外,我们有这一切k个 ∈ {1, …,D类 − 1} 以及所有j个∈{1, …,N个k个},
和
通过组合(答1)–(答3),对于所有人k个 ∈ {1…,D类 − 1},
因此,
这意味着所有人一k个 = 0自。这意味着,这与这证明了L-LAAF所需的语句。
对于N-LAAF,我们用矛盾来证明这一说法。假设参数向量包括和是的极限点以及次优临界点或次优局部极小值。重新定义
和
对所有人来说j个 ∈ {1, …,N个k个},其中和然后,通过同样的证明步骤,我们得到了和对于所有三种情况下对应的不同规则的学习率。因此,我们拥有这一切k个 ∈ {1, …,D类 − 1} 以及所有j个 ∈ {1, …,N个k个},
通过组合(A 2)–(答4),对于所有人k个 ∈ {1, …,D类 − 1} 以及所有j个 ∈ {1, …,N个k个},
因此,
这意味着对所有人来说自从。这意味着,这与这证明了N-LAAF所需的语句。