Locally adaptive activation functions with slope recovery for deep and physics-informed neural networks

Ameya D. Jagtap; Kenji Kawaguchi; George Em Karniadakis

doi:10.1098/rspa.2020.0334

数学物理工程科学。2020年7月；476(2239): 20200334.

2020年7月15日在线发布。数字对象标识：10.1098/rspa.2020.0334

预防性维修识别码：下午7426042

PMID：32831616

基于物理信息的深度神经网络局部自适应激活函数及其斜率恢复

阿米亚·贾格塔普,^1中，^† 川口贤治,^2,^†和乔治·埃姆·卡尼亚达基斯^1中，^三

作者信息文章注释版权和许可证信息 PMC免责声明

关联数据

数据可用性声明: https://github.com/AmeyaJagtap/Localy-Adaptive-Activation-Functions-Neural-Networks-.

摘要

我们提出了两种局部自适应激活函数的方法，即分层和神经元局部自适应激活功能，这两种方法提高了深度和物理信息丰富的神经网络的性能。激活函数的局部自适应是通过在每个层（分层）和每个神经元（神经元）分别引入一个可伸缩参数，然后使用一种随机梯度下降算法对其进行优化来实现的。为了进一步提高训练速度边坡恢复在损失函数中增加了项，进一步加快了收敛速度，从而降低了训练成本。在理论方面，我们证明了在该方法中，在实际条件下，梯度下降算法在初始化和学习速率上不会被吸引到次优临界点或局部极小值，并且该方法的梯度动力学不可通过任何（自适应）基方法实现学习率。我们进一步表明，自适应激活方法通过隐式地将条件矩阵乘以基方法的梯度，而无需显式计算条件矩阵和矩阵向量积，从而加快了收敛速度。不同的自适应激活函数可以诱导不同的隐式条件反射矩阵。此外，提出的坡度恢复方法可以加快训练过程。

关键词：物理信息神经网络、机器学习、坏极小值、随机梯度、加速训练、深度学习基准

1.简介

近年来，由于神经网络在语音识别等许多不同领域的成功应用，其研究在世界各地得到了加强[1]、计算机视觉[2]和自然语言翻译[三]. NN还被用于科学计算领域，在科学计算领域中，它们可以求解偏微分方程（PDE），因为它们能够有效地近似各种科学学科中产生的复杂函数（参见Raissi的Physics-informated Neural Networks（PINNs）等。[4]以及其中的参考）。PINN可以准确地解决直接问题（获得控制方程的近似解）和高度不适定的反问题（从训练数据推断控制方程中涉及的参数）。

这种基于NN的模型的一个主要缺点是训练/收敛速度较慢，这可能会对其性能产生不利影响，尤其是对于需要NN模型实时运行的实际应用程序。因此，在不牺牲性能的情况下加快此类模型的收敛速度至关重要。高效且适应性强的算法对于设计最有效的神经网络至关重要，它不仅可以提高解的精度，而且可以降低训练成本。类神经网络的各种结构[5]已经在文献中提出，这可以提高算法在特定应用中的效率。神经网络的一个重要特征是激活函数，它决定了训练过程中特定神经元的激活。激活函数的选择没有经验法则，事实上，它完全取决于手头的问题。因此，在这项工作中，我们特别关注自适应激活函数，它可以自动调整，以便更快地训练网络。文献中提出了多种自适应激活函数的方法，如余提出的自适应S形激活函数等。[6]用于多层前馈NN。钱等。[7]重点是通过以数据驱动的方式组合基本激活函数来学习卷积NN中的激活函数。Dushkoff和Ptucha提出了每个神经元的多个激活函数[8]单个神经元在众多激活功能中进行选择。锂等。[9]提出了一种可调激活函数，其中只使用一个隐藏层，并对激活函数进行了调谐。沈等。[10]使用了类似的可调激活函数思想，但具有多个输出。最近，Kunc&Kléma提出了一种用于基因表达推断的转换自适应激活函数，参见[11]. Jagtap提出了一种这样的自适应激活函数等。[12]通过在激活函数中引入一个可伸缩的参数，可以使用任何优化方法对其进行优化。从数学上讲，它改变了激活函数的斜率，从而通过改变神经网络的损失情况来增加学习过程，特别是在初始训练期间。由于只有一个标量参数，我们将这种自适应激活函数称为全局自适应激活，这意味着它为整个网络提供了一个优化的斜率。我们可以考虑在局部级别进行这种优化，其中可扩展的参数被引入隐层，甚至是网络中的每个神经元。由于每个隐藏层的学习能力不同，这种局部定义的激活斜率可以进一步提高网络的性能。为了进一步提高训练速度，基于边坡恢复在损失函数中增加了项，进一步加快了收敛速度。

论文的其余部分组织如下。第2节详细介绍了所提出的分层和神经元局部自适应激活的方法。这还包括对坡度恢复项、因分层和神经元引入附加参数而导致的参数空间扩展及其对整体训练成本的影响的讨论。为了完整起见，本节还简要介绍了PINN方法。第3节给出了梯度下降算法的理论结果，其中我们分析了每次迭代的收敛点和梯度动力学。在§4，我们用所提出的方法进行了一些计算实验，用深度神经网络解决函数逼近问题，用PINN解决基于PDE的逆问题。我们还使用提出的激活函数解决了一些标准的深度学习基准问题。对现有方法和建议的方法进行了一些比较。最后，在§5，我们总结了我们的工作结果。

2.方法

我们使用深度NND类对应于具有输入层的网络，D类 − 1个隐藏层和一个输出层。在k个第个隐藏层，N个_k个存在神经元数量。网络的每个隐藏层都接收一个输出 ${z（z）}^{k个负极 1} \in {R（右）}^{{N个}_{k个负极 1}}$ 从上一层开始，其中形式的仿射变换

{L（左）}_{k个} ({z（z）}^{k个 负极 1}) ≜ {w个}^{k个} {z（z）}^{k个 负极 1} + {b条}^{k个}

2.1

执行。网络权重 ${w个}^{k个} \in {R（右）}^{{N个}_{k个} \times {N个}_{k个负极 1}}$ 和偏差项 ${b条}^{k个} \in {R（右）}^{{N个}_{k个}}$ 与关联k个第th层选择自独立同分布取样。非线性激活函数σ在将其作为输入发送到下一层之前，将（·）应用于变换向量的每个分量。激活函数是输出层之后的标识函数。因此，最终的NN表示由

{u个}_{Θ} (z（z）) = ({L（左）}_{D类} \circ σ \circ {L（左）}_{D类 负极 1} \circ \dots \circ σ \circ {L（左）}_{1}) (z（z）),

其中，运算符°是合成运算符， $Θ = {{w个}^{k个}, {b条}^{k个}}_{k个 = 1}^{D类} \in V（V）$ 表示网络中的可训练参数，以及 $V（V）$ 是参数空间；u个和z（z）⁰ = z（z）分别是网络的输出和输入。

雅格塔普等。[12]提出了一种自适应激活函数，其中添加了一个额外的可扩展参数纳，其中n个 ≥ 1是预定义的缩放因子。参数 $一 \in R（右）$ 作为激活函数的斜率。因为，参数一定义为完整网络，我们称其为全局自适应激活函数（GAAF）。这种参数的优化动态地改变了损失情况，从而提高了神经网络的收敛性，特别是在早期训练阶段。也可以通过本地定义激活斜率来扩展此策略。在这方面，我们提出了以下两种局部优化激活函数的方法。

—分层局部自适应激活函数（L-LAAF）而不是全局定义参数一对于自适应激活函数，让我们将每个隐藏层的参数定义为
$σ (n个一^{k个} {L（左）}_{k个} ({z（z）}^{k个负极 1})), k个 = 1, 2, \dots, D类负极 1$
这将提供额外的D类 − 1个参数与权重和偏差一起优化。在这里，每个隐藏层都有自己的激活函数斜率。
—神经元局部自适应激活函数（N-LAAF）也可以在神经元级别定义这样的激活函数
$σ (n个一_{我}^{k个} ({L（左）}_{k个} {({z（z）}^{k个负极 1}))}_{我}), k个 = 1, 2, \dots, D类负极 1, 我 = 1, 2, \dots, {N个}_{k个} .$
这将提供额外的 $\sum_{k个 = 1}^{D类负极 1} {N个}_{k个}$ 要优化的参数。神经元激活函数在每个隐藏层中充当向量激活函数，其中每个神经元都有自己的激活函数斜率，而不是L-LAAF和GAAF方法给出的标量激活函数。

在这两种情况下，n个 ≥ 1是比例因子。对于每个问题，都存在一个临界比例因子n个_致命一击超过该阈值，优化算法变得非常敏感。由此产生的优化问题导致通过优化激活斜率以及权重和偏差来找到损失函数的最小值。然后，通过下式给出了最终的基于分层自适应激活函数的解决方案的NN表示

{u个}_{\hat{Θ}} (z（z）) = ({L（左）}_{D类} \circ σ \circ 纳^{D类 负极 1} {L（左）}_{D类 负极 1} \circ σ \circ 纳^{D类 负极 2} {L（左）}_{D类 负极 2} \circ \dots \circ σ \circ 纳^{1} {L（左）}_{1}) (z（z）) .

类似地，我们可以编写基于神经网络的自适应激活函数表示的解决方案。在这种情况下，可训练参数集 $\hat{Θ} \in \hat{V（V）}$ 包括 ${{w个}^{k个}, {b条}^{k个}}_{k个 = 1}^{D类}$ 和 ${一_{我}^{k个}}_{k个 = 1}^{D类负极 1}, \forall 我 = 1, 2, \dots, {N个}_{k个}$ 在所提出的方法中，可伸缩参数的初始化是这样进行的 $n个一_{我}^{k个} = 1, \forall n个$ .

局部引入激活斜率参数相对于全局参数的优点是，它为每个隐藏层以及所有隐藏层中的每个神经元提供了额外的自由度，从而提高了网络的学习能力。LAAF的另一个优点是可以为每个层以及每个神经元指定不同的缩放因子，而不是GAAF中的全局缩放因子。

与GAAF的单个附加参数相比，基于局部自适应激活函数的PINN具有多个附加的可扩展参数来训练。因此，重要的是要考虑所需的额外计算成本。参数空间的增加导致了一个高维优化问题，其解可能很难获得。在前面讨论的两种方法中，即L-LAAF和N-LAAF，N-LAAF-引入了最多数量的额外参数进行优化。接下来，我们讨论参数数量增加的定性图片。让ω和β是NN中权重和偏差的总数。然后，比率 $P（P）$ ，即N-LAAF的参数空间与基于固定激活的神经网络的参数空间的大小为， $P（P） \approx (1 + 2 ϱ) / (1 + ϱ),$ 其中ϱ=β/ω例如，考虑一个具有单个输入和输出的全连接NN，它包含三个隐藏层，每个层中有20个神经元，其值为ω = 840和β = 61.因此， $P（P） = 1.0677$ 即参数数量增加了6.77%。随着层数和每层神经元数的增加，这个增量可以进一步减少，最终导致参数数量的增加可以忽略不计。在这种情况下，固定激活函数和神经元局部自适应激活的计算成本是相当的。

（a）物理信息神经网络

在本节中，我们将简要介绍PINN算法[4]. PINN是求解包含噪声、稀疏和多保真度数据的正、逆微分和积分微分方程的一种非常有效的方法。PINN的主要特点是，它可以很容易地将所有给定的信息（如控制方程、实验数据、初始/边界条件等）合并到损失函数中，从而将原始问题重新转换为优化问题。PINN算法的主要局限性之一是其在高维优化问题上的高计算成本，该问题在[13]采用区域分解方法。PINN算法旨在学习代理 $u个 = {u个}_{\hat{Θ}}$ 预测解决方案u个控制PDE。在PINN算法中，损失函数定义为

J型 (\hat{Θ}) = {W公司}_{F类} {MSE公司}_{F类} + {W公司}_{u个} {MSE公司}_{u个},

2.2

其中均方误差（MSE）为

{MSE公司}_{F类} = \frac{1}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} | {F类}_{\hat{Θ}} ({x个}_{（f）}^{我}) |^{2}, {MSE公司}_{u个} = \frac{1}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} | {u个}^{我} 负极 {u个}_{\hat{Θ}} ({x个}_{u个}^{我}) |^{2} .

${{x个}_{（f）}^{我}}_{我 = 1}^{{N个}_{（f）}}$ 表示残差点集，而 ${{x个}_{u个}^{我}}_{我 = 1}^{{N个}_{u个}}$ 表示训练数据点。 ${W公司}_{F类}$ 和W公司_u个分别是残差和训练数据点的权重，可以动态选择[14]. NN解必须满足由残差给出的控制方程 ${F类}_{\hat{Θ}} = F类 ({u个}_{\hat{Θ}})$ 在域中随机选择的残差点处进行评估。例如，对于形式为卢 = （f），剩余项由下式给出 ${F类}_{\hat{Θ}} ≜ L（左） {u个}_{\hat{Θ}} 负极（f）$ ，其中L（左）表示线性/非线性微分项。为了构造损失函数中的残差，需要解对自变量的导数，可以使用自动微分（公元）[15]. 与数值微分相比，AD是计算图形中导数的准确方法，因为它们不受截断和舍入误差等误差的影响。因此，PINN方法是一种无网格方法，不需要网格来求解方程。这构成了NN的物理信息部分，如等式中的第一项所示(2.2). 方程中的第二项(2.2)包括NN解必须满足的已知边界/初始条件、实验数据。

由此产生的优化问题导致通过优化可训练参数来寻找损失函数的最小值 $\hat{Θ}$ 这个最小化问题的解可以用梯度下降算法的一种形式迭代逼近。随机梯度下降（SGD）算法广泛应用于机器学习社区[16]进行完整的调查。在这项工作中，ADAM优化器[17]，这是使用的SGD方法的变体。

（b）带坡度恢复项的损失函数

自适应激活函数的主要动机是增加激活函数的斜率，从而产生非零梯度和网络的快速训练。显然，为了提高神经网络的性能，应该快速增加激活斜率。因此，实现这一点的另一种方法不是仅依赖于优化方法，而是包括边坡恢复项 $S公司 (一)$ 定义为

S公司 (一) ≜ {\begin{cases} \frac{1}{1 / (D类 负极 1) \sum_{k个 = 1}^{D类 负极 1} 经验 (一^{k个})} & 对于L-LAAF, \\ \frac{1}{1 / (D类 负极 1) \sum_{k个 = 1}^{D类 负极 1} 经验 (\frac{\sum_{我 = 1}^{{N个}_{k个}} 一_{我}^{k个}}{{N个}_{k个}})} & 对于N-LAAF . \end{cases}

这背后的主要原因是，该项有助于损失函数的梯度而不消失。包括这个术语的总体效果是，它迫使网络快速增加激活斜率的值，从而提高训练速度。

图1显示了神经元的草图基于局部自适应激活函数的物理信息神经网络（LAAF-PINN），其中可以看到NN部分和物理通知部分。每个神经元的激活斜率也以斜率恢复项的形式对损失函数作出贡献。以下算法总结了带有坡度恢复项的LAAF-PINN算法。

在单独的窗口中打开

图1。

伯格方程的LAAF-PINN示意图。左边的NN是未知网络，而由控制微分方程导出的右边的NN则是已知网络。输入是坐标(x、 t吨)而输出就是解决方案u个(x、吨)它必须满足控制方程。这两个NN共享参数，它们都有助于损失函数。（彩色在线版本。）

算法1：带有坡度恢复项的LAAF-PINN算法-

第1步：计算域中训练集的规范
培训数据: ${u个}_{\hat{Θ}}$ 网络 ${{x个}_{u个}^{我}}_{我 = 1}^{{N个}_{u个}}$ ,剩余培训点: { ${F类}_{\hat{Θ}}$ 网络 ${{x个}_{（f）}^{我}}_{我 = 1}^{{N个}_{（f）}}$ }
第2步：构建神经网络 ${u个}_{\hat{Θ}}$ 随机初始化参数 $\hat{Θ}$ .
步骤3：构建残差神经网络{ ${F类}_{\hat{Θ}}$ }通过替换代理 ${u个}_{\hat{Θ}}$ 使用自动微分和其他算术运算将其转换为控制方程。
第4步：包含边坡恢复项的损失函数规范：
$\tilde{J型} (\hat{Θ}) = \frac{{W公司}_{F类}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} | {F类}_{\hat{Θ}} ({x个}_{（f）}^{我}) |^{2} + \frac{{W公司}_{u个}}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} | {u个}^{我} 负极 {u个}_{\hat{Θ}} ({x个}_{u个}^{我}) |^{2} + {W公司}_{一} S公司 (一),$
2.3
哪里 ${W公司}_{一}$ 是边坡恢复期的权重。
第5步：找到最佳参数 ${\hat{Θ}}^{*}$ 使用合适的优化方法最小化损失函数 $\tilde{J型} (\hat{Θ})$ 作为
${\hat{Θ}}^{*} = \underset{\hat{Θ} \in \hat{V（V）}}{参数最小值} \tilde{J型} (\hat{Θ}) .$

3.具有自适应激活的梯度动力学：收敛点和收敛加速

与标准方法相比，自适应激活方法引入了一种新的梯度动力学，导致了不同的收敛点和收敛速度。下面的定理说明了使目标函数最小化的梯度下降算法 $\tilde{J型} (\hat{Θ})$ 在给定适当的初始化和学习速率的情况下，对于L-LAAF和N-LAAF，in（？？）都不会收敛到次优临界点或次优局部极小值。为了简单起见， ${W公司}_{F类}, {W公司}_{u个}$ 和W公司_一被认为是统一的。在下面的定理中，我们处理 $\hat{Θ}$ 作为实值向量。让 $\tilde{J型} c（c） (0) = {MSE公司}_{F类} + {MSE公司}_{u个}$ 用恒定网络 ${u个}_{Θ} (z（z）) = {u个}_{Θ} ({z（z）}^{'}) = c（c） \in {R（右）}^{{N个}_{D类}}$ 对所有人来说z（z）,z（z）'其中c（c）是一个常数。

定理3.1-

让 ${({\hat{Θ}}_{米})}_{米 \in N个}$ 是由梯度下降算法生成的序列 ${\hat{Θ}}_{米 + 1} = {\hat{Θ}}_{米} 负极 η_{米} Ş \tilde{J型} (\hat{Θ})$ .假设 $\tilde{J型} ({\hat{Θ}}_{0}) < \tilde{J型} c（c） (0) + S公司 (0)$ 对于任何 $c（c） \in {R（右）}^{{N个}_{D类}},$ $\tilde{J型}$ 是可微的，并且对于每个 我 ∈ {1, …,N个_（f）},存在可微函数φ^我 和输入 ρ^我 这样的话 $| {F类}_{\hat{Θ}} ({x个}_{（f）}^{我}) |^{2} = φ^{我} ({u个}_{\hat{Θ}} (ρ^{我})) .$ 假设以下三个条件中至少有一个条件成立。

(我) (恒定学习速率) $Ş \tilde{J型}$ Lipschitz与Lipschitz常数连续吗 C类(即 $| | Ş \tilde{J型} (\hat{Θ}) 负极 Ş \tilde{J型} ({\hat{Θ}}^{'}) | |_{2} \leq C类 | | \hat{Θ} 负极 {\hat{Θ}}^{'} | |_{2}$ 对所有人来说 $\hat{Θ}, {\hat{Θ}}^{'}$ 在其领域内),和 ϵ ≤ η_米 ≤ (2 − ϵ)/C类,哪里 ϵ 是一个固定的正数.
(ii（ii）) (学习率递减) $Ş \tilde{J型}$ Lipschitz是连续的,η_米 → 0和 $\sum_{米 = 0}^{\infty} η_{米} = \infty .$
(三) (自适应学习率)学习率 η_米 由最小化规则、有限最小化规则、Armjio规则或Goldstein规则选择[18].

那么，对于L-LAAF和N-LAAF，没有极限点 ${({\hat{Θ}}_{米})}_{米 \in N个}$ 是次优临界点或次优局部极小值。

初始条件 $\tilde{J型} ({\hat{Θ}}_{0}) < \tilde{J型} c（c） (0) + S公司 (0)$ 表示初始值 $\tilde{J型} ({\hat{Θ}}_{0})$ 需要小于恒定网络加上坡度恢复项的最大值。这里，请注意 $S公司 (1) < S公司 (0)$ .定理3.1的证明包含在附录A中。

我们现在研究所提出的方法如何逼近收敛点，以及为什么它可以加速收敛。为了说明加速背后的主要机制，我们将所提方法的梯度动力学与标准方法在J型.标准方法的梯度动力学J型是

Θ^{米 + 1} = Θ^{米} 负极 η_{米} Ş J型 (Θ^{米}),

3.1

并生成序列 ${(J型 (Θ^{米}))}_{米 \in N个}$ 标准客观价值观。自适应激活方法的梯度动力学 $\tilde{J型}$ 是 ${\hat{Θ}}^{米 + 1} = {\hat{Θ}}^{米} 负极 η_{米} Ş \tilde{J型} ({\hat{Θ}}^{米})$ ，并生成序列 ${(\tilde{J型} ({\hat{Θ}}^{米}))}_{米 \in N个}$ 修改后的目标值。这些动力学位于两个不同的空间，即J型和 $\tilde{J型}$ 。为了比较它们，我们转换了动力学 ${({\hat{Θ}}^{米})}_{米 \in N个}$ 在…领域 $\tilde{J型}$ 动态 ${({\tilde{Θ}}^{米})}_{米 \in N个}$ 在…领域J型.

更具体地说，我们证明了梯度动力学 ${({\hat{Θ}}^{米})}_{米 \in N个}$ 的全球的自适应激活方法生成序列 ${(J型 ({\tilde{Θ}}^{米}))}_{米 \in N个}$ 标准目标值的

{\tilde{Θ}}^{米 + 1} = {\tilde{Θ}}^{米} 负极 η_{米} \hat{G公司} ({\hat{Θ}}^{米 + 1}) Ş J型 ({\tilde{Θ}}^{米}) + η_{米}^{2} {\hat{H（H）}}_{J型} ({\tilde{Θ}}^{米}) {\tilde{Θ}}^{米},

3.2

哪里 ${\tilde{Θ}}^{米 + 1} \in dom公司 (J型)$ 是 ${\hat{Θ}}^{米 + 1} \in dom公司 (\tilde{J型})$ 在空间中被翻译Θ^米+1，这是 $dom公司 (J型)$ ( $dom公司 (J型$ )是的域J型),

\hat{G公司} ({\hat{Θ}}^{米 + 1}) = {(一^{米})}^{2} 我 + {W公司}^{米} {({W公司}^{米})}^{⊤}

和

{\hat{H（H）}}_{J型} ({\tilde{Θ}}^{米}) = Ş J型 ({\tilde{Θ}}^{米}) Ş J型 {({\tilde{Θ}}^{米})}^{⊤} .

比较方程式(3.1)和(3.2)，我们可以看到自适应激活的梯度动力学通过乘以条件矩阵修改了标准动力学 $\hat{G公司} ({\tilde{Θ}}^{米})$ 梯度和通过添加近似二阶项 $η_{米}^{2} H（H） ({\tilde{Θ}}^{米}) {\tilde{Θ}}^{米}$ 这提供了数学直觉，说明为什么全局自适应激活方法可以加速收敛，而它并不等同于改变或调整学习速率。

理解近似二阶项 $η_{米}^{2} H（H） ({\tilde{Θ}}^{米}) {\tilde{Θ}}^{米}$ ，注意标准方法的梯度动力学(3.1)可以看作是梯度流微分方程的最简单离散化（欧拉方法），

\dot{Θ} = 负极 Ş J型 (Θ),

3.3

我们估计的位置 $Θ^{{t吨}_{0} + {t吨}_{1}} = Θ^{{t吨}_{0}} 负极 \int_{t吨 \in [{t吨}_{0}, {t吨}_{1}]} Ş J型 (Θ^{t吨}) d日 t吨$ 通过设置 $Ş J型 (Θ^{t吨}) \approx Ş J型 (Θ^{{t吨}_{0}})$ 对于t吨 ∈ [t吨₀,t吨₁]. 从这个角度来看，我们可以考虑(3.3). 例如，不是设置 $Ş J型 (Θ^{t吨}) \approx Ş J型 (Θ^{{t吨}_{0}})$ ，我们可以近似

Ş J型 (Θ^{t吨}) \approx Ş J型 (Θ^{{t吨}_{0}}) + {H（H）}_{J型} (Θ^{{t吨}_{0}}) (Θ^{t吨} 负极 Θ^{{t吨}_{0}}),

哪里H（H）_J型是黑森人J型.术语 $η_{米}^{2} H（H） ({\tilde{Θ}}^{米}) {\tilde{Θ}}^{米}$ 英寸(3.2)可以通过设置进一步近似第二项来获得 ${H（H）}_{J型} (Θ^{{t吨}_{0}}) \approx {\hat{H（H）}}_{J型} ({\tilde{Θ}}^{{t吨}_{0}})$ 和 $Θ^{t吨} 负极 Θ^{{t吨}_{0}} \approx 负极 η_{米} {\tilde{Θ}}^{{t吨}_{0}}$ .

更一般地，我们表明梯度动力学 ${({\hat{Θ}}^{米})}_{米 \in N个}$ 属于任何自适应激活方法生成序列 ${(J型 ({\tilde{Θ}}^{米}))}_{米 \in N个}$ 标准目标值，其中

{\tilde{Θ}}^{米 + 1} = {\tilde{Θ}}^{米} 负极 η_{米} G公司 ({\hat{Θ}}^{米 + 1}) Ş J型 ({\tilde{Θ}}^{米}),

3.4

具有

G公司 ({\hat{Θ}}^{米 + 1}) = 诊断 ({(A类 一^{米})}^{2}) + 诊断 ({W公司}^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米}) 负极 η_{米} 诊断 (V（V） ({\hat{Θ}}^{米 + 1}))

和

V（V） ({\hat{Θ}}^{米 + 1}) = 诊断 (A类 一^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米}) Ş J型 ({\tilde{Θ}}^{米}) .

这里，给定一个向量 $v（v） \in {R（右）}^{d日}$ , $诊断 (v（v）) \in {R（右）}^{d日 \times d日}$ 用diag表示对角矩阵(v（v）)_ii（ii） = v（v）_我和v（v）²代表v（v）°v（v）哪里v（v）°u个是两个向量的元素乘积v（v）和u个.矩阵A类不同的自适应激活函数方法具有不同的局部性，并且是给定GAAF、L-LAAF或N-LAAF方法的固定矩阵。例如，就GAAF而言，d日′=1和 $A类 = (1, 1, \dots, 1)^{⊤} \in {R（右）}^{d日}$ .堵住这个A类到(3.4)并注意到 $诊断 ({W公司}^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米}) = W公司 {W公司}^{^{⊤}}$ 用这个A类，我们可以获得(3.2)来自(3.4); 即(3.4)是(3.2). 在任何具有不同类型局部性的自适应激活方法的一般情况下，我们可以 ${\tilde{Θ}}^{米 + 1} = A类一^{米 + 1} \circ {W公司}^{米 + 1}$ ，其中 ${W公司}^{米 + 1} \in {R（右）}^{d日}$ 和 $一^{米 + 1} \in {R（右）}^{{d日}^{'}}$ 用一些矩阵 $A类 \in {R（右）}^{d日 \times {d日}^{'}}$ 如果是L-LAAF，d日'是层数 $A类 \in {R（右）}^{d日 \times {d日}^{'}}$ 是满足以下条件的矩阵 ${\tilde{Θ}}^{米 + 1} = A类一^{米 + 1} \circ {W公司}^{米 + 1}$ 用于L-LAAF。如果是N-LAAF，d日'是所有神经元的数量 $A类 \in {R（右）}^{d日 \times {d日}^{'}}$ 是满足以下条件的矩阵 ${\tilde{Θ}}^{米 + 1} = A类一^{米 + 1} \circ {W公司}^{米 + 1}$ 对于N-LAAF。

比较方程式(3.1)和(3.4)，我们可以看到不同自适应激活方法的梯度动力学通过乘以不同的条件矩阵修改了标准动力学 $G公司 ({\hat{Θ}}^{米})$ 梯度，使用不同的矩阵A类这提供了为什么各种自适应激活方法可以在不同矩阵的情况下以不同的方式加速收敛的数学直觉A类它们并不等同于改变或调整学习速度。此外，我们的分析(3.4)适用于GAAF、L-LAAF和N-LAAF以外的任何自适应激活方法，并为设计与新矩阵对应的新自适应激活方法提供了见解A类英寸(3.4)为了进一步加快收敛速度。

条件矩阵 $G公司 ({\hat{Θ}}^{米})$ 具有足够小的学习率η_米自诊断以来((澳大利亚^米)²)是正定的，并且 $诊断 ({W公司}^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米})$ 是半正定的（当一^米非零）。因此，学习率足够低η_米，方程中的参数更新(3.4)减小的值J型作为J型(Θ^米+1)<J型(Θ^米)在可微点 $| | Ş J型 ({\tilde{Θ}}^{米}) | | \neq 0$ 。这是因为 $J型 (Θ^{米 + 1}) = J型 (Θ^{米}) 负极 η_{米} Ş J型 {({\tilde{Θ}}^{米})}^{⊤} G公司 ({\hat{Θ}}^{米 + 1}) Ş J型 ({\tilde{Θ}}^{米}) + η_{米} φ (η_{米})$ 在具有函数φ的可微点处 $\underset{η_{米} \to 0}{极限} φ (η_{米}) = 0$ .

我们现在推导方程(3.2)和(3.4)，并更详细地解释每个符号的定义。让我们首先关注没有回收项的GAAF方法。让 $\hat{J型}$ 是 $\tilde{J型}$ 没有恢复条款。让 $\tilde{Θ} = 一 W公司$ ，其中W公司包括所有标准权重和偏差参数 ${{w个}^{k个}, {b条}^{k个}}_{k个 = 1}^{D类}$ .那么，我们有了 $\hat{J型} (\hat{Θ}) = J型 (\tilde{Θ})$ .而标准方法生成标准目标值序列 ${(J型 (Θ^{米 + 1}))}_{米 \in N个}$ ，GAAF方法生成标准目标值序列 ${(J型 ({\tilde{Θ}}^{米}))}_{米 \in N个}$ 。为了根据相同的标准目标值比较这两种方法，我们对所提方法的以下梯度动力学感兴趣：

\begin{aligned} {\tilde{Θ}}^{米 + 1} & = 一^{米 + 1} {W公司}^{米 + 1} \\ = (一^{米} 负极 η_{米} Ş_{一} J型 ({\tilde{Θ}}^{米})) ({W公司}^{米} 负极 η_{米} Ş_{W公司} J型 ({\tilde{Θ}}^{米})) \\ = {\tilde{Θ}}^{米} 负极 η_{米} 一^{米} Ş_{W公司} J型 ({\tilde{Θ}}^{米}) 负极 η_{米} Ş_{一} J型 ({\tilde{Θ}}^{米}) {W公司}^{米} + η_{米}^{2} Ş_{一} J型 ({\tilde{Θ}}^{米}) Ş_{W公司} J型 ({\tilde{Θ}}^{米}) \end{aligned}

3.5

给，我们有 $Ş_{W公司} J型 (\tilde{Θ}) = {((\partial J型 (\tilde{Θ}) / \partial \tilde{Θ}) \partial \tilde{Θ} / \partial W公司)}^{⊤}$ 和 $Ş_{一} J型 (\tilde{Θ}) = {((\partial J型 (\tilde{Θ}) / \partial \tilde{Θ}) \partial \tilde{Θ} / \partial 一)}^{⊤}$ 根据链式法则，其中 $\partial J型 (\tilde{Θ}) / \partial \tilde{Θ} = Ş J型 {(\tilde{Θ})}^{⊤}$ , $\partial \tilde{Θ} / \partial W公司 = 一我$ (我是单位矩阵）和 $\partial \tilde{Θ} / \partial 一 = W公司$ 将这些插入到(3.5),

一^{米} Ş_{W公司} J型 ({\tilde{Θ}}^{米}) = {(一^{米})}^{2} Ş J型 ({\tilde{Θ}}^{米})

和

Ş_{一} J型 ({\tilde{Θ}}^{米}) {W公司}^{米} = {W公司}^{米} {({W公司}^{米})}^{⊤} Ş J型 ({\tilde{Θ}}^{米}),

和

Ş_{一} J型 ({\tilde{Θ}}^{米}) Ş_{W公司} J型 ({\tilde{Θ}}^{米}) = Ş J型 ({\tilde{Θ}}^{米}) Ş J型 {({\tilde{Θ}}^{米})}^{⊤} {\tilde{Θ}}^{米},

从而获得(3.2)根据需要。与GAAF的情况类似，在一般情况下，我们有

\begin{aligned} {\tilde{Θ}}^{米 + 1} & = A类 一^{米 + 1} \circ {W公司}^{米 + 1} \\ = (A类 (一^{米} 负极 η_{米} Ş_{一} J型 ({\tilde{Θ}}^{米}))) \circ ({W公司}^{米} 负极 η_{米} Ş_{W公司} J型 ({\tilde{Θ}}^{米})) \\ = {\tilde{Θ}}^{米} 负极 η_{米} (A类 一^{米} \circ Ş_{W公司} J型 ({\tilde{Θ}}^{米})) 负极 η_{米} (A类 Ş_{一} J型 ({\tilde{Θ}}^{米}) \circ {W公司}^{米}) + η_{米}^{2} (A类 Ş_{一} J型 ({\tilde{Θ}}^{米}) \circ Ş_{W公司} J型 ({\tilde{Θ}}^{米})) . \end{aligned}

3.6

通过使用 $Ş_{W公司} J型 (\tilde{Θ}) = {((\partial J型 (\tilde{Θ}) / \partial \tilde{Θ}) \partial \tilde{Θ} / \partial W公司)}^{⊤}$ 和 $Ş_{一} J型 (\tilde{Θ}) = {((\partial J型 (\tilde{Θ}) / \partial \tilde{Θ}) \partial \tilde{Θ} / \partial 一)}^{⊤}$ ,

\begin{aligned} A类 一^{米} \circ Ş_{W公司} J型 ({\tilde{Θ}}^{米}) & = 诊断 (A类 一^{米} \circ A类 一^{米}) Ş J型 ({\tilde{Θ}}^{米}), \end{aligned}

3.7

\begin{aligned} A类 Ş_{一} J型 ({\tilde{Θ}}^{米}) \circ {W公司}^{米} & = 诊断 ({W公司}^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米}) Ş J型 ({\tilde{Θ}}^{米}) \end{aligned}

3.8

\begin{aligned} 和 A类 Ş_{一} J型 ({\tilde{Θ}}^{米}) \circ Ş_{W公司} J型 ({\tilde{Θ}}^{米}) & = 诊断 (诊断 (A类 一^{米}) A类 {A类}^{^{⊤}} 诊断 ({W公司}^{米}) Ş J型 ({\tilde{Θ}}^{米})) Ş J型 ({\tilde{Θ}}^{米}) . \end{aligned}

3.9

通过将这些插入(3.6)，我们获得(3.4).

图2说明了自适应激活方法对目标值和归一化条件数的影响。结果表明，自适应激活方法在减少条件数的同时加快了目标值的收敛。条件数的改善与目标值的改善大致一致。感兴趣的条件数为（M（M）)/（最小奇异值M（M）)其中 $M（M） = G公司 {(\hat{Θ})}^{1 / 2} Ş^{2} J型 (\tilde{Θ}) G公司 {(\hat{Θ})}^{1 / 2}$ 用于自适应激活函数方法和 $M（M） = Ş^{2} J型 (\tilde{Θ})$ 对于没有自适应激活的标准方法。随着这个条件数的减少，当矩阵M（M）是正常的[18]. 每个子图中的归一化条件数是前一个时期的最小条件数，通过将条件数除以标准方法的初始条件数进行归一化。对于这个实验，我们设置n个 = 1，我们使用由 $sklearn公司 . 数据集 . 制作_带n的圆圈_样品 =$ 1000，噪音=0.01， $随机的，随机的_状态 = 0$ ，系数=0.7。该数据集不是线性可分的。我们采用了带有单个隐藏层的全连接神经网络。标准交叉熵损失用于训练和绘图。

在单独的窗口中打开

图2。

考虑中的实验：自适应激活对目标值和标准化条件数的影响（即条件数除以标准方法的初始条件数）。在每个子图中，宽度=隐藏层中的单位数。(一)乙状结肠，宽度=10(b条)乙状结肠，宽度=20(c（c）)ReLU，宽度=20(d日)ReLU，宽度=100(e（电子）)Softplus，宽度=100。（在线彩色版本。）

4.计算结果

在本节中，我们将使用PINN算法和所提出的方法，解决涉及二维泊松方程和无粘Burgers方程的深度NN和逆PDE函数逼近问题。一些标准的深度学习基准问题也得到了解决。从收敛速度和精度方面评估了所提方法的性能。

（a）非线性不连续函数的神经网络逼近

在这个测试用例中，使用深度NN（没有物理信息部分）来近似不连续函数。这里，损失函数由数据失配和斜率恢复项组成。以下不连续函数x个 = 0位置由深度NN近似。

u个 (x个) = {\begin{cases} 0.2 罪 (6 x个) & 如果 x个 \leq 0, \\ 1 + 0.1 x个 余弦 (18 x个) & 否则。 \end{cases}

该函数包含高频和低频分量以及不连续性。域是[-3，3]，使用的训练点数是300，这是随机选择的。激活功能为坦纳，学习率为2.0×10⁻⁴隐藏层数量为4层，每层50个神经元。比例因子为10，两者都是W公司_u个,W公司_一是统一的。图3显示了解决方案（第一列）和对数刻度的点方向绝对误差（第二列）。第一行给出了标准固定活化函数的解，第二行给出了GAAF解，而第三行和第四行分别给出了L-LAAF和N-LAAF的解。我们发现，与其他方法相比，带有坡度恢复项的L-LAAF和N-LAAF都能加快训练速度。我们还注意到，具有边坡恢复项（未显示）的GAAF解决方案在训练速度方面也与所提出的方法相当，并且由于边坡恢复项的参与，它可以被认为是一个新的贡献。

在单独的窗口中打开

图3。

不连续函数：使用标准固定激活（第一行）、GAAF（第二行）、L-LAAF（三行）和N-LAAF坦纳激活。第一列显示了解决方案。第二列给出了所有情况下对数刻度中的点向绝对误差。（彩色在线版本。）

（b）反问题：二维泊松方程

在这个例子中，我们将确定扩散系数中的未知参数。这个例子取自Pakravan等。[19]，其中可变扩散系数参数化为 $D类 (x个; α) = 1 + α x个$ 需要评估，随机选择值为α ∈ [0.05, 0.95]. 计算域为 $Ω \in {[负极 1 / \sqrt{2}, 1 / \sqrt{2}]}^{2}$ 控制泊松方程如下所示

Ş \cdot ([1 + α x个] Ş u个) + x个 + 年 = 0, (x个, 年) \in Ω,

带边界条件u个_b条 = 科斯(πx)科斯(πy,) (x个,年) ∈ ∂Ω.

使用三个隐藏层的前馈神经网络，每层有30个神经元，通过随机选择参数，在500个生成的解上进行训练α从给定范围开始。双曲正切激活函数的学习率为0.0008。缩放因子的值在所有情况下都是统一的 ${W公司}_{F类} = 1$ ,W公司_u个 = 10,W公司_一 = 10.随后，我们在50个独立解决方案字段上测试了其性能，以确定参数α使用固定激活、GAAF、L-LAAF和N-LAAF，无高斯噪声和有2.5%高斯噪声。为了显示早期训练阶段的收敛性，在4000次迭代后用干净数据和有噪声数据绘制结果。图4显示了标准激活、GAAF、L-LAAF和N-LAAF（从上到下一行）的结果，无噪声（第一列）和高斯噪声（第二列）。L-LAAF和N-LAAF的性能均优于GAAF，其中学习的参数与真实值吻合良好。表1显示了相对L（左）₂在所有没有噪声的情况下都会产生误差，在所有方法中，L-LAAF的误差最小。

在单独的窗口中打开

图4。

反问题2D泊松方程：标准激活、GAAF、L-LAAF和N-LAAF（从上到下一行）无噪声（第一列）和高斯噪声（第二列）。（彩色在线版本。）

表1。

亲属L（左）₂在没有噪声的所有情况下都是错误的。

	标准活动。	GAAF公司	L-LAAF公司	N-LAAF公司
相对。L（左）₂错误	1.012 × 10⁻¹	1.654 × 10⁻²	7.328 × 10⁻³	1.482 × 10⁻²

在单独的窗口中打开

（c）反问题：二维无粘Burgers方程

我们的下一个例子是Burgers方程中粘性系数识别的反问题。即使初始条件足够光滑，无粘Burgers方程的解也可以是间断的。二维无粘Burgers方程如下所示

{u个}_{t吨} + u个 {u个}_{x个} + {u个}_{年} = 0, x个 \in [负极 0.1, 1], 年 \in [0, 1], 和 t吨 > 0,

受边界条件约束

u个 (x个, 0) = {\begin{cases} 一 & 如果 x个 < 0, \\ b条 & 否则, \end{cases}

u个( − 0.2,年) = 一和 $u个 (1, 年) = b条, \forall 年$ .情况的精确解一 = 2和b条 = 0在中给出[20]具有稳定的斜间断。

在这项工作中，我们使用了最近提出的保守PINN（cPINN）方法[13]这基本上是PINN中守恒定律的区域分解方法。计算域被划分为12个子域，每个子域中使用一个单独的PINN，这些子域是串联工作的。利用界面条件缝合每个子域中的解，包括保守通量的强制执行和沿公共界面的平均解。计算域划分为12个子域，如所示图5。上的接口位置x个-和年-轴分别为[0.2，0.6]和[0.25，0.5，0.75]。

在单独的窗口中打开

图5。

12个子域的编号。

在cPINN算法中，不提供原始方程，而是提供以下参数化的粘性Burgers方程

{u个}_{t吨} + u个 {u个}_{x个} + {u个}_{年} = ν ({u个}_{x个 x个} + {u个}_{年 年}),

我们的目的是确定粘度系数的值ν，对于无粘Burgers方程为零。对于这个测试用例，我们使用双曲正切激活函数，0.0006学习率，所有情况下的缩放因子都是5表2给出了每个子域中神经元的数量、隐藏层的数量和剩余点的数量。在这种情况下， ${W公司}_{F类} = 1$ ,W公司_u个 = 10,W公司_一 = 使用20个。的初始值ν在所有12个子域中任意选择，分别为[1、2、3、4、−5、6、−7、8、9、10、11、12]/2。我们注意到，cPINN是一种稳健的方法，即使在粘度为负值的情况下，标准解算器也无法容忍。

表2。

二维无粘性Burgers方程的每个子域中的NN架构。

域名。	1	2	三	4	5	6	7	8	9	10	11	12
#层	6	6	三	6	6	三	6	三	三	三	三	三
#神经元	20	20	20	20	20	20	20	20	20	20	20	20
#剩余pts。	2200	2200	400	600	2200	800	400	2200	2200	400	800	2200

在单独的窗口中打开

所有模拟最多执行40 k次迭代。训练数据点的数量和位置（300分）和剩余分数（8000分）在所有情况下都是固定的。图6显示了ν固定激活、GAAF、L-LAAF和N-LAAF（从上到下一行）情况下的（第一列）和逐点误差（第二列）。在所有情况下，ν收敛到其实际值，即零。使用固定激活函数的cPINN算法需要14 750次迭代才能收敛，而GAAF、L-LAAF和N-LAAF分别需要13 600次、11 090次和11 170次迭代。在所有情况中，L-LAAF给出的绝对点向误差最小，如图所示。在这个测试案例中，无论是N-LAAF还是带有斜率恢复项的L-LAAF，在收敛速度和求解精度方面都优于GAAF。

在单独的窗口中打开

图6。

反问题2D Burgers方程：变量ν标准（固定激活）、GAAF、L-LAAF和N-LAAF（从上到下一行）的（第一列）和点向误差（第二列）。（彩色在线版本。）

（d）标准深度学习基准问题

前一小节展示了PINN自适应激活函数在物理相关问题中的优势。剩下的一个问题是，对于其他类型的深度学习应用程序，标准深度神经网络是否仍然具有自适应激活的优势。为了探讨这个问题，本节提供了深度学习中各种标准基准问题的数值结果。

MNIST公司[21]，时尚MNIST[22]和KMNIST[23]是包含手写数字、服装和配饰图像以及日语字母的数据集。除了MNIST、Semeion[24]是一个手写数字数据集，包含从80个人收集的1593个数字。SVHN公司[25]是从谷歌街景图像中的房屋编号获得的街景房屋编号的另一个数据集。CIFAR公司[26]是一个包含彩色图像的流行数据集。特别是，CIFAR-10数据集包含10个类中的50000个训练图像和10000个测试图像，图像分辨率为32×32。CIFAR-100与CIFAR--10类似，只是它有100个类，每个类中有600个图像。

数字图77和和88使用标准的深度学习基准，显示固定激活函数（标准）、GAAF、L-LAAF和N-LAAF的训练损失的平均值和不确定区间。实线和虚线是随机种子三次随机试验的平均值。阴影区域表示每种方法的2×（样本标准偏差）间隔。数字图77和和88一致表明，自适应激活加速了训练损失值的最小化过程。这里，所有GAAF、L-LAAF和N-LAAF都使用了坡度恢复项，这改进了没有恢复项的方法。

在单独的窗口中打开

图7。

在没有数据增加的情况下，对数尺度与历元的训练损失。(一)塞梅因(b条)MNIST、(c（c）)国民党(d日)时尚-MNIST(e（电子）)CIFAR-10中(（f）)CIFAR-100(克)SVHN公司。（彩色在线版本。）

在单独的窗口中打开

图8。

训练损失（对数尺度与历元）与数据增强。(一)塞梅因(b条)MNIST、(c（c）)国民党(d日)时尚-MNIST(e（电子）)CIFAR-10(（f）)CIFAR-100(克)SVHN公司。（彩色在线版。）

标准交叉熵损失用于训练和绘图。我们使用了18层预激活ResNet[27]对于CIFAR-10、CIFAR-100和SVHN数据集，而我们使用LeNet的标准变体[21]其他数据集使用ReLU；即，LeNet变体的体系结构由以下五个层组成（具有三个隐藏层）：（1）输入层，（2）卷积层，带有64个5×5滤波器，然后是2×2和ReLU的最大池，（3）卷积图层，带有64 5×5个过滤器，然后是大小为2乘2和ReLU的最大池，（4）具有1014个输出单元的全连接层，然后是ReLU，以及（5）输出单元数量等于目标类数量的完全连接层。在所有不同的数据集和模型中，所有超参数都是预先确定的。我们调整了迷你背带的尺寸秒为64，初始学习率为0.01，动量系数为0.9。所有实验（有数据增强和无数据增强）在第10个历元开始时的学习率除以10，而有数据增强的实验在第100个历元时的学习速率除以10。对于卷积层，L-LAAF在每个层内的所有像素和通道中共享相同的单个参数，而N-LAAF的额外参数与每个通道中的像素数一样多。在本节中，我们使用了比例因子n个 = 1和2，因为具有ReLU激活的NN代表均质函数，因此具有其他值的行为n个在这种情况下，可以通过改变学习率来实现。请注意，在前面的PINN部分中，情况并非如此。

5.结论

总之，我们提出了两种版本的局部自适应激活函数，即分层和神经元局部适应性激活函数。与全局前辈相比，这种局部激活功能进一步提高了神经网络的训练速度。为了进一步加快培训过程边坡恢复在层激活函数和神经元激活函数的损失函数中都添加了项，这表明可以提高神经网络的性能。为了验证我们的说法，使用深度神经网络解决了一个函数逼近问题，使用PINN解决了两个PDE逆问题，证明了局部自适应激活在训练速度和准确性方面优于固定和全局自适应激活。此外，虽然与固定激活函数相比，所提出的公式增加了额外参数的数量，但总体计算成本相当。所提出的带有斜率恢复项的自适应激活函数也可以加速标准深度学习基准问题的训练过程。我们从理论上证明了所提出的方法（L-LAAF和N-LAAF）中没有次优临界点或局部最小吸引梯度下降算法，只有在温和的假设下才有斜率恢复项。我们还表明，该方法的梯度动力学不等价于具有任何（自适应）学习速率的基方法的动力学。相反，所提出的方法相当于通过隐式地将条件矩阵乘以基本方法的梯度来修改基本方法的渐变动力学。这种矩阵-向量积的显式计算对于NN来说过于昂贵，而我们的自适应激活函数有效地避免了显式计算。

附录A.定理3.1的证明

我们首先用矛盾的方式证明了L-LAAF的说法。假设参数向量 $\hat{Θ}$ 包括 ${{w个}^{k个}, {b条}^{k个}}_{k个 = 1}^{D类}$ 和 ${一^{k个}}_{k个 = 1}^{D类负极 1}$ 是的极限点 ${({\hat{Θ}}_{米})}_{米 \in N个}$ 以及次优临界点或次优局部极小值。

让 $ℓ_{（f）}^{我} := φ^{我} ({u个}_{\hat{Θ}} (ρ^{我}))$ 和 $ℓ_{u个}^{我} := | {u个}^{我} 负极 {u个}_{\hat{Θ}} ({x个}_{u个}^{我}) |^{2}$ .让 ${z（z）}_{（f）}^{我, k个}$ 和 ${z（z）}_{u个}^{我, k个}$ 是的输出k个第th层ρ^我和 $({x个}_{u个}^{我})$ 分别是。定义

{小时}_{（f）}^{我, k个, j个} := n个 一^{k个} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) \in R（右）

和

{小时}_{u个}^{我, k个, j个} := n个 一^{k个} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个}) \in R（右）,

对所有人来说j个 ∈ {1…，N个_k个}，其中 ${w个}^{k个, j个} \in {R（右）}^{1 \times {N个}_{k个负极 1}}$ 和 ${b条}^{k个, j个} \in R（右）$ .

遵循中的证明[18，建议1.2.1–1.2.4] $Ş \tilde{J型} (\hat{Θ}) = 0$ 和 $\tilde{J型} (\hat{Θ}) < \tilde{J型} c（c） (0) + S公司 (0)$ 对于所有三种情况下对应的不同规则的学习率。因此，我们拥有这一切k个 ∈ {1, …,D类 − 1},

\begin{aligned} \frac{\partial \tilde{J型} (\hat{Θ})}{\partial 一^{k个}} & = \frac{\partial S公司 (一)}{\partial 一^{k个}} + \frac{n个}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \sum_{j个 = 1}^{{N个}_{k个}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{n个}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \sum_{j个 = 1}^{{N个}_{k个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个}) \\ = \frac{\partial S公司 (一)}{\partial 一^{k个}} + \sum_{j个 = 1}^{{N个}_{k个}} (\frac{n个}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{n个}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个})) \\ = 0 \end{aligned}

答1

此外，我们有这一切k个 ∈ {1, …,D类 − 1} 以及所有j个∈{1, …,N个_k个},

\begin{aligned} \frac{\partial \tilde{J型} (\hat{Θ})}{\partial {w个}^{k个, j个}} & = \frac{n个 一^{k个}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({z（z）}_{（f）}^{我, k个 负极 1})^{⊤} + \frac{n个 一^{k个}}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({z（z）}_{u个}^{我, k个 负极 1})^{⊤}, \\ = 0 \end{aligned}

答2

和

\frac{\partial \tilde{J型} (\hat{Θ})}{\partial {b条}^{k个, j个}} = \frac{n个 一^{k个}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} + \frac{n个 一^{k个}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} = 0

答3

通过组合(答1)–(答3)，对于所有人k个 ∈ {1…，D类 − 1},

\begin{aligned} 0 & = 一^{k个} \frac{\partial \tilde{J型} (\hat{Θ})}{\partial 一^{k个}} \\ = 一^{k个} \frac{\partial S公司 (一)}{\partial 一^{k个}} + \sum_{j个 = 1}^{{N个}_{k个}} (\frac{n个 一^{k个}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{n个 一^{k个}}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个})) \\ = 一^{k个} \frac{\partial S公司 (一)}{\partial 一^{k个}} + \sum_{j个 = 1}^{{N个}_{k个}} ({w个}^{k个, j个} {(\frac{\partial \tilde{J型} (\hat{Θ})}{\partial {w个}^{k个, j个}})}^{⊤} + {b条}^{k个, j个} (\frac{\partial \tilde{J型} (\hat{Θ})}{\partial {b条}^{k个, j个}})) = 一^{k个} \frac{\partial S公司 (一)}{\partial 一^{k个}} . \end{aligned}

因此，

0 = 一^{k个} \frac{\partial S公司 (一)}{\partial 一^{{k个}^{'}}} = 负极 一^{k个} (D类 负极 1) {(\sum_{k个 = 1}^{D类 负极 1} 经验 (一^{k个}))}^{负极 2} 经验 (一^{k个}),

这意味着所有人一^k个 = 0自 $(D类负极 1) {(\sum_{k个 = 1}^{D类负极 1} 经验 (一^{k个}))}^{负极 2} 经验 (一^{k个}) \neq 0$ 。这意味着 $\tilde{J型} (\hat{Θ}) = \tilde{J型} c（c） (0) + S公司 (0)$ ，这与 $\tilde{J型} (\hat{Θ}) < \tilde{J型} c（c） (0) + S公司 (0)$ 这证明了L-LAAF所需的语句。

对于N-LAAF，我们用矛盾来证明这一说法。假设参数向量 $\hat{Θ}$ 包括 ${{w个}^{k个}, {b条}^{k个}}_{k个 = 1}^{D类}$ 和 ${一_{j个}^{k个}}_{k个 = 1}^{D类负极 1} \forall j个 = 1, 2, \dots, {N个}_{k个}$ 是的极限点 ${({\hat{Θ}}_{米})}_{米 \in N个}$ 以及次优临界点或次优局部极小值。重新定义

{小时}_{（f）}^{我, k个, j个} := n个 一_{j个}^{k个} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) \in R（右）

和

{小时}_{u个}^{我, k个, j个} := n个 一_{j个}^{k个} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个}) \in R（右）,

对所有人来说j个 ∈ {1, …,N个_k个}，其中 ${w个}^{k个, j个} \in {R（右）}^{1 \times {N个}_{k个负极 1}}$ 和 ${b条}^{k个, j个} \in R（右）$ 然后，通过同样的证明步骤，我们得到了 $Ş \tilde{J型} (\hat{Θ}) = 0$ 和 $\tilde{J型} (\hat{Θ}) < \tilde{J型} c（c） (0) + S公司 (0)$ 对于所有三种情况下对应的不同规则的学习率。因此，我们拥有这一切k个 ∈ {1, …,D类 − 1} 以及所有j个 ∈ {1, …,N个_k个},

\begin{aligned} \frac{\partial \tilde{J型} (\hat{Θ})}{\partial 一_{j个}^{k个}} & = \frac{n个}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{n个}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{\partial S公司 (一)}{\partial 一_{j个}^{k个}} \\ = 0 \end{aligned}

答4

通过组合(A 2)–(答4)，对于所有人k个 ∈ {1, …,D类 − 1} 以及所有j个 ∈ {1, …,N个_k个},

\begin{aligned} 0 & = 一_{j个}^{k个} \frac{\partial \tilde{J型} (\hat{Θ})}{\partial 一_{j个}^{k个}} \\ = \frac{n个 一_{j个}^{k个}}{{N个}_{（f）}} \sum_{我 = 1}^{{N个}_{（f）}} \frac{\partial ℓ_{（f）}^{我}}{\partial {小时}_{（f）}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{（f）}^{我, k个 负极 1} + {b条}^{k个, j个}) + \frac{n个 一_{j个}^{k个}}{{N个}_{u个}} \sum_{我 = 1}^{{N个}_{u个}} \frac{\partial ℓ_{u个}^{我}}{\partial {小时}_{u个}^{我, k个, j个}} ({w个}^{k个, j个} {z（z）}_{u个}^{我, k个 负极 1} + {b条}^{k个, j个}) + 一_{j个}^{k个} \frac{\partial S公司 (一)}{\partial 一_{j个}^{k个}} \\ = {w个}^{k个, j个} {(\frac{\partial \tilde{J型} (\hat{Θ})}{\partial {w个}^{k个, j个}})}^{⊤} + {b条}^{k个, j个} (\frac{\partial \tilde{J型} (\hat{Θ})}{\partial {b条}^{k个, j个}}) + 一_{j个}^{k个} \frac{\partial S公司 (一)}{\partial 一_{j个}^{k个}} = 一_{j个}^{k个} \frac{\partial S公司 (一)}{\partial 一_{j个}^{k个}} . \end{aligned}

因此，

0 = 一_{j个}^{k个} \frac{\partial S公司 (一)}{\partial 一^{{k个}^{'}}} = 负极 2 一_{j个}^{k个} (D类 负极 1) {(\sum_{k个 = 1}^{D类 负极 1} 经验 (\frac{\sum_{我 = 1}^{{N个}_{k个}} 一_{我}^{k个}}{{N个}_{k个}}))}^{负极 2} 经验 (\frac{\sum_{我 = 1}^{{N个}_{k个}} 一_{我}^{k个}}{{N个}_{k个}}) / {N个}_{k个},

这意味着对所有人来说 $一_{j个}^{k个} = 0$ 自从 $(D类负极 1) {(\sum_{k个 = 1}^{D类负极 1} 经验 (\sum_{我 = 1}^{{N个}_{k个}} 一_{我}^{k个} / {N个}_{k个}))}^{负极 2} 经验 (\sum_{我 = 1}^{{N个}_{k个}} 一_{我}^{k个} / {N个}_{k个}) \neq 0$ 。这意味着 $\tilde{J型} (\hat{Θ}) = \tilde{J型} c（c） (0) + S公司 (0)$ ，这与 $\tilde{J型} (\hat{Θ}) < \tilde{J型} c（c） (0) + S公司 (0)$ 这证明了N-LAAF所需的语句。

数据可访问性

https://github.com/AmeyaJagtap/Localy-Adaptive-Activation-Functions-Neural-Networks-.

作者的贡献

A.D.J.：概念和设计、数据采集和解释、起草和修订文章、更正。K.K.：理论分析、数据采集和解释、文章修订、更正。G.E.K.：起草和修订条款、监督、纠正。所有作者都同意对作品的各个方面负责。

竞争性利益

我们声明我们没有竞争性利益。

基金

这项工作得到了能源部PhILM拨款DE-SC0019453和DARPA-AIRA拨款HR00111990025的支持。

参考

1辛顿·G。等。2012语音识别中声学建模的深度神经网络.IEEE信号处理杂志。 29，82–97。（10.1109/MSP.2012.2205597）[交叉参考][谷歌学者]

2Krizhevsky A、Sutskever I、Hinton G。2012基于深度卷积神经网络的Imagenet分类。在《神经信息处理系统进展》第25期，第26届2012年神经信息处理体系年度大会，内华达州塔霍湖，12月1日至6日第1卷，第1097-1105页。神经信息处理系统基金会。

三。吴毅（音）。等。2016谷歌的神经机器翻译系统：缩小人类和机器翻译之间的差距。(http://arxiv.org/abs/1609.08144).

4Raissi M、Perdikaris P、Karniadakis GE。2019基于物理的神经网络：一种用于求解非线性偏微分方程正反问题的深度学习框架.J.计算。物理学。 378, 686–707. （10.1016/j.jcp.2018.10.045）[交叉参考][谷歌学者]

5Srivastava N、Hinton G、Krizhevsky A、Sutskever I、Salakhuttinov R。2014辍学：防止神经网络过度拟合的简单方法.J.马赫。学习研究。 15, 1929–1958.[谷歌学者]

6于聪，唐永春，刘伯德。2002多层前馈神经网络的自适应激活函数。在2002年IEEE地区10计算机、通信、控制和电力工程会议。TENCOM’02。程序。中国北京，10月28日至31日。新泽西州皮斯卡塔韦：IEEE。

7钱S，刘H，刘C，吴S，三王H。2018卷积神经网络中的自适应激活函数.神经计算 272, 204–212. （10.1016/j.neucom.2017.06.070）[交叉参考][谷歌学者]

8Dushkoff M，Ptucha R.深度网络的自适应激活函数。电子成像、计算成像十四、第1-5（5）页。（doi:10.2352/ISSN.2470-1173.2016.19.COIMG-149）

9李斌，李毅，荣X。2013具有可调激活函数的极端学习机器学习算法.神经计算与苹果 22, 531–539. （10.1007/s00521-012-0858-9）[交叉参考][谷歌学者]

10沈毅，王斌，陈凤，程磊。2004一种新的具有可调激活函数的多输出神经网络模型及其应用.神经处理信件 20, 85–104. （10.1007/s11063-004-0637-4）[交叉参考][谷歌学者]

11Kunc V，Kléma J。2019基因表达推理神经网络中的转换自适应激活函数.生物Rxiv587287纽约州冷泉港：冷泉港实验室出版。[PMC免费文章][公共医学][谷歌学者]

12Jagtap AD、Kawaguchi K、Karniadakis GE。2020自适应激活函数加速深层物理信息神经网络的收敛.J.计算。物理学。 404，109136（10.1016/j.jcp.2019.109136）[PMC免费文章][公共医学] [交叉参考][谷歌学者]

13Jagtap AD、Kharazmi E、Karniadakis GE。2020离散域上守恒定律的守恒物理信息神经网络：在正问题和反问题中的应用.计算。方法应用。机械。工程师。 365，113028（10.1016/j.cma.2020.113028）[交叉参考][谷歌学者]

14Wang S、Teng Y、Perdikaris P。2020理解和缓解物理信息神经网络中的梯度病理。(http://arxiv.org/abs/2001.04536).

15Baydin AG、Pearlmutter BA、Radul AA、Siskind JM。2018机器学习中的自动微分：综述.J.马赫。学习研究。 18, 1–43.[谷歌学者]

16鲁德尔·S。2017梯度下降优化算法概述。(http://arxiv.org/abs/1609.04747v2).

17Kingma DP，Ba JL.公司。2017ADAM：一种随机优化方法。(http://arxiv.org/abs/1412.6980v9).

18Bertsekas博士。1999非线性规划马萨诸塞州贝尔蒙特：雅典娜科学。[谷歌学者]

19Pakravan S、Mistani PA、Aragon-Calvo MA、Gibou F。2020用物理感知的神经网络解决逆-PDE问题。(http://arxiv.org/abs/2001.03608).

20Jagtap广告。2018双曲守恒律的松弛流线上卷方法.波浪运动 78, 132–161. （10.1016/j.wavemoti.2018.02.01）[交叉参考][谷歌学者]

21LeCun Y、Bottou L、Bengio Y、Haffner P。1998基于梯度的学习在文档识别中的应用.程序。电气与电子工程师协会 86, 2278–2324. ( 10.1109/5.726791) [交叉参考][谷歌学者]

22Xiao H、Rasul K、Vollgraf R。2017Fashion-MNIST：用于基准机器学习算法的新型图像数据集。(http://arxiv.org/abs/1708.07747).

23克兰努瓦特T、博贝里扎尔M、北本A、羔羊A、山本K、哈德D。2018深入学习日本古典文学。(http://arxiv.org/abs/1812.01718).

24Tactile Srl，意大利布雷西亚（1994年）。Semeion手写数字数据集。意大利罗马：塞梅因传播科学研究中心。

25Netzer Y、Wang T、Coates A、Bissacco A、Wu B、Ng AY。2011使用无监督特征学习读取自然图像中的数字。NIPS深度学习和无监督特征学习研讨会.

26Krizhevsky A，Hinton G。2009从微小图像中学习多层特征。技术报告，Citeser。

27何凯，张欣，任S，孙杰。2016深剩余网络中的身份映射。计算机视觉-ECCV 2016，第14届欧洲会议，荷兰阿姆斯特丹，10月11-14日，Proc。第四部分第630-645页。斯普林格。

文章来自诉讼程序。数学、物理和工程科学由以下人员提供英国皇家学会

基于物理信息的深度神经网络局部自适应激活函数及其斜率恢复

阿米亚·贾格塔普

川口贤治

乔治·埃姆·卡尼亚达基斯

关联数据

摘要

1.简介

2.方法

（a） 物理信息神经网络

（b） 带坡度恢复项的损失函数

算法1：带有坡度恢复项的LAAF-PINN算法-

3.具有自适应激活的梯度动力学：收敛点和收敛加速

定理3.1-

4.计算结果

（a） 非线性不连续函数的神经网络逼近

（b） 反问题：二维泊松方程

表1。

（c） 反问题：二维无粘Burgers方程

表2。

（d） 标准深度学习基准问题

5.结论

附录A.定理3.1的证明

数据可访问性

作者的贡献

竞争性利益

基金

参考

（a）物理信息神经网络

（b）带坡度恢复项的损失函数

（a）非线性不连续函数的神经网络逼近

（b）反问题：二维泊松方程

（c）反问题：二维无粘Burgers方程

（d）标准深度学习基准问题