自然科学中大量存在着通过保守量对物理系统进行简明、准确描述的方法。然而,在数据科学中,当前的研究通常侧重于回归问题,而没有常规地纳入关于生成数据的系统的额外假设。在这里,我们建议探索数据中一种特殊类型的潜在结构:哈密顿系统,其中“能量”是守恒的。给定这样一个哈密顿系统随时间变化的观测值集合,我们提取相空间坐标和它们的哈密顿函数,作为系统动力学的生成器。该方法使用一个自动编码器神经网络组件来估计从观测值到哈密顿系统相空间的变换。在这个构造的空间上,使用一个附加的神经网络分量来近似哈密顿函数,并联合训练这两个分量。作为另一种方法,我们还演示了使用高斯过程来估计此类哈密顿量。在两个示例之后,我们从钟摆的电影集合中提取了一个潜在的相空间以及生成的哈密顿量。该方法完全由数据驱动,不假设哈密顿函数的特定形式。

基于神经网络的动态系统建模方法再次得到广泛应用,明确学习连续观测背后的物理规律的方法构成了一个日益增长的子领域。我们的工作通过将额外的信息纳入学习模型来促进这一研究思路,也就是说,我们知道数据是作为对潜在哈密顿系统的观察而产生的。

我们使用机器学习来提取动力学保持特定数量(哈密顿量)的系统模型。我们训练几个神经网络来近似摆的总能量函数,既可以是摆的自然作用角形式,也可以通过几个日益复杂的扭曲观测函数看到。该方法的一个关键部分是使用神经网络的自动微分来制定在训练过程中最小化的损失函数。

我们的方法需要数据评估状态空间中感兴趣区域的观测值的一次和二次导数,或者需要足够的信息(例如延迟测量序列)来估计这些导数。我们包括观测函数为非线性和高维的示例。

当前数据科学对动力学的探索通常侧重于回归或分类问题,而没有常规地纳入关于生成数据的系统性质的额外假设。最近,随着Ref。32,预先指定公式的变量和可能的表达式。特别是,将中心对象建模为离散时间流程图Φτ(x个)=x个+0τ(f)(x个())d日但是学习Φ直接作为黑盒可能会导致与真实系统的质量差异。31使用相关的微分方程d日x个/d日=(f)(x个)相反,我们可以利用已建立的数值积分方案来帮助近似流图,并且可以通过构造与此类经典数值积分方案类似的损失函数来使用神经网络来完成。除了我们以前的工作,6,25–31最近的工作重振了这种方法,重点是将深层神经网络的层视为动态系统的迭代,其中“学习”包括发现正确的吸引子。3,5,14

特别是,人们的兴趣集中在剩余网络如何11和公路网33可以解释为迭代解算器8或者作为迭代动力系统。4在后一篇论文(NeurIPS 2018年度最佳论文获奖者)中,作者选择不显式展开迭代,而是使用连续时间数值积分。虽然重点是动态层概念,但也进行了时间序列学习。

Koopman算子也被用于与神经网络相结合来提取守恒定律和特殊群结构。12,15守恒量的对称性是物理学中一个研究得很好的问题。10,13,19,20最近的一个研究思路是从观测数据中学习物理模型,17包括将离散时间数据建模为连续时间动力系统的观测值。21,22

通过物理系统的守恒量(如总能量)来研究物理系统是有意义的,总能量可以用哈密顿函数来编码。1,10哈密顿系统的可测性最近被用于Markov-chain Monte-Carlo方法中的密度输运18和可变自动编码器。2,24为了我们的目的,从观测到的物理计算建模的一个自然进展是直接表示哈密顿函数。

在提交这一材料的同时,两篇独立处理类似问题的论文以预印本的形式出现。9,34在第一个例子中,9损失函数非常类似于我们公式的部分。(12)已使用。第二篇文章主要讨论通过哈密顿量产生的密度变换。可以在第二个预印本和我们上面提到的旧(非哈密顿)作品之间进行一些类比,6,25–31因为这项新的工作还使用了基于经典数值积分方法的时间步长模板的rollow(这里是辛欧拉和蛙跳)。两篇论文都以摆锤为例,强调了系统可以很好地近似为线性系统的条件:在(q个第页)=(00)轨迹几乎是圆形的。

本文的其余部分结构如下:

  1. 我们从时间序列数据导出给定相空间上哈密顿函数的数据驱动近似(通过两种方法:高斯过程和神经网络)。我们考虑的哈密顿函数不需要作为和来分离H(H)(q个第页)=T型(第页)+V(V)(q个)在我们的示例中,我们总是在摆的完全非线性状态下工作。

  2. 我们从原始哈密顿相空间的(a)线性变换和(b)非线性非对称变换构建了相空间的数据驱动重建。然后,重构得到原始哈密顿系统的辛对称副本。

  3. 我们构建了一个完全由数据驱动的管道,结合了(a)适当相空间的构建和(b)根据非线性、高维观测(例如,从电影/电影快照序列)在这个新相空间上哈密顿函数的近似。

欧氏空间上的哈密顿系统E类=R(右)2n个n个N个通过函数确定H(H):E类R(右)它定义了方程

q个˙()=H(H)(q个()第页())/第页
(1)
第页˙()=H(H)(q个()第页())/q个
(2)

哪里()以下为:=d日/d日q个()第页()R(右)n个被解释为“相空间”中的“位置”和“动量”坐标E类在许多机械系统中,以及在本文讨论的所有示例中,坐标的解释q个第页通过以下方式反映在动态中q个˙=第页即。,H(H)(q个第页)=12第页2+小时(q个)对于某些功能小时:R(右)n个R(右)n个一般来说,公式。(1)(2)暗示哈密顿量沿轨道是常数(q个()第页())因为

d日d日H(H)(q个第页)=H(H)q个(q个第页)q个˙+H(H)第页(q个第页)第页˙=0
(3)

方程(1)(2)可以重新表述为H(H)(q个第页)E类

00ωH(H)(q个第页)ν(q个第页)=0
(4)

哪里R(右)n个×n个是单位矩阵ν是上的向量场E类[的左侧(1)(2)],这只取决于州(q个第页)给定欧氏空间上的辛形式采用矩阵的形式ω

在第。,我们讨论如何近似函数H(H)从给定的数据点D类={(q个q个˙q个¨)}=1N个这涉及到求解偏微分方程(4)对于H(H)由于这些方程决定H(H)只有在一个加法常数之前,我们假设我们也知道这个值H(H)0=H(H)(q个0第页0)属于H(H)在一个点上(q个0第页0)在相空间中。这不是该方法的主要限制,因为H(H)0以及(q个0第页0)可以任意选择。

举个例子,考虑一下这种情况n个=1和哈密顿量

H(H)(q个第页)=第页22+(1余弦(q个))
(5)

这个哈密顿量形成了非线性摆的微分方程的基础,q个¨=(q个),或者,以一阶形式,q个˙=H(H)(q个第页)/第页=第页第页˙=H(H)(q个第页)/q个=(q个)在本节中,我们数值求解偏微分方程(PDE)(4)通过近似求解H(H)使用两种方法:高斯过程23(第。III A)和神经网络(第。III B类).

我们为解决方案建模H(H)作为高斯过程H(H)^使用高斯协方差核,

k个(x个x个)=经验x个x个2/ϵ2
(6)

哪里x个x个是相空间中的点,即。,x个=(q个第页)x个=(q个第页)、和ϵR(右)+是内核带宽参数(我们选择ϵ=2在本文中)。给定一个集合X(X)属于N个相空间中的点,以及函数值H(H)(X(X))在中的所有点X(X),高斯过程的条件期望H(H)^在一个新的点上

E类[H(H)^()|X(X)H(H)(X(X))]=k个(X(X))T型k个(X(X)X(X))1H(H)(X(X))
(7)

我们写的地方k个(X(X)X(X))j个以下为:=k个(x个x个j个)对于整体评估的内核矩阵x个给定数据集中的值X(X).在等式中。(7),符号的尺寸为R(右)2n个k个(X(X)X(X))R(右)N个×N个k个(X(X))R(右)N个、和H(H)(X(X))以下为:=(H(H)(x个1)H(H)(x个2)H(H)(x个N个))R(右)N个。所有向量都是列向量。解决方案的估计H(H)到新点的PDE取决于H(H)在整个数据集上。我们不知道H(H),但微分方程。(7)允许我们建立一个方程组来估计H(H)以任意数字M(M)个新点(共个)接近要点x个X(X),通过使用有关H(H)由时间导数给出q个˙在等式中。(1)和(的否定)第页˙在等式中。(2).让(x个)R(右)2n个是的梯度H(H)在某一点上x个在相空间中,我们从数据中知道(q个˙第页˙).然后,

H(H)^()=x个(x个)k个^(X(X))T型=x个k个(X(X)X(X))1H(H)(X(X))(x个)
(8)

在一点上与任意固定项一起x个0,已知导数的列表导致一个线性系统2n个N个+1方程式,我们在哪里写

x个k个(x个Y(Y))以下为:=x个k个(x个x个)x个=x个x个Y(Y)
(9)

给定核函数的导数k个关于它的第一个参数,在给定点计算x个在第一个参数和数据集中的所有点中Y(Y)在第二个论点中。对于每个x个,因此我们有一个(列)向量M(M)导数求值,将其转换并堆叠成一个大矩阵,以形成完整的线性系统

x个k个(x个1Y(Y))T型k个(Y(Y)Y(Y))1x个k个(x个2Y(Y))T型k个(Y(Y)Y(Y))1x个k个(x个N个Y(Y))T型k个(Y(Y)Y(Y))1k个(x个0Y(Y))T型k个(Y(Y)Y(Y))1R(右)(2n个N个+1)×M(M)H(H)(Y(Y))R(右)M(M)=(X(X))H(H)0R(右)2n个N个+1
(10)

我们重申:X(X)是的数据集N个我们知道导数的点H(H)通过(x个)=(H(H)q个(x个)H(H)第页(x个))T型=(第页˙q个˙)T型R(右)2n个。我们在精细网格上进行评估Y(Y)属于M(M)点(这样k个(Y(Y)Y(Y))R(右)M(M)×M(M)x个k个(x个Y(Y))R(右)2n个×M(M))并获得信息(X(X))R(右)2n个N个在一个相对较小的集合上N个调用的点X(X)[黑色圆点图1(b)]. 高斯过程的导数可以用核的导数表示k个关于第一个参数。的矩阵求逆k个(Y(Y)Y(Y))近似值为(k个(Y(Y)Y(Y))+σ2)也就是说,通过带参数的Tikhonov正则化σ=105,这是高斯过程回归的标准。求解这个方程组H(H)(Y(Y))得出PDE解的近似值。图1(b)显示结果,以及表一列出了625个训练数据点的均方误差,以及在同一域中独立绘制的200个验证点集,其中没有可用的导数。参见参考。22更详细地讨论了高斯过程的偏微分方程解。

图1。

(a) 摆系统的哈密顿函数。(b) 使用高斯过程进行近似,求解公式。(10)在精细网格上Y(Y)[99]×[1.51.5],包含信息关于的导数H(H)在一组625随机采样点X(X)[2π2π]×[11](粉色矩形中的黑色点)。(c) 哈密顿量通过神经网络学习,包括所有损失项。请注意,学习的函数只有在数据采样足够密集的情况下才是准确的。在这个实验中,我们使用了“softplus”激活功能σ(z(z))=自然对数(e(电子)z(z)+1)。面板(b)中显示的黑点显示高斯过程的所有训练数据。面板(c)中的点仅显示用于神经网络的训练数据子集(总计20000)。

图1。

(a) 摆系统的哈密顿函数。(b) 使用高斯过程的近似,求解方程。(10)在精细网格上Y(Y)[99]×[1.51.5],包含信息关于的导数H(H)在一组625随机采样点X(X)[2π2π]×[11](粉色矩形中的黑色点)。(c) 哈密顿量通过神经网络学习,包括所有损失项。请注意,学习的函数只有在数据采样足够密集的情况下才是准确的。在这个实验中,我们使用了“softplus”激活功能σ(z(z))=自然对数(e(电子)z(z)+1)面板(b)中所示的黑点显示了高斯过程的所有训练数据。面板(c)中的点仅显示用于神经网络的训练数据子集(总计20000)。

关闭模态
表一。

培训和延迟验证数据之间的损失比较。由于我们生成的数据集的大小总是远远大于可训练参数的数量,过拟合不是问题,验证损失总是与训练损失无法区分。第一行包括使用所有训练数据进行推断的高斯过程近似(非参数方法)的结果。只有超参数εσ需要调整。对于第一行,报告的损失是高斯过程回归的MSE。对于其他行,损失由任一等式计算。(12)(14)视情况而定。

参数数量培训点数验证点数量培训损失验证损失
章节III A 非参数625 200 2.2 × 10−5 3.5 × 10−5 
章节III B类 337 20 000 200 6.8 × 10−4 7.4 × 10−4 
章节IV B类 345 20 000 10005.5×10−6 5.0 × 10−6 
章节IV C类 511 19 200 200 1.4 × 10−4 1.8 × 10−4 
章节IV D类 755个17 489 200 0.51 0.54 
参数数量培训点数验证点数量培训损失验证损失
章节III A 非参数625 200 2.2 × 10−5 3.5 × 10−5 
章节III B类 337 20 000 200 6.8 × 10−4 7.4 × 10−4 
章节IV B类 345 20 000 1000 5.5 × 10−6 5.0 × 10−6 
章节IV C类 511 19 2002001.4 × 10−4 1.8 × 10−4 
章节IV D类 755 17 489 200 0.51 0.54 

学习以下形式的另一种可能性H(H)使用数据是用人工神经网络表示函数7(ANN)。我们写作

x个=σ(x个1W公司+b条)=1L(左)+1
(11)

其中激活功能σ是非线性的(除非另有说明,我们使用坦纳)的=1L(左)(如果L(左)1)和身份=L(左)+1该ANN的可学习参数为{(W公司b条)}=1L(左)+1,我们从可能在一个实验中使用的多个层中收集所有这些可学习的参数到参数向量中w个.如果没有隐藏层(L(左)=0),然后我们学习仿射变换x个1=x个0W公司+b条。此格式提供代理项函数H(H)^(q个第页)=x个L(左)+1,其中输入x个0是行向量[q个第页](将输入作为行向量处理,并对权重矩阵使用右乘法是很方便的,作为一整批N个输入可以表示为N个-由-2数组。)对于这里显示的所有实验,这个用于计算的网络H(H)^有两个宽度为16的隐藏层。

类似地,在这种情况下,我们需要学习其他转换θ^θ^1(参见第。四、),他们也学会了使用这种网络。

我们通过在矩形中采样一些初始条件来收集训练数据(q个第页)[2π2π]×[66],然后模拟从每一个到最后一个的短轨迹(q个第页)点。对于其中的每一项,我们都会额外评估(q个˙第页˙).每个历元对模拟进行一次洗牌,并将此数据集划分为多个批次,然后执行批处理随机梯度下降以学习参数w个对下面定义的目标函数使用Adam优化器。

在本文中,所有的神经网络都是使用TensorFlow构建和训练的,以及评估方程中哈密顿损失项所需的梯度。(12)使用TensorFlow的核心自动微分功能进行计算。

该目标函数包含一个标量函数,该标量函数在每个数据4元组上求值d日=(q个第页q个˙第页˙)然后对批次进行平均。这个标量函数被写成

(f)(q个第页q个˙第页˙;w个)=k个=14c(c)k个(f)k个
(12)
(f)1=H(H)^第页q个˙2(f)2=H(H)^q个+第页˙2(f)=H(H)^(q个0第页0)H(H)02(f)4=H(H)^q个q个˙+H(H)^第页第页˙2
(13)

依赖于w个通过所学的哈密顿量H(H)^,有损权重c(c)k个是为了强调由此提出的问题的某些性质,以及H(H)^第页H(H)^q个通过自动微分显式计算。除了c(c)2,全部c(c)k个值设置为10取决于相关损失条款是否包括在内。由于等式中的平方项。(5),我们设置c(c)2任意地10如果非零,则损失不受(f)1。另一种选择可能是设置c(c)11/10

自公式。(1)(2)一起暗示(3),三个术语中的任何一个(f)1(f)2、和(f)4可以作为冗余删除;因此,我们可以设置c(c)4归零但监控H(H)^˙作为对所学解决方案准确性的有用的健全性检查。图1(c),我们使用默认的非零值显示此过程的结果c(c)k个

作为一项消融研究,我们探讨了去除第一、第二和第四项的效果(此处未显示)。通过构造,真实H(H)(q个第页)函数全部为零(q个第页)请注意,只有在图中的中央框中才能在任何程度上实现这一点,其中数据是密集采样的。正在删除(f)4在我们的H(H)^0由于方程组中的冗余,这是预期的近似值。(1)–(3)。但是,删除(f)1(f)2尽管这些术语与(f)4这可能是由于未平衡第页˙q个˙我们试图通过不相等的权重值进行补偿的条款c(c)1c(c)2

我们现在考虑一组观测函数θ:E类R(右)M(M)θ=(1M(M)),使用M(M)昏暗的E类=2n个,因此θ是相空间之间的微分同胚E类及其图像θ(E类)在这种情况下同向性非常重要。1一般来说,辛同态是指将辛结构保留在流形不变量上的微分同态。在我们的环境中E类=×P(P)映射到变形空间E类^=^×P(P)^其中新变量中的系统动力学q个^^第页^P(P)^又是哈密顿量,并与原始哈密顿动力学共轭。并不是每个微分同胚都是亚同胚,我们不要假设那个θ是一种共模现象。坐标的恒定标度也不可能与哈密顿函数本身的标度区分开来,因此恢复的系统将是原始系统的一个辛对称副本,按任意常数标度。

在本节的设置中,我们不假设访问E类H(H),或的显式形式θ。只有一组点θ和时间导数d日d日θ在图像中θ(E类)可用。我们描述了一种近似新地图的方法θ^1:θ(E类)E类^成的辛对称副本E类通过自动编码器,7这样,转换后的系统E类^与原哈密顿系统共轭E类。如果我们能够θ,地图θ^1°θS公司:E类E类^将近似于共性θ1°θ^S公司1则相反。在估算期间θ^1,我们同时逼近新的哈密顿函数H(H)^:E类^R(右)图2(a)可视化一般方法,其中只有信息(x个)d日d日(x个)程序可用,而θ^1和一个哈密顿量H(H)^E类^是用数字构造的。

图2。

(a) 网络结构示意图。从(未知)变量的观测开始(x个)θ(E类),自动编码器的结构是通过θ^1哈密顿形式(q个^第页^)E类^以及通过θ^完整的过程包括估计(的辛对称副本)的哈密顿量第页q个在自动编码器的培训期间。(b) 转变θ从原始空间q个第页到观测空间x个对于Sec的线性示例。IV B类

图2。

(a) 网络结构图示。从观察(未知)变量开始(x个)θ(E类),自动编码器的结构是通过θ^1哈密顿形式(q个^第页^)E类^以及通过θ^完整的过程包括估计(的辛对称副本)的哈密顿量第页q个在自动编码器的培训期间。(b) 转变θ从原始空间q个第页到观测空间x个对于Sec。IV B类

关闭模态

下面三个示例的一个有趣且重要的共同特点是,人们不能期望系统地恢复原始(q个第页)给定观测数据的值(x个).仅辛变换(q个^第页^)可以恢复,这足以定义哈密顿量。一旦坐标(q个^第页^)哈密顿函数是固定的在这些坐标系中在加法常数范围内是唯一的。

表一包含所有实验的网络的训练和验证损失。此外,我们从Sec。IV D类仅使用331张图像,并观察到显著较高的验证损失(未显示),与过拟合一致。

以下损失函数用于训练自动编码器组件和哈密顿函数近似网络组件:

(f)(q个^第页^q个^˙第页^˙;w个)=k个c(c)k个(f)k个(f)1=H(H)^第页q个^˙2(f)2=H(H)^q个+第页^˙2(f)=H(H)^(θ^1(x个00))H(H)02(f)4=H(H)^˙2=H(H)^q个^q个^˙+H(H)^第页^第页^˙2(f)5=||θ^(θ^1(x个))[x个]||2(f)6=det(探测)(D类θ^1)2
(14)

依赖于w个通过所学的哈密顿量H(H)^以及学到的转变θ^θ^1,以及空间中的时间导数E类^计算为q个^˙=x个˙q个^x个+˙q个^第页^˙=x个˙第页^x个+˙第页^,使用雅可比矩阵D类θ^1=q个^x个q个^第页^x个第页^转型的关键θ^1(用自动微分逐点计算)。当我们学习(特别是非线性)变换时θ^1,除了哈密顿量H(H)^(q个^第页^),包括(f)4复合损失中的术语可能会对学习到的转换产生不利影响。存在一个容易遇到的天真局部极小值,其中θ^1映射所有采样值θ(E类)(x个)到单点E类^学习到的哈密顿量只是钉扎值的常数函数,H(H)^(q个^第页^)=H(H)^0。在此状态下(或此状态的近似值)H(H)q个^H(H)第页^以及D类θ^1是零,所以损失(有条件(f)1(f)2(f)、和(可选)(f)4)为零(相对较小)。相关的故障是输入θ(E类)被折叠θ^1直线或曲线E类^

为了缓解这两个问题,我们添加了一个新的损失部分(f)6也就是说,我们要求学习的转换不会折叠输入。对于相应的权重因子来说,这就足够了c(c)6非常小的非零值(例如。,106). 添加(f)6这有助于我们避免在训练早期陷入上述不可恢复的局部极小值,也有助于保持转换变量的规模q个^第页^宏观的。

我们从矩形区域生成数据x个[11][11]然后用θ1(x个)=A类1[x个]T型=[q个第页]T型.矩阵A类1是的倒数A类=R(右)Λ; 缩放之后是旋转,其中Λ=λ100λ2λ1=1λ2=64R(右)=余弦ρρρ余弦ρ、和ρ=5°.我们的观测数据θ(E类)因此由以下公式给出[x个]T型=A类[q个第页]T型.使用真哈密顿量H(H)(q个第页)=第页2/2+(1余弦q个),我们还计算了d日q个/d日d日第页/d日然后使用A类将这些传播给x个通过d日x个d日=x个q个d日q个d日+第页d日第页d日和类似的,其中偏导数是通过分析计算的(这里,仅为A类自身)。

然后,我们的网络将显示观测数据x个及其相应的时滞。它的任务是学习A类^A类^1,用于转换变量q个^第页^(与原始同胚q个第页)和哈密顿量H(H)^在这个新的空间里。在评估损失时q个^第页^同样,通过使用链规则通过学习的转换,通过自动微分计算,例如d日q个^d日=q个^x个d日x个d日+q个^d日d日。还要注意[q个^第页^]T型=A类^1A类[q个第页]T型,所以如果原始空间E类可以找到,A类^会满足的A类^A类1=。这是不可能的,因为只有中的数据θ(E类); 我们只能确定A类^A类1近似于原始的共模性E类

我们可以学习θ^1从一类一般的非线性函数中坦纳神经网络,但在这里,我们只是学习A类^A类^1作为线性变换(即,我们有一个线性“神经网络”,其中L(左)=0在等式中。(11)、和b条1固定为0). 由于我们将此自动编码器的重建误差包含在损失函数中,A类^1被约束为的倒数A类^精确到不比(f)1(f)2等式中的术语。(14),在所有三个都按其对应的比例缩放之后c(c)k个值。事实上,对于线性情况,最初自动编码器对损耗的贡献明显低于哈密顿分量(见图3)但是,随着培训的进行(f)1(f)2条件得到了改善(以提高自动编码器损耗为初始代价),通过优化可以更大程度地降低损耗H(H)^而不是θ^,所以(f)5减少的速度与(中的较大者)相同(f)1(f)2也就是说,损失的自动编码器部分很快下降到一个水平,考虑到其在损失总和中的权重,它不再对总损失作出贡献。

图3。

已学习H(H)^(q个^第页^)线性变换后θ.(a)(左)真函数H(H)(q个第页)在网格上计算q个第页值。(a) (右)上的学习功能q个^第页^被拉回原稿q个第页空间。(b) 线性同形性S公司=θ^1°θ在原始空间和学习空间之间。

图3。

已学习H(H)^(q个^第页^)线性变换后θ.(a)(左)真函数H(H)(q个第页)在网格上计算q个第页值。(a) (右)上的学习功能q个^第页^被拉回原稿q个第页空间。(b) 线性同形性S公司=θ^1°θ在原始空间和学习空间之间。

关闭模态

我们发现,习得的共性S公司(q个第页)=A类^1A类[q个第页]T型,在其q个中的部分图3,蜜饯q个未与混合第页在两个发现的坐标中的一个或另一个。这是因为(a)(q个第页)(第页q个)以及(b)(q个第页)(q个第页+(f)(q个))对于任何平滑函数(f)都是共性。它们很特别,因为H(H)(q个第页)=H(H)^(q个^(q个第页)第页^(q个第页)); 也就是说,它们甚至保留了哈密顿公式。对于映射(a),哈密顿量的变换可以从以下推导中看出:

q个^˙=第页˙=H(H)/q个=H(H)^/第页^
(15)
第页^˙=q个˙=H(H)/第页=H(H)^/q个^
(16)
H(H)^/q个=H(H)^/q个^q个^/q个=0+H(H)^/第页^第页^/q个=1=H(H)^/第页^=H(H)/q个
(17)
H(H)^/第页=H(H)^/q个^q个^/第页=1+H(H)^/第页^第页^/第页=0=H(H)^/q个^=H(H)/第页
(18)

这里,第一个等式(15)(16)从地图上看,最后一个等式(15)(16)根据以下要求q个^第页^根据新哈密顿量遵循哈密顿动力学H(H)^.方程式(18)(20)然后证明当作为旧坐标上的映射时,新的哈密顿量与旧的哈密尔顿量相同(模为加性常数)。

除了线性θ第。IV B类,我们展示了非线性变换的可比结果θ并学会了θ^具体来说,我们通过(x个)=θ(q个第页)哪里

=q个/20b条=第页/10x个=+(b条+2)2=b条+2
(19)

其逆函数由下式给出q个=(x个2)20第页=(x个2+2x个24)10。我们使用此的分析雅可比矩阵θ计算必要的x个˙˙为我们的网络输入。

除了我们不再限制学者的形式之外,我们还是像以前一样进行θ^θ^1转换为线性变换,但允许使用与所用形式类似的小型多层感知器H(H)^

由此产生的诱导共模性又是一种似乎保持近似单调增加或减少的共模性q个在其中之一q个^第页^。这可以在中看到图4

图4。

非线性变换后的结果θ.(a)(左)真函数H(H)(q个第页),向前推至q个^第页^.(b)上的学习函数q个^第页^。现在采用网格E类^并通过S公司1用于打印H(H)在相应的q个第页点。对于线性情况也是如此,学习的符号H(H)^可能会被翻转,这取决于我们是否学习q个通过q个^第页^,单调递增或递减。底部:非线性共模性S公司=θ^1°θ在原始空间和学习空间之间。我们再次发现q个在发现的空间中保存(几乎)未混合E类^(q个^第页^)。对于此实验,编码器θ^1和解码器θ^每个都有三个宽度为五的隐藏层。

图4。

非线性变换后的结果θ.(a)(左)真函数H(H)(q个第页),向前推至q个^第页^.(b)上的学习函数q个^第页^。现在采用网格E类^并通过S公司1用于打印H(H)在相应的q个第页点。对于线性情况也是如此,学习的符号H(H)^可能会被翻转,这取决于我们是否学习了q个通过q个^第页^,单调递增或递减。底部:非线性共模性S公司=θ^1°θ在原始空间和学习空间之间。我们再次发现q个在发现的空间中保存(几乎)未混合E类^(q个^第页^)。对于此实验,编码器θ^1和解码器θ^每个都有三个宽度为五的隐藏层。

关闭模态

作为该方法的进一步演示,我们使用之前的移动摆示例的图形渲染作为转换θ从内在状态(q个第页)到图像x个作为我们的高维观测。我们使用辛半隐式Euler方法,

第页(τ)=第页(0)+τ第页˙q个(0)第页(0)q个(τ)=q个(0)+τq个˙q个(0)第页(τ)
(20)

生成q个()第页()各种初始条件的轨迹,然后使用简单的图形渲染器将其显示为图像[参见图5(a)]. 渲染视频帧时,我们将衰减图像的尾部拖到移动的钟摆头后面,以便获得有关两个位置的信息q个和速度第页出现在每个渲染帧中。这是通过迭代每个q个()第页()轨迹和,对于每个,(1)将整个当前图像乘以冷却因子0.96,(2)在以电流为中心的固定半径的圆中为图像添加恒定的加热量余弦(q个)(q个)点,以及(3)将图像每像素剪切为位于其中[01]。生成图像的示例可见于图5(a)

图5:。

(a) 主成分分析(PCA)自动编码器重建。自动编码器被训练来再现左侧单色图像的PCA投影,其中速度第页信息可以从移动的摆头后面拖曳的尾巴的长度中获得。我们在“近似”列中显示了通过PCA投影的近似逆运算返回的这些重建。注意,只有第页保留了,这可以通过以下事实来预测:第页是计算所必需的H(H)(b)学习哈密顿量。对于每个图像x个在我们的数据集中,我们有一个关联的已知q个第页一对。在这里,我们绘制了这些值,并通过学习着色H(H)^(x个)。对于此实验,编码器θ^1有两个宽度分别为6和4的隐藏层,以及解码器θ^反映了这种结构。

图5:。

(a) 主成分分析(PCA)自动编码器重建。训练自动编码器再现左侧单色图像的PCA投影,其中速度第页信息可以从移动的摆头后面拖曳的尾巴的长度中获得。我们在“近似”列中显示了通过PCA投影的近似逆运算返回的这些重建。注意,只有第页保留了,这可以通过以下事实来预测:第页是计算所必需的H(H)(b)学习哈密顿量。对于每个图像x个在我们的数据集中,我们有一个关联的已知q个第页一对。在这里,我们绘制这些值,用所学的颜色进行着色H(H)^(x个)。对于此实验,编码器θ^1有两个宽度分别为6和4的隐藏层,以及解码器θ^反映了这种结构。

关闭模态

虽然我们不使用第页()直接在这个过程中,它的值是在移动的摆头后面拖曳的尾巴的长度中观察到的。我们创造的轨迹足够长,以至于尾巴最初形成的影响(在此期间,它的长度不一定是一个很好的指标第页)不再可见,然后仅使用这些轨迹的最后两个观测值。

为了使方法对数据不可知,我们不想假设空间E类^是周期性的,所以我们使用四维相空间和元素z(z)^=[q个^1q个^2第页^1第页^2]=[q个^第页^]并考虑将其拆分为(q个^1q个^2)(第页^1第页^2)在培训期间。在输入图像的空间中,流形不填充四维空间,而是填充一个圆柱体,该圆柱体由自动编码器映射到四维编码层。

此外,为了简化学习问题,我们学习θ^1将投影到训练数据集的前20个主成分上,然后是密集的自动编码器,保留学习θ^1作为未来工作的端到端卷积自动编码器。该编码提供z(z)^和以前一样,我们学习θ^1H(H)^,其中现在方程。(14)升级为矢量等值以适应z(z)^

在第。四、A,我们添加了一个与变换雅可比行列式的倒数成正比的损失项,以避免使相空间崩溃的变换。在这里,这当然不是一个问题,显然需要对高维表示进行一些折叠。相反,一种常见的失败模式是不断学习H(H)^函数,自动满足哈密顿要求(常数自然是守恒量)。为了避免这种情况,我们考虑了几种可能的方法来推广非平面H(H)^函数,最终解决(a)添加一个鼓励标准偏差的术语H(H)^值不为零,并且(b)不仅最小化(f)1(f)2项,以及最大平方误差,以避免琐碎或二级H(H)^(q个第页)功能。球面高斯先验在变分自编码器训练中的应用34作为副产品,还可以避免学习常量函数。

结果如所示图5(b),是一辆后备箱H(H)^(q个第页)至少在广义上与真理相似且满足的函数d日H(H)^/d日0(通常约102).

我们描述了一种从观测数据近似哈密顿系统的方法。这是一条完全由数据驱动的管道,用于(a)构建适当的相空间,(b)根据非线性、可能的高维观测(这里是电影),在新相空间上近似哈密顿函数。

当只能观察到原始哈密顿相空间的变换时,只能恢复原始相空间的辛副本,在坐标的定标度和哈密顿函数的加法常数中具有额外的自由度。如果没有关于原始空间的其他信息可用,这是一个基本限制,对我们的方法来说并不特殊。根本没有必要存在“原始相空间”,因此,得到的辛相空间决不是唯一的。事实上,Darboux定理暗示了相反的情况。35、36辛结构没有局部障碍,因此所有2n维辛流形对于标准平面空间都是局部辛对称的R(右)2n个。选择一个这样的空间必须取决于其他因素,例如,可能是人类的可解释性或方程的简单性。

该方法可以推广到含时哈密顿函数。这将允许我们处理某些耗散系统。16一个更广泛的扩展可以允许转换为任意正规形式作为“目标向量场”,因此不受哈密顿系统的约束。在一般情况下,探索我们近似的变换是否在我们的数据上保持有界,或者是否开始显示接近奇点的迹象,这将变得很重要,这表明问题可能无法解决。

这项工作由美国陆军研究办公室(ARO)通过多学科大学研究计划(MURI)资助,由国防高级研究计划局(DARPA)通过其人工智能物理(PAI)计划和协议HR001118C0100(I.M.)资助。

1
上午。
阿尔梅达
哈密顿系统:混沌与量子化
(
剑桥大学出版社
1992
).
2
A.L.公司。
卡泰里尼
A。
杜塞特
、和
D。
塞季诺维奇
,“哈密顿变分自动编码器”,in第32届神经信息处理系统会议记录(Curran Associates,Inc.,2018年),第11页。
三。
B。
L。
E.公司。
哈伯
F、。
、和
D。
贝格特
,“动态系统视角下的多级剩余网络”,学习表征国际会议(2018年)。
4
R·T·Q。
年。
鲁巴诺娃
J。
贝当古
、和
D。
杜维诺
, “
神经常微分方程
,“in神经信息处理系统研究进展由S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑(Curran Associates,Inc.,2018),第31卷,pp。
6571
6583
(
2018
).
5
西-东
, “
一种基于动态系统的机器学习方法
,”
Commun公司。数学。斯达。
5
(
1
),
1
11
(
2017
).
6
R。
冈萨雷斯-加西亚
R。
里科·马丁内斯
、和
I.G.公司。
凯夫雷基迪斯
, “
分布参数系统的辨识:一种基于神经网络的方法
,”
计算。化学。工程师。
22
(
98
),
S965系列
S968系列
(
1998
).
7
一、。
古德费罗
年。
本吉奥
、和
A。
库尔维尔
深度学习
(
麻省理工学院出版社
2016
).
8
英国。
格雷夫
R.K.公司。
斯里瓦斯塔瓦
、和
J。
施米德胡贝
,“公路和残差网络学习展开迭代估计”,in学习代表国际会议记录(2017).
9
美国。
格雷达纳斯
M。
扎姆巴
、和
J。
约辛斯基
,“哈密顿神经网络”,电子版arXiv:1906.01563年(2019).
10
W.R.公司。
汉密尔顿
, “
动力学中的一种通用方法
,”
菲洛斯。事务处理。R.Soc.II公司
1834
247
308
11
英国。
十、。
美国。
、和
J。
太阳
,“图像识别的深度残差学习”,inIEEE计算机视觉和模式识别会议记录(IEEE,2016),第7卷,第171-180页。
12
E.公司。
凯撒牌手表
J。
内森·库茨
、和
S.L.公司。
布伦顿
,《从用于控制的数据中发现守恒定律》2018 IEEE决策与控制会议(CDC)(IEEE,2018)。
13
M。
利维奥
, “
为什么对称很重要
,”
性质
490
(
7421
),
472
473
(
2012
).
14
年。
A。
问:。
、和
B。
,《超越有限层神经网络:桥接深层结构和数值微分方程》,in第35届机器学习国际会议论文集由J.Dy和A.Krause编辑(PMLR,瑞典斯德哥尔摩,2018),第10页。
15
B。
露西(Lusch)
J。
内森·库茨
、和
S.L.公司。
布伦顿
, “
非线性动力学普遍线性嵌入的深度学习
,”
国家公社。
9
(
1
),
4950
(
2018
).
16
K.T.公司。
麦当劳
,“以z为自变量的哈密顿量”,技术报告(
2015
).
17
R。
莫塔吉
H。
巴格莱尼扎德
M。
拉斯特加里
、和
A。
法尔哈迪
,“牛顿图像理解:在静态图像中展开物体的动力学”,in2016年IEEE计算机视觉和模式识别会议(CVPR)(IEEE,内华达州拉斯维加斯,2016),第3521–3529页。
18
R。
尼尔
,“MCMC使用哈密顿动力学”,in马尔可夫链蒙特卡罗手册由S.Brooks、A.Gelman、G.Jones和X.-L.Meng编辑(Chapman和Hall/CRC,2011)。
19
E.公司。
诺特
, “
不变变化问题
,”
运输。理论统计物理。
1
(
),
186
207
(
1971
).
20
R。
康多
Z.公司。
、和
美国。
特里维迪
,“Clebsch-Gordan网:一个全傅里叶空间球面卷积神经网络”,in神经信息处理系统研究进展由S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑(Curran Associates,Inc.,2018),第31卷,第10117–10126页。
21
M。
拉伊西
通用电气公司。
卡尼亚达基斯
, “
隐藏物理模型:非线性偏微分方程的机器学习
,”
J.计算。物理学。
357
125
141
(
2018
).
22
M。
拉伊西
第页。
佩尔迪卡里斯
、和
通用电气公司。
卡尼亚达基斯
, “
利用噪声多保真数据推断微分方程的解
,”
J.计算。物理学。
335
736
746
(
2017
).
23
C.E.公司。
拉斯穆森
C.K.I.公司。
威廉姆斯
机器学习的高斯过程(自适应计算和机器学习)
(
麻省理工学院出版社
2005
).
24
D.J.博士。
雷森德
美国。
默罕默德
,“规范化流的变分推理”,in第32届机器学习国际会议论文集(PMLR,2015),第9页。
25
R。
里科·马丁内斯
注册会计师。
阿道米提斯
、和
I.G.公司。
凯夫雷基迪斯
,“神经网络中的不可逆性”,in1993年IEEE神经网络国际会议论文集(电气与电子工程师学会,1993年),第382–386页。
26
R。
里科·马丁内斯
注册会计师。
阿道米提斯
、和
I.G.公司。
凯夫雷基迪斯
, “
神经网络中的不可逆性
,”
计算。化学。工程师。
24
(
11
),
2417
2433
(
2000
).
27
R。
里科·马丁内斯
J.S.公司。
安德森
、和
I.G公司
凯夫雷基迪斯
,“连续时间非线性信号处理:基于神经网络的灰盒识别方法”,inIEEE信号处理神经网络研讨会论文集(电气和电子工程师协会,1994年)。
28
R。
里科·马丁内斯
I.G公司
凯夫雷基迪斯
,“使用神经网络进行非线性系统识别:动力学和不稳定性”,in化学工程师神经网络由A.B.Bulsari(Elsevier,1995)编辑,第409–442页。
29
R。
里科·马丁内斯
I.G.公司。
凯夫雷基迪斯
、和
注册会计师。
阿道米提斯
,“神经网络模型中的不可逆动力学”,in第二十八届信息科学和系统年会会议记录(约翰·霍普金斯大学,1994年),第965-969页。
30
R。
里科·马丁内斯
I.G.公司。
凯夫雷基迪斯
M.C.公司。
库巴河
、和
J·L·。
哈德逊
,“离散与连续非线性信号处理吸引子、转换和并行实现问题”,in美国控制会议(电气和电子工程师协会,1993年),第1475-1479页。
31
R。
里科·马丁内斯
英国。
克里斯彻
I.G.公司。
凯夫雷基迪斯
M.C.公司。
库巴河
、和
J·L·。
哈德逊
, “
铜电解数据的离散与连续非线性信号处理
,”
化学。工程通信。
118
(
1
),
25
48
(
1992
),国际标准图书编号:0098644920。
32
M。
施密特
H。
利普森
, “
从实验数据中提取自由形式的自然定律
,”
科学类
324
(
5923
),
81
85
(
2009
).
33
R.K.公司。
斯里瓦斯塔瓦
英国。
格雷夫
、和
J。
施米德胡贝
,“公路网”,in机器学习国际会议论文集(PMLR,2015)。
34
第页。
托斯
D。J。
雷森德
A。
杰格尔
美国。
拉卡尼埃
A。
博采夫
、和
一、。
希金斯
,“哈密顿生成网络”,电子版arXiv:1909.13789(2019).
35
J·M·。
平滑流形简介。数学研究生课程
(
纽约施普林格
2012
).
36
G.公司。
达布
普法夫问题的解决。《数学与天文学科学公报》,戈瑟·维拉斯,1882年,第2辑,第6、14–36页