On learning Hamiltonian systems from data

Bertalan, Tom; Dietrich, Felix; Mezić, Igor; Kevrekidis, Ioannis G.

doi:10.1063/1.5128231

自然科学中大量存在着通过保守量对物理系统进行简明、准确描述的方法。然而，在数据科学中，当前的研究通常侧重于回归问题，而没有常规地纳入关于生成数据的系统的额外假设。在这里，我们建议探索数据中一种特殊类型的潜在结构：哈密顿系统，其中“能量”是守恒的。给定这样一个哈密顿系统随时间变化的观测值集合，我们提取相空间坐标和它们的哈密顿函数，作为系统动力学的生成器。该方法使用一个自动编码器神经网络组件来估计从观测值到哈密顿系统相空间的变换。在这个构造的空间上，使用一个附加的神经网络分量来近似哈密顿函数，并联合训练这两个分量。作为另一种方法，我们还演示了使用高斯过程来估计此类哈密顿量。在两个示例之后，我们从钟摆的电影集合中提取了一个潜在的相空间以及生成的哈密顿量。该方法完全由数据驱动，不假设哈密顿函数的特定形式。

基于神经网络的动态系统建模方法再次得到广泛应用，明确学习连续观测背后的物理规律的方法构成了一个日益增长的子领域。我们的工作通过将额外的信息纳入学习模型来促进这一研究思路，也就是说，我们知道数据是作为对潜在哈密顿系统的观察而产生的。

我们使用机器学习来提取动力学保持特定数量（哈密顿量）的系统模型。我们训练几个神经网络来近似摆的总能量函数，既可以是摆的自然作用角形式，也可以通过几个日益复杂的扭曲观测函数看到。该方法的一个关键部分是使用神经网络的自动微分来制定在训练过程中最小化的损失函数。

我们的方法需要数据评估状态空间中感兴趣区域的观测值的一次和二次导数，或者需要足够的信息（例如延迟测量序列）来估计这些导数。我们包括观测函数为非线性和高维的示例。

I.简介

当前数据科学对动力学的探索通常侧重于回归或分类问题，而没有常规地纳入关于生成数据的系统性质的额外假设。最近，随着Ref。32，预先指定公式的变量和可能的表达式。特别是，将中心对象建模为离散时间流程图 $Φ_{τ} (x个) = x个 + \int_{0}^{τ} （f） (x个 (吨)) d日吨$ 但是学习 $Φ$ 直接作为黑盒可能会导致与真实系统的质量差异。³¹使用相关的微分方程 $d日 x个 / d日吨 = （f） (x个)$ 相反，我们可以利用已建立的数值积分方案来帮助近似流图，并且可以通过构造与此类经典数值积分方案类似的损失函数来使用神经网络来完成。除了我们以前的工作，^6,25–31最近的工作重振了这种方法，重点是将深层神经网络的层视为动态系统的迭代，其中“学习”包括发现正确的吸引子。^3,5,14

特别是，人们的兴趣集中在剩余网络如何¹¹和公路网³³可以解释为迭代解算器⁸或者作为迭代动力系统。⁴在后一篇论文（NeurIPS 2018年度最佳论文获奖者）中，作者选择不显式展开迭代，而是使用连续时间数值积分。虽然重点是动态层概念，但也进行了时间序列学习。

Koopman算子也被用于与神经网络相结合来提取守恒定律和特殊群结构。^12,15守恒量的对称性是物理学中一个研究得很好的问题。^10,13,19,20最近的一个研究思路是从观测数据中学习物理模型，¹⁷包括将离散时间数据建模为连续时间动力系统的观测值。^21,22

通过物理系统的守恒量（如总能量）来研究物理系统是有意义的，总能量可以用哈密顿函数来编码。^1,10哈密顿系统的可测性最近被用于Markov-chain Monte-Carlo方法中的密度输运¹⁸和可变自动编码器。^2,24为了我们的目的，从观测到的物理计算建模的一个自然进展是直接表示哈密顿函数。

在提交这一材料的同时，两篇独立处理类似问题的论文以预印本的形式出现。^9,34在第一个例子中，⁹损失函数非常类似于我们公式的部分。(12)已使用。第二篇文章主要讨论通过哈密顿量产生的密度变换。可以在第二个预印本和我们上面提到的旧（非哈密顿）作品之间进行一些类比，^6,25–31因为这项新的工作还使用了基于经典数值积分方法的时间步长模板的rollow（这里是辛欧拉和蛙跳）。两篇论文都以摆锤为例，强调了系统可以很好地近似为线性系统的条件：在 $(q个，第页) = (0 ， 0)$ 轨迹几乎是圆形的。

本文的其余部分结构如下：

我们从时间序列数据导出给定相空间上哈密顿函数的数据驱动近似（通过两种方法：高斯过程和神经网络）。我们考虑的哈密顿函数不需要作为和来分离 $H（H） (q个，第页) = T型 (第页) + V（V） (q个)$ ⁠在我们的示例中，我们总是在摆的完全非线性状态下工作。
我们从原始哈密顿相空间的（a）线性变换和（b）非线性非对称变换构建了相空间的数据驱动重建。然后，重构得到原始哈密顿系统的辛对称副本。
我们构建了一个完全由数据驱动的管道，结合了（a）适当相空间的构建和（b）根据非线性、高维观测（例如，从电影/电影快照序列）在这个新相空间上哈密顿函数的近似。

二、。一般说明

欧氏空间上的哈密顿系统 $E类 = {R（右）}^{2 n个}$ ⁠， $n个 \in N个$ 通过函数确定 $H（H） : E类 \to R（右）$ 它定义了方程

\begin{aligned} \dot{q个} (吨) & = \partial H（H） (q个 (吨) ， 第页 (吨)) / \partial 第页 ， \end{aligned}

（1）

\begin{aligned} \dot{第页} (吨) & = - \partial H（H） (q个 (吨) ， 第页 (吨)) / \partial q个 ， \end{aligned}

(2)

哪里 $(\cdot) 以下为：= d日 / d日吨$ 和 $q个 (吨) ，第页 (吨) \in {R（右）}^{n个}$ 被解释为“相空间”中的“位置”和“动量”坐标 $E类$ ⁠在许多机械系统中，以及在本文讨论的所有示例中，坐标的解释 $q个，第页$ 通过以下方式反映在动态中 $\dot{q个} = 第页$ ⁠即。， $H（H） (q个，第页) = \frac{1}{2} {第页}^{2} + 小时 (q个)$ 对于某些功能 $小时 : {R（右）}^{n个} \to {R（右）}^{n个}$ ⁠一般来说，公式。（1）和(2)暗示哈密顿量沿轨道是常数 $(q个 (吨) ，第页 (吨))$ 因为

\frac{d日}{d日 吨} H（H） (q个 ， 第页) = \frac{\partial H（H）}{\partial q个} (q个 ， 第页) \cdot \dot{q个} + \frac{\partial H（H）}{\partial 第页} (q个 ， 第页) \cdot \dot{第页} = 0

（3）

方程（1）和(2)可以重新表述为 $H（H）$ 每 $(q个，第页) \in E类$ ⁠，

\underset{ω}{\underset{⏟}{[\begin{matrix} 0 & 我 \\ - 我 & 0 \end{matrix}]}} \cdot \nabla H（H） (q个 ， 第页) - ν (q个 ， 第页) = 0 ，

(4)

哪里 $我 \in {R（右）}^{n个 \times n个}$ 是单位矩阵 $ν$ 是上的向量场 $E类$ [的左侧（1）和(2)]，这只取决于州 $(q个，第页)$ ⁠给定欧氏空间上的辛形式采用矩阵的形式 $ω$ ⁠。

在第。三，我们讨论如何近似函数 $H（H）$ 从给定的数据点 $D类 = {({q个}_{我} ， {\dot{q个}}_{我} ， {\ddot{q个}}_{我})}_{我 = 1}^{N个}$ ⁠这涉及到求解偏微分方程(4)对于 $H（H）$ ⁠由于这些方程决定 $H（H）$ 只有在一个加法常数之前，我们假设我们也知道这个值 ${H（H）}_{0} = H（H） ({q个}_{0} ， {第页}_{0})$ 属于 $H（H）$ 在一个点上 $({q个}_{0} ， {第页}_{0})$ 在相空间中。这不是该方法的主要限制，因为 ${H（H）}_{0}$ 以及 $({q个}_{0} ， {第页}_{0})$ 可以任意选择。

三、示例：非线性摇锤

举个例子，考虑一下这种情况 $n个 = 1$ 和哈密顿量

H（H） (q个 ， 第页) = \frac{{第页}^{2}}{2} + (1 - 余弦 (q个)) 。

(5)

这个哈密顿量形成了非线性摆的微分方程的基础， $\ddot{q个} = - 罪 (q个)$ ⁠，或者，以一阶形式， $\dot{q个} = \partial H（H） (q个，第页) / \partial 第页 = 第页$ 和 $\dot{第页} = - \partial H（H） (q个，第页) / \partial q个 = - 罪 (q个)$ ⁠在本节中，我们数值求解偏微分方程（PDE）(4)通过近似求解 $H（H）$ 使用两种方法：高斯过程²³（第。III A)和神经网络（第。III B类).

A.使用高斯过程的近似

我们为解决方案建模 $H（H）$ 作为高斯过程 $\hat{H（H）}$ 使用高斯协方差核，

k个 (x个 ， {x个}^{'}) = 经验 (- ∥ x个 - {x个}^{'} ∥^{2} / ϵ^{2}) ，

(6)

哪里 $x个$ 和 ${x个}^{'}$ 是相空间中的点，即。， $x个 = (q个，第页)$ ⁠， ${x个}^{'} = ({q个}^{'} ， {第页}^{'})$ ⁠、和 $ϵ \in {R（右）}^{+}$ 是内核带宽参数（我们选择 $ϵ = 2$ 在本文中）。给定一个集合 $X（X）$ 属于 $N个$ 相空间中的点，以及函数值 $H（H） (X（X）)$ 在中的所有点 $X（X）$ ⁠，高斯过程的条件期望 $\hat{H（H）}$ 在一个新的点上 $年$ 是

E类 [\hat{H（H）} (年) | X（X） ， H（H） (X（X）)] = k个 {(年 ， X（X）)}^{T型} k个 {(X（X） ， {X（X）}^{'})}^{- 1} H（H） (X（X）) ，

(7)

我们写的地方 ${[k个 (X（X）， {X（X）}^{'})]}_{我， j个} 以下为：= k个 ({x个}_{我} ， {x个}_{j个})$ 对于整体评估的内核矩阵 $x个$ 给定数据集中的值 $X（X）$ ⁠.在等式中。(7)，符号的尺寸为 $年 \in {R（右）}^{2 n个}$ ⁠， $k个 (X（X）， {X（X）}^{'}) \in {R（右）}^{N个 \times N个}$ ⁠， $k个 (年， X（X）) \in {R（右）}^{N个}$ ⁠、和 $H（H） (X（X）) 以下为：= (H（H） ({x个}_{1}) ， H（H） ({x个}_{2}) ， \dots ， H（H） ({x个}_{N个})) \in {R（右）}^{N个}$ ⁠。所有向量都是列向量。解决方案的估计 $H（H）$ 到新点的PDE取决于 $H（H）$ 在整个数据集上。我们不知道 $H（H）$ ⁠，但微分方程。(7)允许我们建立一个方程组来估计 $H（H）$ 以任意数字 $M（M）$ 个新点（共个） $年$ 接近要点 $x个 \in X（X）$ ⁠，通过使用有关 $H（H）$ 由时间导数给出 $\dot{q个}$ 在等式中。（1）和（的否定） $\dot{第页}$ 在等式中。(2).让 $克 ({x个}_{我}) \in {R（右）}^{2 n个}$ 是的梯度 $H（H）$ 在某一点上 ${x个}_{我}$ 在相空间中，我们从数据中知道 $(\dot{q个} ， \dot{第页})$ ⁠.然后，

\begin{aligned} {(\frac{\partial}{\partial 年} \hat{H（H）} (年)∣}_{年 = {x个}_{我}} & \approx 克 ({x个}_{我}) ， \\ {(⟺ \frac{\partial}{\partial 年} \hat{k个} {(年 ， X（X）)}^{T型}∣}_{年 = {x个}_{我}} k个 {(X（X） ， {X（X）}^{'})}^{- 1} H（H） (X（X）) & \approx 克 ({x个}_{我}) 。 \end{aligned}

(8)

在一点上与任意固定项一起 ${x个}_{0}$ ⁠，已知导数的列表导致一个线性系统 $2 n个 N个 + 1$ 方程式，我们在哪里写

{(\frac{\partial}{\partial x个} k个 ({x个}_{我} ， Y（Y）) 以下为：= \frac{\partial}{\partial x个} k个 (x个 ， {x个}^{'})∣}_{x个 = {x个}_{我} ， {x个}^{'} \in Y（Y）}

(9)

给定核函数的导数 $k个$ 关于它的第一个参数，在给定点计算 ${x个}_{我}$ 在第一个参数和数据集中的所有点中 $Y（Y）$ 在第二个论点中。对于每个 ${x个}_{我}$ ⁠，因此我们有一个（列）向量 $M（M）$ 导数求值，将其转换并堆叠成一个大矩阵，以形成完整的线性系统

\underset{\in {R（右）}^{(2 n个 N个 + 1) \times M（M）}}{\underset{⏟}{[\begin{matrix} \frac{\partial}{\partial x个} k个 {({x个}_{1} ， Y（Y）)}^{T型} k个 {(Y（Y） ， {Y（Y）}^{'})}^{- 1} \\ \frac{\partial}{\partial x个} k个 {({x个}_{2} ， Y（Y）)}^{T型} k个 {(Y（Y） ， {Y（Y）}^{'})}^{- 1} \\ \dots \\ \frac{\partial}{\partial x个} k个 {({x个}_{N个} ， Y（Y）)}^{T型} k个 {(Y（Y） ， {Y（Y）}^{'})}^{- 1} \\ k个 {({x个}_{0} ， Y（Y）)}^{T型} k个 {(Y（Y） ， {Y（Y）}^{'})}^{- 1} \end{matrix}]}} \cdot \underset{\in {R（右）}^{M（M）}}{\underset{⏟}{[\begin{matrix} H（H） (Y（Y）) \end{matrix}]}} = \underset{{R（右）}^{2 n个 N个 + 1}}{\underset{⏟}{[\begin{matrix} 克 (X（X）) \\ {H（H）}_{0} \end{matrix}]}} 。

（10）

我们重申： $X（X）$ 是的数据集 $N个$ 我们知道导数的点 $H（H）$ 通过 $克 ({x个}_{我}) = {(\frac{\partial H（H）}{\partial q个} ({x个}_{我}) ， \frac{\partial H（H）}{\partial 第页} ({x个}_{我}))}^{T型} = {(- {\dot{第页}}_{我} ， {\dot{q个}}_{我})}^{T型} \in {R（右）}^{2 n个}$ ⁠。我们在精细网格上进行评估 $Y（Y）$ 属于 $M（M）$ 点（这样 $k个 (Y（Y）， {Y（Y）}^{'}) \in {R（右）}^{M（M） \times M（M）}$ ⁠， $\frac{\partial}{\partial x个} k个 ({x个}_{我} ， Y（Y）) \in {R（右）}^{2 n个 \times M（M）}$ ⁠)并获得信息 $克 (X（X）) \in {R（右）}^{2 n个 N个}$ 在一个相对较小的集合上 $N个$ 调用的点 $X（X）$ [黑色圆点图1（b）]. 高斯过程的导数可以用核的导数表示 $k个$ 关于第一个参数。的矩阵求逆 $k个 (Y（Y）， {Y（Y）}^{'})$ 近似值为 $(k个 (Y（Y）， {Y（Y）}^{'}) + σ^{2} 我)$ ⁠也就是说，通过带参数的Tikhonov正则化 $σ = 10^{- 5}$ ⁠，这是高斯过程回归的标准。求解这个方程组 $H（H） (Y（Y）)$ 得出PDE解的近似值。图1（b）显示结果，以及表一列出了625个训练数据点的均方误差，以及在同一域中独立绘制的200个验证点集，其中没有可用的导数。参见参考。22更详细地讨论了高斯过程的偏微分方程解。

图1。

查看大型下载幻灯片

（a）摆系统的哈密顿函数。（b）使用高斯过程进行近似，求解公式。（10）在精细网格上 $Y（Y） \subset [- 9 ， 9] \times [- 1.5 ， 1.5]$ ⁠，包含信息 $克$ 关于的导数 $H（H）$ 在一组 $625$ 随机采样点 $X（X） \subset [- 2 π ， 2 π] \times [- 1 ， 1]$ （粉色矩形中的黑色点）。（c）哈密顿量通过神经网络学习，包括所有损失项。请注意，学习的函数只有在数据采样足够密集的情况下才是准确的。在这个实验中，我们使用了“softplus”激活功能 $σ_{我} (z（z）) = 自然对数 ({e（电子）}^{z（z）} + 1)$ ⁠。面板（b）中显示的黑点显示高斯过程的所有训练数据。面板（c）中的点仅显示用于神经网络的训练数据子集（总计20000）。

表一。

培训和延迟验证数据之间的损失比较。由于我们生成的数据集的大小总是远远大于可训练参数的数量，过拟合不是问题，验证损失总是与训练损失无法区分。第一行包括使用所有训练数据进行推断的高斯过程近似（非参数方法）的结果。只有超参数ε和σ需要调整。对于第一行，报告的损失是高斯过程回归的MSE。对于其他行，损失由任一等式计算。(12)或（14）视情况而定。

	参数数量	培训点数	验证点数量	培训损失	验证损失
章节III A	非参数	625	200	2.2 × 10⁻⁵	3.5 × 10⁻⁵
章节III B类	337	20 000	200	6.8 × 10⁻⁴	7.4 × 10⁻⁴
章节IV B类	345	20 000	1000	5.5×10⁻⁶	5.0 × 10⁻⁶
章节IV C类	511	19 200	200	1.4 × 10⁻⁴	1.8 × 10⁻⁴
章节IV D类	755个	17 489	200	0.51	0.54

	参数数量	培训点数	验证点数量	培训损失	验证损失
章节III A	非参数	625	200	2.2 × 10⁻⁵	3.5 × 10⁻⁵
章节III B类	337	20 000	200	6.8 × 10⁻⁴	7.4 × 10⁻⁴
章节IV B类	345	20 000	1000	5.5 × 10⁻⁶	5.0 × 10⁻⁶
章节IV C类	511	19 200	200	1.4 × 10⁻⁴	1.8 × 10⁻⁴
章节IV D类	755	17 489	200	0.51	0.54

B.使用人工神经网络的近似

学习以下形式的另一种可能性 $H（H）$ 使用数据是用人工神经网络表示函数⁷（ANN）。我们写作

{x个}_{我} = σ_{我} ({x个}_{我 - 1} \cdot {W公司}_{我} + {b条}_{我}) ， 我 = 1 ， \dots ， L（左） + 1 ，

(11)

其中激活功能 $σ_{我}$ 是非线性的（除非另有说明，我们使用 $坦纳$ ⁠)的 $我 = 1 ， \dots ， L（左）$ （如果 $L（左） \geq 1$ ⁠)和身份 $我 = L（左） + 1$ ⁠该ANN的可学习参数为 ${({W公司}_{我} ， {b条}_{我})}_{我 = 1 ， \dots ， L（左） + 1}$ ⁠，我们从可能在一个实验中使用的多个层中收集所有这些可学习的参数到参数向量中 $w个$ ⁠.如果没有隐藏层(⁠ $L（左） = 0$ ⁠)，然后我们学习仿射变换 ${x个}_{1} = {x个}_{0} \cdot W公司 + b条$ ⁠。此格式提供代理项函数 $\hat{H（H）} (q个，第页) = {x个}_{L（左） + 1}$ ⁠，其中输入 ${x个}_{0}$ 是行向量 $[q个，第页]$ ⁠（将输入作为行向量处理，并对权重矩阵使用右乘法是很方便的，作为一整批 $N个$ 输入可以表示为 $N个$ -由- $2$ 数组。）对于这里显示的所有实验，这个用于计算的网络 $\hat{H（H）}$ 有两个宽度为16的隐藏层。

类似地，在这种情况下，我们需要学习其他转换 $\hat{θ}$ 和 ${\hat{θ}}^{- 1}$ （参见第。四、)，他们也学会了使用这种网络。

我们通过在矩形中采样一些初始条件来收集训练数据 $(q个，第页) \in [- 2 π ， 2 π] \times [- 6 ， 6]$ ⁠，然后模拟从每一个到最后一个的短轨迹 $(q个，第页)$ 点。对于其中的每一项，我们都会额外评估 $(\dot{q个} ， \dot{第页})$ ⁠.每个历元对模拟进行一次洗牌，并将此数据集划分为多个批次，然后执行批处理随机梯度下降以学习参数 $w个$ 对下面定义的目标函数使用Adam优化器。

在本文中，所有的神经网络都是使用TensorFlow构建和训练的，以及评估方程中哈密顿损失项所需的梯度。(12)使用TensorFlow的核心自动微分功能进行计算。

该目标函数包含一个标量函数，该标量函数在每个数据4元组上求值 $d日 = (q个，第页， \dot{q个} ， \dot{第页})$ 然后对批次进行平均。这个标量函数被写成

（f） (q个 ， 第页 ， \dot{q个} ， \dot{第页}; w个) = \sum_{k个 = 1}^{4} {c（c）}_{k个} {（f）}_{k个} ，

(12)

\begin{aligned} {（f）}_{1} & = {(\frac{\partial \hat{H（H）}}{\partial 第页} - \dot{q个})}^{2} ， {（f）}_{2} = {(\frac{\partial \hat{H（H）}}{\partial q个} + \dot{第页})}^{2} ， \\ {（f）}_{三} & = {(\hat{H（H）} ({q个}_{0} ， {第页}_{0}) - {H（H）}_{0})}^{2} ， {（f）}_{4} = {(\frac{\partial \hat{H（H）}}{\partial q个} \dot{q个} + \frac{\partial \hat{H（H）}}{\partial 第页} \dot{第页})}^{2} ， \end{aligned}

（13）

依赖于 $w个$ 通过所学的哈密顿量 $\hat{H（H）}$ ⁠，有损权重 ${c（c）}_{k个}$ 是为了强调由此提出的问题的某些性质，以及 $\frac{\partial \hat{H（H）}}{\partial 第页}$ 和 $\frac{\partial \hat{H（H）}}{\partial q个}$ 通过自动微分显式计算。除了 ${c（c）}_{2}$ ⁠，全部 ${c（c）}_{k个}$ 值设置为 $1$ 或 $0$ 取决于相关损失条款是否包括在内。由于等式中的平方项。(5)，我们设置 ${c（c）}_{2}$ 任意地 $10$ 如果非零，则损失不受 ${（f）}_{1}$ ⁠。另一种选择可能是设置 ${c（c）}_{1}$ 到 $1 / 10$ ⁠。

自公式。（1）和(2)一起暗示（3），三个术语中的任何一个 ${（f）}_{1}$ ⁠， ${（f）}_{2}$ ⁠、和 ${（f）}_{4}$ 可以作为冗余删除；因此，我们可以设置 ${c（c）}_{4}$ 归零但监控 $\dot{\hat{H（H）}}$ 作为对所学解决方案准确性的有用的健全性检查。在图1（c），我们使用默认的非零值显示此过程的结果 ${c（c）}_{k个}$ ⁠。

作为一项消融研究，我们探讨了去除第一、第二和第四项的效果（此处未显示）。通过构造，真实 ${H（H）}_{吨} (q个，第页)$ 函数全部为零 $(q个，第页)$ ⁠请注意，只有在图中的中央框中才能在任何程度上实现这一点，其中数据是密集采样的。正在删除 ${（f）}_{4}$ 在我们的 ${\hat{H（H）}}_{吨} \approx 0$ 由于方程组中的冗余，这是预期的近似值。(1)–(3)。但是，删除 ${（f）}_{1}$ 或 ${（f）}_{2}$ 尽管这些术语与 ${（f）}_{4}$ ⁠这可能是由于未平衡 $\dot{第页}$ 和 $\dot{q个}$ 我们试图通过不相等的权重值进行补偿的条款 ${c（c）}_{1}$ 和 ${c（c）}_{2}$ ⁠。

四、从观测资料估计哈密尔顿结构

我们现在考虑一组观测函数 $θ : E类 \to {R（右）}^{M（M）}$ ⁠， $θ = (年_{1} ， \dots ，年_{M（M）})$ ⁠，使用 $M（M） \geq 昏暗的 E类 = 2 n个$ ⁠，因此 $θ$ 是相空间之间的微分同胚 $E类$ 及其图像 $θ (E类)$ ⁠在这种情况下同向性非常重要。¹一般来说，辛同态是指将辛结构保留在流形不变量上的微分同态。在我们的环境中 $E类 = 问 \times P（P）$ 映射到变形空间 $\hat{E类} = \hat{问} \times \hat{P（P）}$ 其中新变量中的系统动力学 $\hat{q个} \in \hat{问}$ ⁠， $\hat{第页} \in \hat{P（P）}$ 又是哈密顿量，并与原始哈密顿动力学共轭。并不是每个微分同胚都是亚同胚，我们不要假设那个 $θ$ 是一种共模现象。坐标的恒定标度也不可能与哈密顿函数本身的标度区分开来，因此恢复的系统将是原始系统的一个辛对称副本，按任意常数标度。

在本节的设置中，我们不假设访问 $E类$ ⁠， $H（H）$ ⁠，或的显式形式 $θ$ ⁠。只有一组点 $θ_{我}$ 和时间导数 $\frac{d日}{d日吨} θ_{我}$ 在图像中 $θ (E类)$ 可用。我们描述了一种近似新地图的方法 ${\hat{θ}}^{- 1} : θ (E类) \to \hat{E类}$ 成的辛对称副本 $E类$ 通过自动编码器，⁷这样，转换后的系统 $\hat{E类}$ 与原哈密顿系统共轭 $E类$ ⁠。如果我们能够 $θ$ ⁠，地图 ${\hat{θ}}^{- 1} ° θ \equiv S公司 : E类 \to \hat{E类}$ 将近似于共性 $θ^{- 1} ° \hat{θ} \equiv {S公司}^{- 1}$ 则相反。在估算期间 ${\hat{θ}}^{- 1}$ ⁠，我们同时逼近新的哈密顿函数 $\hat{H（H）} : \hat{E类} \to R（右）$ ⁠。图2（a）可视化一般方法，其中只有信息 ${(x个，年)}_{我}$ 和 $\frac{d日}{d日吨} {(x个，年)}_{我}$ 程序可用，而 ${\hat{θ}}^{- 1}$ 和一个哈密顿量 $\hat{H（H）}$ 在 $\hat{E类}$ 是用数字构造的。

图2。

查看大型下载幻灯片

（a）网络结构示意图。从（未知）变量的观测开始 $(x个，年) \in θ (E类)$ ⁠，自动编码器的结构是通过 ${\hat{θ}}^{- 1}$ 哈密顿形式 $(\hat{q个} ， \hat{第页}) \in \hat{E类}$ ⁠以及通过 $\hat{θ}$ ⁠完整的过程包括估计（的辛对称副本）的哈密顿量 $第页， q个$ 在自动编码器的培训期间。（b）转变 $θ$ 从原始空间 $q个，第页$ 到观测空间 $x个，年$ 对于Sec的线性示例。IV B类。

下面三个示例的一个有趣且重要的共同特点是，人们不能期望系统地恢复原始 $(q个，第页)$ 给定观测数据的值 $(x个，年)$ ⁠.仅辛变换 $(\hat{q个} ， \hat{第页})$ 可以恢复，这足以定义哈密顿量。一旦坐标 $(\hat{q个} ， \hat{第页})$ 哈密顿函数是固定的在这些坐标系中在加法常数范围内是唯一的。

表一包含所有实验的网络的训练和验证损失。此外，我们从Sec。IV D类仅使用331张图像，并观察到显著较高的验证损失（未显示），与过拟合一致。

A.用于变换和哈密顿量联合学习的复合损失函数

以下损失函数用于训练自动编码器组件和哈密顿函数近似网络组件：

\begin{aligned} （f） (\hat{q个} ， \hat{第页} ， \dot{\hat{q个}} ， \dot{\hat{第页}}; w个) & = \sum_{k个} {c（c）}_{k个} {（f）}_{k个} ， \\ {（f）}_{1} & = {(\frac{\partial \hat{H（H）}}{\partial 第页} - \dot{\hat{q个}})}^{2} ， \\ {（f）}_{2} & = {(\frac{\partial \hat{H（H）}}{\partial q个} + \dot{\hat{第页}})}^{2} ， \\ {（f）}_{三} & = {(\hat{H（H）} ({\hat{θ}}^{- 1} ({x个}_{0} ， 年_{0})) - {H（H）}_{0})}^{2} ， \\ {（f）}_{4} & = {(\dot{\hat{H（H）}})}^{2} = {(\frac{\partial \hat{H（H）}}{\partial \hat{q个}} \dot{\hat{q个}} + \frac{\partial \hat{H（H）}}{\hat{第页}} \dot{\hat{第页}})}^{2} ， \\ {（f）}_{5} & = | | \hat{θ} ({\hat{θ}}^{- 1} (x个 ， 年)) - [x个 ， 年] | |^{2} ， \\ {（f）}_{6} & = {(det（探测） (D类 {\hat{θ}}^{- 1}))}^{- 2} ， \end{aligned}

（14）

依赖于 $w个$ 通过所学的哈密顿量 $\hat{H（H）}$ 以及学到的转变 $\hat{θ}$ 和 ${\hat{θ}}^{- 1}$ ⁠，以及空间中的时间导数 $\hat{E类}$ 计算为 $\dot{\hat{q个}} = \dot{x个} \frac{\partial \hat{q个}}{\partial x个} + \dot{年} \frac{\partial \hat{q个}}{\partial 年}$ 和 $\dot{\hat{第页}} = \dot{x个} \frac{\partial \hat{第页}}{\partial x个} + \dot{年} \frac{\partial \hat{第页}}{\partial 年}$ ⁠，使用雅可比矩阵 $D类 {\hat{θ}}^{- 1} = [\begin{array}{cc} \frac{\partial \hat{q个}}{\partial x个} & \frac{\partial \hat{q个}}{\partial 年} \\ \frac{\partial \hat{第页}}{\partial x个} & \frac{\partial \hat{第页}}{\partial 年} \end{array}]$ 转型的关键 ${\hat{θ}}^{- 1}$ （用自动微分逐点计算）。当我们学习（特别是非线性）变换时 ${\hat{θ}}^{- 1}$ ⁠，除了哈密顿量 $\hat{H（H）} (\hat{q个} ， \hat{第页})$ ⁠，包括 ${（f）}_{4}$ 复合损失中的术语可能会对学习到的转换产生不利影响。存在一个容易遇到的天真局部极小值，其中 ${\hat{θ}}^{- 1}$ 映射所有采样值 $θ (E类) ∋ (x个，年)$ 到单点 $\hat{E类}$ ⁠学习到的哈密顿量只是钉扎值的常数函数， $\hat{H（H）} (\hat{q个} ， \hat{第页}) = {\hat{H（H）}}_{0}$ ⁠。在此状态下（或此状态的近似值） $\frac{\partial H（H）}{\partial \hat{q个}}$ ⁠， $\frac{\partial H（H）}{\partial \hat{第页}}$ 以及 $D类 {\hat{θ}}^{- 1}$ 是零，所以损失（有条件 ${（f）}_{1}$ ⁠， ${（f）}_{2}$ ⁠， ${（f）}_{三}$ ⁠、和（可选） ${（f）}_{4}$ ⁠)为零（相对较小）。相关的故障是输入 $θ (E类)$ 被折叠 ${\hat{θ}}^{- 1}$ 直线或曲线 $\hat{E类}$ ⁠。

为了缓解这两个问题，我们添加了一个新的损失部分 ${（f）}_{6}$ ⁠也就是说，我们要求学习的转换不会折叠输入。对于相应的权重因子来说，这就足够了 ${c（c）}_{6}$ 非常小的非零值（例如。， $10^{- 6}$ ⁠). 添加 ${（f）}_{6}$ 这有助于我们避免在训练早期陷入上述不可恢复的局部极小值，也有助于保持转换变量的规模 $\hat{q个}$ 和 $\hat{第页}$ 宏观的。

B.示例：摆的线性变换

我们从矩形区域生成数据 $x个 \in [- 1 ， 1]$ ⁠， $年 \in [- 1 ， 1]$ 然后用 $θ^{- 1} (x个，年) = {A类}^{- 1} {[x个，年]}^{T型} = {[q个，第页]}^{T型}$ ⁠.矩阵 ${A类}^{- 1}$ 是的倒数 $A类 = R（右） \cdot Λ$ ⁠; 缩放之后是旋转，其中 $Λ = [\begin{array}{cc} λ_{1} & 0 \\ 0 & λ_{2} \end{array}]$ ⁠， $λ_{1} = 1$ ⁠， $λ_{2} = 64$ ⁠， $R（右） = [\begin{array}{cc} 余弦 ρ & - 罪 ρ \\ 罪 ρ & 余弦 ρ \end{array}]$ ⁠、和 $ρ = 5^{°}$ ⁠.我们的观测数据 $θ (E类)$ 因此由以下公式给出 ${[x个，年]}^{T型} = A类 \cdot {[q个，第页]}^{T型}$ ⁠.使用真哈密顿量 $H（H） (q个，第页) = {第页}^{2} / 2 + (1 - 余弦 q个)$ ⁠，我们还计算了 $d日 q个 / d日吨$ 和 $d日第页 / d日吨$ 然后使用 $A类$ 将这些传播给 $x个$ 和 $年$ 通过 $\frac{d日 x个}{d日吨} = \frac{\partial x个}{\partial q个} \frac{d日 q个}{d日吨} + \frac{\partial 年}{\partial 第页} \frac{d日第页}{d日吨}$ 和类似的 $年$ ⁠，其中偏导数是通过分析计算的（这里，仅为 $A类$ 自身）。

然后，我们的网络将显示观测数据 $x个，年$ 及其相应的时滞。它的任务是学习 $\hat{A类}$ 和 ${\hat{A类}}^{- 1}$ ⁠，用于转换变量 $\hat{q个} ， \hat{第页}$ （与原始同胚 $q个，第页$ ⁠)和哈密顿量 $\hat{H（H）}$ 在这个新的空间里。在评估损失时 $\hat{q个}$ 和 $\hat{第页}$ 同样，通过使用链规则通过学习的转换，通过自动微分计算，例如 $\frac{d日 \hat{q个}}{d日吨} = \frac{\partial \hat{q个}}{\partial x个} \frac{d日 x个}{d日吨} + \frac{\partial \hat{q个}}{\partial 年} \frac{d日年}{d日吨}$ ⁠。还要注意 ${[\hat{q个} ， \hat{第页}]}^{T型} = {\hat{A类}}^{- 1} \cdot A类 \cdot {[q个，第页]}^{T型}$ ⁠，所以如果原始空间 $E类$ 可以找到， $\hat{A类}$ 会满足的 $\hat{A类} \cdot {A类}^{- 1} = 我$ ⁠。这是不可能的，因为只有中的数据 $θ (E类)$ ⁠; 我们只能确定 $\hat{A类} \cdot {A类}^{- 1}$ 近似于原始的共模性 $E类$ ⁠。

我们可以学习 ${\hat{θ}}^{- 1}$ 从一类一般的非线性函数中 $坦纳$ 神经网络，但在这里，我们只是学习 $\hat{A类}$ 和 ${\hat{A类}}^{- 1}$ 作为线性变换（即，我们有一个线性“神经网络”，其中 $L（左） = 0$ 在等式中。(11)、和 ${b条}_{1}$ 固定为 $0$ ⁠). 由于我们将此自动编码器的重建误差包含在损失函数中， ${\hat{A类}}^{- 1}$ 被约束为的倒数 $\hat{A类}$ 精确到不比 ${（f）}_{1}$ 和 ${（f）}_{2}$ 等式中的术语。（14），在所有三个都按其对应的比例缩放之后 ${c（c）}_{k个}$ 值。事实上，对于线性情况，最初自动编码器对损耗的贡献明显低于哈密顿分量（见图3)但是，随着培训的进行 ${（f）}_{1}$ 和 ${（f）}_{2}$ 条件得到了改善（以提高自动编码器损耗为初始代价），通过优化可以更大程度地降低损耗 $\hat{H（H）}$ 而不是 $\hat{θ}$ ⁠，所以 ${（f）}_{5}$ 减少的速度与（中的较大者）相同 ${（f）}_{1}$ 或 ${（f）}_{2}$ ⁠也就是说，损失的自动编码器部分很快下降到一个水平，考虑到其在损失总和中的权重，它不再对总损失作出贡献。

图3。

查看大型下载幻灯片

已学习 $\hat{H（H）} (\hat{q个} ， \hat{第页})$ 线性变换后 $θ$ ⁠.（a）（左）真函数 $H（H） (q个，第页)$ 在网格上计算 $q个，第页$ 值。（a）（右）上的学习功能 $\hat{q个} ， \hat{第页}$ 被拉回原稿 $q个，第页$ 空间。（b）线性同形性 $S公司 = {\hat{θ}}^{- 1} ° θ$ 在原始空间和学习空间之间。

我们发现，习得的共性 $S公司 (q个，第页) = {\hat{A类}}^{- 1} \cdot A类 \cdot {[q个，第页]}^{T型}$ ⁠，在其 $q个$ 中的部分图3，蜜饯 $q个$ 未与混合 $第页$ 在两个发现的坐标中的一个或另一个。这是因为（a） $(q个，第页) \mapsto (第页， - q个)$ 以及（b） $(q个，第页) \mapsto (q个，第页 + （f） (q个))$ 对于任何平滑函数 $（f）$ 都是共性。它们很特别，因为 $H（H） (q个，第页) = \hat{H（H）} (\hat{q个} (q个，第页) ， \hat{第页} (q个，第页))$ ⁠; 也就是说，它们甚至保留了哈密顿公式。对于映射（a），哈密顿量的变换可以从以下推导中看出：

\dot{\hat{q个}} = \dot{第页} = - \partial H（H） / \partial q个 = \partial \hat{H（H）} / \partial \hat{第页} ，

(15)

\dot{\hat{第页}} = - \dot{q个} = - \partial H（H） / \partial 第页 = - \partial \hat{H（H）} / \partial \hat{q个} ，

(16)

\begin{aligned} \partial \hat{H（H）} / \partial q个 & = \partial \hat{H（H）} / \partial \hat{q个} \cdot \underset{= 0}{\underset{⏟}{\partial \hat{q个} / \partial q个}} + \partial \hat{H（H）} / \partial \hat{第页} \cdot \underset{= - 1}{\underset{⏟}{\partial \hat{第页} / \partial q个}} \\ = - \partial \hat{H（H）} / \partial \hat{第页} = \partial H（H） / \partial q个 ， \end{aligned}

(17)

\begin{aligned} \partial \hat{H（H）} / \partial 第页 & = \partial \hat{H（H）} / \partial \hat{q个} \cdot \underset{= 1}{\underset{⏟}{\partial \hat{q个} / \partial 第页}} + \partial \hat{H（H）} / \partial \hat{第页} \cdot \underset{= 0}{\underset{⏟}{\partial \hat{第页} / \partial 第页}} \\ = \partial \hat{H（H）} / \partial \hat{q个} = \partial H（H） / \partial 第页 。 \end{aligned}

(18)

这里，第一个等式(15)和(16)从地图上看，最后一个等式(15)和(16)根据以下要求 $\hat{q个} ， \hat{第页}$ 根据新哈密顿量遵循哈密顿动力学 $\hat{H（H）}$ ⁠.方程式(18)和(20)然后证明当作为旧坐标上的映射时，新的哈密顿量与旧的哈密尔顿量相同（模为加性常数）。

C.示例：摆的非线性变换

除了线性 $θ$ 第。IV B类，我们展示了非线性变换的可比结果 $θ$ 并学会了 $\hat{θ}$ ⁠具体来说，我们通过 $(x个，年) = θ (q个，第页)$ 哪里

\begin{array}{ll} 一 = q个 / 20 ， & b条 = 第页 / 10 ， \\ x个 = 一 + {(b条 + 一^{2})}^{2} ， & 年 = b条 + 一^{2} ， \end{array}

(19)

其逆函数由下式给出 $q个 = (x个 - 年^{2}) 20$ 和 $第页 = (年 - {x个}^{2} + 2 x个年^{2} - 年^{4}) 10$ ⁠。我们使用此的分析雅可比矩阵 $θ$ 计算必要的 $\dot{x个}$ 和 $\dot{年}$ 为我们的网络输入。

除了我们不再限制学者的形式之外，我们还是像以前一样进行 $\hat{θ}$ 和 ${\hat{θ}}^{- 1}$ 转换为线性变换，但允许使用与所用形式类似的小型多层感知器 $\hat{H（H）}$ ⁠。

由此产生的诱导共模性又是一种似乎保持近似单调增加或减少的共模性 $q个$ 在其中之一 $\hat{q个}$ 或 $\hat{第页}$ ⁠。这可以在中看到图4。

图4。

查看大型下载幻灯片

非线性变换后的结果 $θ$ ⁠.（a）（左）真函数 $H（H） (q个，第页)$ ⁠，向前推至 $\hat{q个} ， \hat{第页}$ ⁠.（b）上的学习函数 $\hat{q个}$ ⁠， $\hat{第页}$ ⁠。现在采用网格 $\hat{E类}$ 并通过 ${S公司}^{- 1}$ 用于打印 $H（H）$ 在相应的 $q个，第页$ 点。对于线性情况也是如此，学习的符号 $\hat{H（H）}$ 可能会被翻转，这取决于我们是否学习 $q个$ 通过 $\hat{q个}$ 或 $\hat{第页}$ ⁠，单调递增或递减。底部：非线性共模性 $S公司 = {\hat{θ}}^{- 1} ° θ$ 在原始空间和学习空间之间。我们再次发现 $q个$ 在发现的空间中保存（几乎）未混合 $\hat{E类} ∋ (\hat{q个} ， \hat{第页})$ ⁠。对于此实验，编码器 ${\hat{θ}}^{- 1}$ 和解码器 $\hat{θ}$ 每个都有三个宽度为五的隐藏层。

D.示例：根据非线性、高维观测数据构建哈密顿系统q个，第页

作为该方法的进一步演示，我们使用之前的移动摆示例的图形渲染作为转换 $θ$ 从内在状态 $(q个，第页)$ 到图像 $x个$ 作为我们的高维观测。我们使用辛半隐式Euler方法，

\begin{aligned} 第页 (τ) & = 第页 (0) + τ \cdot {(\dot{第页}|}_{q个 (0) ， 第页 (0)} ， \\ q个 (τ) & = q个 (0) + τ \cdot {(\dot{q个}|}_{q个 (0) ， 第页 (τ)} ， \end{aligned}

(20)

生成 $q个 (吨_{我}) ，第页 (吨_{我})$ 各种初始条件的轨迹，然后使用简单的图形渲染器将其显示为图像[参见图5（a）]. 渲染视频帧时，我们将衰减图像的尾部拖到移动的钟摆头后面，以便获得有关两个位置的信息 $q个$ 和速度 $第页$ 出现在每个渲染帧中。这是通过迭代每个 $q个 (吨_{我}) ，第页 (吨_{我})$ 轨迹和，对于每个 $吨_{我}$ ⁠，（1）将整个当前图像乘以冷却因子 $\sim 0.96$ ⁠，（2）在以电流为中心的固定半径的圆中为图像添加恒定的加热量 $余弦 (q个) ，罪 (q个)$ 点，以及（3）将图像每像素剪切为位于其中 $[0 ， 1]$ ⁠。生成图像的示例可见于图5（a）。

图5：。

查看大型下载幻灯片

（a）主成分分析（PCA）自动编码器重建。自动编码器被训练来再现左侧单色图像的PCA投影，其中速度 $第页$ 信息可以从移动的摆头后面拖曳的尾巴的长度中获得。我们在“近似”列中显示了通过PCA投影的近似逆运算返回的这些重建。注意，只有 $第页$ 保留了，这可以通过以下事实来预测： $第页$ 是计算所必需的 $H（H）$ ⁠（b）学习哈密顿量。对于每个图像 $x个$ 在我们的数据集中，我们有一个关联的已知 $q个，第页$ 一对。在这里，我们绘制了这些值，并通过学习着色 $\hat{H（H）} (x个)$ ⁠。对于此实验，编码器 ${\hat{θ}}^{- 1}$ 有两个宽度分别为6和4的隐藏层，以及解码器 $\hat{θ}$ 反映了这种结构。

虽然我们不使用 $第页 (吨_{我})$ 直接在这个过程中，它的值是在移动的摆头后面拖曳的尾巴的长度中观察到的。我们创造的轨迹足够长，以至于尾巴最初形成的影响（在此期间，它的长度不一定是一个很好的指标 $第页$ ⁠)不再可见，然后仅使用这些轨迹的最后两个观测值。

为了使方法对数据不可知，我们不想假设空间 $\hat{E类}$ 是周期性的，所以我们使用四维相空间和元素 $\hat{z（z）} = [{\hat{q个}}_{1} ， {\hat{q个}}_{2} ， {\hat{第页}}_{1} ， {\hat{第页}}_{2}] = [\hat{q个} ， \hat{第页}]$ 并考虑将其拆分为 $({\hat{q个}}_{1} ， {\hat{q个}}_{2})$ 和 $({\hat{第页}}_{1} ， {\hat{第页}}_{2})$ 在培训期间。在输入图像的空间中，流形不填充四维空间，而是填充一个圆柱体，该圆柱体由自动编码器映射到四维编码层。

此外，为了简化学习问题，我们学习 ${\hat{θ}}^{- 1}$ 将投影到训练数据集的前20个主成分上，然后是密集的自动编码器，保留学习 ${\hat{θ}}^{- 1}$ 作为未来工作的端到端卷积自动编码器。该编码提供 $\hat{z（z）}$ 和以前一样，我们学习 ${\hat{θ}}^{- 1}$ 与 $\hat{H（H）}$ ⁠，其中现在方程。（14）升级为矢量等值以适应 $\hat{z（z）}$ ⁠。

在第。四、A，我们添加了一个与变换雅可比行列式的倒数成正比的损失项，以避免使相空间崩溃的变换。在这里，这当然不是一个问题，显然需要对高维表示进行一些折叠。相反，一种常见的失败模式是不断学习 $\hat{H（H）}$ 函数，自动满足哈密顿要求（常数自然是守恒量）。为了避免这种情况，我们考虑了几种可能的方法来推广非平面 $\hat{H（H）}$ 函数，最终解决（a）添加一个鼓励标准偏差的术语 $\hat{H（H）}$ 值不为零，并且（b）不仅最小化 ${（f）}_{1}$ 和 ${（f）}_{2}$ 项，以及最大平方误差，以避免琐碎或二级 $\hat{H（H）} (q个，第页)$ 功能。球面高斯先验在变分自编码器训练中的应用³⁴作为副产品，还可以避免学习常量函数。

结果如所示图5（b），是一辆后备箱 $\hat{H（H）} (q个，第页)$ 至少在广义上与真理相似且满足的函数 $d日 \hat{H（H）} / d日吨 \approx 0$ （通常约 $10^{- 2}$ ⁠).

五、结论

我们描述了一种从观测数据近似哈密顿系统的方法。这是一条完全由数据驱动的管道，用于（a）构建适当的相空间，（b）根据非线性、可能的高维观测（这里是电影），在新相空间上近似哈密顿函数。

当只能观察到原始哈密顿相空间的变换时，只能恢复原始相空间的辛副本，在坐标的定标度和哈密顿函数的加法常数中具有额外的自由度。如果没有关于原始空间的其他信息可用，这是一个基本限制，对我们的方法来说并不特殊。根本没有必要存在“原始相空间”，因此，得到的辛相空间决不是唯一的。事实上，Darboux定理暗示了相反的情况。^35、36辛结构没有局部障碍，因此所有2n维辛流形对于标准平面空间都是局部辛对称的 ${R（右）}^{2 n个}$ ⁠。选择一个这样的空间必须取决于其他因素，例如，可能是人类的可解释性或方程的简单性。

该方法可以推广到含时哈密顿函数。这将允许我们处理某些耗散系统。¹⁶一个更广泛的扩展可以允许转换为任意正规形式作为“目标向量场”，因此不受哈密顿系统的约束。在一般情况下，探索我们近似的变换是否在我们的数据上保持有界，或者是否开始显示接近奇点的迹象，这将变得很重要，这表明问题可能无法解决。

鸣谢

这项工作由美国陆军研究办公室（ARO）通过多学科大学研究计划（MURI）资助，由国防高级研究计划局（DARPA）通过其人工智能物理（PAI）计划和协议HR001118C0100（I.M.）资助。

参考文献

1

上午。

阿尔梅达

，

哈密顿系统：混沌与量子化

(

剑桥大学出版社

，

1992

).

谷歌学者

2

A.L.公司。

卡泰里尼

，

A。

杜塞特

、和

D。

塞季诺维奇

，“哈密顿变分自动编码器”，in第32届神经信息处理系统会议记录（Curran Associates，Inc.，2018年），第11页。

三。

B。

张

，

L。

孟

，

E.公司。

哈伯

，

F、。

东

、和

D。

贝格特

，“动态系统视角下的多级剩余网络”，学习表征国际会议（2018年）。

4

R·T·Q。

陈

，

年。

鲁巴诺娃

，

J。

贝当古

、和

D。

杜维诺

, “

神经常微分方程

，“in神经信息处理系统研究进展由S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑（Curran Associates，Inc.，2018），第31卷，pp。

6571

–

6583

(

2018

).

谷歌学者

5

西-东

, “

一种基于动态系统的机器学习方法

,”

Commun公司。数学。斯达。

5

(

1

),

1

–

11

(

2017

).

https://doi.org/10.1007/s40304-017-0103-z

交叉引用

6

R。

冈萨雷斯-加西亚

，

R。

里科·马丁内斯

、和

I.G.公司。

凯夫雷基迪斯

, “

分布参数系统的辨识：一种基于神经网络的方法

,”

计算。化学。工程师。

22

(

98

),

S965系列

–

S968系列

(

1998

).

https://doi.org/10.1016/S0098-1354(98)00191-4

谷歌学者

交叉引用

7

一、。

古德费罗

，

年。

本吉奥

、和

A。

库尔维尔

，

深度学习

(

麻省理工学院出版社

，

2016

).

谷歌学者

8

英国。

格雷夫

，

R.K.公司。

斯里瓦斯塔瓦

、和

J。

施米德胡贝

，“公路和残差网络学习展开迭代估计”，in学习代表国际会议记录(2017).

9

美国。

格雷达纳斯

，

M。

扎姆巴

、和

J。

约辛斯基

，“哈密顿神经网络”，电子版arXiv:1906.01563年(2019).

10

W.R.公司。

汉密尔顿

, “

动力学中的一种通用方法

,”

菲洛斯。事务处理。R.Soc.II公司

1834

，

247

–

308

。

11

英国。

他

，

十、。

张

，

美国。

任

、和

J。

太阳

，“图像识别的深度残差学习”，inIEEE计算机视觉和模式识别会议记录（IEEE，2016），第7卷，第171-180页。

12

E.公司。

凯撒牌手表

，

J。

内森·库茨

、和

S.L.公司。

布伦顿

，《从用于控制的数据中发现守恒定律》2018 IEEE决策与控制会议（CDC）（IEEE，2018）。

13

M。

利维奥

, “

为什么对称很重要

,”

性质

490

(

7421

),

472

–

473

(

2012

).

https://doi.org/10.1038/490472a

谷歌学者

交叉引用

公共医学

14

年。

卢

，

A。

钟

，

问：。

锂

、和

B。

东

，《超越有限层神经网络：桥接深层结构和数值微分方程》，in第35届机器学习国际会议论文集由J.Dy和A.Krause编辑（PMLR，瑞典斯德哥尔摩，2018），第10页。

15

B。

露西（Lusch）

，

J。

内森·库茨

、和

S.L.公司。

布伦顿

, “

非线性动力学普遍线性嵌入的深度学习

,”

国家公社。

9

(

1

),

4950

(

2018

).

https://doi.org/10.1038/s41467-018-07210-0

谷歌学者

交叉引用

公共医学

16

K.T.公司。

麦当劳

，“以z为自变量的哈密顿量”，技术报告(

2015

).

17

R。

莫塔吉

，

H。

巴格莱尼扎德

，

M。

拉斯特加里

、和

A。

法尔哈迪

，“牛顿图像理解：在静态图像中展开物体的动力学”，in2016年IEEE计算机视觉和模式识别会议（CVPR）（IEEE，内华达州拉斯维加斯，2016），第3521–3529页。

18

R。

尼尔

，“MCMC使用哈密顿动力学”，in马尔可夫链蒙特卡罗手册由S.Brooks、A.Gelman、G.Jones和X.-L.Meng编辑（Chapman和Hall/CRC，2011）。

19

E.公司。

诺特

, “

不变变化问题

,”

运输。理论统计物理。

1

(

三

),

186

–

207

(

1971

).

https://doi.org/10.1080/00411457108231446

谷歌学者

交叉引用

20

R。

康多

，

Z.公司。

林

、和

美国。

特里维迪

，“Clebsch-Gordan网：一个全傅里叶空间球面卷积神经网络”，in神经信息处理系统研究进展由S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett编辑（Curran Associates，Inc.，2018），第31卷，第10117–10126页。

21

M。

拉伊西

和

通用电气公司。

卡尼亚达基斯

, “

隐藏物理模型：非线性偏微分方程的机器学习

,”

J.计算。物理学。

357

，

125

–

141

(

2018

).

https://doi.org/10.1016/j.jcp.2017.11.039

谷歌学者

交叉引用

22

M。

拉伊西

，

第页。

佩尔迪卡里斯

、和

通用电气公司。

卡尼亚达基斯

, “

利用噪声多保真数据推断微分方程的解

,”

J.计算。物理学。

335

，

736

–

746

(

2017

).

https://doi.org/10.1016/j.jcp.2017.01.060

谷歌学者

交叉引用

23

C.E.公司。

拉斯穆森

和

C.K.I.公司。

威廉姆斯

，

机器学习的高斯过程（自适应计算和机器学习）

(

麻省理工学院出版社

，

2005

).

谷歌学者

交叉引用

24

D.J.博士。

雷森德

和

美国。

默罕默德

，“规范化流的变分推理”，in第32届机器学习国际会议论文集（PMLR，2015），第9页。

25

R。

里科·马丁内斯

，

注册会计师。

阿道米提斯

、和

I.G.公司。

凯夫雷基迪斯

，“神经网络中的不可逆性”，in1993年IEEE神经网络国际会议论文集（电气与电子工程师学会，1993年），第382–386页。

26

R。

里科·马丁内斯

，

注册会计师。

阿道米提斯

、和

I.G.公司。

凯夫雷基迪斯

, “

神经网络中的不可逆性

,”

计算。化学。工程师。

24

(

11

),

2417

–

2433

(

2000

).

https://doi.org/10.1016/S0098-1354(00)00599-8

谷歌学者

交叉引用

27

R。

里科·马丁内斯

，

J.S.公司。

安德森

、和

I.G公司

凯夫雷基迪斯

，“连续时间非线性信号处理：基于神经网络的灰盒识别方法”，inIEEE信号处理神经网络研讨会论文集（电气和电子工程师协会，1994年）。

28

R。

里科·马丁内斯

和

I.G公司

凯夫雷基迪斯

，“使用神经网络进行非线性系统识别：动力学和不稳定性”，in化学工程师神经网络由A.B.Bulsari（Elsevier，1995）编辑，第409–442页。

29

R。

里科·马丁内斯

，

I.G.公司。

凯夫雷基迪斯

、和

注册会计师。

阿道米提斯

，“神经网络模型中的不可逆动力学”，in第二十八届信息科学和系统年会会议记录（约翰·霍普金斯大学，1994年），第965-969页。

30

R。

里科·马丁内斯

，

I.G.公司。

凯夫雷基迪斯

，

M.C.公司。

库巴河

、和

J·L·。

哈德逊

，“离散与连续非线性信号处理吸引子、转换和并行实现问题”，in美国控制会议（电气和电子工程师协会，1993年），第1475-1479页。

31

R。

里科·马丁内斯

，

英国。

克里斯彻

，

I.G.公司。

凯夫雷基迪斯

，

M.C.公司。

库巴河

、和

J·L·。

哈德逊

, “

铜电解数据的离散与连续非线性信号处理

,”

化学。工程通信。

，

118

(

1

),

25

–

48

(

1992

),

https://doi.org/101080/00986449208936084

国际标准图书编号：0098644920。

谷歌学者

交叉引用

32

M。

施密特

和

H。

利普森

, “

从实验数据中提取自由形式的自然定律

,”

科学类

324

(

5923

),

81

–

85

(

2009

).

https://doi.org/10.1126/science.1165893

谷歌学者

交叉引用

公共医学

33

R.K.公司。

斯里瓦斯塔瓦

，

英国。

格雷夫

、和

J。

施米德胡贝

，“公路网”，in机器学习国际会议论文集（PMLR，2015）。

34

第页。

托斯

，

D。J。

雷森德

，

A。

杰格尔

，

美国。

拉卡尼埃

，

A。

博采夫

、和

一、。

希金斯

，“哈密顿生成网络”，电子版arXiv:1909.13789(2019).

35

J·M·。

李

，

平滑流形简介。数学研究生课程

(

纽约施普林格

，

2012

).

谷歌学者

交叉引用

36

G.公司。

达布

，

普法夫问题的解决。《数学与天文学科学公报》，戈瑟·维拉斯，1882年，第2辑，第6、14–36页

2019

作者

从数据学习哈密顿系统

I.简介

二、。一般说明

三、示例：非线性摇锤

A.使用高斯过程的近似

B.使用人工神经网络的近似

四、从观测资料估计哈密尔顿结构

A.用于变换和哈密顿量联合学习的复合损失函数

B.示例：摆的线性变换

C.示例：摆的非线性变换

D.示例：根据非线性、高维观测数据构建哈密顿系统q个，第页

五、结论

鸣谢

参考文献

通过引用文章

提交你的文章

注册接收警报

资源

探索

pubs.aip.org网站

与AIP Publishing联系

从数据学习哈密顿系统

I.简介

二、。一般说明

三、 示例：非线性摇锤

A.使用高斯过程的近似

B.使用人工神经网络的近似

四、 从观测资料估计哈密尔顿结构

A.用于变换和哈密顿量联合学习的复合损失函数

B.示例：摆的线性变换

C.示例：摆的非线性变换

D.示例：根据非线性、高维观测数据构建哈密顿系统q个，第页

五、结论

鸣谢

参考文献

通过引用文章

提交你的文章

注册接收警报

资源

探索

pubs.aip.org网站

与AIP Publishing联系

此功能仅对订阅服务器可用

三、示例：非线性摇锤

四、从观测资料估计哈密尔顿结构