经营者是榜样

由伊戈尔·梅齐奇

打印

编者按：这篇文章最初出现在2024年3月1日的SIAM新闻上(https://sinews.siam.org/Details-Page/the-operator-is-the-model-2).

物理过程建模是一门创造数学表达式的艺术，这些数学表达式对预测和控制具有实用性。从历史上看，这种模型——比如艾萨克·牛顿的引力动力学模型——依赖于稀疏的观测。20世纪末和21世纪初，用于建模的数据的可用性发生了革命性的增长。事实上，我们正处于传感革命其中，“传感”一词用于数据采集的最广泛含义。数据的激增导致了建模范式的转变。研究人员现在经常使用机器学习（ML）模型（在人工智能的保护伞下）来分析和理解数据，依赖于深层神经网络技术的大型语言模型的爆炸式流行证明了这一点。由于这些模型通常被过度参数化（即，权重的数量是巨大的，以十亿甚至万亿计），单个权重并不意味着什么。为了保证高效的人机通信，我们必须提取可由人解释的模型通过它我们可以自己理解数据。

科普曼算子理论（KOT）最近成为这项任务的主要候选。其关键范例是操作员是模型[9, 10]. 也就是说，KOT假设存在线性算子（U）-本质上是一个无限维矩阵-这样任何系统动力学（U）的观测可以通过方程预测到下一个观测的时间演化

\[f^+=Uf，\tag1\]

其中，\（f\）是某个基础状态空间\（M\）上的函数。建模人员必须找到对预测和控制有用的有限数量的观测值我们没有问“如果位置和动量是可观测的，什么方程描述了它们的动力学演化？”，而是问“如果有可用的数据，什么观测值可以简约地描述它们的动力学？”。这种从状态空间上的动力学设置到可观测空间上的动力学设置的变化\（\mathcal｛O｝\）启发了一种新的建模架构，该架构以\（\mathcal｛O｝\）而不是状态或相空间为模板。

由此产生的方法可用于各种应用环境，如流体动力学、自主性、电网动力学、神经科学和软机器人。该理论依赖于操作理论方法、几何动力系统和ML技术的完美结合。

历史

受量子理论中基于算符的框架的成功推动，伯纳德·库普曼在20世纪30年代提出了一项以类似方式对待经典力学的建议；他建议使用与动力系统演化相关的合成算子的谱特性[5]。但直到20世纪90年代和21世纪初，研究人员才意识到科普曼算子理论方法的广泛应用潜力[10]。在过去十年中，应用的趋势一直在继续。早期的工作强调利用Koopman理论从数据中找到有限维模型[9]。这些模型存在于由特征函数跨越的算子的不变子空间上。找到与离散时间、可能非线性过程相关的算子的特征函数（φ），可以得到过程的简化模型，其动力学由（φ+=λφ）控制；因此，结果是一个潜在的降阶但线性的动力学模型。原始状态空间上本征函数的水平集产生几何上重要的对象，如不变集、等时线和等稳线[8]。这一结果使人们认识到，几何特性可以有学问的通过光谱对象的计算从数据中获取数据，从而在ML和持续增长的动力系统社区之间建立了牢固的联系。推动这些发展的关键概念是将动力系统表示为典型的无穷维函数空间上的线性算子。

然而，有趣的是，将这个问题颠倒过来，从操作符开始，而不是从状态空间模型开始\（U）是系统的属性，但它是否具有有限维（线性或非线性）表示？我们将动态系统表示2021年[10]。我们不是从模型开始构造算子，而是从算子构造有限维线性或非线性模型。这样做有助于研究具有先验未知物理学就像软机器人中的那些[2,4]。

操作员陈述

建模工作通常以矢量（mathbf{f}=（f_1，…，f_n））中的可用观测值目录开始。我们可以将不同的数据流组织成（n次m）矩阵（[mathbf{f}（1），…，mathbf}。为了简单起见，我们假设这些快照是以固定的时间间隔拍摄的，并按顺序组织成列。假设根据一个潜在的未知映射（mathbf{x}（k+1）=T（mathbf{x}）），动力学在一些潜在的状态空间（M）（我们可能不知道）上演化，Koopman（复合）算子（U）由（U）定义。那么，\（\mathbf{f}（k+1）=U\mathbf2}（k）\）。有一个（n次n）矩阵（A）是这样的吗？当（mathbf{f}）在（U）[10]的（n）（广义）本征函数的范围内时，情况确实如此。寻找特征函数的方法包括谱方法[9]和（扩展）动态模式分解[6,13]。我们还可以问一个更一般的问题：是否存在映射\（\mathbf｛F｝：\mathbb｛C｝^n\rightarrow\mathbb｛C｝^n\）和可观察性（函数）\（\mathbf｛g｝：X\rightarrow\mathbb｛C｝^d\），使得

\[U\mathbf{g}=\mathbf1{F}（\mathbf{g}），\tag2\]

其中\（X\）是一些潜在空间，并且\（\mathbf｛g｝=\mathbf｛g｝（\mathbf｛f｝）\）？通常为\（d\geq n\）。[11]中有一个简单的例子，可以找到Koopman算子的非线性表示。

图1。 基于Koopman操作员的建模架构。数字由作者提供。

图1提供了建模过程体系结构的图形表示。如果我们取原始的可观测值（mathbf{f}）和集合（mathbf{g}=mathbf}f}。在这种情况下，观察结果并没有为我们提供一个“闭包”，也就是说，我们无法根据当前状态唯一地预测观察结果的下一个状态，但更复杂的“嵌入”（mathbf{g}）可能可以完成这项工作。有趣的是，该架构类似于大型语言模型的转换器架构[11]。

在\（（2）\）中查找\（（\mathbf{F}，\mathbf2{g}）\的问题称为表示特征问题[10]. 一个严格的结果揭示了表象的性质如何依赖于Koopman算子的谱；如果算子具有离散谱，则可以进行有限线性表示，而如果算子的谱是连续的，则需要有限非线性表示（属于无限维不变子空间）[10]。

解决表示问题的一种方法是利用标准神经网络结构最小化

\[（β^*，γ^*）=\min\limits_{β，γ}||\mathbf{克}_\β（k+1）-\mathbf{F}（F）_\伽马射线（\mathbf{克}_\测试版（k）||，\tag3\]

其中，部分或全部分量（g_j，F_k）由权重为（gamma，beta）的神经网络参数化。这种方法可以与育儿在学习中，该领域的专家可以提出一些关键的观察结果。例如，经典动力学专家可能会建议将（sin theta）作为学习刚性摆动力学的良好观测值，但可能会使用神经网络或时滞观测值来学习物理定律难以推导的软摆的适当观测值[2,4]。这种策略可以混合使用人工指定和机器学习的观察结果。

与其他机器学习方法的扩展和关系

基于Koopman的动态模型ML特别适用于控制系统的扩展[8]。另一个适用的扩展是对不同空间之间的一般非线性映射的ML；随机动力系统也在随机Koopman算子[9，10]的框架内进行了处理。

研究人员在“纯”基于Koopman运算符的方法和其他ML技术之间建立了多种联系。具有预定义的一组可观测值的框架版本在概念上等价于ML中流行的核方法。可以将自回归综合移动平均（ARIMA）模型类视为基于Koopman的方法的子集，深度学习可以帮助识别有效的观察结果，并与大型语言模型中常见的转换器架构建立联系。

此外，一种众所周知的强化学习（RL）方法与KOT建模有关。然而，KOT与RL的最优控制方法存在根本差异；具体来说，RL中的探索策略可能会导致危险场景。在KOT方法中，首先形成模型，以确保只执行安全场景然后，我们指定一个成本函数，以便在保证安全的同时优化任务。KOT方法通常还需要比RL少几个数量级的学习任务执行。

由于其对时间维度的显式处理，Koopman算子模型非常适合处理因果推理[12]。例如，我们可以使用考普曼控制模型来回答反事实问题，例如“如果我采取了不同的行动该怎么办？”事实上，生成性考普曼模型有助于克服自主系统开发中的障碍，这些自主系统展现出人的智能——鲁棒性、适应性、可解释性（可解释性），以及因果关系。该方法现已渗透到大多数动态重领域，并激发了软机器人[2]、4]和游戏建模[1]的最新进展；Koopman操作员甚至进一步研究了神经网络训练[3,7]。这些成功归功于开发的ML算法的有效性以及增强可解释性的基础理论的深度（这在应用数学中很普遍，但在某些ML方法中却没有）。

尽管取得了上述进展，但仍有许多工作要做。对于这一不断增长的数据驱动人工智能方法，当前的十年有望成为一个激动人心的十年，它将推动动态过程模型的发现。

本文的扩展版本可以在线获得[11].

工具书类
[1] Avila，A.M.，Fonoberova，M.，Hespanha，J.P.，Mezić，I.，Clymer，D.，Goldstein，J.，…Javorsek，D.（2021）。使用基于Koopman的学习实现游戏平衡。在2021年美国控制会议（ACC）（第710-717页）。IEEE控制系统协会。
[2] Bruder，D.、Fu，X.、Gillespie，R.B.、Remy，C.D.和Vasudevan，R.（2020年）。使用Koopman算子理论的软机器人数据驱动控制。IEEE传输。机器人。,37(3), 948-961.
[3] Dogra，A.S.和Redman，W.（2020年）。通过Koopman算子理论优化神经网络。在神经信息处理系统的进展33（NeurIPS 2020）（第2087-2097页）。Curran Associates公司。
[4] Haggerty，D.A.、Banks，M.J.、Kamenar，E.、Cao，A.B.、Curtis，P.C.、Mezić，I.和Hawkes，E.W.（2023年）。利用惯性动力学控制软机器人。科学。机器人。,8（81），第6864页。
[5] 库普曼，B.O.（1931）。希尔伯特空间中的哈密顿系统和变换。程序。美国国家科学院。科学。,17(5), 315-318.
[6] Kutz，J.N.、Brunton，S.L.、Brunton，B.W.和Proctor，J.L.（2016）。动态模式分解：复杂系统的数据驱动建模宾夕法尼亚州费城：工业和应用数学学会。
[7] Manojlović，I.、Fonoberova，M.、Mohr，R.、Andrejćuk，A.、Drmać，Z.、Kevrekidis，Y.和Mezić，I.（2020年）。Koopman模式分析在神经网络中的应用。预打印，arXiv:2006.11765年.
[8] Mauroy，A.、Mezić，I.和Susuki，Y.（编辑）（2020年）。系统和控制中的Koopman操作员：概念、方法和应用.英寸控制与信息科学课堂讲稿（第484卷）。瑞士查姆：施普林格自然。
[9] Mezić，I.（2005年）。动力系统的谱性质，模型的约简和分解。农林。戴恩。,41, 309-325.
[10] Mezić，I.（2021）。库普曼算子、几何学和动力系统学习。不是。美国数学。Soc公司。,68(7), 1087-1105.
[11] Mezić，I.（2023）。操作员是模型。预打印，arXiv:2310.18516v2.
[12] Pearl，J.（2019）。因果推理的七种工具，以及对机器学习的反思。Commun公司。ACM公司,62(3), 54-60.
[13] Williams，M.O.、Kevrekidis，I.G.和Rowley，C.W.（2015）。Koopman算子的数据驱动近似：扩展动态模式分解。非线性科学杂志。,25, 1307-1346.