跳到主要内容

基于可行性的固定点网络

摘要

反问题包括从噪声测量的集合中恢复信号。这些问题通常可以归结为可行性问题;然而,额外的正则化通常是必要的,以确保关于数据扰动的准确和稳定恢复。手选解析正则化可以产生理想的理论保证,但由于无法利用大量可用数据,此类方法恢复信号的有效性有限。为此,这项工作以理论上合理的方式融合了数据驱动的正则化和凸可行性。这是通过基于可行性的固定点网络(F-FPN)实现的。每个F-FPN定义了一组非扩张算子,每个非扩张算子由基于投影的算子和数据驱动的正则化算子组成。不动点迭代用于计算这些算子的不动点,并调整算子的权重,使不动点紧密地表示可用数据。数值示例表明,与用于CT重建的标准基于电视的恢复方法和基于算法展开的类似神经网络相比,F-FPN的性能有所提高。Github上提供了代码:github.com/howardheaton/feasibility固定点网络

1引言

反问题出现在许多应用中,如医学成像[1——4],相位恢复[5——7],地球物理学[8——13]和机器学习[14——18]. 反问题的目标是恢复信号脚注1\(u{d}^{\star}\)来自一组间接噪声测量d日这些量通常通过线性映射关联A类通过

$$d=一个u_{d}^{\star}+\varepsilon$$
(1)

哪里ε是测量噪声。逆问题通常不成立,使信号恢复\(u{d}^{\star}\)受噪声影响的数据不稳定d日。为了克服这一点,传统方法估计信号\(u{d}^{\star}\)通过解决方案\(\波浪号{u}_{d} \)变分问题

$$\min_{u}\ell(A u,d)+J(u)$$
(2)

哪里是一个保真度项,用于测量测量值和正向算子应用之间的差异A类信号估计(例如最小二乘法)。功能J型作为正则化器,确保(2)是唯一的,并且其计算是稳定的。除了确保良好的状态外,构建正则化器的目的是为了灌输对真实信号的先验知识例如稀疏\(J(u)= [19——22]蒂霍诺夫\(J(u)=\|u\|^{2}) [23,24],总变化(TV)\(J(u)=\|nabla u\|_{1}) [25,26]以及最近的数据驱动正则化器[27——29]. 使用数据驱动正则化的进一步推广包括即插即用(PnP)方法[30——32],用先前训练的去噪器代替优化算法中的近端算子。

正则化的一个基本主题是,在高维空间中表示的信号通常具有共同的结构。虽然手工挑选的正则化器可能承认理想的理论性质先验的知识,他们通常无法利用可用数据。一个理想的正则化器将利用可用的数据来最好地捕获真实信号的输出重建估计所应显示的核心特性。神经网络在这方面取得了巨大的成功,取得了最先进的成果[33,34]. 然而,纯数据驱动的机器学习方法几乎无法利用问题的潜在物理特性,这可能导致对数据的遵从性较差[35]. 另一方面,快速可行性搜索算法(例如参见[36——40]以及其中的参考文献)有效利用已知物理来解决反问题,能够处理大规模约束集[36,41——43]. 因此,一个相对尚未解决的问题仍然存在:

是否可以将可行性搜索算法与数据驱动的正则化融合,以改进重建并产生收敛?这项工作肯定地回答了上述问题。关键思想是使用机器学习技术创建映射\(T_{\Theta}\),通过权重θ参数化。对于固定测量数据d日,\(T_{\Theta}(\cdot;d)\)形成一个具有可行性算法中使用的标准属性的运算符。不动点迭代用于查找\(T_{\Theta}(\cdot;d)\)并且调整权重θ,使得这些固定点既类似于可用的信号数据,又与测量一致(直到噪声级)。

贡献

这项工作的核心贡献是以保持理论保证的方式将强大的可行性搜索算法与数据驱动的正则化联系起来。这是通过提出一个基于可行性的固定点网络(F-FPN)框架来实现的,该框架解决了一个已知的可行性问题。数值算例表明,与基于TV的方法和通过算法展开形成的固定深度神经网络相比,该公式具有显著的性能优势。

大纲

我们首先概述了凸可行性问题(CFPs)和一个习得的可行性问题(第节2). 接下来将讨论相关的神经网络材料(第节)然后是我们提议的F-FPN框架(第节4). 然后提供数值示例并进行讨论和得出结论(第节56).

2凸可行性背景

2.1可行性问题

凸可行性问题(CFP)出现在许多实际应用中例如成像、传感器网络、放射治疗治疗计划(参见[36,44,45]以及其中的参考)。我们将CFP设置和相关方法形式化如下。\({\mathcal{U}}\)\({\mathcal{D}}\)是有限维希尔伯特空间,分别称为信号空间和数据空间。脚注2给定关于线性反问题的额外知识,测量数据\(在{\mathcal{d}}\中为d\)可用于表示由真实信号求解的CFP\({\mathcal{u}}中的u_{d}^{\star}\)当测量无噪音时。也就是说,数据d日可用于定义集合\({{\mathcal{C}}{d,j}{j=1}^{m})的闭凸子集\({\mathcal{U}}\)(例如超平面)使真实信号\(u{d}^{\star}\)包含在它们的交集中即。 \(u{d}^{\star}\)解决问题

$$\text{查找$u_{d}$,使{\mathcal{C}}{d}\triangleq\bigcap{j=1}^{m}{mathcal}}{d,j}中的}\quad u_{d\$$
(CFP)

解决问题的通用方法(CFP公司),除其他外,是使用投影算法[46],它利用正交投影到各个集合上\({\mathcal{C}}_{d,j}\).对于闭集、凸集和非空集\({\mathcal{C}}\subseteq{\mathcal{U}}\),投影\(P_{\mathcal{C}}}:{\mathcal{U}}\rightarrow{\mathcal{C}}\)到上面\({\mathcal{C}}\)由定义

$$P_{{\mathcal{C}}}(u)\triangleq\mathop{\operatorname{argmin}}_{v\在{\mathcal{C{}}\frac{1}{2}\Vertv-u\Vert^{2}中$$
(3)

投影算法本质上是迭代的,每次更新都使用对每个集合的投影组合\({\mathcal{C}}_{d,j}\)基于这样的原则,通常投射到单个集合上要比投射到它们的交集上容易得多。这些方法可以追溯到20世纪30年代[47,48]并且现在已经被改编成处理尺寸庞大的问题,对于这些问题,由于内存需求,更复杂的方法不再有效,甚至不再适用[36]. 计算简单性源于这样一个事实,即投影算法的构建块是对单个集合的投影。内存效率的出现是因为算法结构是连续的或同时的(或混合的),就像块迭代投影方法一样[49,50]和字符串平均投影方法[36,51——53]. 这些算法生成的序列可以解决(CFP公司)渐近地,并且更新操作可以是迭代相关的(例如循环投影)。我们让\({\mathcal{A}}_{d}^{k}\)是的更新运算符k个投影算法求解的第步(CFP公司). 因此,每个投影算法生成一个序列\({u^{k}\}_{k\in{mathbb{N}}\)通过定点迭代

$$u^{k+1}\triangleq{\mathcal{A}}_{d}^{k}\bigl(u^{k}\bigr)\quad\text{表示所有$k\in{mathbb{N}$.}$$
(FPI)

这种方法的一个常见假设是所有算法算子的不动点集的交集脚注包含或形成所需的集合\({\mathcal{C}}_{d}\) 即。

$${\mathcal{C}}_{d}=\bigcap_{k=1}^{\infty}\mathrm{fix}\bigl({\mathcal{A}}_}{d}^{k}\bigr)$$
(4)

\({{\mathcal{A}}_{d}^{k}\}_{k\在{\mathbb{N}}}\中)在一组投影上循环。

2.2数据驱动的可行性问题

如前所述,反问题通常不成立(CFP公司)不足以忠实地恢复信号\(u{d}^{\star}\)此外,当存在噪音时,通常情况下十字路口是空的(即。 \({\mathcal{C}}_{d}=\emptyset\)). 这需要不同的模型来恢复\(u{d}^{\star}\)到目前为止,投影方法仅限于正则化(例如优势化[54——58],稀疏的Kaczmarz[59,60]). 通过\(\ell_{1}\)最小化,这种方法通常不会产生超出可行性的保证(例如将正则化子最小化可能是可取的\({\mathcal{C}}_{d}\)). 我们建议以某种方式组合投影算法和数据驱动的正则化算子,以便每次更新都类似于近似粒度步骤。这是通过参数化映射实现的\(R_{\Theta}:{\mathcal{U}}\rightarrow{\matchcal{U}{\),带砝码脚注4用θ表示。此映射直接利用可用数据(在第节中解释)学习真正感兴趣的信号之间共享的特征。我们增加(CFP公司)通过使用运算符\({{\mathcal{A}}_{d}^{k}\}_{k\在{\mathbb{N}}}\中)用于解决(CFP公司)而是解决学习到的公共不动点(L-CFP公司)问题

$$\text{查找$\tilde{u}_{d} $这样}\quad\tilde{u}_{d} \in{\mathcal{C}}_{\Theta,d}\triagleq\bigcap_{k=1}^{\finty}\mathrm{fix}\bigl({\mathcal{A}}_{d}^{k}\circ R_{\Theta}\bigr)$$
(左旋CFP)

松散地说,当\(R_{\Theta}\)选择得好,信号\(\波浪号{u}_{d} \)非常接近\(u{d}^{\star}\)

我们利用经典算子结果来求解(L-CFP公司). 操作员\(T \冒号{\mathcal{U}}\右箭头{\mathcal{U}}\)非扩张如果是1-Lipschitz即。

$$\bigl\Vert T(u)-T(u)\bigr\Vert\leq\Vert u-v\Vert\quad\text{用于所有$u,v\in{\mathcal{u}}$.}$$
(5)

此外,T型平均如果存在\((0,1)中的α)和一个非扩张算子\(Q:{\mathcal{U}}\rightarrow{\matchcal{U}{\)这样的话\(T(u)=(1-\α)u+\αQ(u)\)为所有人\({\mathcal{u}}\中的u\)例如,投影\(P_{{\mathcal{S}}}\)定义于()与凸投影组合求平均值[61]. 我们的方法利用了以下标准假设,这些假设通常由投影方法满足(在无噪声环境中\(R_{\Theta}\)作为身份)。

假设2.1

交集\({\mathcal{C}}_{\Theta,d}\)定义于(L-CFP公司)非空且\(({({\mathcal{A}}_{d}^{k}\circ R{\Theta})}_{k\in{\mathbb{N}}\)形成一系列非扩张算子。

假设2.2

对于任何序列\({u^{k}\}_{k\在{\mathbb{N}}\子集{\mathcal{u}}\中),运算符的顺序\(({({\mathcal{A}}_{d}^{k}\circ R{\Theta})}_{k\in{\mathbb{N}}\)拥有财产

$$\lim_{k\rightarrow\infty}\bigl\Vert\bigl({\mathcal{A}}_{d}^k}\circ R_{Theta}\bigr)\bigl{k}\bigr)-u^{k}\ bigr\Vert=0$$
(6)

当有限的更新操作集合被循环使用和应用(本质上)时,先前的假设自动成立(例如设置\({\mathcal{A}}_{d}^{k}\triangleqP_{\matchcal{C}}__{d,i_{k}}}\)\(i{k}\triangleqk\\text{mod}(m)+1)). 我们使用学习到的不动点迭代来求解(L-CFP公司)

$$u^{k+1}\triangleq\bigl({\mathcal{A}_{d}^{k}\circ R_{\Theta}\bigr)\bigle(u^{k}\biger)\quad\text{表示{\mathbb{N}$.}中的所有$k\$$
(L-FPI)

对(L-FPI公司)迭代由以下定理提供,这些定理从其原始形式重写为与当前上下文匹配的方式。

定理2.1

(克拉斯诺塞尔斯基-曼恩[62,63])

如果 \((({\mathcal{A}}_{d}\circ R_{\Theta})\冒号{\matchcal{U}}\rightarrow{\mathcal{U}}\) 是平均值并且有一个固定点,然后,对于任何 \({\mathcal{u}}\中的u^{1}\),顺序 \({u^{k}\}_{k\in{mathbb{N}}\) 由生成(L-FPI公司), \({\mathcal{A}}_{d}^{k}\circ R{\Theta}={\matchcal{A}{{d}\cick R{\Theta}\),收敛到 \({\mathcal{A}}{d}\circ R{Theta}\)

定理2.2

(Cegieslki,定理3.6.2[61])

如果假设 2.1 2.2持有,如果 \({u^{k}\}_{k\in{mathbb{N}}\) 是迭代生成的序列(L-FPI公司)令人满意的 \(\|u^{k+1}-u^{k}\|\右箭头0\),然后 \({u^{k}\}_{k\in{mathbb{N}}\) 收敛到极限 \(u^{\infty}\在{\mathcal{C}}_{\Theta,d}\中)

固定点网络概述

人工智能中最有希望的领域之一是深度学习,这是一种使用包含许多隐藏层的神经网络的机器学习形式[64,65]. 本工作背景下的深度学习任务可以按以下方式进行。给定测量值d日从分布中提取\({\mathbb{P}}_{\mathcal{D}}}\)以及相应的信号\(u{d}^{\star}\)从分布中提取\({\mathbb{P}}_{\mathcal{U}}}\),我们寻找一个映射\({\mathcal{N}}_{\Theta}\colon{\mathcal{D}}\rightarrow{\matchal{U}}\)这近似于测量值和信号之间的一一对应即。

$${\mathcal{N}}_{\Theta}(d)\approxix u_{d}^{\star}\quad\text{对于所有$d\sim{\mathbb{P}}_}{\mathcal{d}}}$.}$$
(7)

根据给定数据的性质,手头的任务可以是回归或分类。在这项工作中,我们专注于解决回归问题被监督的 即。损失函数显式地使用输入和输出数据对之间的对应关系。当损失函数不使用此对应关系时(或当并非所有数据配对都可用时),学习是半监督的如果使用了部分配对,并且无监督的如果没有使用配对。

3.1循环神经网络

通用模型\({\mathcal{N}}_{\Theta}\)由递归神经网络(RNN)给出[66]在自然语言处理(NLP)方面取得了巨大成功[67],时间序列[68]、和分类[68]. N个-层RNN获取观测数据d日作为输入,可以建模为N个-映射的折叠合成\(T_{\Theta}\)通过

$$\开始{aligned}{\mathcal{N}}_{\Theta}\triangleq\下大括号{T_{Theta}\circ T_{Theta}\cick\ldots\circ T-{Theta{}_{N\text{times}}。\结束{对齐}$$
(8)

在这里,\(T_{\Theta}(u;d)\)是一个由(可能)不同仿射映射和非线性的有限应用序列组成的算子,以及u个初始化为某个固定值(例如零矢量)。识别忠实映射\({\mathcal{N}}_{\Theta}\)如中所示(7),我们解决了一个培训问题。这被建模为寻找使预期损失最小化的权重,这通常使用SGD等优化方法来解决[69]和Adam[70]. 特别是,我们解决了培训问题

$$\min_{\Theta}{\mathbb{E}}_{d\sim\mathcal{d}}\bigl[\ell\bigl({\mathcal{N}}{\Theta}(d),u_{d}^{\star}\bigr]$$
(9)

哪里\(\ell\colon{\mathcal{U}}\times{\mathcal{U{}}\ to{\mathbb{R}}\)模拟预测之间的差异\({\mathcal{N}}_{\Theta}(d)\)网络和训练数据\(u{d}^{\star}\)在实践中(9)使用数据的有限子集进行近似,这称为训练数据。除了最大限度地减少训练数据外,我们还致力于(7)持有一套测试数据培训期间未使用的(测试网络的能力概括).

备注3.1

我们强调,使用耗时的离线流程来寻找解决方案\(\Theta^{\star}\)至(9)(这在机器学习中很常见)。之后,在在线设置中,我们应用\({\mathcal{N}}_{\Theta^{\star}}(d)\)恢复信号\(u{d}^{\star}\)根据之前未见过的测量结果d日,这是一个更快的过程。

备注3.2

如果我们将特定结构强加给\(T_{\Theta}\),如图所示1,一个N个-层RNN可以被解释为一种展开的固定点(或优化)算法,运行N个迭代。我们的实验将我们提出的方法与这种展开方案进行了比较。

图1
图1

学习的定点迭代中的更新操作图(L-FPI公司)解决(L-CFP公司). 在这里\(R_{\Theta}\)由(可能)不同仿射映射的有限应用序列组成(例如卷积)和非线性(例如非负正值的投影即。ReLUs)。对于每个\(k\在{\mathbb{N}}\中),我们让\({\mathcal{A}}_{d}^{k}\)是一个基于投影的算法操作符。的参数θ\(R_{\Theta}\)通过解决以下问题在脱机过程中进行调优(9)以确保信号得到如实恢复。

3.2固定点网络

增加神经网络深度可提高表达能力[71,72]. 深度学习的一个最新趋势是探索:当重复层的数量N个走向无穷大?由于内存需求不断增长(与N个)为了训练网络,直接展开通过连续应用生成的序列\(T_{\ Theta}\)一般来说,对于任意大的N个然而,序列极限可以使用不动点方程建模。在这种情况下,评估固定点网络(FPN)[73]相当于找到一个平均算子的唯一不动点\(T_{\Theta}(\cdot;d)\) 即。一个FPN\({\mathcal{N}}_{\Theta}\)由定义脚注5

$${\mathcal{N}}_{\Theta}(d)\trianglequ_{\Theta,d},\quad\text{其中}u_{\ Theta,d{=T_{\Theta}(u_{\Theta,d};d)$$
(10)

标准结果[74——76]可以用来保证存在脚注6非扩张不动点的\(T_{\Theta}\).迭代应用\(T_{\Theta}\)产生收敛序列(定理2.1). 然而,对于不同的d日,收敛的步数可能不同,因此这些模型属于隐式深度模型如前所述,在计算上很难区分通过将链式规则应用于每个N个层(当N个足够大)。相反,梯度\(\mathrm{d}\ell/\mathrm{d}\ Theta\)通过隐函数定理计算[77]. 具体来说,梯度是通过求解雅可比逆方程获得的(例如参见[78——80])

$$\frac{\mathrm{d}\ell}{\mathm{d}\Theta}={\mathcal{J}}_{\Theta}^{-1}\frac{\partialT}{\parial\Theta{,\quad\text{where}{\mathcal{J2}_{\Theta{\triangleqI-\frac}dT_{\Theta}{du}$$
(11)

求解雅可比逆方程的最新工作(11)训练神经网络包括深度平衡网络[78,81]和单调平衡网络[79]. 计算过孔梯度时出现了一个关键困难(11)尤其是当信号空间具有大尺寸时(例如什么时候\(u{d}^{\star}\)是高分辨率图像)。即包含雅可比项的线性系统\({\mathcal{J}}_{\Theta}\)必须近似求解以估计最近,一种新的隐式深度模型训练框架,称为无Jacobian反向传播(JFB)[73],是在FPN的背景下提出的,它避免了每一步都要进行密集的线性系统求解。其思想是替换渐变\(\mathrm{d}\ell/\mathrm{d}\ Theta\)更新了\(\部分T/\部分\Theta\),相当于预处理梯度(因为\({\mathcal{J}}_{\Theta}^{-1}\)是强制性的[73,引理A.1])。JFB提供了下降方向,并被发现在以大幅降低的计算成本训练隐式深度神经网络方面具有有效性和竞争力。由于目前的工作解决了信号空间维数很高的逆问题,因此我们利用FPN和JFB来解决(9)对于我们提出的方法。

3.3学习优化

机器学习的一个新兴领域被称为“学习优化”(L2O)(例如见测量工程[82,83]). 作为对传统优化算法设计的一种范式转变,L2O使用机器学习来改进优化方法。基于模型的算法通常使用两种方法。即插即用(PnP)方法学习神经网络形式的去噪器,然后将该去噪器插入优化算法(例如替换近端以实现完全变异)。在这里,降噪器的培训与手头的任务是分开的。另一方面,展开方法将可调权重合并到一个截断为固定迭代次数的算法中,形成一个神经网络[84]通过让更新中的每个矩阵可调,获得了第一个主要的L2O方案学习ISTA(LISTA)。后续论文也证明了在各种应用中的经验成功,包括压缩传感[85——93],去噪[29,88,93——99]和去模糊[88,93,95,100——105]. L2O方案与我们的方法有关,但据我们所知,没有一个L2O方案像(L-CFP公司). 此外,我们的JFB训练方案不同于L2O展开和PnP方案。

4建议的方法

在此,我们提出了基于可行性的FPN(F-FPN)。虽然基于FPN,但这里我们用一系列操作符替换FPN中的单个操作符,每个操作符都采用组合的形式。也就是说,我们在迭代中使用更新(L-FPI公司). 可以大致确保收敛所需的假设(例如参见小节A.4款在中附录). 该迭代产生F-FPN\({\mathcal{N}}_{\Theta}\),由定义

$${\mathcal{N}}_{\Theta}(d)\triangleq\tilde{u}_{d} ,\quad\text{where}\tilde{u}_{d} =\bigcap_{k=1}^{\infty}\mathrm{fix}\bigl({\mathcal{A}}_{d}^{k}\circ R_{\Theta}\bigr)$$
(12)

假设交叉点是唯一的。脚注7这大致是通过算法1来实现的。网络的权重θ\({\mathcal{N}}_{\Theta}\)通过解决培训问题进行调整(9). 在理想情况下,最佳权重\(Theta ^{\star}\)解决(9)将产生可行的输出(即。 \({\mathcal{N}}_{\Theta}(d)\in{\mathcal{C}}__{d}\)用于所有数据\(在{\mathcal{C}}\中为d\))这也类似于真实的信号\(u{d}^{\star}\)然而,实际中的测量噪声使得\({\mathcal{N}}_{\Theta}(d)\)是可行的,更不用说\({\mathcal{C}}_{d}\)不是空的。在嘈杂的环境中,这不再是一个问题,因为我们增加了(CFP公司)通过(L-CFP公司)并最终负责恢复信号\(u{d}^{\star}\),而不是解决可行性问题。总之,我们的模型基于问题的基础物理(通过凸可行性结构),但也通过训练问题由可用数据控制(9). 第节提供了该方法的有效性说明5

算法1
图a

基于可行性的固定点网络(F-FPN)

5实验

本节中的实验证明了F-FPN和类似方案的相对重建质量,特别是滤波反投影(FBP)[106],总变差(TV)最小化(类似于[107,108]),总变异优势化(基于[109,110])以及具有RNN结构的展开L2O方案。

5.1实验装置

对两个低剂量CT示例进行了比较:合成数据集(由随机椭圆图像组成)和LoDoPab数据集[111]它由人类幻影组成。对于这两个数据集,CT测量是用平行光束几何结构模拟的,稀疏角度设置仅为30个角度和183个投影光束,产生5490个方程和16384个未知数。此外,我们为每个单独的光束测量添加1.5%的高斯噪声。此外,图像的分辨率为\(128乘以128)像素。使用峰值信噪比(PSNR)和结构相似性指数度量(SSIM)来确定图像重建的质量。我们使用PyTorch深度学习框架[112]和ADAM[70]优化器。我们还使用了操作符离散化库(ODL)python库[113]计算滤波后的反投影解。CT实验在谷歌Colab笔记本上进行。对于所有方法,我们都使用单个对角松弛正交投影(DROP)[37]操作员\({\mathcal{A}}_{d}\)(即。 \({\mathcal{A}}_{d}^{k}={\matchcal{A}{{d}\)为所有人k个)注意,相对于依赖于A类[114]. 损失函数用于训练的是重建估计与相应真实信号之间的均方误差。我们使用一个合成数据集,由组合椭圆的随机模型组成,如[115]. 椭圆训练集和测试集分别包含10000对和1000对。我们还使用了通过基准低剂量平行束数据集(LoDoPaB)从实际人体胸部CT扫描获得的模型[111]. LoDoPab训练和测试集分别包含20000对和2000对。

5.2实验方法

电视优势化

连续应用运算符生成的序列\({\mathcal{A}}_{d}\)已知即使在存在可和扰动的情况下也会收敛,可有意添加这些扰动以降低正则化器值(例如电视)在不影响融合的情况下,从而提供“优越”的可行点。与最小化方法相比,优势化通常只保证可行性,但通常能够以较低的计算成本做到这一点。此方案表示为TVS,生成更新

$$u^{k+1}={\mathcal{A}}_{d}\biggl(u^{k}-\alpha\beta^{k}d_{-}^{\top}\bigl(\frac{d_{+}u}{\VertD_{++}u\Vert_2}+\varepsilon}\bigr)\biggr)\quad\text{用于$k=1,2,\ldots,20$,}$$
(13)

哪里\(D_{-}\)\(D_{+}\)是正向和反向差分运算符,\(\varepsilon>0\)为了稳定性,添加了20次迭代作为早期停止,以避免对噪声过度拟合。差分运算产生各向同性TV的导数(例如参见[116]). 标量\(阿尔法>0)\(β\在(0,1)中\)选择最小训练均方误差。参见上级目录[117]获取更多TVS材料。

电视最小化

对于第二种分析比较方法,我们使用各向异性TV最小化(TVM)。在这种情况下,我们解决了约束问题

$$\min_{u\ in[0,1]^{n}}\Vert D_{+}u\Vert_{1}\quad\text{这样}\Vert-Au-D\Vert\leq\varepsilon$$
(电视)

哪里\(\varepsilon>0\)是一个手动选择的标量,反映测量噪声水平和上的框约束u个包括在内,因为所有信号在间隔中都有像素值\([0,1]\)。我们使用线性化ADMM[118]解决(电视监控)并将此模型称为电视最小化(电视监控). 实施细节见附录

F-FPN结构

操作员的架构\(R_{\Theta}\)模仿了开创性的工作[119]在剩余网络上。F-FPN和展开方案都利用了相同的结构\(R_{\Theta}\)和DROP运算符\({\mathcal{A}}_{d}\).操作员\(R_{\Theta}\)是四个剩余块的组成。每个剩余块采用单位映射加上泄漏ReLU激活函数和卷积(两次)的组合形式。中的网络权重数\(R_{\Theta}\)每个设置有96307个,根据机器学习标准,这个数字很小。有关更多详细信息,请参阅附录

5.3实验结果

我们的结果表明,F-FPN优于所有经典方法以及展开数据驱动方法。图中显示了通过椭圆和LoDoPab测试数据集的宽图像和放大图像进行单个重建的结果2和数字45分别是。整个椭圆和LoDoPab数据集的平均SSIM和PSNR值如表所示12。我们强调,噪声类型取决于每一条射线,其方式与[120],使得测量比一些相关工作更嘈杂。分析方法重建的质量差说明了我们欠定设置的这种噪声和不适。(然而,我们注意到通过使用TV而不是FBP进行改进,以及通过TV最小化而不是TV优化进行进一步改进。)尽管在结构上与F-FPN几乎相同,但这些结果表明,在这些实验中,展开方法不如F-FPN。我们假设这是因为展开需要大量内存(不像F-FPN),这限制了展开步骤的数量(20步与100+步的F-FPN),F-FPN被调整为优化固定点条件,而不是固定数量的更新。

图2
图2

利用每种方法的测试数据进行椭圆重建:滤波反投影(FBP)、电视优化(TVS)、电视最小化(TVM)、展开网络和提出的基于可行性的固定点网络(F-FPN)。

图3
图3

利用图的测试数据进行椭圆的放大重建2对于每种方法:FBP、TVS、TVM、展开和所提出的F-FPN。

图4
图4

利用每种方法的测试数据进行LoDoPab重建:滤波反投影(FBP)、电视优化(TVS)、电视最小化(TVM)、展开网络和提出的基于可行性的固定点网络(F-FPN)。

图5
图5

使用图中的测试数据放大LoDoPab重建4对于每种方法:FBP、TVS、TVM、展开和建议的F-FPN。

表1 1000图像椭圆测试数据集的平均PSNR和SSIM。
表2 2000年LoDoPab图像测试数据集的平均PSNR/SSIM。

6结论

这项工作将可行性搜索算法和数据驱动算法联系起来(即。神经网络)。F-FPN框架利用了定点方法的优雅性,同时使用最先进的训练方法进行隐式深度学习。这会产生一系列学习的运算符\({{\mathcal{A}}_{d}^{k}\circ R{\Theta}\}_{k\ in{\mathbb{N}}\)可以重复应用,直到获得收敛。预计该极限点与提供的约束条件(达到噪声级)几乎兼容,并类似于真实信号的收集。所提供的数值示例表明,F-FPN相对于经典方法和基于展开的网络都获得了改进的性能。未来的工作将把FPN扩展到更广泛的优化问题,并进一步建立将机器学习与不动点方法联系起来的理论。

数据和材料的可用性

可通过以下链接下载所有数据:https://drive.google.com/drive/folders/1Z0A3c-D4dnrhlXM8cpgC1b7Ltyu0wpgQ?usp=共享也可以在提供代码的github链接中访问数据。

笔记

  1. 当我们提到信号时,这个短语通常是用来描述可以用数学方法表示的感兴趣的对象(例如图像、微分方程的参数和欧氏空间中的点)。

  2. 内积和范数表示为\(\langle\cdot,\cdot\rangle\)\(\|\cdot\|\)分别是。虽然我们对每个空间使用相同的符号,但从上下文中可以清楚地看到使用的是哪一个。

  3. 对于操作员T型,其不动点集为\(\mathrm{fix}(T)\triangleq\{u:u=T(u)\}\)

  4. 操作员权重通常也称为参数。

  5. 所给出的定义与原始作品略有不同,适合于此设置。

  6. 最初的FPN论文使用了一个更严格的收缩条件来保证唯一性,并证明了在训练期间如何更新权重。然而,我们在更一般的情况下使用他们的方法,因为收缩因子可以任意接近于一。

  7. 独特性在实践中是不可能的;然而,这个假设是合理的,因为我们使用相同的初始迭代\(u^{1}\)对于每个初始化。这使得相同信号的恢复相对于θ的变化是稳定的。

工具书类

  1. Arridge,S.R.:医学成像中的光学层析成像。反向探测。15(2), 41 (1999)

    第条 数学科学网 数学 谷歌学者 

  2. Arridge,S.R.,Schotland,J.C.:光学层析成像:正问题和逆问题。反向探测。25(12) ,123010(2009年)

    第条 数学科学网 数学 谷歌学者 

  3. Hansen,P.C.,Nagy,J.G.,O'leary,D.P.:去模糊图像:矩阵、光谱和滤波。SIAM,费城(2006)

     数学 谷歌学者 

  4. Osher,S.,Burger,M.,Goldfarb,D.,Xu,J.,Yin,W.:基于全变量的图像恢复的迭代正则化方法。多尺度模型。模拟。4(2), 460–489 (2005)

    第条 数学科学网 数学 谷歌学者 

  5. Bauschke,H.H.、Combettes,P.L.、Luke,D.R.:相位恢复、误差减少算法和场变量:凸优化观点。JOSA公司19(7), 1334–1345 (2002)

    第条 数学科学网 谷歌学者 

  6. Candes,E.J.,Eldar,Y.C.,Strohmer,T.,Voroninski,V.:通过矩阵补全进行相位恢复。SIAM版本。57(2), 225–251 (2015)

    第条 数学科学网 数学 谷歌学者 

  7. Fung,S.W.,Di,Z.W.:大规模心电相位恢复的多重网格优化。SIAM J.成像科学。13(1), 214–233 (2020)

    第条 数学科学网 数学 谷歌学者 

  8. Bui-Thanh,T.,Ghattas,O.,Martin,J.,Stadler,G.:无限维贝叶斯反问题的计算框架第一部分:线性化情况,应用于全球地震反演。SIAM J.科学。计算。35(6), 2494–2523 (2013)

    第条 数学科学网 数学 谷歌学者 

  9. Fung,S.W.,Ruthotto,L.:PDE参数估计中模型降阶的多尺度方法。J.计算。申请。数学。350, 19–34 (2019)

    第条 数学科学网 数学 谷歌学者 

  10. Fung,S.W.,Ruthotto,L.:并行PDE参数估计的不确定性加权异步ADMM方法。SIAM J.科学。计算。41(5), 129–148 (2019)

    第条 数学科学网 数学 谷歌学者 

  11. Haber,E.,Ascher,U.,Aruliah,D.,Oldenburg,D.:利用电势快速模拟三维电磁问题。J.计算。物理学。163(1), 150–171 (2000)

    第条 数学 谷歌学者 

  12. Haber,E.,Ascher,U.M.,Oldenburg,D.W.:使用不精确的全向方法反演频域和时域中的三维电磁数据。地球物理学69(5), 1216–1228 (2004)

    第条 谷歌学者 

  13. Kan,K.,Fung,S.W.,Ruthotto,L.:Pnkh-b:用于大规模有界约束优化的投影牛顿-克利洛夫方法。SIAM J.科学。计算。0, 704–726 (2021)

    第条 数学 谷歌学者 

  14. Cucker,F.,Smale,S.:学习理论中正则化参数的最佳选择:关于偏方差问题。已找到。计算。数学。2(4), 413–428 (2002)

    第条 数学科学网 数学 谷歌学者 

  15. Fung,S.W.:地球物理学和机器学习中的大尺度参数估计。埃默里大学博士论文(2019年)

  16. Haber,E.,Ruthotto,L.:深层神经网络的稳定架构。反向探测。34(1), 014004 (2017)

    第条 数学科学网 数学 谷歌学者 

  17. Vito,E.D.,Rosasco,L.,Caponnetto,A.,Giovannini,U.D.,Odone,F.:作为反问题从例子中学习。J.马赫。学习。物件。6, 883–904 (2005)

    数学科学网 数学 谷歌学者 

  18. Wu Fung,S.、Tyrväinen,S.,Ruthotto,L.、Haber,E.:ADMM-Softmax:多项式逻辑回归的ADMM方法。电子。事务处理。数字。分析。52, 214–229 (2020)

    第条 数学科学网 数学 谷歌学者 

  19. Beck,A.,Teboulle,M.:线性逆问题的快速迭代收缩阈值算法。SIAM J.成像科学。2(1) ,183–202(2009年)

    第条 数学科学网 数学 谷歌学者 

  20. Candes,E.J.,Romberg,J.:定量稳健不确定性原理和最佳稀疏分解。已找到。计算。数学。6(2), 227–254 (2006)

    第条 数学科学网 数学 谷歌学者 

  21. Candès,E.J.,Romberg,J.,Tao,T.:鲁棒不确定性原理:从高度不完整的频率信息中重建精确的信号。IEEE传输。Inf.理论52(2), 489–509 (2006)

    第条 数学科学网 数学 谷歌学者 

  22. Donoho,D.L.:压缩传感。IEEE传输。Inf.理论52(4), 1289–1306 (2006)

    第条 数学科学网 数学 谷歌学者 

  23. Calvetti,D.,Reichel,L.:大型线性问题的Tikhonov正则化。位数字。数学。43(2), 263–283 (2003)

    第条 数学科学网 数学 谷歌学者 

  24. Golub,G.H.,Hansen,P.C.,O'Leary,D.P.:Tikhonov正则化和总最小二乘法。SIAM J.矩阵分析。申请。21(1), 185–194 (1999)

    第条 数学科学网 数学 谷歌学者 

  25. Chan,R.H.,Kan,K.K.,Nikolova,M.,Plemmons,R.J.:高光谱图像光谱-空间分类的两阶段方法。数学杂志。成像视觉。62, 790–807 (2020)

    第条 数学科学网 数学 谷歌学者 

  26. Rudin,L.I.,Osher,S.,Fatemi,E.:基于非线性总变差的噪声去除算法。物理学。D、 非线性现象。60(1–4), 259–268 (1992)

    第条 数学科学网 数学 谷歌学者 

  27. Adler,J.,O.奥克特姆:习得的原始-双重重建。IEEE传输。医学影像学37(6), 1322–1332 (2018)

    第条 谷歌学者 

  28. Kobler,E.,Klatzer,T.,Hammernik,K.,Pock,T.:变分网络:连接变分方法和深度学习。摘自:德国模式识别会议,第281-293页。柏林施普林格出版社(2017)

    第章 谷歌学者 

  29. Lunz,S.,O.,Schönlieb,C.-B.:反问题中的对抗正则化子。摘自:《神经信息处理系统进展》,第8507–8516页。Curran Associates,Red Hook(2018年)

    谷歌学者 

  30. Chan,S.H.,Wang,X.,Elgendy,O.A.:用于图像恢复的即插即用ADMM:定点收敛和应用。IEEE传输。计算。成像(1), 84–98 (2016)

    第条 数学科学网 谷歌学者 

  31. Cohen,R.,Elad,M.,Milafar,P.:通过定点投影去噪的正则化(red pro)(2020)。arXiv预印本2008.00226

  32. Venkatakrishnan,S.V.,Bouman,C.A.,Wohlberg,B.:基于模型重建的即插即用先例。摘自:2013年IEEE信号和信息处理全球会议,第945-948页。IEEE出版社,纽约(2013)

    第章 谷歌学者 

  33. Xu,L.,Ren,J.S.,Liu,C.,Jia,J.:用于图像反褶积的深度卷积神经网络。高级神经信息处理。系统。27,1790年至1798年(2014年)

    谷歌学者 

  34. Jin,K.H.,McCann,M.T.,Froustey,E.,Unser,M.:成像逆问题的深度卷积神经网络。IEEE传输。图像处理。26(9), 4509–4522 (2017)

    第条 数学科学网 数学 谷歌学者 

  35. Moeller,M.,Mollenhoff,T.,Cremers,D.:通过能量耗散控制神经网络。摘自:IEEE计算机视觉国际会议记录,第3256–3265页(2019年)

    谷歌学者 

  36. Censor,Y.,Chen,W.,Combettes,P.L.,Davidi,R.,Herman,G.T.:关于投影方法对线性不等式约束凸可行性问题的有效性。计算。最佳方案。申请。51(3), 1065–1088 (2012)

    第条 数学科学网 数学 谷歌学者 

  37. Censor,Y.,Elfving,T.,Herman,G.T.,Nikazad,T.:关于对角松弛正交投影方法。SIAM J.科学。计算。30(1), 473–504 (2008)

    第条 数学科学网 数学 谷歌学者 

  38. Gordon,D.、Gordon、R.:分量平均行投影:稀疏线性系统的稳健块并行方案。SIAM J.科学。计算。27(3), 1092–1117 (2005)

    第条 数学科学网 数学 谷歌学者 

  39. Censor,Y.,Segal,A.:生物医学反问题中的迭代投影方法。生物医学成像和调强放射治疗中的数学方法。IMRT公司10, 65–96 (2008)

    谷歌学者 

  40. Censor,Y.,Cegielski,A.:投影方法:书籍和评论的注释书目。优化64(11), 2343–2358 (2015)

    第条 数学科学网 数学 谷歌学者 

  41. Bauschke,H.H.,Koch,V.R.:投影方法:用半空间解决可行性和最佳逼近问题的瑞士军刀。康斯坦普。数学。636, 1–40 (2015)

    第条 数学科学网 数学 谷歌学者 

  42. Ordoñez,C.E.、Karonis,N.、Duffin,K.、Coutrakon,G.、Schulte,R.、Johnson,R.和Pankuch,M.:使用质子计算机断层扫描(pct)进行粒子处理规划的实时图像重建系统。物理学。程序。90, 193–199 (2017)

    第条 谷歌学者 

  43. Penfold,S.、Censor,Y.、Schulte,R.W.、Bashkirov,V.、McAllister,S.,Schubert,K.E.、Rosenfeld,A.B.:质子计算机断层扫描图像重建中的块迭代和串平均投影算法。摘自:Censor,Y.,Jiang,M.,Wang,G.(编辑)《生物医学数学:成像、治疗规划和逆向问题的前景方向》,第347-368页。麦迪逊医学物理出版社(2010)

    谷歌学者 

  44. Bauschke,H.H.,Koch,V.R.:投影方法:用半空间解决可行性和最佳逼近问题的瑞士军刀。康斯坦普。数学。636, 1–40 (2015)

    第条 数学科学网 数学 谷歌学者 

  45. Bauschke,H.H.,Combettes,P.L.等人:Hilbert空间中的凸分析和单调算子理论,第2版。施普林格,纽约(2017)

     数学 谷歌学者 

  46. Bauschke,H.H.,Borwein,J.M.:关于解决凸可行性问题的投影算法。SIAM版本。38(3) ,367–426(1996年)

    第条 数学科学网 数学 谷歌学者 

  47. Kaczmarz,S.:Angenaherte auflosung von systemen linearer gleichungen。收录于:《国际科学通报》(1937年)

  48. Cimmino,G.:Cacolo approssimato per le soluzioni dei system di equazioni lineari,Ric.(美国)。科学。(罗马)1, 326–333 (1938)

    谷歌学者 

  49. Aharoni,R.,Censor,Y.:用于并行计算凸可行性问题解的块迭代投影方法。线性代数应用。120, 165–175 (1989)

    第条 数学科学网 数学 谷歌学者 

  50. Byrne,C.L.:从投影重建图像的块迭代方法。IEEE传输。图像处理。5(5), 792–794 (1996)

    第条 谷歌学者 

  51. Censor,Y.,Zaslavski,A.J.:动态串平均投影方法的收敛性和扰动弹性。计算。最佳方案。申请。54(1), 65–76 (2013)

    第条 数学科学网 数学 谷歌学者 

  52. Censor,Y.,Segal,A.:关于稀疏公共不动点问题的字符串平均方法。国际事务。操作。物件。16(4), 481–494 (2009)

    第条 数学科学网 数学 谷歌学者 

  53. Censor,Y.,Tom,E.:不一致凸可行性问题的串平均投影方案的收敛性。最佳方案。方法软件。18(5), 543–554 (2003)

    第条 数学科学网 数学 谷歌学者 

  54. Davidi,R.,Herman,G.T.,Censor,Y.:摄动-静音块迭代投影方法及其在投影图像重建中的应用。国际事务处理。操作。物件。16(4), 505–524 (2009)

    第条 数学科学网 数学 谷歌学者 

  55. Censor,Y.,Davidi,R.,Herman,G.T.:扰动弹性和迭代算法的优越性。反向探测。26(6), 065008 (2010)

    第条 数学科学网 数学 谷歌学者 

  56. Herman,G.T.、Garduño,E.、Davidi,R.、Censor,Y.:高级化:医学物理的优化启发式。医学物理。39(9), 5532–5546 (2012)

    第条 谷歌学者 

  57. 何宏,徐宏:平均映射的扰动弹性和优越性方法。反向探测。33(4), 044007 (2017)

    第条 数学科学网 数学 谷歌学者 

  58. Censor,Y.:弱优势和强优势:在可行性搜索和最小化之间。安提因。康斯坦·奥维迪乌斯大学。材料。23(3), 41–54 (2017).https://doi.org/10.1515/auom-2015-0046

    第条 数学科学网 数学 谷歌学者 

  59. Schöpfer,F.,Lorenz,D.A.:随机稀疏Kaczmarz方法的线性收敛性。数学。程序。173(1), 509–536 (2019)

    第条 数学科学网 数学 谷歌学者 

  60. Lorenz,D.A.、Wenger,S.、Schöpfer,F.、Magnor,M.:用于在线压缩传感的稀疏Kaczmarz解算器和线性化Bregman方法。2014年IEEE图像处理国际会议(ICIP),第1347-1351页。IEEE出版社,纽约(2014)

    第章 谷歌学者 

  61. Cegielski,A.:Hilbert空间中不动点问题的迭代方法,第2057卷。柏林施普林格出版社(2012)

    数学 谷歌学者 

  62. Krasnosel's kiĭ,M.A.:关于连续逼近方法的两点评论。乌斯普。Mat.Nauk公司10, 123–127 (1955)

    谷歌学者 

  63. Mann,R.:平均值。方法迭代。4(3), 506–510 (1953)

    数学 谷歌学者 

  64. LeCun,Y.、Bengio,Y.和Hinton,G.:深度学习。自然521(7553), 436–444 (2015)

    第条 谷歌学者 

  65. Y.Bengio:《学习人工智能的深层架构》,Now Publishers,Norwell(2009)

     数学 谷歌学者 

  66. Rumelhart,D.E.,Hinton,G.E.,Williams,R.J.:通过反向传播错误学习表征。自然323(6088), 533–536 (1986)

    第条 数学 谷歌学者 

  67. Manning,C.,Schutze,H.:《统计自然语言处理基础》。麻省理工学院出版社,剑桥(1999)

    数学 谷歌学者 

  68. Hastie,T.、Tibshirani,R.、Friedman,J.:统计学习的要素:数据挖掘、推断和预测。施普林格,纽约(2009)

     数学 谷歌学者 

  69. Bottou,L.,Curtis,F.E.,Nocedal,J.:大规模机器学习的优化方法。(2016).1606.04838

  70. Kingma,D.P.,Ba,J.:亚当:随机优化方法。In:ICLR(海报)(2015)

    谷歌学者 

  71. Fan,F.,Xiong,J.,Wang,G.:二次深网络的通用近似。神经网络。124, 383–392 (2020)

    第条 数学 谷歌学者 

  72. Tabuada,P.,Gharisfard,B.:通过非线性控制理论实现深度神经网络的通用逼近能力(2020年)。arXiv预印本2007.06007

  73. Fung,S.W.,Heaton,H.,Li,Q.,McKenzie,D.,Osher,S.,Yin,W.:不动点网络:无Jacobian支撑的隐式深度模型(2021)。arXiv预印本2103.12803

  74. Browder,F.E.:Banach空间中的非扩张非线性算子。程序。国家。阿卡德。科学。54(4), 1041–1044 (1965)https://www.pnas.org/content/54/4/1041.full.pdf

    第条 数学科学网 数学 谷歌学者 

  75. Göhde,D.:Zum prinzip der kontraktiven abbildung。数学。纳克里斯。30(3–4), 251–258 (1965)

    第条 数学科学网 数学 谷歌学者 

  76. Kirk,W.A.:不增加距离的映射的不动点定理。美国数学。周一。72(9), 1004–1006 (1965)

    第条 数学科学网 数学 谷歌学者 

  77. Krantz,S.G.,Parks,H.R.:隐函数定理:历史、理论和应用。柏林施普林格出版社(2012)

    数学 谷歌学者 

  78. Bai,S.,Kolter,J.Z.,Koltun,V.:深度均衡模型。摘自:神经信息处理系统进展,第690-701页(2019年)

    谷歌学者 

  79. Winston,E.,Kolter,J.Z.:单调算子平衡网络。收录:Larochelle,H.,Ranzato,M.,Hadsell,R.,Balcan,M.F.,Lin,H.(编辑)《神经信息处理系统进展》,第33卷,第10718-10728页。Curran Associates,Red Hook(2020年)https://proceedings.neurips.cc/paper/2020/file/798d1c2813cbdf8bcdb388db0e32d496-paper.pdf

    谷歌学者 

  80. Chen,R.T.,Rubanova,Y.,Bettencourt,J.,Duvenaud,D.K.:神经常微分方程。摘自:神经信息处理系统进展,第6571–6583页(2018年)

    谷歌学者 

  81. Bai,S.,Koltun,V.,Kolter,J.Z.:多尺度深层均衡模型。In:神经信息处理系统进展33(2020)

  82. Monga,V.,Li,Y.,Eldar,Y.C.:算法展开:信号和图像处理的可解释、高效深度学习。IEEE信号处理。美格。38(2), 18–44 (2021)

    第条 谷歌学者 

  83. 陈,T.,陈,X.,陈,W.,希顿,H.,刘,J.,王,Z.,尹,W.:学习优化:初级和基准(2021)。arXiv预印本2103.12828

  84. Gregor,K.,LeCun,Y.:学习稀疏编码的快速近似。收录于:《第27届国际机器学习大会论文集》,第399–406页(2010年)

    谷歌学者 

  85. Rick Chang,J.,Li,C.-L.,Poczos,B.,Vijaya Kumar,B.,Sankaranarayanan,A.C.:使用深度投影模型解决所有线性反问题的一个网络。摘自:IEEE计算机视觉国际会议记录,第5888–5897页(2017年)

    谷歌学者 

  86. Metzler,C.,Mousavi,A.,Baraniuk,R.:学习的D-AMP:基于原理神经网络的压缩图像恢复。摘自:《神经信息处理系统进展》,第1772-1783页(2017年)

    谷歌学者 

  87. Chen,X.,Liu,J.,Wang,Z.,Yin,W.:未展开ISTA的理论线性收敛性及其实际权重和阈值。摘自:《神经信息处理系统进展》,第9061–9071页(2018年)

    谷歌学者 

  88. Diamond,S.、Sitzmann,V.、Heide,F.、Wetzstein,G.:深度优先的未滚动优化(2018)。1705.08041[中文]

  89. Perdios,D.,Besson,A.,Rossinelli,P.,Thiran,J.-P.:学习压缩成像中稀疏度平均的权重矩阵。2017 IEEE图像处理国际会议(ICIP),第3056–3060页。IEEE出版社,纽约(2017)

    第章 谷歌学者 

  90. Mardani,M.、Sun,Q.、Donoho,D.、Papyan,V.、Monajemi,H.、Vasanawala,S.、Pauly,J.:压缩成像的神经近端梯度下降。高级神经信息处理。系统。31, 9573–9583 (2018)

    谷歌学者 

  91. Zhang,J.,Ghanem,B.:Ista-net:图像压缩传感的可解释优化激励深度网络。摘自:IEEE计算机视觉和模式识别会议记录,第1828-1837页(2018年)

    谷歌学者 

  92. Ito,D.,Takabe,S.,Wadayama,T.:稀疏信号恢复的可训练ISTA。IEEE传输。信号处理。67(12), 3113–3125 (2019)

    第条 数学科学网 数学 谷歌学者 

  93. Mardani,M.、Sun,Q.、Papyan,V.、Vasanawala,S.、Pauly,J.、Donoho,D.:展开神经网络的自由度分析(2019)。arXiv预印本1906.03742

  94. Putzky,P.,Welling,M.:解决逆问题的递归推理机(2017)。1706.04008[中文]

  95. Zhang,K.、Zuo,W.、Gu,S.、Zhang、L.:在图像恢复之前学习深度CNN去噪器。在:《IEEE计算机视觉和模式识别会议论文集》,第3929–3938页(2017)

    谷歌学者 

  96. Chen,Y.,Pock,T.:可训练非线性反应扩散:快速有效图像恢复的灵活框架。IEEE传输。模式分析。机器。智力。39(6), 1256–1272 (2017)

    第条 谷歌学者 

  97. Sreter,H.,Giryes,R.:学习卷积稀疏编码。摘自:2018 IEEE声学、语音和信号处理国际会议(ICASSP),第2191–2195页。IEEE出版社,纽约(2018)

    第章 谷歌学者 

  98. Liu,J.,Chen,X.,Wang,Z.,Yin,W.:ALISTA:分析权重和LISTA中的学习权重一样好。参加:国际学习代表大会(2019年)

    谷歌学者 

  99. Xie,X.,Wu,J.,Liu,G.,Zhong,Z.,Lin,Z.:微分线性化ADMM。摘自:机器学习国际会议,第6902–6911页(2019年)

    谷歌学者 

  100. Meinhardt,T.,Moller,M.,Hazirbas,C.,Cremers,D.:学习近端算子:使用去噪网络正则化逆成像问题。摘自:IEEE计算机视觉国际会议记录,第1781–1790页(2017年)

    谷歌学者 

  101. Liu,R.,Cheng,S.,Ma,L.,Fan,X.,Luo,Z.等:模型优化和深度传播的桥接框架。高级神经信息处理。系统。31,4318–4327(2018)

    谷歌学者 

  102. Corbineau,M.-C.,Bertocchi,C.,Chouzenoux,E.,Prato,M.,Pesquet,J.-C.:通过展开近端内点算法来去除学习图像的模糊。2019年IEEE图像处理国际会议(ICIP),第4664–4668页。IEEE出版社,纽约(2019)https://doi.org/10.109/ICIP.2019.8803438

    第章 谷歌学者 

  103. Mukherjee,S.、Dittmer,S.,Shumaylov,Z.、Lunz,S.和Schönlieb,C.-B.:反问题的学习凸正则化子(2020)。arXiv预印本2008.02839

  104. Zhang,K.、Zuo,W.、Zhang、L.:任意模糊内核的深度即插即用超分辨率。摘自:IEEE计算机视觉和模式识别会议记录,第1671–1681页(2019年)

    谷歌学者 

  105. Li,Y.,Tofighi,M.,Geng,J.,Monga,V.,Eldar,Y.C.:通过算法展开实现高效且可解释的深度盲图像去模糊。IEEE传输。计算。成像6, 666–681 (2020)

    第条 数学科学网 谷歌学者 

  106. Dudgeon,D.E.,Mersereau,R.M.:多维数字信号处理。Prentice Hall专业技术参考(1990)

  107. O'Connor,D.,Vandenberghe,L.:算子分裂的原对偶分解及其在图像去模糊中的应用。SIAM J.成像科学。7(3), 1724–1754 (2014)

    第条 数学科学网 数学 谷歌学者 

  108. Goldstein,T.,Osher,S.:L1正则化问题的分裂Bregman方法。SIAM J.成像科学。2(2), 323–343 (2009)

    第条 数学科学网 数学 谷歌学者 

  109. Penfold,S.N.,Schulte,R.W.,Censor,Y.,Rosenfeld,A.B.:质子计算机断层扫描图像重建中的全变差优化方案。医学物理。37(11), 5887–5895 (2010)

    第条 谷歌学者 

  110. Humphries,T.,Winn,J.,Faridani,A.:从稀疏视图和有限角度多能量数据重建CT图像的高级算法。物理学。医学生物学。62(16), 6762 (2017)

    第条 谷歌学者 

  111. Leuschner,J.,Schmidt,M.,Baguer,D.O.,Maaß,P.:LoDoPaB-CT数据集:低剂量CT重建方法的基准数据集(2019年)。arXiv预印本1910.01113

  112. Paszke,A.、Gross,S.、Massa,F.、Lerer,A.、Bradbury,J.、Chanan,G.、Killeen,T.、Lin,Z.、Gimelshein,N.、Antiga,L.等人:Pytorch:一种命令式、高性能的深度学习库。摘自:神经信息处理系统进展,第8026–8037页(2019年)

    谷歌学者 

  113. Adler,J.,Kohr,H.,Öktem,O.:(2017)。操作员离散化库(ODL)

  114. Heaton,H.,Censor,Y.:应用于线性系统的公共不动点问题的异步顺序惯性迭代。环球杂志。最佳方案。74(1), 95–119 (2019)

    第条 数学科学网 数学 谷歌学者 

  115. Adler,J.,Øktem,O.:使用迭代深度神经网络解决不适定逆问题。反向探测。33(12), 124007 (2017)

    第条 数学科学网 数学 谷歌学者 

  116. Lie,J.,Nordbotten,J.M.:非线性正则化的逆尺度空间。数学杂志。成像视觉。27(1), 41–50 (2007)

    第条 数学科学网 谷歌学者 

  117. Censor,Y.:算法的优化和扰动弹性:不断更新的参考书目(2021)。arXiv预印本1506.04219

  118. Ryu,E.,Yin,W.:大尺度凸优化:通过单调算子的算法设计。剑桥大学出版社,剑桥(2022)https://large-scale-book.mathopt.com

     谷歌学者 

  119. He,K.,Zhang,X.,Ren,S.,Sun,J.:用于图像识别的深度残差学习。摘自:IEEE计算机视觉和模式识别会议记录,第770-778页(2016)

    谷歌学者 

  120. Heaton,H.、Fung,S.W.、Lin,A.T.、Osher,S.、Yin,W.:基于Wasserstein的投影及其在反问题中的应用(2020年)。arXiv预印本2008.02200

下载参考资料

致谢

我们感谢Daniel Mckenzie和Qiuwei Li在提交论文之前提供的有益反馈。

基金

Samy Wu Fung得到了AFOSR MURI FA9550-18-1-0502、AFOSR Grant No.FA9550-1-0167和ONR Grants N00014-18-2527 snf N00014-17-1-21的支持。霍华德·希顿(Howard Heaton)由国家科学基金会(NSF)研究生研究奖学金(Grant No.DGE-1650604)资助。本材料中表达的任何意见、发现、结论或建议均为作者的意见、发现和结论或建议,并不一定反映NSF的观点。

作者信息

作者和附属机构

作者

贡献

所有作者在这项研究工作中做出了同等重要的贡献。所有作者阅读并批准了最终手稿。

通讯作者

与的通信霍华德·希顿,萨米·武丰阿维夫·吉巴利

道德声明

竞争性利益

提交人声明他们没有相互竞争的利益。

附录

附录

1.1A.1网络结构

对于我们的神经网络架构,我们设置\(R_{\Theta}\)由四个卷积组成:第一个取一个通道,输出44个通道。第二和第三卷积有44个输入和输出通道。最后的卷积将44个通道映射回一个通道。在每次卷积之前,我们使用泄漏校正线性激活函数(ReLU)作为层间的非线性激活函数。泄漏ReLU函数,表示为ϕ,定义为

$$\phi_{a}(u)\triangleq\textstyle\begin{cases}u&\text{if$u\geq0$,}\\au&\text{if$u<0$$$
(14)

哪里是由用户确定的数字。可以在中找到具体的实现细节https://github.com/howardheaton/feasibility_fixed_point网络

1.2A.2培训设置

为了生成FBP重建,我们使用了操作符离散化库(ODL)中的FBP操作符。由于ODL FBP操作符是一个内置操作符,其行未被规范化(与使用DROP的其余方法不同),因此我们相应地缩放观察到的数据。特别是,我们将每行观测数据相乘d日通过原始未规范化矩阵的行A类。对于所有其他方法,我们将A类并相应缩放测量值。

对于椭圆数据集,我们使用批大小15对展开的网络进行60个周期的训练。F-FPN网络训练使用15个批次,持续50个时期。展开的网络架构共包含20层(即。更新步骤)-根据GPU的内存容量选择层数。

对于LoDoPab数据集,我们使用50个批次的大小对展开和F-FPN网络进行训练,总共50个时段。展开的网络架构共包含14层(即。更新步骤)-根据GPU的内存容量选择层数。

1.3A.3 TVS参数

通过展开中所示的方法训练TVS参数(13)神经网络结构的20个步骤。这个展开的网络包含两个参数:αβ。我们已初始化α至0.05和β至0.99。然后我们使用Adam根据训练数据调整参数。对于椭圆实验,学习的参数为\(α=0.0023)\(β=0.968)对于LoDoPab实验,学习的参数为\(α=0.0013)\(β=9607)注意针对均方误差调整参数优化性能的培训。

1.4A.4近似Lipschitz强制

在此,我们概述了确保成分的技术\(({\mathcal{A}}{d}\circ R{Theta})γ-Lipschitz在我们的实验中(与\(伽马\in(0,1)\)). 这是在训练中每次向前传球后,使用计算出的固定点批次以近似方式完成的。B类表示与不动点集合相对应的一组索引\(\波浪号{u}_{d} \),并让\(B}中的{\zeta_{i}\}_{i\)为高斯随机向量。出租\(|B|\)表示的基数B类,我们检查以下不等式是否成立:

$$\下大括号{\frac{1}{\vertB\vert}\sum_{i\在B}\bigl\vert({\mathcal{A}}_{d}\circR{\Theta})(\波浪号{u}_{d} )-({\mathcal{A}}_{d}\circ R{\Theta})(\波浪线{u}_{d} +\zeta_{i})\bigr\Vert}_{C_{1}}\leq\gamma\下大括号{\frac{1}{\vertB\Vert}\sum_{i{2\Vert\zeta_}\Vert{2}}$$
(15)

如果网络是γ-利普希茨,那么\(C_{1}\leq\gamma C_{2}\)对于任何提供的批次B类样品数量。现在假设不平等不成立,就必须采取行动。首先假设\({\mathcal{A}}_{d}\)是1-Lipschitz。那就足够了\(R_{\Theta}\) γ-利普希茨。如前所述,\(R_{\Theta}\)采用ResNet块的组合形式。为了简单起见,假设

$$R_{\Theta}=\mathrm{I}+\phi_{a}(Wu+b)$$
(16)

对于矩阵W公司和向量b条用权重θ定义。\(C_{3}\三角\gamma C_{1}/C_{2}\).制造(15)等一下,换一个就够了\(R_{\ Theta}\)具有\(C_{3}\cdot R_{\Theta}\)此外,

$$\开始{对齐}C_{3}R_{\Theta}&=C_{3+\bigl(\mathrm{I}+\phi_{a}(Wu+b)\bigr)\end{对齐{$$
(17a)
$$\begin{aligned}&=\mathrm{I}+C_{3}\phi_{a}(Wu+b)+(C_{3+-1)\mathrm{I}\end{aligned}$$
(17亿)
$$\开始{对齐}&\近似\mathrm{I}+\phi_{a}\bigl(C_{3}(Wu+b)\bigr)+(C_}3}-1)\mathrm{I}\end{aligned}$$
(17c)
$$\begin{aligned}&\approx\mathrm{I}+\phi_{a}\bigl(C_{3}(Wu+b)\bigr),\end{alinged}$$
(17天)

其中第一近似值等于\(Wu+b\geq 0\)(当很小),第二个近似值适用于不等式(15)“接近”保持即。 \(C_{3}\约1\)这表明

$$C_{3}R_{\Theta}\approx\mathrm{I}+\phi_{a}\bigl(C_{3+(Wu+b)\bigr)$$
(18)

因此,为了确保\(R_{\Theta}\)大约为γ-利普希茨,我们可以做以下事情。训练中每次向前传球后(即。计算\({\mathcal{N}}_{\Theta}(d)\)对于一批B类数据的d日),我们计算\(C_{1}\)\(C_{2}\)同上。如果(15)保持,则不采取任何操作。如果(15)不成立,然后乘以权重W公司b条通过\(C_{3}\),制造(15)保持。

在我们的实验中\(R_{\Theta}\)是上述情况的更复杂变化(即,剩余部分是卷积的组成)。然而,我们使用了相同的标准化因子\(R_{\ Theta}\)比需要的收缩力稍大。在一般情况下\(R_{\Theta}\)是形式恒等式和残差的映射的组合,用归一化常数乘以权重就足够了\(C_{3}\)层数增加到1在残差映射中(即。 \(C_{3}^{1/\ell}\)).

备注7.1

必须对正常化作出重要说明。也就是说,\(R_{\Theta}\)几乎从未通过上述过程进行更新。由于权重θ的初始化,\(R_{\Theta}\)看起来大概是1-Lipschitz。而且,由于权重经过调整以提高\(R_{\Theta}\),这通常会导致更新\(R_{\Theta}\)收缩性较小。因此,上述是一种近似的保障,但在实践中似乎没有必要获得我们的结果。

1.5A.5电视最小化

我们等效地重写了这个问题(电视监控)作为

$$\min_{u,p,w}\delta_{[0,1]^{n}}(u)+\Vert p\Vert_{1}+\delta_{B(d,\varepsilon)}$$
(19)

哪里\(D_{+}\)是沿每个图像轴的前向差分运算符的串联。使用变量更改\(xi=(p,w)),定义函数

$$f(\xi)\triangleq\Vertp\Vert_{1}+\delta_{B(d,\varepsilon)}(w)$$
(20)

和设置\(M=[D_{+};A]\),我们重写(19)作为

$$\min_{u,\xi}\delta_{[0,1]^{n}}(u)+f(\xi)\quad\text{这样}Mu-\xi=0$$
(21)

请注意(21)遵循ADMM类型问题的标准形式。对于标量\((0,infty)中的\alpha,\beta,\lambda\),线性化ADMM[118]更新采用表单

$$开始{对齐}&u^{k+1}=P_{[0,1]^{n}}\bigl^{k}-\xi ^{k}\bigr)\bigr)\bigr),\结束{对齐}$$
(22年a)
$$\开始{对齐}&\zeta^{k+1}=\mathrm{近似}_{\lambda f}\bigl$$
(22亿)
$$\开始{aligned}&\nu^{k+1}=\nu^}k}+\alpha\bigl(Mu^{k+1}-\xi^{k+1}\bigr)。\结束{对齐}$$
(22美分)

通过展开项,我们得到了显式公式

$$\开始{对齐}和r^{k}=D_{+}^{\top}\bigl(\nu_{1}^{k{+\alpha\bigl(D_{+/}u^{kneneneep-p^{k}\bigr)\bigr)+A^{\top}\bigle^{k} -w个^{k} \biger)\bigr),\end{对齐}$$
(23a)
$$\开始{aligned}&u^{k+1}=P_{[0,1]^{n}}\bigl(u^{k}-\betar^{k}\bigr),\end{aligned}$$
(23亿)
$$\开始{对齐}&p^{k+1}=\eta_{\lambda}\bigl$$
(23美分)
$$\开始{对齐}和w^{k+1}=P_{B(d,\varepsilon)}\bigl(w^{k}+\lambda\bigl(\nu_{2}^{k}+\alpha\bigle(Au^{k+1}-w^{k}\bigr)\biger),\end{对齐{}$$
(23天)
$$开始{aligned}&\nu_{1}^{k+1}=\nu_}1}^}+\alpha\bigl(D_{+}u^{k+1}-p^{k+1}\bigr),结束{aligned}$$
(23e)
$$开始{aligned}&\nu_{2}^{k+1}=\nu_}2}^}+\alpha\bigl(Au^{k+1}-w^{k+1}\bigr),结束{aligned}$$
(23页)

哪里\(B(d,\varepsilon)\)是半径为的欧几里得球ε以为中心d日\(\eta_{\lambda}\)是带参数的软阈值算子λ 即。

$$\eta_{\lambda}(u)\triangleq\textstyle\begin{cases}u-\lambda和\text{if$x\geq\lambda$,}\\u+\lambada&\text{otherwise。}\end{cases{$$
(24)

我们设置了\(u^{1}=0\),\(\nu^{1}=0\),\(p^{1}=D_{+}u^{1}\)、和\(w^{1}=Au^{1{)。对于椭圆实验,我们使用\(α=β=λ=0.1),\(\varepsilon=10\)和250次迭代。对于LoDoPab实验,我们使用\(\α=\β=\λ=0.1\),\(\varepsilon=5\)和250次迭代。请注意,通过TVM计算每个信号估计的计算成本大于FBP和TVS。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果文章的知识共享许可证中没有包含材料,并且您的预期用途不被法律法规允许或超出了允许的用途,则您需要直接获得版权所有者的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Heaton,H.、Wu Fung,S.、Gibali,A。等。基于可行性的固定点网络。不动点理论算法科学与工程 2021, 21 (2021). https://doi.org/10.1186/s13663-021-00706-3

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13663-021-00706-3

关键词