×

应用谐波分析和数据处理。2018年3月25日至31日举行的研讨会摘要。 (英语) Zbl 1409.00083号

摘要:海量数据集有自己的体系结构。每个数据源都有一个固有的结构,我们应该尝试检测它,以便将其用于应用程序,例如去噪、聚类、异常检测、知识提取或分类。谐波分析围绕着创建用于分解、重排和重建操作符和函数的新结构展开,换句话说,就是发明和探索用于信息和推理的新架构。之前在2012年和2015年举办了两次非常成功的应用谐波分析和稀疏近似研讨会。本研讨会是这些研讨会的发展和延续,旨在汇集应用谐波分析、数据分析、优化、统计和机器学习领域的世界领先专家,报告最新发展,并促进新的发展和合作。

MSC公司:

00亿05 讲座摘要集
00B25型 杂项特定利益的会议记录
65Txx型 傅里叶分析中的数值方法
15B52号 随机矩阵(代数方面)
42-06 与欧几里德空间调和分析有关的会议录、论文集、丛书等
42立方厘米 非三角调和分析
94A20型 信息与传播理论中的抽样理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] A.Aldrubi和K.Gr¨ochenig。变移空间中的非均匀采样与重构。SIAM版本,43(4):585-6202001·Zbl 0995.42022号
[2] K.Gr¨ochenig。盖博的神秘画框。J.傅里叶分析。申请。,20(4):865-895, 2014. ·Zbl 1309.42045号
[3] K.Gr¨ochenig、J.-L.Romero和J.St¨lockler。发明了移位变空间、Gabor框架和全正函数的采样定理。数学。211 (3), 1119 - 1148. ·兹比尔1440.42150
[4] K.Gr¨ochenig、J.-L.Romero和J.St¨lockler。在位移-方差空间和多窗口GaborFrames中使用导数进行采样的锐利结果。ArXiv公司https://arxiv.org/pdf/1712.07899.pdf通过辛几何合成逻辑Clifford算子Robert Calderbank(与Narayanan Rengaswamy、Swanand Kadhe、Henry Pfister联合工作)量子纠错码可用于保护量子计算中涉及的量子比特。这需要将作用于受保护量子位的逻辑运算符转换为作用于物理量子态的物理运算符(电路)。我们提出了一个数学框架,用于合成实现稳定器代码的逻辑Clifford运算符的物理电路。电路综合是通过在CN×Nas中表示所需的物理Clifford算子来实现的,即部分2m×2m二进制辛矩阵,其中N=2m。我们陈述并证明了两个定理,它们使用辛变换有效地枚举满足线性方程组的所有二进制辛矩阵。作为这些732Oberwolfach报告14/2018结果的一个重要推论,我们证明了对于[[m,m−k]]稳定器代码,每个逻辑Clifford算子都有2k(k+1)/2个符号解。然后,通过将每个解分解为基本辛矩阵的乘积,得到所需的物理电路,每个矩阵对应于一个基本电路。我们对可能的物理实现的组合能够根据适当的度量对集成进行优化。此外,我们还表明,规范化代码稳定器的任何电路都可以转换为集中稳定器的电路,同时实现相同的逻辑操作。然而,给定度量的最佳电路可能与集中解决方案不对应。我们的电路综合方法可以应用于任何稳定子码,本文为[[6,4,2]CSS码提供了通用Clifford门的概念综合证明。最后,我们从经典编码理论的角度出发,为CSS代码构造逻辑Pauli运算符。由于我们的电路综合算法建立在代码的逻辑Pauli算子的基础上,因此本文提供了一个完整的框架来构造CSS代码的所有逻辑Clifford算子。实现本文算法的程序,包括求解一般线性系统二进制辛解的例程和我们的整体电路综合算法,可以在https://github.com/nrenga/symplectic-arxiv18a。工具书类
[5] N.Rengaswamy、R.Calderbank、S.Kadhe和H.Pfister,《通过辛几何合成逻辑clifford算子》。IEEE国际标准。通知。理论,2018年。
[6] N.Rengaswamy、R.Calderbank、S.Kadhe和H.D.Pfister,“通过辛几何合成逻辑Clifford算子”,arXiv预印本arXiv:1803.069872018。
[7] A.R.Calderbank和P.W.Shor,“存在良好的量子纠错码”,《物理学》。A版,第54卷,第1098-1105页,1996年8月。
[8] A.M.Steane,《简单量子纠错码》,《物理学》。A版,第54卷,第6期,第4741-4751页,1996年。
[9] D.Gottesman,“容错量子计算理论”,arXiv预印本arXiv:quant-ph/97020291997。[在线]。可用:http://arxiv.org/pdf/quantph/9702029.pdf。
[10] A.Calderbank、E.Rains、P.Shor和N.Sloane,“通过GF(4)上的代码进行量子错误纠正”,IEEE Trans。通知。《理论》,第44卷,第1369-1387页,1998年7月·Zbl 0982.94029号
[11] M.M.Wilde,“量子码的逻辑运算符”,《物理学》。A版,第79卷,第6期,第062322页,2009年。
[12] D.Gottesman,“量子误差校正和容错量子计算简介”,arXiv预印本arXiv:0904.25572009。[在线]。可用:http://arxiv.org/pdf/0904.2557.pdf。 ·兹比尔1211.81043
[13] M.Grassl和M.Roettler,《利用量子码的自同构进行容错量子计算》。IEEE国际标准。通知。《理论》,第534-538页,IEEE,2013年7月。
[14] R.Chao和B.W.Reichardt,“少量子比特的容错量子计算”,arXiv预印本arXiv:1705.053652017年。[在线]。可用:http://arxiv.org/pdf/1705.05365.pdf。应用谐波分析和数据处理733通过非凸优化进行学习:ReLU、神经网络和子模块最大化Mahdi Soltanolkotabi信号处理和机器学习中当代感兴趣的许多问题都涉及高度非凸优化问题。虽然非凸问题通常是难以解决的,但简单的局部搜索启发式(如(随机)梯度下降)通常在实际或随机生成的数据上找到全局/高质量的最优解时非常有效。在本文中,我们总结了一些最近的结果,解释了这些启发式算法的成功之处,主要集中在两个问题上:(1)学习由单个整流线性单元(ReLU)组成的最浅层神经网络的最佳权重,(2)学习具有单个隐层的过参数化神经网络。在演讲中,我们还讨论了最大化子模块函数的第三个问题(由于空间限制,此处省略了此描述,有关此问题的详细信息,请参阅[3])。本总结基于我们的论文[1,2,3]。我们参考这些文件,全面讨论这些领域的相关工作。1.问题I:学习ReLUs非线性数据填充问题是信号处理和机器学习中许多有监督学习任务的基础。给定由n对输入特征xi∈Rd和期望输出yi∈R组成的训练数据,我们希望推断出一个最能解释训练数据的函数。现代学习中特别感兴趣的一种非线性形式是将校正线性单位(ReLUs)拟合到函数φw:Rd的数据形式为φw(x)的R=max(0,hw,xi)。拟合ReLUs的一种自然方法是通过形式为Xn 1(1)minL(w):=(max(0,hw,xii)−yi)2的非线性最小二乘法,服从R(w)≤R,w∈Rdn i=1 with R:RdR是对权重向量上的先验信息进行编码的正则化函数。优化(1)的一个简单启发式方法是使用投影梯度下降式更新。先验地,我们完全不清楚为什么这种局部搜索启发式算法会收敛于形式(1)的问题,因为不仅正则化函数可能是非凸的,而且损失函数也是!我们的结果旨在解释为什么梯度下降在这种情况下是有效的。定理1。设w*∈Rdbe为任意权重向量且R:RdR是一个真函数(凸或非凸)。假设特征向量xi∈Rdare i.i.d.高斯随机向量分布为N(0,i),对应的标签由yi=max(0,hxi,w*i)给出。734Oberwolfach报告14/2018为了估算w*,我们从初始点w0=0开始,应用形式(2)wτ+1=PK(wτ−µτбL(wτ))的投影梯度(PGD)更新,其中K:={w∈Rd:R(w)≤R(w*)}。还为所有τ=1、2、…设置学习参数序列µ0=2和µτ=1。。还假设(3)n>cn0适用于固定的数值常数c。这里,n0是使用任何算法所需的最小样本数的下限(有关精确定义,请参见[1])。然后发生概率至少为1−9e−γnsuch的事件,在该事件中,更新(2)服从τ(4)kwτ−w*kŞ2≤12kw*kŞ这里γ是一个固定的数值常数。尽管目标和正则化子都是非凸的,但上述定理表明,在数据样本数量接近最小的情况下,投影梯度下降可以证明地学习原始权重向量w*,而不会陷入任何局部最优。2.问题二:学习过参数化浅层神经网络神经网络体系结构(也称为深度学习)最近成为从原始数据中自动提取知识的强大工具。这些学习架构在许多应用程序中都取得了重大突破。尽管这些架构在实践中得到了广泛的应用,但它们在数学上的成功仍然是一个谜。主要的挑战是训练神经网络对应于超高维和非凸优化问题,并且不清楚如何证明其全局最优。通过对真实或随机生成的数据进行局部搜索启发,这些网络在实践中得到了成功训练。特别是,参数数量超过数据样本数量的过参数化神经网络可以使用局部搜索启发式(如梯度或随机梯度方法)优化为全局最优。在我们的论文[2]中,我们通过更好地理解这种过度参数化的浅层神经网络的优化前景,为这一现象提供了理论见解。我们讨论了[2]中的主要结果。我们在这里展示的结果集中于理解具有二次激活函数的一个隐藏层的神经网络优化的全局情况。本文[2]还包含了梯度下降的局部收敛性结果,该结果适用于一组广泛的激活函数。我们忽略了空间限制的这些结果。应用谐波分析和数据处理735定理2。假设我们有一个输入/标签对xi∈Rd和yi的任意数据集,对于i=1,2,n.考虑x7形式的神经网络vTφ(Wx),φ(z)=z2a二次激活,W∈Rk×d,v∈Rkdenoting the weights connecting input to hidden and hidden to output layers。我们假设k≥2d,并设置输出层v的权重,以便至少有d个正条目和至少d个负条目。然后,训练损失作为隐层n 1X2 2nyi−vTφ(Wxi),i=1的权重W的函数,遵循以下两个特性不存在虚假的局部极小值,即所有局部极小值都是全局的所有鞍点都具有严格的负曲率方向。也就是说,在鞍点Wthere是一个方向U∈Rk×d,使得vect(U)T+2L(Ws)vect(U)<0。此外,对于几乎所有的数据输入{xi}镍=1,只要d≤n≤cd2,L(W)的全局最优值为零。这里,c>0是一个固定的数值常数。上述结果表明,给定任意数据集,拟合神经网络的优化前景具有有利的特性,有助于找到全局最优模型。特别是,通过设置最后一层的权重,使其具有不同的符号,所有局部极小值都是全局极小值,所有鞍座都具有负曲率方向。这反过来意味着,当随机初始化时,输入到隐藏权重的梯度下降收敛到全局最优值。只要神经网络足够宽,即隐藏单元的数量超过输入维数的两倍(k≥2d),所有这一切都成立。工具书类
[15] M.Soltanolkotabi,通过梯度下降学习ReLUs,神经信息处理系统(NIPS 2017)。
[16] 对超参数化浅层神经网络优化前景的理论见解。M.Soltanolkotabi、A.Javanmard和J.D.Lee。IEEE Trans.中的修订。信息。理论·Zbl 1428.68255号
[17] H.Hassani、M.Soltanolkotabi和A.Karbasi。,子模块最大化的梯度方法,神经信息处理系统(NIPS 2017)。736Oberwolfach报告14/2018 SUNLayer:生成网络的稳定去噪Soledad Villar(与Dustin G.Mixon联合工作)利用信号结构是信号处理的一个基本思想。例如,自然图像在小波基础上是稀疏的[4],稀疏性允许从很少的测量中恢复信号(“压缩感知”[3])。当前的趋势是,利用深度学习的经验成功,首先学习信号的结构,然后利用它。表示信号结构的一种方法是通过生成模型。非正式地,生成模型可以被认为是数据G:Rn的参数化形式RNn≪N,使G(Rn)代表感兴趣数据的概率密度。已经使用自动编码器和生成性对抗网络生成了非常令人印象深刻的生成性模型(参见示例[1])[6]。然而,目前似乎还没有一种可证明的方法来成功地生成生成模型,即使生成的生成模型对于应用目的有用,也不清楚是否实际学会了合理的数据分布。生成对应用有用的生成模型是机器学习社区中一个非常活跃的研究领域。1.生成模型的逆问题如果我们有一个好的生成模型,我们可以用它做一些令人惊讶的事情。例如,博拉、贾拉尔、普莱斯和迪马基斯最近的工作[2]经验表明,从生成性对抗网络获得的生成性模型可以用于解决压缩感知问题,其测量值比经典压缩感知要求少10倍。其关键思想是通过假设信号接近生成模型G的范围来取代稀疏信号假设。他们的理论结果表明,在温和假设下,如果y=Ax*+η(η是噪声),则(1)z*=arg-minkAG(z)−yk2 z满足G(z*)≈x*(参见[2]的定理1.1)。然而,由于其景观可能先验地具有许多局部极小值,因此无法有效地解决优化问题(1)。Hand和Voroninski最近的工作[7]表明,如果G=(ρG公司Ş)········G1)式中,ρ(t)=ReLU(t。在这种情况下没有学习。应用谐波分析和数据处理737图1.利用MNIST测试集的生成先验(第一行)数字去噪([8])。(第二行)将随机噪声添加到数字中。(第三行)通过小波域收缩对图像进行去噪([5])。(第四行)通过最小化总变化进行去噪([11])。(第五行)我们使用MNIST的训练集训练一个GAN,以获得一个生成模型G。我们通过随机梯度下降找到G图像中最近的元素来进行降噪。2.SUNLayer和用生成模型去噪在这两项工作[2,7]的启发下,在我们的论文[9]中,我们研究了用生成网络去噪信号的更简单的逆问题。[9]的目的是解释图1中所示的现象,即给定y=G(x*)+η为噪声信号,则可以通过找到(2)z*=arg minkG(z)−yk2 z进行降噪,优化问题(2)可以通过梯度下降等局部方法解决(即(2)没有虚假临界点)。我们考虑一个受神经网络启发的生成模型的更简单模型。SUNLayer的一层(球形均匀神经层)定义为Ln:SnL2(锡)x7ρ(hx,·i),738Oberwolfach报告14/2018,其中ρ是任意激活函数。我们的目的是回答在这个简化模型中,激活函数的哪些特性允许用局部方法去噪。考虑Gegenbauer多项式中ρ的分解(选择P正确的归一化非常重要)。如果ρ(t)=P∞k=0akk,n(t),我们定义gρ。然后我们的主要结果表明,如果与kηk相比,inft∈[−1,1]|g′ρ(t)|不太小,则(2)的临界点接近±x*。3.球谐函数对Gegenbauer分解中的系数进行平方可能看起来有点神秘。然而,由于球谐函数的优良特性,它自然地出现了。当没有噪音时,考虑简化设置。我们有arg minkLn(z)−L(x*)k2=arg minkLn(z)k2+kLn。分解L2(Sn)=∞k=0Hkn(Sn),其中Hkn。特别是Hkn(Sn)是一个有限维向量空间。设P{Y1,…Yr}为Hkn(Sn)的基础,然后定义双线性r形式Fk(σ,τ)=s=1Ys(σ)Ys(τ。然后hLn(z),Ln(x*)i=hρ(hz,·i),ρ,k(赫兹,x∗i)。k=0,因此X∞zzzk⁄n,k(hz,X∗i)k=0和简单计算表明,如果所有t∈[−1,1]的g′ρ(t)>0,则仅有的临界点是z=±X∗。我们在[9]中对噪声情况的分析仍然很简单,但更有趣,因为它涉及到Hnk(Sn)中的紧框架。应用谐波分析和数据处理739参考文献
[18] 贝瑟洛特、戴维、汤姆·舒姆和卢克·梅茨。开始:边界平衡生成性对抗网络。arXiv预印本arXiv:1703.100717(2017)。
[19] Bora、Ashish、Ajil Jalal、Eric Price和Alexandros G.Dimakis。使用生成模型进行压缩传感。arXiv预印arXiv:1703.03208(2017)。
[20] 坎迪斯、艾曼纽尔·J·、贾斯汀·伦伯格和特伦斯·陶。从不完整和不准确的测量中恢复稳定的信号。纯数学与应用数学通讯59,第8期(2006):1207-1223·邮编1098.94009
[21] Ingrid Daubechies,关于小波的十次讲座。第61卷。暹罗,1992年·Zbl 0776.42018号
[22] 多诺霍(Donoho)、大卫·L·(David L.)和杰恩·约翰斯通(Jain M.Johnstone)。通过小波收缩实现理想的空间自适应。《生物特征》81,第3期(1994年):425-455·Zbl 0815.62019号
[23] 古德费罗(Goodfellow)、伊恩(Ian)、让·普格特·巴迪(Jean Pouget-Abadie)、梅迪·米尔扎(Mehdi Mirza)、徐冰(Bing Xu)、大卫·沃德·法利(David Warde-Farley)、谢尔吉尔·奥扎尔(Sherjil Ozair)、亚伦·库维尔(Aaron Courville)和约舒亚·本。生成性对抗网络。神经信息处理系统进展,(2014):2672-2680。
[24] Hand、Paul和Vladislav Voroninski。通过经验风险实施深度生产先验的全球保障。arXiv预印arXiv:1705.07576(2017)·Zbl 1433.94024号
[25] Yann LeCun。手写数字的MNIST数据库。http://yann.lecun。com/exdb/mnist/(1998)。
[26] Mixon、Dustin G.和Soledad Villar。SUNLayer:利用生成网络进行稳定的去噪。arXiv预印arXiv:1803.09319(2018)。
[27] 森本三郎。球面上的解析泛函及其Fourier-Borel变换。复杂分析Banach中心出版物11(1983)·Zbl 0599.46061号
[28] 鲁丁、列奥尼德一世、斯坦利·奥瑟和埃马德·法特米。基于非线性全变分的噪声去除算法。《物理学D:非线性现象60》,第1-4期(1992年):259-268。非凸相位检索中的随机初始化Yuxin Chen(与Cong Ma、Yuejie Chi、Jianqing Fan共同工作)假设我们有兴趣学习未知对象x♮∈ Rn,但只能访问形式为2(1)yi=a⊤ix的几个二次方程♮,1≤i≤m,其中yi是我们收集的样本,所有是已知的先验设计向量。重建x是否可行以准确有效的方式?求解二次方程组(1)的问题跨越多个领域,包括物理科学和机器学习。反演二次方程组(1)的一个自然策略是解决以下非凸最小二乘估计问题1Xh 2i2 4mix−yi。i=1 i.i.d.在ai~N(0,In)的高斯设计下,已知(2)的解是精确的-直到某些全局符号-概率很高,只要方程(样本)的数量m超过未知数N的数量。然而,(2)中的损失函数是高度非凸的,因此导致了严重的计算挑战。幸运的是,尽管不存在问题,但各种基于优化的740Oberwolfach报告14/2018方法在适当的统计模型存在的情况下仍然有效。可以说,求解(2)的最简单算法之一是vanilla gradient descent(GD),它尝试通过更新规则(3)xt+1=xt−ηtf xt,t=0,1,··,ηt是步长/学习率来恢复。上述迭代过程也被称为用于相位恢复的Wirtinger流,它也可以适应复值情况。这个简单的算法在高斯设计下非常有效:结合精心设计的初始化和步长规则,GD可证明收敛到真值x以线性速率1,前提是方程数的m/n与未知数的比值超过某个对数因子。先验收敛分析中的一个关键因素是初始化。为了保证线性收敛,以前的工作通常建议进行谱初始化或其变体。两个重要特性值得强调:•x0属于本地Ş2个球围绕x半径较小,其中f(·)具有强凸性x0与所有设计向量{ai}不相干,即对于所有1≤i≤m,|a⊤ix0|相当小,因此x0位于f(·)满足所需光滑条件的区域内。这两个共同的性质允许梯度下降从一开始就迅速收敛。频谱初始化的巨大成功引发了一个奇怪的问题:精心设计的初始化对于实现快速收敛是否必要?从业者通常喜欢采用的一种策略是随机初始化GD。优点很明显:与谱方法相比,随机初始化是模型识别的,并且通常对模型失配更加稳健。然而,尽管随机初始化的GD在实践中得到了广泛应用,但理论上对其了解甚少。在这项工作中,我们证明了在高斯设计(即aii.i.d.~N(0,In))下,梯度下降-当随机初始化-在O log N+log(1/ǫ)迭代中产生一个\491]准确的解,给出了几乎最小的样本(高达一些对数因子),从而立即达到近最优的计算和样本复杂度。这为相位恢复的香草梯度下降提供了第一个全局收敛保证,无需(i)精心设计的初始化,(ii)样本分裂,或(iii)复杂的鞍点逃逸方案。所有这些都是通过在分析优化算法时利用统计模型实现的,通过一种leave-on-out方法,该方法可以使梯度下降迭代和数据之间的某些统计相关性解耦。1如果迭代{xt}几何上快速收敛到极小值x,则称迭代算法具有线性收敛性♮。应用谐波分析和数据处理741最佳加权最小二乘逼近Albert Cohen(与Benjamin Arras、Markus Bachmayr和Giovanni Migliorati联合工作)。我们考虑了在给定采样点x1,xn∈X,其中X⊂Rd是一般域,ρ是概率测度。在线性空间Vm中选取近似值u,其中m=dim(Vm)。我们在Hilbertian范数Z 1/2 kvk=|v(x)|2dρ=kvkL2(x,ρ),x中测量精度,其中ρ是x上的概率测度。最佳逼近的误差由em(u)定义:=minku−vk,v∈Vm。如果比较kuáuk≤Cem(u)适用于所有u,则该方法被称为近最优(或常数C下的实例最优),其中C>1是某个固定常数。对于给定的概率测度ρ和近似空间Vmof,一个相关的问题是,在样本大小n适中、理想线性(m)的情况下,是否可以实现实例最优性,表明在加权最小二乘法的一般框架下,通过某些随机采样方案可以实现这一目标。近似▽u被定义为n 1X minw(xi)|yi−v(xi。w=1和µ=ρ的情况对应于标准的未加权最小二乘法。我们用byk·kn表示由1Xn-kvk2n定义的离散欧氏范数:=w(xi)|v(xi。对于该范数,解u可视为u在Vm上的正交投影。将其扩展为Xm u=бcjбj,j=1 742Berwolfach报告14/2018,基于Vm的{б1,…,бm},系数向量c=(c1,……,cm,n i=1Pn,并且向量d具有条目dk=ni=1yiξk(xi)。当G可逆时,解c总是存在且唯一的。当{б1,…,бm}是Vm的L2(X,ρ)-正交基时,E(G)=I。加权最小二乘法的稳定性和准确性分析与G与其在谱范数中测量的期望I之间的偏差量有关。由于kG−Ik≤δ,该偏差也描述了范数k和k·knover空间Vm的接近度⇐⇒(1−δ)kvk2≤kvk2n≤(1+δ)kv k2,v∈Vm。选择不同于误差范数度量ρ的采样度量µ似乎很关键,以便在最佳采样预算下获得稳定准确的近似值。最佳采样度量和权重由kmmµm=dρ和wm=,mkm给出,其中km是所谓的Christoffel函数,由Xm km(x)=|j(x)|2,j=1定义,其中{1,…,m}是Vm的任意L2(x,ρ)正交基。通过这样的选择,可以建立以下结果,请参见[2,1]。定理1。使用上述选择的µmof抽样测量,对于任何0<ε<1,条件n≥cm(ln(2m)−ln(ε)),c:=γ−1=2,1−ln2意味着以下稳定性和实例优化特性:1 PrkG−Ik≥≤ε。2和E(ku−áuk2)≤1+c E ln(2m)−ln(ε)m(u)2+εkuk2。应用谐波分析和数据处理743总之,当使用最佳采样测量µm时,可以在近线性范围内实现稳定性和实例优化n=n(m)=nε(m):=⌈c m(ln(2m)−lnε)⌉,其中ε控制失效概率。在各种实际应用中,在具有嵌套性质V1⊂V2⊀···的族(Vm)m≥1中选取空间Vmis,并且通过提高维数m来提高精度。序列(Vm,m≥1)可以是先验定义的,也可以是自适应生成的,这意味着Vm细化为Vm+1的方式可能取决于最小二乘计算的结果。在这种情况下,我们面临的困难是,最佳测量值µm与m不同。为了保持最佳采样预算,应避免在每个步骤m中绘制大小为n=n(m)的新样本Sm={x1m,…,xnm}。为此,我们观察到最优测度µmen具有混合性质11µm+1=1-µm+σm+1,其中σm:=⁄m2dρ。m+1m+1如[4]所述,这自然会导致采用顺序抽样策略,其中样本Smi回收用于生成Sm+1。这是[1]中研究过的一个此类策略的实例。算法1顺序采样输入:从µm输出中采样Sm:从μm+1中采样Sm+1,i=1,n(m)如果ai=m+1,则绘制均匀分布在{1,…,m+1}中的ai,然后从σm+1绘制xim+1,否则,如果i=n(m,n(m+1)从µm+1画出xim+1。这种顺序抽样策略的目的是,在m步后生成的样本Cm的总数与近似最优预算n(m)保持相同的顺序。更准确地说,在[1]中建立了以下结果。744Oberwolfach报告14/2018定理2。对于算法1,E(Cm)≤n(m)+n(m−1)+1,对于任何τ∈[0,1],Pr-Cm≥n(m)+(1+τ)(n(m−1)+1)≤mτE−τ26n(m−1)2cτ2,其中mτ:=e3。应该注意的是,这些结果完全独立于空间(Vm)m≥1的选择,以及域X的空间维数d。一个自然的观点是在各种背景下开发自适应最小二乘法(小波细化、高维稀疏多项式)基于这种顺序抽样策略。工具书类
[29] B.Arras、M.Bachmayr和A.Cohen,层次空间中最优加权最小二乘近似的顺序抽样,预印本(2018年)·Zbl 1499.41010号
[30] A.Cohen和G.Migliorati,最优加权最小二乘法,SMAI计算数学杂志3(2017),181-203·Zbl 1416.62177号
[31] A.Doostan和J.Hampton,最小二乘多项式混沌回归的相干激励采样和收敛分析,应用力学和工程中的计算机方法290(2015),73-97·Zbl 1426.62174号
[32] A.Doostan和J.Hampton,《基础自适应样本有效多项式混沌》(BASEPC),预印本(2017),arXiv:1702.01185·Zbl 1415.65028号
[33] J.D.Jakeman、A.Narayan和T.Zhou,用于配置近似的Christoffel函数加权最小二乘算法,预印本(2016),arXiv:1412.4305。关于深度学习的表达能力:张量分析纳达夫·科恩(与Or Sharir、Yoav Levine、Ronen Tamari、David Yakira、Amnon Shashua共同工作)人们普遍认为,卷积网络和一般深度学习背后的驱动力是伴随深度而来的表达能力,即通过合成来紧凑地表示函数的丰富和有效空间的能力。尽管有大量的实证证据支持这一观点,但迄今为止,正式的论据还很少。特别是,机器学习社区缺乏对深度效率的令人满意的分析,深度效率是指多项式大小的深度网络实现了浅层网络无法实现(或近似)的功能,除非浅层网络具有超多项式大小。此外,即使对深度效率有了具体的理解,深度学习表达能力背后的神秘依然存在。多项式大小的深度网络实现了所有可能函数的一小部分,因此,即使深度效率几乎总是保持不变,也就是说深度网络可以有效实现的函数空间远大于浅层网络可以有效完成的函数空间,但这仍然不能解释为什么深度网络在实践中是有效的。为了应用谐波分析和数据处理745解决这个问题,必须考虑归纳偏差,即关于隐含编码到深层网络中的实际任务所需功能的假设。在下文所述的一系列论文中,我们导出了卷积网络和张量分解之间的等价性,并首次使用它分析了卷积网的深度效率和归纳偏差。我们从[3]开始,在定义为向量元组的实例上构造一个通用假设空间,向量元组在图像的上下文中对应于通过局部补丁的表示。假设空间是局部结构上有限维函数空间的张量积。因此,一般假设可以表示为乘积函数的指数大基上的线性组合,其中线性组合的系数自然被视为高阶张量(张量中的每个模式对应于输入中的一个面片)。朴素地计算假设是很难的,但通过对系数张量应用层次张量分解,高效的计算成为可能。此外,实现计算的电路构成了卷积网络的一种特殊情况。也就是说,它们是具有线性激活和乘积池的卷积网络,因此我们称它们为卷积算术电路。关键的观察结果是,应用于系数张量的分解类型与计算假设的卷积算术电路结构(隐藏层数量、每个隐藏层中的通道数量、池窗口的大小和形状等)之间存在一一对应关系。这有助于通过分析相应的张量分解来研究网络,从矩阵代数和测度理论等领域提出了多种数学工具。我们表明,经典的CANDECOMP/PARAFAC(CP)分解对应于一个浅层网络,其单个隐藏层中具有全局池。最近引入的Hierarchical Tucker(HT)分解对应于具有多个隐藏层的深层网络,其中池窗口的大小(以及生成的网络深度)取决于分解下的模式树的结构。通过分析CP和HT分解生成的张量在标准矩阵排列下的秩,我们表明,除了一组勒贝格测度零之外,深度网络的所有权重设置都会导致深度有效函数。也就是说,除了一个可忽略的集合外,所有可由多项式大小的深网络实现的函数都不能由浅网络实现(或近似),除非浅网络具有超多项式大小。这种结果,我们称之为完全深度效率,以前从未用于任何深度学习架构,尤其是卷积网络。卷积算术电路包含卷积网络的基本组成部分——局部性、权重共享和池。我们已经实现并评估了这样的电路(也称为SimNets),表明它们在各种视觉识别基准测试中都取得了令人满意的结果[1,2]。尽管如此,他们仍有746Oberwolfach报告14/2018获得广泛应用,尤其是与卷积整流器网络相比,卷积整流器是迄今为止最成功的卷积网络变体。卷积整流器网络的特点是ReLU激活和最大或平均池。它们不具备卷积算术电路的代数性质,因此我们不清楚[3]的结果在多大程度上适用于此类网络。为了便于对卷积整流器网络的分析,我们在[4]中继续,并将广义张量分解定义为通过用一般结合和交换算子g:R×R替换标准张量分解中的乘法算子而获得的构造R.给定具有激活σ(例如σ(z)=最大{z,0},ReLU)和池P(例如P)的卷积网络{ci}i=最大值{ci}异形max),我们定义了激活池操作符gσ/P(a,b):=P{σ(a),σ(b)}。显然,如果gσ/Ps是结合的和可交换的,那么它产生的广义张量分解等价于具有激活σ和池P的卷积网络,其中,分解类型与其各自网络的结构之间也存在一一对应关系。对于卷积整流网络,激活池算子gσ/Pis确实是结合的和交换的,因此等价性成立。我们利用它来分析此类网络的表达特性,并令人惊讶地发现,与卷积算术电路相比,使用卷积整流器网络的深度效率并不完全。仍然有一些函数可以通过深度网络而不是浅层网络有效地实现,但这些函数并不常见——在深度网络的假设空间中,可以通过多项式规模的浅层网络实现(或近似)的函数集是不可忽略的(在深层网络的权重空间中具有正勒贝格测度)。我们认为这一结果表明,就表达能力而言,流行的卷积整流网络不如最近引入的卷积算术电路。当然,要利用机器学习模型,仅仅使其具有表现力是不够的,我们还必须能够有效地训练它。多年来,大量的实证研究致力于卷积整流器网络的训练。我们推测,将类似的努力引导到训练卷积运算电路,从而发挥其表达潜力,可能会产生一种深度学习架构,该架构被证明优于卷积整流器网络,但迄今为止被从业者忽视。正如本节开头所讨论的,深度效率本身并不能揭开深层卷积网络表达能力背后的奥秘。要完全理解后者,必须考虑归纳偏差,即多项式规模深网络实现的函数的属性,以及它们对实际任务的适用性。这就是[5]中工作的目的,其中我们研究了卷积算术电路对其输入区域之间的相关性建模的能力。相关性是通过分离秩的概念形式化的,对于给定的输入分区,分离秩衡量函数离可分离的距离。我们证明了多项式规模的深度网络对某些输入分区支持指数级的高分离秩,而对其他输入分区仅限于多项式分离秩。该网络的池几何应用谐波分析和数据处理747有效地确定了哪些输入分区更受青睐,从而作为控制电感偏差的一种手段。实践中常用的连续池窗口更倾向于交错(纠缠)分区,而不是粗糙分区,从而使归纳偏差朝向自然图像的统计。其他汇集几何会导致不同的偏好,这允许为不同于通常自然图像领域的新型数据定制卷积网络。我们用卷积运算电路和卷积整流器网络实证验证了这一点,表明对于局部性质的图像处理任务,例如形状连续性的表征,标准连续池是最优的。另一方面,对于对称性检测这样的任务,不同输入区域之间的建模相关性非常重要,分散的池几何可以带来更好的性能。裁剪网络以模拟给定任务所需的相关性的处方,是我们的理论的一个范例,该理论是为了解决卷积网络表达性的基本问题而发展的,它也为其在实践中的应用带来了新的能力。在下一节中,我们将进一步讨论这一点,其中我将讨论两项利用我们的理论设计具有新功能和改进性能的新型网络的工作。实际应用。卷积算术电路是由我们构造一个带有层次张量分解的通用假设空间而产生的,实际上它与概率生成模型密切相关。也就是说,如果每个滤波器的权重被限制在单纯形上(非负且总和为1),则卷积运算电路进行的计算将产生通用高维生成模型下输入的可能性。与文献中最近考虑的其他生成方法(例如生成对抗网络或变分模型)相反,我们的模型允许可处理的推理(计算可能性),更重要的是,可处理的边缘化。这允许以前不可行的功能,例如在测试时丢失度分布未知的缺失数据下进行分类。我们在[6]中的图像识别基准上演示了这一点。我们在卷积网络和张量分解之间建立的等价性尤其适用于扩展卷积网络——一种新引入的变体,在音频和文本处理任务中提供最先进的性能。对于扩张卷积网络,整个网络中扩张的选择对应于相应分解下模式树的确定。我们在[7]中利用了这一点,并引入了混合张量分解的概念,将多模式树混合在一起。混合张量分解对应于混合膨胀卷积网络,由具有不同膨胀度的网络的隐藏层互连而成。我们表明,混合分解比没有混合的情况下更有效地表示张量,并由此证明,互连的扩张卷积网络提高了张量的表达能力。经验评估表明,这将大大提高准确性。748Oberwolfach报告14/2018未来工作。未来研究有各种有希望的途径。我们正在研究的一个方向是将张量分解等价性扩展到卷积网络之外。具体地说,我们最近了解到,一个名为张量序列(TT)的分解可以被视为等同于递归神经网络,这为分析后者的表达特性以及将其与卷积网络进行比较打开了大门。我们正在探索的另一条途径是我们的理论与量子力学中张量网络的理论之间的关系。后者是在引入层次张量分解之前开发的,这使我们相信,可能会提出比现在使用的算法更有效的算法,甚至可能会对物理原理有所启发。最后,从长远来看,我有兴趣利用卷积网络和张量分解之间的等价性来解决表达性以外的基本理论问题——优化和泛化。工具书类
[34] N.Cohen和A.Shashua,SimNets:卷积网络的泛化,神经信息处理系统(NIPS)的进展,深度学习和表征学习研讨会,2014年。
[35] N.Cohen、O.Sharir和A.Shashua,Deep SimNets,IEEE计算机视觉和模式识别会议(CVPR),2016年。
[36] N.Cohen、O.Sharir和A.Shashua,《深度学习的表现力:张力分析》,学习理论会议,2016年。
[37] N.Cohen和A.Shashua,卷积整流器网络作为广义张量分解,国际机器学习会议(ICML),2016年。
[38] N.Cohen和A.Shashua,《通过集合几何实现深度卷积网络的归纳偏差》,国际学习表征会议(ICLR),2017年。
[39] O.Sharir、R.Tamari、N.Cohen和A.Shashua,张量混合模型,arXiv预印本,2017年。
[40] N.Cohen、R.Tamari和A.Shashua,用混合张量分解推进扩张卷积网络,国际学习表征会议(ICLR),2018年。具有非高斯矩阵的鲁棒一位压缩传感Sjoerd-Dirksen(与Hans-Christian Jung、Shahar Mendelson、Holger Rauhut联合工作)压缩传感理论预测,可以使用有效的算法从少量线性测量中重建信号,通过利用现实世界中许多信号具有稀疏表示的经验事实。在传统的压缩传感文献中,通常假设可以基于其模拟线性测量值重建信号。在实际的传感场景中,测量值需要量化为有限数量的比特,然后才能传输、存储和处理。从形式上讲,这意味着需要根据应用谐波分析和数据处理749形式y=Q(Ax)的非线性观测值重建稀疏信号x,其中Q:RmAmi是量化器,a表示有限量化字母表。我们考虑由Boufounos和Baraniuk首先研究的一位压缩传感模型[3]。在这个模型中,我们观察到(1)y=符号(Ax+τ),其中A∈Rm×N,m≪N,符号表示沿入口应用的符号函数,τ∈Rms是一个由阈值组成的向量。特别有趣的是无记忆的一位量化模型,其中每个线性测量都是独立于其他测量进行量化的。从实用角度来看,无记忆一位量化器很有吸引力,因为它可以使用节能比较器实现固定电压电平(如果阈值τ等于固定常数),并结合抖动(如果τ是随机的)。在最初的工作[3]中,所有阈值均为零。在这种情况下,原始信号的能量在量化过程中丢失,人们只能希望恢复其方向。目前,有一个丰富的理论可用于标准高斯矩阵的一位压缩传感。例如,众所周知,即使部分比特在量化器处以对抗的方式被破坏,人们也可以通过一个易于处理的凸程序,以很高的概率准确地重建任何(近似)稀疏信号的方向[8]。如果一位测量的数量m按信号稀疏度s缩放为m≥Cs log(n/s),则此结果有效,这是“非量化”压缩感知已知的最佳缩放。最近,研究表明,只要知道信号能量的先验界,就可以使用高斯阈值有效地重建完整信号[2,7]。尽管从数学角度来看,这些结果非常有趣,但由于高斯矩阵无法在实际测量设置中实现,因此其实际价值受到了限制。因此,将已知理论推广到非高斯矩阵是非常有趣的。这是一项非平凡的任务,因为存在在非量化压缩感知中性能最佳的测量矩阵,但如果使用一位量化,可能会失败。例如,正如[1]中所指出的,如果A是伯努利矩阵且τ=0,则已经存在无法基于其一位测量值重建的2个稀疏向量,无论我们进行了多少次测量。尽管如此,[1]对亚高斯测量矩阵建立了一个正的恢复结果,表明可以重建稀疏信号x,其精度(最多)可达kxk1/4∞。非正式地,这意味着如果信号稀疏,但不太稀疏,人们仍然可以希望恢复信号。在与H.C.Jung和H.Rauhut[4]的联合工作中,我们用结构化随机矩阵为无记忆的一位压缩感知建立了第一个严格的重建保证。我们研究了随机子采样高斯循环矩阵,这是一个与SAR雷达成像、,傅里叶光学成像和信道估计(参见示例。
[41] 以及其中的参考)。与[1]相反,[4]的主要结果强加了一个小的稀疏性假设。在此假设下,我们为《750Oberwolfach报告14/2018》建立了保证,在阈值向量τ为零的情况下,分别使用单个硬阈值步骤或线性程序准确恢复任何s稀疏或有效稀疏向量的方向。我们的分析依赖于S.Foucart的工作
[42] ,他观察到这两种重建方法的恢复结果可以通过显示矩阵A满足Ş1个/Ş2-限制等距属性。通过将τ取为适当缩放的高斯向量,只要已知其能量上限,就可以通过二阶锥程序有效地恢复稀疏信号。作品[1,4]给人的印象是,在非高斯环境中,为了从一位测量中准确恢复,需要对信号进行额外限制。在最近与S.Mendelson[5]的联合工作中,我们表明这种印象是误导性的。我们证明,如果适当地选择随机阈值向量τ,则可以根据一般低复杂度集的次高斯、甚至重尾的一位测量值,从中准确地重构信号。在稀疏信号的特殊情况下,我们进一步证明了由次高斯向量生成的随机次采样循环矩阵的恢复结果,而不受稀疏程度的限制。此外,我们的恢复结果在稳健性方面大大优于[1,4]:在量化过程中存在对抗性比特损坏以及模拟测量中的重尾噪声的情况下,恢复是稳定的。对于次高斯循环矩阵和随机次采样次高斯循环阵,可以通过凸恢复程序(对于许多信号集来说,是可处理的)实现鲁棒恢复。工具书类
[43] A.Ai、A.Lapanowski、Y.Plan和R.Vershynin。采用非高斯测量的一位压缩传感。线性代数应用。,441:222-239, 2014. ·Zbl 1332.94041号
[44] R.G.Baraniuk、S.Foucart、D.Needell、Y.Plan和M.Wootters。稀疏信号二进制测量重建误差的指数衰减。IEEE信息理论汇刊,63(6):3368-33852017。
[45] P.T.Boufounos和R.G.Baraniuk。1位压缩传感。2008年第42届信息科学和系统年会,第16-21页。IEEE,2008年。
[46] S.Dirksen、H.C.Jung和H.Rauhut。高斯循环矩阵的一位压缩感知。ArXiv:1710.03287,2017年·Zbl 1470.94037号
[47] S.Dirksen和S.Mendelson。具有非高斯测量的稳健的一位压缩感知。正在准备中,2018年·Zbl 1491.60018号
[48] S.Foucart。压缩感觉的味道,第61-104页。施普林格国际出版公司,Cham,2017年·Zbl 1391.94211号
[49] K.Knudson、R.Saab和R.Ward。具有范数估计的一位压缩传感。IEEE传输。通知。理论,62(5):2748-27582016·兹比尔1359.94117
[50] Y.Plan和R.Vershynin。稳健的1位压缩感知和稀疏逻辑回归:凸规划方法。IEEE传输。通知。理论,59(1):482-4942013·Zbl 1364.94153号
[51] J.Romberg。随机卷积压缩传感。SIAM J.成像科学。,2(4):1098–11282009年。应用调和分析和数据处理751数据分析中流形上的输运Ronen Talmon(与Or Yair,Mirela Ben-Chen联合工作)noN1noN2分别考虑N1 i=1i=1和N2高维时间序列的两个子集x(1)i(t)和x(2)i(tx),其中x(k)i(t)∈RD。假设每个子集都是在特定会话、部署和环境条件集中从同一采集系统中获得的。在我们的符号中,上标表示子集的索引,下标i表示每个子集内时间序列的索引,t表示每个时间序列的时间轴。我们的论述只关注两个子集,但将其推广到任意数量的子集是很简单的。此外,我们在这里考虑时间序列,但我们的推导没有考虑时间顺序,因此,对其他类型数据(例如图像)的扩展是即时的,其中t可以只是样本的索引。分析这些数据通常会带来许多挑战。例如,一个值得注意的问题是如何有效地比较高维点云,特别是时间序列。当数据是真实的测量信号时,样本比较变得更具挑战性,因为这种高维测量数据通常包含高水平的噪声。特别是,在我们的设置中,我们面临着一个额外的挑战,因为数据是在两个单独的子集中给出的。比较来自同一子集的时间序列本身是一项困难的任务,更困难的是比较来自两个不同子集的时间系列。我们在这项工作中的目标是以无监督的方式找到两个子集的新的联合表示。大体上,我们的目标是在欧几里德空间中设计一种低维表示,以便于进行有效且有意义的比较。与许多无监督任务一样,对目标的一般描述并没有明确定义。为了使我们的目标更具体,我们将每个时间序列x(1)i(t)与a(1)(2)(2。也就是说,我们设计了新的表示,使得具有相似对应标签的任意两个时间序列的新表示之间的欧几里德距离很小,与时间序列各自的试验无关,尤其是子集。为了构造这种表示,我们提出了一种计算协方差矩阵作为数据特征的方法,然后在对称正定矩阵流形上使用并行传输[1,2,3]。基于我们的新表示,我们为迁移学习和领域适应设计了高效准确的解决方案,这是noN1数据分析中长期存在的问题。具体来说,给定一个子集x(1)i(t),其对应的标签i=1n(1)oN1yi,我们就子集的新派生表示训练分类器。i=1 noN1然后,当另一个未标记的subsetx(2)i(t)可用时,我们将i=1训练分类器应用于派生(联合)表示。752Berwolfach报告14/2018为了将问题设置和我们提出的解决方案结合起来,我们将使用一个示例,以最近的竞争为例(http://www.bbci.de/competition/iv/). 考虑来自大脑-计算机接口(BCI)运动图像实验的数据,该实验包含D脑电图(EEG)记录。在这个实验中,几个受试者被要求重复执行四分之一的运动想象任务(举起右手、左手或脚,或移动舌头),Letx(1)i(t)是从单个受试者获得的i=1记录的子集,索引(1),其中时间序列x(1,在第i次试验期间从D EEG通道同时记录。每个时间序列x(1)i(t)都附有一个标签yi(1),表示在第i次试验中执行的成像任务。通常的做法是基于noN1 x(1)i(t)和yi(1)训练分类器,以便从新的EEG i=1记录中识别图像任务。这种能力可以成为设计脑-机接口的基础,例如控制假肢。noN1假设从另一个i=1主题(索引(2))获得的记录的新子节x(2)i(t)可用。将基于受试者(1)的数据训练的分类器应用于受试者的新记录子集(2)通常会产生较差的结果,正如我们在研究中所证明的那样。事实上,据我们所知,所有处理这个特定数据集的方法,例如[4],以及其他相关问题,都是单独分析每个个体的数据。noN1noN1通过构建x(1)i(t)和x(2)i(t)的联合表示,i=1i=1,它对特定的受试者是不注意的,我们能够构建一个分类器,该分类器基于来自一个受试者的数据进行训练,并应用于来自另一个受试者的数据,而无需任何校准,即无需来自新(测试)受试者的任何标记数据。工具书类
[52] X.Pennec、P.Fillard和N.Ayache,张量计算的黎曼框架,《国际计算机视觉杂志》,第66卷,第1期,第41-66页,2006年·Zbl 1287.53031号
[53] R.Bhatia,正定矩阵。普林斯顿大学出版社,2009年·Zbl 1321.15003号
[54] S.Sra和R.Hosseini,正定矩阵流形上的圆锥几何优化,SIAM优化杂志,第25卷,第1期,第713-739页,2015年·兹比尔1316.65065
[55] A.Barachant、S.Bonnet、M.Congedo和C.Jutten,《使用基于黎曼的核对bci应用进行协方差矩阵分类》,神经计算,第112卷,第172-1782013页。应用谐波分析和数据处理753深层网络:工程化、训练化还是随机化?R´emi Gribonval许多由几代数学家和实践者精心设计的数据分析和处理管道实际上可以作为深层网络实现。允许自动训练这些网络的参数,可以重新访问某些结构。演讲首先描述了一种通过数值优化通过快速线性变换逼近给定矩阵的经验方法[1]。其主要思想是将快速线性变换写成几个稀疏因子的乘积,并对这些因子进行迭代优化。这对应于训练具有稀疏连接的线性多层神经网络。利用迭代硬阈值投影的算法在实践中表现良好。然而,要对他们的成功条件有一个扎实的了解,仍然是一个悬而未决的数学问题。在第二部分中,演讲概述了最近一个大规模学习框架的主要特征,称为压缩统计学习[2]。受压缩感知的启发,该框架允许大幅减少体积和维度,以从大型/分布式/流式数据收集中学习。其原理是计算低维(非线性)草图(随机经验广义矩向量),基本上只需一次训练即可完成。对于某些学习问题,如聚类[3],已经证明小草图可以捕获与所考虑的学习任务相关的信息,并且已经提出了经验学习算法来从这些草图中学习。作为概念验证,可以将数千小时以上的语音记录提取为几千字节的草图,同时捕获足够的信息,估计高斯混合模型用于说话人验证[4]。该框架在学习误差方面具有统计保证,在草图聚类和草图PCA上进行了说明,使用了受压缩感知中使用的稀疏恢复算法启发的经验算法。讨论了该框架在隐私感知学习方面的承诺,以及它与信息保存的联系,以及某些具有随机权重的卷积神经网络的池化层。最后,我们描述了正在进行的工作[5],提供了深网络近似空间[6]的定义和一些特征,以及它们与经典函数空间的关系。特别令人感兴趣的是所谓激活函数的作用,以及所考虑网络的深度。工具书类
[56] L.Le Magoarou,R.Gribonval,矩阵的灵活多层稀疏近似与应用,IEEE信号处理选定主题期刊10(4)(2016)。
[57] R.Gribonval、G.Blanchard、N.Keriven、Y.Traonmilin,《随机特征时刻的压缩统计学习》,预印本,2017年·Zbl 1478.62164号
[58] N.Keriven,N.Tremblay,Y.Traonmilin,R.Gribonval,压缩K-means,国际声学、语音和信号处理会议(ICASSP 2017)。754Oberwolfach报告14/2018
[59] N.Keriven,A.Bourrier,R.Gribonval,P.Perez,《混合模型、信息和推理的大规模学习草图》,2017年·Zbl 1470.94045号
[60] R.Gribonval,G.Kutyniok,M.Nielsen,F.Voigl¨ander,深度神经网络的近似空间,工作草案·Zbl 1491.82017年
[61] R.A.DeVore,G.G.Lorentz,《构造逼近》,1993年,施普林格-弗拉格出版社。Deep ReLU网络的近似特性Felix Voigtlaender(与Philipp Petersen联合工作)在机器学习领域,深度学习方法极大地提高了许多分类问题(如视觉对象识别)的最新水平
[62] 机器学习的一般目标是找到一个很好的近似值f∗到一个未知的基础(分类器)函数f,该函数只能通过已知样本(xi,f(xi))i=1,。。。,N.在深度学习的情况下,这是通过坚持f*由神经网络Φ=Φa实现的,该神经网络由其权重a∈RK参数化。为了确定这些权重,应用随机梯度下降的形式,以最小化根据样本(xi,f(xi))i=1,…,定义的损失函数L,。。。,N。有关详细信息,请参阅[5,9]。尽管它们在应用中表现出了令人难以置信的性能,但对于这种成功的深度学习方法仍然缺乏理论解释。在这个摘要中,我们介绍了有关神经网络表达能力的最新结果。特别是,我们的结果部分解释了为什么深层网络往往比浅层网络表现更好,正如在实践中观察到的那样[5]。我们强调,我们只对存在一个网络Φfε感兴趣,该网络逼近给定的实际分类器函数f,误差为ε。我们没有解决如何找到这样一个网络的实际重要问题,更不用说如果只给一个f的样本。1.经典结果A神经网络Φ:RN0RNL通过交替应用仿射线性映射和非线性激活函数来计算其输出̺:RR;因此Φ(x)=TL(TL−1(……(T1(x)…))对于x∈RN0,其中L∈N表示网络的深度,其中每个Tℓ: 注册护士ℓ−1注册护士是仿射线性的,比如Tℓ= A类ℓ• + b条ℓ. 注意,̺是按组件应用的。如果我们想强调̺的选择,我们说Φ是一个\826]网络。观察一下,1层网络只是一个仿射线性映射,而2层P网络是脊函数的线性组合,即Φ(x)=Ki=1 \826'(hx,aii+bi)。神经元数量和Φ的权重数分别为XLXL N(Φ)=NŞ和W(Φ)=(kAŞk个Ş0+千字节Şk个Ş0) . ℓ=0ℓ=1应用谐波分析和数据处理755为了以后的使用,我们回顾了S形激活函数的概念:A(可测,局部有界)函数̺:RR是阶为k∈N0if limx的σ形→∞̺(x)xk=1和limx→−∞̺(x)xk=0。所谓的ReLU(整流线性单位)激活函数̺0(x):=x+是1阶S形函数。神经网络的表达能力是一个研究得很好的课题[1,2,3,4,6,7]。特别是,下面的通用逼近定理似乎解决了神经网络的表示性问题:定理(参见[6,定理1])。如果̺是连续的但不是多项式,并且K⊂Rd是紧的,那么2层神经网络族在C(K)中是稠密的。然而,请注意,该定理并没有给出用于将f近似到误差ε的网络Φfε复杂性的任何界。我们的主要目标是在f的适当假设下推导ReLU网络的此类边界。对于某些其他类型的激活函数,此类边界是经典的;例如:1)在[7]中,证明了如果̺是k≥2阶的σ形,并且如果f∈Cs([0,1]d),则对于n(Φn)=n且L(Φn。2) 在[2]中,对于零阶S形激活函数,如果假设f:Rd的傅里叶变换C有一个有限的一阶矩,然后是kf−Φnk2L2(µ)。对于n(Φn)=n的双层网络Φnwi,n−1。这里,µ是Rdwith紧支撑上的一个固定(但任意)概率测度。2.ReLU网络的结果关于神经网络近似性质的大多数经典结果不适用于ReLU网。由于ReLU实际上是使用最广泛的激活函数[5],这些网络近年来受到了广泛关注。Yarotsky[13]表明,对于Sobolev函数f∈Wk,∞([0,1]d),存在大小为N(Φfε)的ReLU网络φfε。W(Φfε)。ε−d/k深度L(Φfε)。ln(1/ε)满足kf−ΦfεkL∞.ε。因此,如果近似精度变得更好,则网络的深度Φfε趋于无穷大。据我们所知,如果坚持使用与上述相同的“网络大小-近似误差”关系的L∞近似,则不知道是否可以避免深度的增长。但对于p<∞的Lpap逼近,情况有所不同:定理([8,定理A.9])存在一些c>0,使得对于任意ε,p,β∈(0,∞)和f∈cβ([0,1]d),对于满足N(Φfε)的合适ReLU网络Φfε),我们得到kf−Φfε的kLp([0,1]d)≤ε。W(Φfε)。ε−d/β和L(Φfε)≤c·(1+β/d)·log2(2+β)。然而,基础分类器函数f通常具有离散范围;例如,在数字分类问题中,我们可以有f:RN×N{−1,0,…,9},其中−1代表“非数字”。由于这样的函数不可能是光滑的,因此我们考虑分类器f的不同“玩具模型”,即f=Mi=1ai1Ki,其中假设集合Ki⊂Rd具有光滑边界,例如,Ki∈Cβ。通过使用局部变量变化后的函数1Ki类似于756Oberwolfach Report 14/2018沿直线跳跃,并且ReLU网络可以很好地近似此类跳跃,例如通过ε-1·(̺0(xi)−\826,0(xi-ε)),我们证明了以下结果:PM定理([8,定理3.5])存在c>0,因此对于任何f=i=1ai1Ki且其导数Ki∈cβ和任何ε>0,都存在一个ReLU网络Φfε且其系数为kf−φfεkL2([0,1]d)≤ε和N(Φfε)。W(Φfε)。ε-2(d−1)/β以及L(Φfε)≤c·log2(2+β)·(1+β/d)。利用熵参数,我们证明了界W(Φfε)。ε−2(d−1)/β是最优的,假设对于固定t>0,网络的每个权重都可以用ε−t比特编码。有关详细信息,请参阅[8,第4.1节]。针对ReLU网络Φ:Rd观察到的Telgarsky[12,11]一维限制R、 第7天Φ(ta+b)(带a,b∈Rd)是至多N(Φ)L(Φ)片的分段仿射线性网络,并用它证明了存在大小为N的深度神经网络,它只能由大小为N指数的浅层网络来近似,我们能够证明非线性光滑函数逼近的以下下限:定理([8,定理4.5],见[10,定理4]中p=2的情况)。让∅6=Ω ⊂ Rdbe开且连通,设f∈C3(Ω) 不是仿射线性的。然后存在一个常数Cf>0,使得对于每个p∈[1,∞],kf−ΦkLp(Ω)≥ Cf·max(N(Φ)−1)−2L(Φ),(W(Φ)+d)−2 L(φ)。总的来说,我们的结果表明,更平滑的函数允许ReLU网络具有更好的逼近率;但要达到这些速度,需要深层网络!工具书类
[63] M.Anthony和P.L.Bartlett,《神经网络学习:理论基础》,剑桥大学出版社,1999年·Zbl 0968.68126号
[64] A.R.Barron,σ函数叠加的通用近似界,IEEE信息理论汇刊39(3),(1993),930-945·兹伯利0818.68126
[65] G.Cybenko,sigmoid函数叠加逼近,控制、信号和系统数学2(4)(1989),303-314·Zbl 0679.94019号
[66] K.Hornik,多层前馈网络的近似能力,神经网络4(2)(1991),251-257。
[67] Y.LeCun、Y.Bengio和G.Hinton,《深度学习》,《自然》第521期,(2015年),第436-444页。
[68] M.Leshno、V.Y.Lin、A.Pinkus和S.Schocken,具有非多项式激活函数的多层前馈网络可以近似任何函数,神经网络6,(1993),861-867。
[69] H.N.Mhaskar,多层前馈人工神经网络的近似特性,计算数学进展1(1),(1993),61-80·兹比尔0824.41011
[70] P.Petersen和F.Voigtlaender,使用深度ReLU神经网络的分段光滑函数的最佳逼近,arXiv预印本,arXiv.org/abs/1709.052892017·Zbl 1434.68516号
[71] D.E.Rumelhart、G.E.Hinton和R.J.Williams,《通过反向传播错误学习表征》,《自然》323,(1986),533-536·Zbl 1369.68284号
[72] I.Safran和O.Shamir,用神经网络逼近自然函数的深度-宽度权衡,机器学习研究论文集,70,(2017),2979-2987。应用谐波分析和数据处理757
[73] M.Telgarsky,深度前馈网络的表现优势,arXiv预印本,https://arxiv.org/abs/1509.08101, 2015.
[74] M.Telgarsky,《神经网络深度的益处》,学习理论会议(COLT),(2016),1517-1539。
[75] D.Yarotsky,深度ReLU网络近似的误差界,神经网络94(2017),103-114。时间演化数据、扩散几何和随机矩阵分解Nicholas F.Marshall(与Matthew J.Hirn联合工作[5])。我们描述了如何使用扩散算子和随机矩阵分裂有效地总结时间演化数据的几何。假设给出了与Rd中n个点对应的n×d×m张量,该张量在m次上测量。对于张量的每个n×d时间切片Xi,我们按照扩散映射框架[1]构造了一个扩散算子Pi,并研究了乘积算子P(m):=PmPm−1··P1。我们证明了当假设一个具有时间相关度量的流形作为数据的基础时,此乘积算子在精确意义上近似热流。此外,我们将扩散距离和扩散映射的概念推广到这个时间演化的环境中。我们观察到,通过将每个Pi实现为稀疏矩阵,将每个矩阵依次应用于随机向量集合,然后使用Martinsson、Rokhlin和Tygert[6]的算法,可以有效地计算乘积算子P(m)的奇异值分解。这种分解又可用于计算广义扩散映射,我们称之为时间耦合扩散映射,它总结了数据张量的几何结构。我们注意到,扩散几何文献中的其他近期作品也考虑了通过扩散核乘积定义的嵌入,例如参见Lederman和Talmon[3],或Lindenbaum、Yeredor、Salhov和Averbuch[4]。主要结果。我们的主要结果建立了乘积算符P(m)与具有时间相关度量的假定基础流形上的热流之间的联系。Guenther[2]建立了具有时间相关黎曼度量的流形上热核H0的存在唯一性。为了证明收敛结果,我们为乘积算子引入了对带宽参数ε的依赖性,并写下P(m)=Pε(m)。回想一下,n是流形m的空间采样数,m是时间测量数。我们假设基础时间间隔[0,T]分为m个间隔[τi−1,τi),每个间隔的长度为ε,其中τ0=0,τm=T。为了简单起见,我们假设我们的m测量值是在(τ1,…,τm)处进行的。我们的主要结果是,在大数据的限制下,无论是在空间还是时间上,乘积算符Pε(⌈T/ε)收敛到热核:Pε(⌈t/ε⌉)H0塔斯n→ ∞ 和ε0.758Oberwolfach报告14/2018更准确地说:定理。假设时间相关流形(M,g(τ))的等距嵌入Mτ⊂Rd在公共集X={xj}nj在时间间隔[0,T]上,以ε为间隔的时间单位的n个点中有=1⊂M个,因此,特别是,我们有时间样本(τi)mi=1⊂[0,T],其中τi=i·ε,M=T/ε。那么,对于任何充分光滑的函数f:MR和t≤t时,热核H0t可以用算符Pε(⌈t/ε⌉):Pε。设δjdenote为以xj为中心的Dirac分布。我们通过比较马尔可夫算子P(m)的δj⊤和δkunder的后验分布来比较点xj和xkb。更具体地说,在[1]之后,我们将基于扩散的距离定义为这些后验分布之间的L2距离,该后验分布由马尔可夫链的平稳分布的倒数加权。也就是说,我们将距离D(m)定义为D(m。j=1(m)(xj)时间耦合扩散图。乘积算子P(m)通常与对称矩阵不相似(如标准扩散映射框架[1]),因此我们对扩散映射的定义必然不同。首先,我们用A(m)=∏1/2(m)P(m)∏−1/2(米)定义算子A(m。接下来,我们计算了A(m)的奇异值分解(SVD):A(m。定义Ψ(m):=∏−1/2(m)U(m)∑。然后很容易检查(参见[5])嵌入xj7δj⊤Ψ(m)将数据X应用于欧几里得空间的谐波分析和数据处理759保留了时间耦合扩散距离。也就是说,D(m)(xj,xk)=kδjΨ。我们指的是嵌入xj7δj⊤Ψ(m)作为时间耦合扩散图。工具书类
[76] R.R.Coifman,S.Lafon,扩散图,应用和计算谐波分析21(1)(2006)5-30·Zbl 1095.68094号
[77] C.M.Guenther,具有时间相关度量的流形的基本解,《几何分析杂志》12(3)(2002)425-436·Zbl 1029.58018号
[78] R.R.Lederman,R.Talmon,《使用交替扩散的公共流形学习》,技术代表,耶鲁大学(2014)·Zbl 1394.94297号
[79] O.Lindenbaum,A.Yeredor,M.Salhov,A.Averbuch,多视图扩散图,arXiv:1508.05550(2015)。
[80] N.F.Marshall和M.J.Hirn。时间耦合扩散图。应用和计算谐波分析(2017年)·Zbl 1397.58019号
[81] P.G.Martinsson、V.Rokhlin、M.Tygert。矩阵分解的随机算法。应用和计算谐波分析(2011年)。多值图像的变形Gabriele Steidl(与Sebastian Neumayer、Johannes Persch联合工作)平滑图像过渡,也称为图像变形,是图像处理和计算机视觉中经常处理的任务,有多种方法可以解决此问题。例如,在基于特征的变形中,只有特定特征相互映射,然后通过插值计算整个变形。本文涉及一种特殊的图像变形,即Miller、Trouv´e和Younes提出的所谓变形[4,5]。变形模型可以看作是差分同构模型流及其大变形差分度量映射框架的扩展,其中每个图像像素沿着由差分同态路径确定的轨迹进行传输。作为扩展,变形模型允许图像强度沿像素轨迹变化。本文建立在Berkels、Effland和Rumpf[1]的时间离散测地线模型上,但考虑了L2中的图像(Ω,H) ,其中Ω ⊂ Rn,n≥2,是一个具有Lipschitz边界和H为有限维Hadamard流形的开放的有界连通域。Hadamard流形是具有非正截面曲率的单连通完备黎曼流形。典型的例子是双曲空间和具有仿射不变度量的对称正定矩阵。作为一个重要事实,我们将使用Hadamard空间中的距离是联合凸的,这将意味着涉及距离函数的某些泛函的弱下半连续性。760 Oberwolfach报告14/2018 K−1我们的目标是找到一个最小化序列I=(I1,…,IK−1)∈L2(Ω, R) 离散路径能量XKZZ J(I):=infW(Dξk(x))+γ|DmΓk(x)|2dx+1dΓk∈Aǫδ2(Ikk,Ik−1)2dx,k=1(1)根据I0=T,Ik=R,其中δ,γ>0,d2表示L2中的距离(Ω,H) ,n Aǫ:={∈Wm,2(Ω): det(D⏴)≥ǫ,当x∈õΩ}, m>1+n2是一个允许的变形集,函数W必须满足某些性质。线性弹性势给出了W的特定选择。图1中给出了一个示例。我们证明了(1)的极小值存在。图1.时间离散变形路径的图示。在处理数字图像时,我们必须引入空间离散模型。我们在交错网格上建立了有限差分模型,并采用了多尺度策略。我们已经对[3]中的灰度图像使用了这种离散化。为了找到一个极小值,我们还提出了一种固定变形或图像序列的交替算法:i)对于固定图像序列,我们必须并行解决流形值图像的某些配准问题,以获得变形序列(1,…,K)。通过Karcher均值计算进行必要的插值。ii)对于固定变形序列,我们需要找到K X d22(IK)的最小化图像序列(I1,…,IK−1)k,Ik−1)根据I0=T,Ik=R k=1,其中d2表示L2中的距离(Ω,H) ●●●●。图2显示了我们的模型为以3×3正定矩阵作为条目的图像获得的路径。有关更多信息,请参阅[2]。应用谐波分析和数据处理761图2.Camino数据集YZ切片49和51的一部分与SPD(3)矩阵之间的变形路径。工具书类
[82] B.Berkels、A.Effland和M.Rumpf。图像空间中的时间离散测地线路径。SIAM成像科学杂志8(3)(2015),1457-1488·Zbl 1325.65031号
[83] J.Persch、F.Pierre和G.Steidl。使用图像变形的基于示例的人脸彩色化。《成像杂志》3(4)(2017):ArtNum 48。762Berwolfach报告14/2018
[84] J.Persch、F.Pierre和G.Steidl。受图像空间中离散测地线的启发,流形值图像的变形。SIAM成像科学杂志,提交·Zbl 1429.65043号
[85] A.特劳夫和L.Younes。可变形模板的局部几何体。SIAM数学分析杂志37(2)(2005),17-59·1090.58008兹罗提
[86] A.特劳夫和L.Younes。通过李群行动的变形。计算数学基础5(2)(2005),173-198。用深度学习方法求解线性Kolmogorov方程Philipp Grohs 1。数学学习问题根据[1],数学学习问题可以转化为以下形式。定义1(数学学习问题)。让K路,让(Ω,G、 P)是概率空间,让X:Ω→ K和Y:Ω → 随机向量。对于Borel可测函数F:K通过Z(1)E(X,Y)(F)=kF(X)−Y k2RndP=E kF(X)−Y k2Rn∈[0,∞],确定F相对于(w.r.t.)X和Y的最小二乘误差。数学学习问题要求函数F最小化E(X,Y)(F)。这个定义可以被解释为在两个随机向量X、Y之间找到最佳函数关系的问题,其中X可以扮演数据点的角色,Y可以扮演标签的角色。由于E(X,Y)的最小化相当于一个二次最小化问题,定义1的数学学习问题的解决方案可以很容易地看作是条件期望F(X)=E(Yˆ|X=X)。在实践中,人们不知道(X,Y)的分布,但只能够获得需要估计ˆF的i.i.d.样本(xi,yi)mi=1~(X,Y)。实现这一目标的一种流行方法是经验风险最小化(ERM),它在假设类别H⊂C(Rd,Rn)上最小化经验风险1Xm(2)E(xi,yi)m(F):=(F(xi)−yi)2 i=1m i=1。极小值(可以是noni=1,H。经典统计学习理论,例如在[1]中给出的示例,提供了对误差2E(X,Y)(ˆF(xi,yi)mi=1,H)−E(X、Y)(\f710)=\710»F(xi,yi。L2(K,dPX)应用谐波分析和数据处理763 2这些估计涉及近似误差ˆFH−F,L2(K,dPX)的界,其中F∈H∈argminF∈HkF−Fk2L2(C,dP和泛化误差X)E(X,Y)(\710,F(xi,yi)mi=1,H)−E(X、Y)(\FH)。近似误差衡量假设类H对回归函数ˆF的近似程度,其估计隐含地需要了解(X,Y)的正则性属性,这通常不适用于实际的学习问题。2.神经网络假设类近年来,通过使用深度(人工前馈)神经网络作为假设类,取得了令人瞩目的成功[2]。这些可以定义如下。定义2。设L,N0,NL∈N。具有L层的神经网络Φ是矩阵向量元组Φ:=((A1,b1),(A2,b2),(AL,bL)∈×Ll=1RNl×Nl−1×RNl。我们将序列拱(Φ):=(N0,N1,…,Nl)称为Φ的结构,并分别用din(Φ):=N0和dout(Φ)=Nl表示其输入和输出维数。假设σ∈C(R,R),那么我们将Φ与激活函数σ的实现定义为映射Rσ(Φ)∈C(RN0,RNL),其中Rσ(Φ)(x)=xL,其中xLis由以下方案给出:x0:=x,xL:=σ(Alxl−1+bl),对于l∈{1,…,l−1},xL:=Alxl−1+bl。这里,σ是按分量理解的,即σ(y)=(σ(y1),σ(ym))。最后,我们定义尺寸(Φ):=PLj=1(kAjkŞ0+千字节Ş0),并设置Hσ(N0,…,NL):={Rσ(Φ):arch(φ)=(N0、…、NL)}⊂C(RN0,RNL)。激活函数的示例包括校正线性单位ReLU(t):=(t)+或σ函数sig(t)=tanh(t/2)。由此产生的ERM问题(2)变得非线性和非凸,通常只能通过随机一阶优化方法来解决,而这些方法的收敛特性尚未被了解。3.作为学习问题的线性Kolmogorov方程考虑线性Kolmogorov方程,该方程对于函数u:R+×Rd定义如下R和初始值:RdR: (3)∈u1∈t2Trace(σ(x)σT(x)Hessxu(T,x))+µ。函数x7的近似问题u(T,x),T>0,假设初始条件u(0,x)=(x)出现在广泛的应用领域,例如非线性滤波或计算金融。特殊情况包括扩散方程、764Oberwolfach Report 14/2018 Black-Scholes-方程或金融工程行业日复一日使用的Heston模型。在这些应用中,为d≥100的高维问题开发有效的数值格式尤其重要。由于维数灾难表明经典方法(有限元方法、有限差分方法、稀疏张量积方法、谱方法等)的复杂性在维数d上呈指数级缩放,因此此类方法不适用于此领域。在[3]中,使用Feynman-Kac公式u(T,x)=E((ZxT)),其中ZxT是定义为ZxT=x=R0tµ(Zxs)ds+R0tσ(Zx2)dWsto的过程,观察到u(T、x)|[a,b]d等于精确意义上的学习问题的解决方案,定义1与x=u[a、b]d([a,b]d上的均匀分布)和Y=(ZxT)相关。使用此重新公式,我们可以模拟按照(X,Y)分布的训练数据(xi,yi)mi=1,并用一个NN假设类HReLU(N,其结果是F=u(T,·)的数值近似值ˆF0,…,NL)(xi、yi)mil=1,HReLU(N0,……,NL)来解决由此产生的ERM问题。[3]中进行的数值模拟表明,所得到的算法不会受到维数灾难的影响。P在正在进行的工作中,我们表明,在许多感兴趣的情况下,NN假设类的sizeLl=1(Nl×Nl−1+Nl)以及所需训练样本的数量m在维数d中仅为多项式。定理1(非正式和简化版本[G-Jentzen-von Wursemberger])。假设µ,∑是仿射函数(这包括扩散方程或Black-Scholes方程),并且假设初始条件可以很好地用ReLU NNs近似P(这包括(x)=max{di=1xi−Ki,0}(篮子选项)或(x)=max{x1−K1,…,xd−Kd,0}(max选项))。然后存在一个多项式p,使得每ǫ>0都存在L,N1,NL,m∈N,PL(i)l=1(NL×NL−1+NL)≤|p(d)|ǫ−2(ii)m≤|p。i=1(N0,…,NL)换句话说,该方法不受维数灾难的影响。工具书类
[87] F.Cucker,S.Smale。关于学习的数学基础,AMS 39/1(2001)公报,1-49·Zbl 0983.68162号
[88] I.Goodfellow,Y.Bengio,A.Courville。深度学习,麻省理工学院出版社(2016)·Zbl 1373.68009号
[89] C.Beck、S.Becker、P.Grohs、N.Jaafari、A.Jentzen。通过深度学习求解随机微分方程和Kolmogorov方程。预打印。应用谐波分析和数据处理765深网络函数逼近的新范式Hrushikesh N.Mhaskar机器学习的一个核心问题如下。某些非空集X的LetD={(xi,yi)}Mi=1⊂X×R。求一个模型P:XR使得P(xi)≈yi,1≤i≤M。[2,3]中描述的传统机器学习范式是将D视为未知概率分布µ中的i.i.D.样本。目标是估算|y−P(x)|2dµ(x,y)给出的泛化误差。写X×R f(X)=Eµ。在理论分析中,一个X考虑了一系列模型类V0⊂V1𕤛··。对于某些P*=arg minP∈Vnkf−P kµ*,2,获得了P∈V nis的最小偏差,称之为近似误差。在传统范式中,对P*的实际构建不感兴趣;为了了解Vnto选择模型的空间,只研究了这个最小偏差的估计。实际模型P#仅基于D计算,通常使用一些经验风险最小化过程,假设f属于再生核希尔伯特空间(先验)。由于近似误差随n而减小↑ ∞, 虽然发现P#的过程的复杂性随着n的增加而增加,但这两个估计之间存在内在的权衡。在通过深度网络进行函数逼近的分析中,这种范式不起作用。正如[10]所指出的,深度网络比浅层网络具有优势的主要原因是,它们能够利用组合结构,从而在组合性的支持下减轻维数的诅咒。例如,将4个变量的函数F近似到精度ǫ的参数数量为O(ǫ−r/4),其中r测量F的平滑度。然而,如果F具有组成结构F(x1,··,x4)=F(f1(x1、x2)、f2(x3、x4)),那么具有相同形式的二叉树结构的深网络P(x1·,x3)=P*(P1(x1,x2),P2(x3,x4))可以仅使用O(ǫ−r/2)参数提供相同的近似值,因为每个阶段只有两个变量的函数是近似的。如果函数f、f1、f2是Lipschitz,则可以使用三角形不等式(错误的良好传播)轻松获得近似率(有关详细信息,请参见[10])。这需要用P*(P1,P2)近似f(f1,f2)作为二元函数。因此,f的输入不同于其近似值P*的输入,因此,不可能定义一个度量,以采用L2范数,从而使该度量与组成结构相称。我们提出了一种替代的等效方法来看待这个问题,避免了近似误差和过程复杂性之间的权衡,并利用了近似理论中的知识,这可以同时导致良好的近似误差以及所需模型的显式构造。我们的766Oberwolfach报告14/2018的观点是,在给定值yi=f(xi)+ǫi,其中,i.i.d.样本取自平均值为0且与xi无关的未知分布。虽然这是原始问题的等效公式,但从近似理论的角度来看,进行逐点估计(涉及一些权重函数的交替一致估计)比L2中的估计更自然,更重要的是寻找能够产生良好(而非最佳)近似的构造方法。特别是,泛化误差现在定义为逐点误差|f(x)−P#(x)|。作者开发了一些建设性的方法来在许多情况下实现这一目标(例如[5、8、9、6、7])。显然,当误差在全局L2范数中测量时,这些方法不能产生比L2投影方法更好的总体精度。然而,在大多数应用中,目标函数f在其X域上是光滑的,除了一小组“奇点”。近似理论中众所周知,L2投影的误差对这些奇点非常敏感。相反,我们的方法根据目标函数在每个点的局部光滑性产生误差,类似于经典小波分析[4,第9章]中给出的那些,尽管它们是使用全局数据定义的,没有对目标函数的全局或局部光滑性作出先验假设。在我们的谈话中,可在https://www.mathc.rwth-aachen.de/owncloud/index。php/s/GataT6XimZCWTwl,我们在欧几里德(超)球面上函数近似的上下文中说明了我们方法的局部近似特性。值得注意的是,ReLU网络在欧氏空间上的近似可以简化为球面上的等效问题。我们还对浅层和深层网络给出了逐点和一致的误差估计,以解释这样一种现象,即有可能使训练误差为零,但仍能控制测试误差[1,12,11]。工具书类
[90] M.Belkin、S.Ma和S.Mandal,为了理解深度学习,我们需要理解内核学习,arXiv预印本arXiv:1802.013962018。
[91] F.Cucker和S.Smale,《学习的数学基础》,《美国数学学会公报》,39(2002),1-49·Zbl 0983.68162号
[92] F.Cucker和D.X.Zhou,《学习理论:近似理论观点》,24(2007),剑桥大学出版社·Zbl 1274.41001号
[93] I.Daubechies,小波十讲,61(1990),SIAM·Zbl 0776.42018号
[94] Q.T.Le Gia和H.N.Mhaskar,球面上的局部线性多项式算子和求积公式,SIAM数值分析杂志,47(1)(2008),440-466·Zbl 1190.65039号
[95] H.N.Mhaskar,什么时候高斯网络的近似必然是一个线性过程?神经网络,17(7)(2004),989-1001·Zbl 1084.68104号
[96] H.N.Mhaskar,加权求积公式和球面上分区函数网络的近似,《复杂性杂志》,22(3)(2006),348-370·Zbl 1103.65028号
[97] H.N.Mhaskar,流形上函数逼近的Eignets,应用和计算谐波分析,29(1)(2010),63-87。应用谐波分析和数据处理767·Zbl 1201.41003号
[98] H.N.Mhaskar,类relu区域函数网络的函数逼近,arXiv预印本arXiv:1709.0881742017。
[99] H.N.Mhaskar和T.Poggio,《深度与浅层网络:近似理论视角》,《分析与应用》,14(6)(2016),829-848·Zbl 1355.68233号
[100] H.N.Mhaskar和T.Poggio,浅层和深层网络中的训练和泛化错误分析,arXiv预印本arXiv:1802.062662018·Zbl 1434.68513号
[101] T.Poggio、K.Kawaguchi、Q.Liao、B.Miranda、L.Rosasco、X.Boix、J.Hidary和H.N.Mhaskar,深度学习理论iii:解释非过拟合难题,arXiv预印本arXiv:1801.001732017。关于结构化压缩传感中的本地恢复保证与oracle估计之间的差距Claire Boyer这是Ben Adcock和Simone Brugiapaglia(伯纳比西蒙·弗雷泽大学)正在进行的工作。压缩传感理论为从几个线性测量值重建稀疏信号提供了保证。然而,为了避免组合问题,“好的”理论传感矩阵通常是随机的,通常(i)具有i.i.d.高斯项的高斯矩阵,(ii)通过从有限维等距绘制的堆叠行获得的矩阵,例如随机选择的傅里叶原子。然而,在实践中,由于采集的物理特性,采集是非常结构化的,可以按组或块进行测量,代表允许的采样模式。因此,在这项工作中,我们认为压缩感知(CS)理论更适合于实际应用:我们推导了保证,以确保在采集中施加结构的同时重建感兴趣的结构化稀疏信号。我们实际上扩展了[1]的设置。一旦建立了这个设置,就可以研究oracle-type界:可以表明,如果我们知道重构信号的支持度,为了确保稳健恢复,所需的测量次数可以如下所示:(1)m≥c·∧(S,F)ln(n),其中c是一个数值常量,S是信号的支持量,F是描述如何选择测量块的分布。在这个范围内,∧(S,F)控制着传感矩阵的最大奇异值,限制为支持兴趣。对于要恢复的固定信号x,假设x具有随机符号结构,我们导出了具有所需测量次数的鲁棒重构保证:(2)m≥c·θ(S,F)ln2(n)。我们研究了这些CS结果与oracle-type保证的距离:(i)∧(S,F)是∧(S,F)的上界,(ii)有一个额外的对数因子。实际上,通过做一个额外的假设,我们可以根据768Oberwolfach报告14/2018的测量数量得出一个预言型结果,如(1)所示。我们还表明,这种额外的假设可以通过非常结构化的采样矩阵来满足:例如,当从傅里叶-小波变换(可以模拟磁共振成像)中采样孤立的测量值时。这些结果为在采集过程中施加实际物理约束时设计新的最佳采样策略提供了见解。事实上,人们可以在支持S的某些先验条件下,将相对于F的θ(S,F)或∧(S、F)最小化。例如,在从等距抽样孤立测量的情况下,最先进的结果[2,3]包含根据概率分布π进行的可变密度抽样,这样πkákakk2∞,其中(ak)的是测量矢量。新的结果表明,应该根据以下概率分布πk∞kak,Sk1进行采样。这种新策略强调,不仅要对变换的相干位置进行采样,还要对信号中是否存在可以捕获的信息进行采样(通过支持S的一些先验知识)。工具书类
[102] C.Boyer,J.Bigot,P.Weiss《结构化稀疏性和结构化采集的压缩感知》,ACHA(2017)·Zbl 1454.94010号
[103] N.Chauffert,P.Ciuciu,J.Kahn,P.Weiss连续采样轨迹的可变密度采样,SIAM成像科学杂志(2014)·Zbl 1308.94047号
[104] F.Krahmer,R.Ward压缩成像的稳定和稳健采样策略,图像处理,IEEE汇刊,23(2):612-622(2014)。无限维Rima Alaifari中的稳定相位恢复(与Ingrid Daubechies、Philipp Grohs、Rujie Yin共同工作)相位恢复问题源于X射线晶体学,其中,晶体或结晶分子的电子密度分布仅根据其傅里叶变换的大小来重建。在最新的非晶体纳米结构成像相干衍射成像技术中,一种恢复丢失相位信息的方法是在测量中增加冗余。这通常是通过在对象支架上滑动针孔来实现的。这种测量可以建模为潜在密度的短时傅里叶变换(STFT)的强度。相位恢复问题的另一个例子来自音频处理中的相位声码器。相位声码器是一种实现音频信号修改的设备,例如时间拉伸或俯仰偏移。实现这种修改的一种方法是将音频信号拟合到修改后的谱图,即STFT幅度。应用谐波分析和数据处理769在我们的工作中,我们考虑了无限维希尔伯特空间设置中的相位恢复问题。更准确地说,给定Hilbert空间H和某个索引集∧的框架{ψλ}λ∈∧⊂H,我们问信号f∈H何时可以从{|hf,ψλi|}λ∈∧到全局相位因子τ∈S1唯一且稳定地确定。我们所说的稳定性是指对于所有f,g∈H,c1dist(f,g)≤k{|hf,ψλi|}λ∈∧−{|hg,ψλi|}λ∈∧kL2(∧,µ)≤c2dist(f,g)存在一致常数c1,c2>0 s.t.,其中dist(f,g):=infτ∈S1kf−τgkH。显然,如果帧不够冗余,相位恢复就不是唯一可解的,因为丢失了太多信息。另一方面,在某些示例中,可以表明对帧进行足够的过采样可以恢复相位恢复的唯一可解性。例如,当{ψλ}λ∈∧是通过对Meyer小波正交基进行过采样获得的Meyer小波基,系数至少为16/3[1]时,可以从{|hf,ψ∧i|}λ子∈∧s重建实值信号f∈L2(R)[1]。出现的一个自然问题是,过采样是否也可以作为恢复相位恢复稳定性的工具。在[4]中,已经证明了当H是无限维并且∧是离散索引集时,相位反演永远不可能是一致稳定的。我们在[3]中表明,当∧被允许为连续指数集时,情况也是如此。因此,过采样不能改善相位恢复的稳定性。更准确地说,我们证明了文献[5]中针对有限维情况提出的一个猜想,即所谓的强补性质(SCP)是相位恢复稳定性的必要条件。此外,我们证明了当H是无穷维时,SCP永远不成立。因此,函数f∈L2(R)甚至无法从其连续STFT或连续小波变换的幅度中稳定恢复,即即使在信号变换根本没有采样的情况下。虽然这个问题稳定性的结果是负面的,但我们注意到,在实践中,出现的不稳定性都是某种类型的。只要信号变换集中在时频/时标域的至少两个不相交区域上,并且这些区域之外的区域很小,那么在实践中就不可能再进行高达一个全局相位因子的相位恢复。从积极的方面来看,我们观察到,对于具有这种STFT或小波变换的音频信号,将信号变换乘以其中一个区域上的相位因子,可以得到与原始信号完全相同的音频信号(尽管它们不再等于全局相位因子)。更准确地说,假设F的STFT F集中在两个不相交的区域D1、D2⊂C上,因此F=F1+F2和Fi在Di、i=1、2之外很小。然后,对于τ∈S1,STFT等于ef=F1+τF2的音频信号ef与f听不出区别。这一观察结果使我们为音频处理应用中的稳定相位恢复制定了一个新的范式[2]。我们建议考虑所谓的环礁功能,即集中在不相交环礁上的功能,因此这些环礁之外的环礁规模较小,即770 Oberwolfach Report 14/2018。在上面的示例中,F是一个环礁函数,集中在两个环礁D1和D2上。然后,如果有人打算在每个环礁上分别重建一个全球相位因子,就可以恢复稳定。为此,环礁函数的要求是环礁函数在环礁下方有界(这里,可以允许环礁内的小型泻湖具有可能较小的值,泻湖的大小和数量将进入稳定常数)。我们的结果适用于全纯到权重函数的信号变换,即高斯窗的STFT和Cauchy小波的连续小波变换。我们认为一个有趣的开放问题是将这个结果推广到更一般的窗口类和小波。工具书类
[105] R.Alaifari、I.Daubechies、P.Grohs和G.Thakur,从小波和其他框架的无符号系数重构实值函数,《傅里叶分析与应用杂志》23.6(2017):1480-1494·Zbl 1380.42024号
[106] R.Alaifari、I.Daubechies、P.Grohs和R.Yin,无限维稳定相位恢复,arXiv预印本arXiv:1609.00034(2016)·Zbl 1440.94010号
[107] R.Alaifari和P.Grohs,巴拿赫空间连续框架一般设置下的相位恢复,SIAM数学分析杂志49.3(2017):1895-1911·Zbl 1368.42028号
[108] J.Cahill、P.Casazza和I.Daubechies,无限维希尔伯特空间中的相位恢复,美国数学学会学报,B辑3,(3)(2016),63-76·兹比尔1380.46015
[109] A.S.Bandeira、J.Cahill、D.G.Mixon和A.A.Nelson,《保存阶段:相位恢复的注入性和稳定性》,应用和计算谐波分析37.1(2014):106-125。David Gross(与Richard Kueng、Markus Grassl和Huangjun Zhu共同工作)从群轨道的低秩恢复我们关注的是从形式为yi=trXaia*i+ǫi,i=1,…,的m个噪声秩一测量值中恢复未知d×d矩阵X的问题,m,其中ai∈Cdare测量向量,i表示噪声。我们假设ai是从群轨道采样的。更准确地说,我们固定了一个有限群G⊂U(Cd)和一个“基准向量”a∈Cd。轨道是O={ga|G∈G}。我们假设a(以及轨道中的所有元素)在kak2=1中被归一化。a1,amare假设独立于O进行采样。参考文献[1]的基本观点是,在这种情况下,有时可以使用关于G的理论数据来证明恢复保证。我们的方法是这样的:基础是参考文献[2]的结果,该结果仅使用四阶矩(1)M=E[(aia*i)⊗4]的信息来建立低阶恢复保证1级测量矩阵aia∗i的应用谐波分析和数据处理771。粗略地说,参考文献[2]的方法要求,对于所有归一化向量b∈Cd,矩阵元素(2)(b⊗4)*M b𕧦4都是“小”的。如果随机向量是从G轨道采样的,那么它与任何G∈G的gai具有相同的分布。它遵循G𕧩4M(G−1)𕧪4=M或等价地,[M,G𕢿4]=0。因此,我们可以应用舒尔引理。为简单起见,假设出现在表示g7中的G的所有不可约表示(不可约)g⊗4是非退化的。在这种情况下,Schur引理表示X M=αiPi,i在其中i标记为不相关,Pi投影在第i个不相关上,以及αiare合适的系数。从公式(1)中,我们发现trM=1,并且M是半正定的。因此,系数满足0≤αi≤1/trPi。因此,(2)小的一个充分条件是g⊗4中出现的所有无环的维数都很大。事实上,可以很容易地验证,人们可以将注意力限制在包含在完全对称子空间Sym4(Cd)⊂(Cd。通过极化恒等式,该空间等价于d个复变量的四次多项式空间。通过这种方式,仅使用[2]中的现有技术,我们就得到了从任何矩阵群的任何轨道采样的秩1测量的稳定一致恢复保证,这些轨道对四阶多项式的作用不包含小的不可逆。参考文献。[1,3],我们使用稍微加强的参数来证明某个Clifford群满足这些准则。Cliffort群在量子信息理论中起着核心作用,并且长期以来一直在研究,例如在经典编码理论中。参考文献中介绍了表征的改进——理论分析和进一步应用。[4, 5]. 工具书类
[110] H.Zhu,R.Kueng,D.Gross,Clifford轨道的低秩矩阵恢复,arXiv:1610.08070。
[111] R.Kueng、H.Rauhut和U.Terstiege,从秩一测量中恢复低秩矩阵,应用。计算。谐波分析。,2015. ·Zbl 1393.94310号
[112] H.Zhu,R.Kueng,M.Grassl,D.Gross,Clifford组未能优雅地成为统一的4设计,arXiv:1609.08172。
[113] R.Kueng,H.Zhu,D.Gross,利用Clifford轨道区分量子态,arXiv:1609.08595。
[114] D.Gross、S.Nezami、M.Walter、Schur-Weyl Duality for the Clifford Group with Applications,arXiv:1712.08628。772Berwolfach报告14/2018关于无限采样的Felix Krahmer(与Ayush Bhandari、Ramesh Raskar联合工作)对于将模拟(有限带宽)信号转换为数字表示,所谓的模数转换器(ADC)至关重要。此类设备的作用是从模拟信号中提取离散网格上的值。如果以足够高的速率采集这些样本,则可以通过香农采样定理恢复信号。与香农采样定理中假设的采样方法不同,实际ADC在动态范围内受到限制。每当信号超过某个预设阈值时,ADC就会饱和,从而导致剪裁导致的混叠。ADC设计的最新发展允许替代ADC结构,即重置而非饱和的ADC,从而产生模样本。根据社区的不同,产生的ADC结构被称为折叠ADC(参见[1]及其参考文献)或自设置ADC,最近由Rhee和Joo[2]在CMOS成像器的背景下提出。更准确地说,当达到饱和上限或下限±λ时,这些ADC将重置为相应的其他阈值,即λ,以这种方式,即使超过饱和极限,也可以捕捉后续变化。从数学上讲,这由形式t1 1(1)Mλ:t7的无记忆非线性映射表示2λ+−. 2λ22这些结构产生了以下数学问题。给定带限函数的模样本以及ADC的动态范围,如何恢复原始信号,以及确保完美恢复的充分条件是什么?下面的定理提供了这样一个充分条件。定理1(无限采样定理[3])。设g(t)是π-带限的,并考虑,对于k∈Z,g(t)的模样本yk=Mλ(g(kT)),采样率为t。然后是从{yk}kup2λ的加法倍数等于1(2)T≤。2πe定理1的核心是一种构造性恢复方法,如算法中所总结的。虽然在恢复时需要对信号范数进行一些估计,但底层电路结构并不局限于某些振幅范围:相同的结构允许恢复任意大振幅。这就是为什么我们将我们的方法称为无限采样。我们的恢复算法的基本观察结果是,对于显著过采样,n阶有限差分尺度的大小,如n次方应用谐波分析和数据处理773算法1从模折叠样本数据恢复:yk=Mλ(g(kT)),n∈n,和2λZ∋βg≥kgk∞。结果:例如≈g.(1)计算y=∆Ny。(2) 计算εγ=Mλ(y)−y。设置s(1)=εγ。(3) 对于n=1:n−1,计算(4)中的κ(n)。s(n+1)=s(n)−2λκ(n)。end(4)eγ=Ss(N)。(5) 通过低通滤波器从eγ计算eg。过采样率,因此变得很小。此外,有限差分算子和模运算Mλ满足以下交换关系。提议1。对于任何序列a,它认为(3)Mλ(∆Na)=Mλ。结合这些观察结果可以恢复有限的差异。也就是说,(3)的右手边可以从模样本中计算出来,因此可以访问左手边。由于左侧模运算的参数较小,因此该运算没有任何影响,因此计算出了真正的有限差分。为了反转有限差分运算,我们考虑了真样本和模样本之间的差异,它们始终位于间距为2λ的网格上。因此,与任意实际输入相比,反演将更加稳定。特别是,在每个反演步骤中引入模糊性的积分常数也将位于网格上。因此,选择错误的常数将导致后续步骤中的输出函数表现出非常强的增长,而这反过来可以在使用足够的样本时检测到。在这个估计中,信号2λZ∋βg≥kgk∞的振幅的先验界起着重要作用。也就是说,对于J=6βλg,第n个有限差分算子的适当逆运算由部分和序列(该运算用S表示)给出,部分和序列由2λκn的常数调整,其中(S2∆nε(4)κ(n)=γ)1−。8βg2当考虑的带限信号具有附加结构时,相应的方法有时可以允许从有限多个模样本中恢复(例如,在超分辨率背景下[4]或正弦和[5])。在没有平滑度假设的更一般情况下,例如774Oberwolfach报告14/2018在RN中的冗余表示,尚不清楚在什么条件下可以获得可比较的恢复保证。我们认为这是一个有趣的后续问题。工具书类
[115] W.Kester,《ADC架构VI:折叠ADC》(MT-025教程),《模拟设备》,技术代表,2009年。
[116] J.Rhee和Y.Joo,带像素级ADC的宽动态范围CMOS图像传感器,Electron。莱特。,39(4),3602003年。
[117] A.Bhandari,F.Krahmer,R.Raskar,《关于无限抽样》,国际统一抽样理论应用。(桑普塔),2017年·Zbl 07591595号
[118] A.Bhandari、F.Krahmer和R.Raskar,《稀疏信号的无限采样》,发表于IEEE国际声学、语音和信号处理会议(ICASSP),2018年·Zbl 07591595号
[119] A.Bhandari、F.Krahmer和R.Raskar,《稀疏正弦混频的无限采样》,发表在IEEE国际交响乐中。关于信息理论(ISIT),2018。扭曲X射线–用于高分辨率X射线衍射成像的辐射数学设计Dominik Juestel(与Gero Friesecke,Richard D.James共同工作)X射线衍射图像的传统方法使用平面波照亮样品。入射的电磁辐射会引起样品电子密度的振荡。因此,移动的电荷产生一个可以被探测器记录的输出场。从衍射图样推断样品结构的逆问题可以表述为相位恢复问题:只有重构所需复数的绝对值才能直接从测量的衍射强度中获得。更准确地说,测量中包含的关于电子密度ρ的信息本质上是其傅里叶变换的模|bρ|。如今,原子分辨率的X射线衍射成像只能通过X射线晶体学实现,在X射线晶体学中,分子的周期性排列会导致大量的相长和相消干涉,从而产生高度结构化的峰值图案。从数学上讲,这种影响可以用泊松求和公式来解释。设Γ:=AZ3,A∈GL(3,R)为R3中的周期晶格,则晶体的电子密度可以建模为无限周期函数ρ=δPΓ∗б,其中δΓ:=x∈Γδx是晶格Γ的Dirac梳,且б是单位胞中电子密度的模型。将泊松求和公式与卷积定理相结合,得到|bρ|=(2π)3δdet(A)Γ′·|b|,其中Γ′:=2πA−TZ3是对应的倒易格。该计算表明,在衍射峰处测量的强度基本上是晶体晶胞中电子密度的傅立叶系数的模数。X射线晶体学的主要缺点是需要使所考虑的结构结晶。例如,由于蛋白质通常不形成晶体,应用谐波分析和数据处理775而是聚集在其他高度对称的集合中,如棒状、片状或二十面体结构,我们的方法是设计能够反映所考虑的结构类别对称性的电磁辐射形式,就像平面波反映晶体对称性一样。这样,我们可以在结构保持自然形状的同时,从干涉效应中获益。从数学上讲,这是通过在真空中麦克斯韦方程的单色解空间中找到对称群群作用的本征函数来实现的。泊松求和公式的更一般版本则意味着与经典情况类似的高度结构化干扰(参见[2])。与经典X射线晶体学不同,在大多数计算中可以忽略电磁场的矢量性质,它需要考虑比平面波更一般的辐射。平移向量场时,场向量的方向不变。相反,当旋转或反射向量场时,需要相应地旋转或反射场向量。这一简单直观的事实对非平面波衍射图案的重建问题具有启示。经典的标量相位恢复问题被推广到矢量相位问题:强度测量中包含的信息是重建电子密度所需的复矢量的长度。在诸如纳米管或螺旋病毒等螺旋结构的特殊情况下,这些结构相对于固定轴具有旋转、平移和螺旋位移的离散对称性,辐射设计问题可以完全解决。我们把产生的电磁场称为扭曲X射线,因为它们是沿着螺旋传播的波。解空间是有限维的,其参数化可以解释为辐射的极化(见[3])。假设扭曲X射线照射排列螺旋结构的衍射实验可以产生高度结构化的衍射图样,当将轴向出射场视为某些辐射参数的函数时,会形成精确的双峰图样。此外,通过解决经典相位恢复问题的一种变体,可以恢复样本的结构。事实上,上述矢量相位恢复问题简化为标量相位恢复问题,用傅里叶变换代替傅里叶-汉克尔变换。对于一般对称性,对设计方程解空间的分析更为复杂,通常不能像平面波或扭曲波那样明确。从表象理论的角度来看设计问题,将真空中麦克斯韦方程的单色解空间分解为关于对称群作用的不可约分量。这些分量不必像平移组或螺旋对称组那样是有限维的。当试图计算由不可约分量相对于一般对称群的辐射照明所产生的衍射图案时,人们到达了数学研究的边界。虽然776Oberwolfach报告14/2018针对阿贝尔和紧致群,有经典理论的推广,但对于非阿贝尔非紧致群,没有合适的泊松求和公式的推广(数学背景见[4])。X射线技术的最新进展表明,用扭曲X射线照亮螺旋结构的拟议实验可能在不久的将来实现。几个小组成功地产生了所谓的携带轨道角动量的光束,这与扭曲的X射线密切相关(参见,例如[1])。他们使用螺旋波动器迫使电子束从同步加速器进入螺旋轨道。发射的X射线会干扰形成螺旋波形。虽然它们还没有达到原子分辨率所需的能量,但概念验证已指日可待。所提出的方法有可能对以前不可接近的分子进行结构分析,而该理论是抽象数学在应用中有用的一个很好的例子。工具书类
[120] J.Bahrdt,K.Holldack,P.Kuske,R.Müuller,M.Scheer,P.Schmid,波荡器辐射中携带轨道角动量的光子的首次观测,Phys。修订稿。111 (2013), 034801.
[121] G.Friesecke,R.D.James,D.Juestel,《扭曲X射线:产生螺旋结构离散衍射图案的入射波形》,SIAM J.Appl。数学。76-3 (2016), 1191-1218. ·Zbl 1342.78028号
[122] D.Juestel,G.Friesecke,R.D.James,Bragg-Von-Laue衍射推广到扭曲X射线,《晶体学报》。A 72(2016),190-196·Zbl 1370.82086号
[123] D.Juestel,强真G-空间上的Zak变换及其应用,J.London Math。Soc.97(2)(2018),47-76。卡尔德班克同步问题:几何遇到学习Tingran Gao(与Ingrid Daubechies、Sayan Mukherjee、Doug Boyer、Jacek Brodzki、Qixing Huang、Chandrajit Bajaj联合工作)获取复杂、海量且通常高维的数据集已成为许多科学领域的常见做法。将微分几何和拓扑学应用于概率和统计科学的最新发展,在计算机视觉、信号处理、组合优化和自然科学(例如低温电子显微镜和几何形态计量学[3,4])的各种领域中出现了同步问题。同步问题中给出的数据包括一个连通图,该连通图对对象集合内的相似关系进行编码,以及成对的对应关系,通常实现为转换组G的元素,用于表征由关系图中的边直接链接的一对对象之间的相似性。目标是调整成对对应关系,这通常会受到噪声或不完整测量的影响,以获得整个数据集成对关系的全局一致特征,在揭示应用谐波分析和数据处理之间的转换777的意义上,关系图中的一对对象可以通过沿连接两个对象的路径上的连续边组合变换来完成,并且所得到的组合变换与路径的选择无关。我们在[1]中开发了一个几何框架,该框架基于经典的纤维束理论来表征同步的性质。我们首先建立了连通图Γ上拓扑群G中的同步问题与Γ上平坦主G-丛的模空间之间的对应关系,并利用表示变化对具有固定基和结构群的平坦主丛进行分类的著名定理进行了离散类比。特别地,我们证明了在图上指定边势等价于指定平坦主丛的等价类,其中完整性的平凡性决定了边势的同步性。基于同步问题的纤维束解释,我们在[1]中发展了由边势产生的平坦主束的相关向量束的扭曲上同调理论,这是微分几何中扭曲上同态的离散版本。这导致了扭曲的霍奇理论,它是图上离散霍奇理论的纤维束模拟。扭曲Hodge理论的最低级Hodge-Laplacian恢复了图连接Laplacian(GCL)的几何实现,GCL是一个在同步问题中广泛研究的群值图算子。类似的直觉导致了具有底层纤维束结构的数据集的扩展扩散几何框架,称为水平扩散图[2],它将具有成对结构对应的数据集建模为具有连接的纤维束;在标准扩散图中,随机游走的作用被替换为在基空间上由随机游走驱动的纤维束上的水平随机游走。这种新颖的扩散几何框架证明了其在自动几何形态计量学中利用更详细的结构信息来提高聚类精度的优势[5]。[1]中建立的几何框架也促使我们研究学习组动作的问题——根据两两对应关系的局部同步性划分对象集合。对偶解释是从有噪声的观测群元素中学习环境变换群的有限生成子群。[1]中提出了一种迭代的两步同步剩余谱聚类算法。更具体地说,假设基础图由多个簇组成,并且每个簇内的变换组比簇间的变换组更一致,该算法对整个图执行同步过程,然后评估差异(“边缘挫折”)在同步的边缘电位和原始的边缘电位之间,然后以边缘挫败度为权重对图进行谱聚类;然后,该算法在每个集群内运行同步,将本地同步解决方案拼接在一起,并从另一个全局同步开始重复这些步骤。这个简单的算法在模拟和实际数据集上都证明了其有效性。当该组为778Oberwolfach Report 14/2018置换组时,我们在[6]个精确恢复条件下,在嵌套有非均匀随机损坏的随机块模型下,建立了该迭代同步剩余聚类算法。在这一研究领域,许多令人兴奋的问题仍然悬而未决。值得注意的是,Cheeger不等式的适当类比似乎很自然,但到目前为止,在主束框架中还没有。例如,关于水平扩散几何体的更多信息也未知,是否可以操纵水平扩散算子的本征函数以获得纤维束的总空间或基空间的嵌入。推广[6]中开发的技术,以建立置换群以外的群的类似结果,例如在形状对齐和分析中常见的正交群或特殊正交群,也是非常有趣的。最后但并非最不重要的一点是,我们对我们的几何框架所暗示的微分几何和学习理论之间的联系感到兴奋,这似乎表明,两个领域的思想交流可以大大有益于另一个领域。工具书类
[124] T.Gao,J.Brodzki,S.Mukherjee,《同步问题和学习小组行动的几何学》,提交。arXiv:1610.09051,(2016)·兹比尔1456.05105
[125] T.Gao,《纤维束的扩散几何》,提交。arXiv:1602.02330,(2016)。
[126] T.Gao、G.S.Yapunich、I.Daubechies、S.Mukherjee和D.M.Boyer,全自动和全球传递几何形态测量方法的开发和评估,及其在具有高度种间变异的生物比较数据集中的应用,解剖记录。出现。(2017).
[127] N.S.Vitek、C.L.Manz、T.Gao、J.I.Bloch、S.G.Strait和D.M.Boyer,《使用解剖排列和形状的无观察特征半监督确定伪隐秘形态,生态学和进化方法》,7(2017)5041-5055。
[128] T.Gao,次椭圆扩散图及其在自动几何形态计量学中的应用,杜克大学博士论文。(2015年)
[129] C.Bajaj、T.Gao、Z.He、Q.Huang和Z.Liang,SMAC:使用谱分解的同时映射和聚类,提交给2018年国际机器学习会议。(2018)用凸规划求解非线性方程组Justin Romberg(与Sohail Bahmani联合工作)我们考虑了恢复未知向量x∈RN(近似)满足方程组y1=f1(x⋆)+ǫ1y2=f2(xᜎ。。。yM=fM(x⋆)+ǫM,其中fM已知,凸函数和未知扰动。应用谐波分析和数据处理779我们处理这个问题如下。现在设置扰动ǫm=0以简化解释,上面的每个方程都为x⋆提供了不同的凸可行性区域,即子层集{x:fm(x)≤ym}。显然x必须位于这些子层集的交集:\Mx∈K,K={x:fm(x)≤ym}。m=1实际上,x⋆必须是K的极点。因此,我们可以尝试通过最大化线性泛函覆盖K来恢复x⋆。对于给定的a0,我们求解(1)最大化hx,a0i服从x∈K。我们的工作发展了一个条件,在这个条件下有许多a0,因此x⋆是(1)的唯一解。特别地,我们假设我们有一个向量a0,它只与x⋆:hx \8902;大致相关,a0i≥δ>0,(2)kx𕮼k2ka0k2对于某些常数δ。我们称之为锚向量。简单地写下(1)的最优性(KKT)条件表明,如果确实ym=fm(x⋆),那么x \8902;是(1)当且仅当(3)a0∈锥({\8902»fm(x \8902&),m=1,…,m})的解。这告诉我们,0是否有效,纯粹是解的形式梯度行为的函数。定性地说,我们可以看到这些梯度的多样性越大,它们生成的锥体就越大,越容易找到合适的a0。我们的主要结果提供了一个保证,即当函数根据某些概率定律独立地、同分布地绘制时,我们需要(3)以高概率保持方程的数量。在这个概率定律下,我们让∑⋆是解∑ᜎ=E[加f(x \8902»)+f(x \8902&)T]处梯度的相关矩阵,并定义了k∑k,τ=infE[hf(x \ 8902;),hi+],ν=khk2=1τ\8902;其中h·,·i+取内积的正部分。那么,如果我们有一个服从(2)的a0,当M≥Const·ν⋆3·N时,x \8902;将是(1)的高概率解。当∑f(x \8902')近似“各向同性”时,量νᜎ将是一个常数,方程组ym=fm(x᫶)可以针对M~N求解。我们还可以通过在(1)中添加正则化子来鼓励解决方案中的某些类型的结构。例如,众所周知,解决方案780 Oberwolfach Report 14/2018对方程组的稀疏性可以通过惩罚Ş1标准。一般来说,如果(x) 是一个凸正则化子,那么我们可以求解(4)极大hx,a0i−(x) 服从x∈K.x在这种情况下,如果y=fm(x⋆),那么x \8902是这个优化程序的解当且仅当a0∈圆锥(x⋆),其中(x⋆)是的次梯度(·)x⋆。请注意,如果x⋆位于子级别集{x的“角点”上:(x) ≤(x⋆)},然后是导数(x⋆)可以很大,允许更自由地选择锚矢量a0。对于随机形式,我们需要x⋆作为(4)的解的方程数量再次取决于梯度f(x \8902;)的统计复杂性度量,但现在与(4)中泛函的上升锥有关。这个结果的确切说明可以在[2]中找到。工具书类
[130] S.Bahmani和J.Romberg,相位恢复的灵活凸松弛,《电子统计杂志》,第11卷,第2期(2017年),5254-5281·Zbl 1408.62032号
[131] S.Bahmani和J.Romberg,通过锚定回归求解随机凸函数方程,Preprint,2017年9月,arxiv:1702.05327。Fast Point Cloud Distances and Multi-Sample Testing Alex Cloninger(与Xiuyuan Cheng和Ronald R.Coifman联合工作)我们考虑在高维空间中估计两个分布之间的总变差的问题,只需从每个分布中提取有限数量的样本。本演讲介绍了一种新的基于各向异性核的最大平均差(MMD)统计量,用于估计此类距离[1],该统计量建立在Gretton等人[2]提出的再生核-希尔伯特空间MMD的基础上。新的各向异性内核通过在整个空间中建立地标来线性地缩放点数,该地标通过构造局部协方差矩阵的主分量来近似两个数据集的并集的局部几何。这些地标可以解释为在数据上的热核作用下,尽快扩散到整个空间的点。当分布为局部低维时,可以使建议的测试更强大,以区分某些备选方案。虽然所提出的统计量可以被视为再生核-希尔伯特空间MMD的一个特殊类别,但基于测试统计量分布的收敛性结果,在核的温和假设下,只要δ>0,只要kp−qk~O(n−1/2+δ)。我们还建立了地标点近似的误差界。应用谐波分析和数据处理781我们还考虑了k样本设置,在该设置中我们测量k个不同点云之间的成对距离。该测试的复杂性为O(k2|R|+kN|R|d),每个云的N个点在d维具有|R|个地标。这与直接计算任意两个分布之间MMD的朴素算法的复杂性O(k2N2d)相反。应用流式细胞术检测AML和扩散MRI数据集,激发了所提出的方法来比较分布。工具书类
[132] X.Cheng,A.Cloninger,&R.R.Coifman,《基于各向异性核的双样本统计》,arXiv预印本arXiv:1709.05006(2017)·Zbl 1471.62346号
[133] A.Gretton、K.M.Borgwardt、M.Rasch、B.Schlkopf和A.J.Smola,《内核双样本测试》,《机器学习研究杂志》第13期(2012年),第723-773页。失配原理:非线性压缩传感的一种被忽视的方法?Martin Genzel(与Gitta Kutyniok、Peter Jung联合工作)在许多现实世界的问题中,给定一个有限的样本集合(a1,y1),(am,ym)∈Rn×R,其独立于未知概率分布的Rn×R中的联合随机对(a,y)。例如,y∈R可以扮演一个输出变量的角色,人们希望从某些输入数据a∈Rn中预测该输出变量。一般来说,现在的问题如下:关于输入和输出变量之间的关系,我们可以从样本集中学到什么?虽然我们没有对模型施加任何特定的限制,但考虑一些(未知)参数是有用的,这些参数决定了潜在的观测规则。让我们考虑两个典型场景:•单index模型。设x0∈Rnbe是一个结构化向量(例如稀疏向量),并假设y=f(ha,x0i),其中f:RR可以是未知的、非线性的和有噪声的。目标是估计未知指数向量x0变量选择。设S={j1,…,js}[n]并假设yi=F(aj1,..,ajs),其中F:RsR也可以是未知的、非线性的和有噪声的。目标是识别a=(a1,…,an)中的一组活动变量S。782Berwolfach报告14/2018我们想调查一个不需要任何先验知识的标准估计器是否可以解决这些类型的估计问题。最流行的算法方法之一是广义Lasso,Xm x∈Rn2mi−hai,xi)2 subject tox∈K,i=1,其中K⊂Rn是一个凸假设集,对解施加某些结构约束,例如稀疏性。[1、2、3、5]的结果表明,虽然最初设计用于线性回归,但Lasso对非线性畸变的鲁棒性令人惊讶,实际上可以处理更复杂的观测方案。让我们陈述一个简化的恢复保证:定理1(非正式,参见[3,Thm.6.4])使用上述符号,假设ais是Rn中的各向同性、均值为零的次高斯随机向量,y也是次高斯随机矢量。固定任意目标向量x♮∈ K⊂Rn。然后,在高概率下,任何极小值ˆxof(PK)满足以下误差界:w∧(K,x♮) (1) kˆx−xk2.√+ρ(x♮),m,其中w∧(K,x♮) 表示x处K的二次曲线高斯宽度和ρ(x♮) :=E[(公顷,xi−y)a]2称为失配协方差。值得注意的是,上述语句对每个x选项都适用对于输出变量y没有具体的假设,但为了将(1)转化为有意义的误差界,显然需要确保偏移项ρ(x♮) 足够小,因为它不会随m衰减。如果目标向量x可以这样选择,定理1表明拉索(PK)确实构成了x的几乎一致的估计量♮。关于我们最初的问题,我们现在可以对失配原理进行简化:确定目标向量x♮∈ 捕获观测规则的“参数”结构并最小化失配协方差ρ(x♮) 同时。例如,对于单指标模型,我们必须在span{x0}íK中指定目标向量,对于变量选择,我们必须分别在{x|supp(x)⊆S}ñK中定义目标向量。事实上,不难看出在这两种情况下(如果a是标准高斯)都存在一个适当的x选择使得ρ(x♮) = 总的来说,失配原理为证明非线性观测下拉索的理论误差界提供了方法。结合定理1,它特别指出了何时可以预期合理的结果,何时不能。失配协方差显然发挥了关键作用,因为它衡量了(PK)的线性拟合与真实(参数)模型之间的兼容性。应用谐波分析和数据处理783除此之外,失配原理甚至适用于更复杂的情况,例如,如果a的分量强相关[4],或者如果(PK)中的平方损失被不同的凸损失函数[1]取代。工具书类
[134] M.Genzel,基于一般凸损失函数的非线性观测的结构化信号的高维估计,IEEE Trans。Inf.理论63.3(2017),1601–1619·Zbl 1366.94101号
[135] M.Genzel和P.Jung,叠加非线性传感器测量的盲稀疏恢复,第12届采样理论与应用国际会议(SampTA)论文集,2017年。
[136] M.Genzel和P.Jung,从叠加的非线性测量中恢复结构化数据,预印arXiv:1708.074512017·Zbl 1433.94023号
[137] M.Genzel和G.Kutyniok,《利用非线性观测从现实世界数据中选择特征的数学框架》,预印本arXiv:1608.088522016年。
[138] Y.Plan和R.Vershynin,具有非线性观测的广义拉索,IEEE Trans。Inf.Theory 62.3(2016),1528-1537。字典学习-从局部到全局和自适应Karin Schnass字典学习的目标是将数据矩阵Y=(y1,…,yN)(其中yN∈Rd)分解为字典矩阵Φ=(1,……,K),其中每个列也称为原子归一化,Kkk2=1和稀疏系数矩阵X=(x1,…,xN),(1)Y≈ΦX确定系数矩阵应稀疏的一种方法是选择稀疏水平S,并要求每个系数向量xn至多有S个非零项。将DK定义为具有K原子的所有字典集和XS定义为所有列式S-稀疏系数矩阵集,字典学习问题可以表述为优化程序(2)minkY−ΨXk2F。Ψ∈DK,X∈XS这个问题是高度非凸的,因此很难解决。然而,随机初始化的交替投影算法,在基于系数X查找最佳字典Ψ和(尝试)基于字典Ψ查找最佳系数X之间迭代,例如K-SVD(K奇异值分解)[2]和ITKrM(迭代阈值和K残差均值)[5],在合成数据上往往非常成功-通常恢复90到100
[139] A.Agarwal、A.Anandkumar和P.Netrapalli。精确恢复稀疏使用的过度完整字典。2014年COLT(arXiv:1309.1952)·Zbl 1359.62229号
[140] M.Aharon、M.Elad和A.M.Bruckstein。K-SVD:一种为稀疏表示设计过完备字典的算法。IEEE信号处理汇刊。,54(11):4311–43222006年11月·Zbl 1375.94040号
[141] S.Arora、R.Ge和A.Moitra。学习不连贯和过完备词典的新算法。2014年COLT(arXiv:1308.6273)。
[142] B.Barak、J.A.Kelner和D.Steurer。通过平方和方法进行字典学习和张量分解。STOC 2015(arXiv:1407.1543),2015年·Zbl 1321.68396号
[143] K.Schnass。字典学习ITKM算法的收敛半径和样本复杂度。应用和计算谐波分析,在线,2016年。
[144] K.Schnass。字典学习-从本地到全球和自适应。arXiv:1804.071011018年·Zbl 1439.94013号
[145] J.Sun、Q.Qu和J.Wright。球面上的完整字典恢复I:概述和几何图形。IEEE信息理论汇刊,63(2):853-8842017·Zbl 1364.94164号
[146] J.Sun、Q.Qu和J.Wright。球面上的完全字典恢复II:通过黎曼信任域方法进行恢复。IEEE信息理论汇刊,63(2):885-9152017。应用谐波分析和数据处理785 k均值聚类的蒙特卡罗近似证书Dustin G.Mixon(与Soledad Villar联合工作)几何聚类是数据科学中的一个基本问题。从本质上讲,聚类是一个优化问题,使用流行的随机数据模型分析各种聚类例程的性能是很自然的。过去十年在应用谐波分析方面的研究表明,优化和随机性之间存在着富有成效的相互作用,这表明几何聚类为这些技术提供了一个机会,可以为数据科学中的基本算法研究做出贡献。本次演讲讨论了这一机会的一个实例,并阐明了值得进一步关注的其他示例。给定有限的数据点序列{xi}i∈Tin Rm和一个复杂参数k,k-means问题寻求一个划分C1⊔··𕧈Ck=T,该划分最小化k-均值目标:(T-IP)1XX1X2|T|T∈[k]i∈Cxi−|Ct|xj subject to C1𕧈·\8852;Ck=T.tj∈Ct,而这个优化问题是NP-hard要解决的(即使在m=2维[6]中),这个问题的实际例子经常使用Lloyd算法来解决,该算法在计算质心和将点重新分配到最近的质心之间交替进行。数据科学家可以通过随机初始化来执行Lloyd算法,以生成局部最优的聚类,但他什么时候应该停止寻找更好的聚类?Lloyd算法的一个流行初始化是k-means++,它从中随机选择k个初始“质心”{xi}i∈Tin鼓励不同质心相距很远。让W表示k-means++初始化的随机值,则[1]的主要结果为18(log k+2)·EW。虽然这为最佳聚类提供了近似保证,但它似乎很松散。例如,在由60000个手写数字组成的MNIST训练集[4]上运行多个k-means++试验,k=10,产生一个值约为39.22的聚类,而估计EW的下限约为2.15。为了寻求一个更好的下界,可以考虑彭伟SDP松弛:(T-SDP)1 2|T|tr(DX)subject totr(X)=k,X1=1,X≥0,X0。这里,D表示第(i,j)项为kxi−xjk2的T×T矩阵,而X≥0确保X是入口非负的,X 0确保X为对称的正半定的。对于任何聚类C1····Ck=T,786Oberwolfach Report 14/2018 P矩阵X=T∈[k]|C11 T|Ct1⊤Ct在(T-SDP)中是可行的,SDP值等于其IP值,因此val(T-SDP)是val(T-IP)的下界,如所需。此外,最近有很多工作来确定这个下限对于各种随机数据模型[2,3,8,5]有多好。然而,众所周知,SDP对于大型问题实例来说速度很慢,因此计算MNIST训练集的这个下限是不可行的。为了降低问题的复杂性,我们可以传递给数据的子集。例如,选择s≤|T|,然后从大小为s的T的所有子集中均匀地画出s。然后让C1*··Ck*=T表示(T-IP)-最优聚类,我们得到 评估值(S-SDP)≤E值(S-IP)≤E(笑声)1XX1X2 sxi−|Ct∗ñS|xjt∈[k]i∈Ct**Sj∈Ct**S ≤ E类(笑声)1sXXi−|C1*Xx2t∈[k]i∈Ct**St|j∈Ct*j=val(t-IP)。因此,我们可以通过估计E val(S-SDP)来产生val(T-IP)的下界,当S很小时,这在计算上是可行的。例如,如果我们选择s=200,那么MNIST训练集的E val(s-SDP)≈35,这意味着来自k-means++的聚类在15%的最佳范围内。在[7]中,我们证明了这种方法会导致99
[147] D.Arthur,S.Vassilvitskii,k-means++:细心播种的优势,SODA(2017)1027-1035·Zbl 1302.68273号
[148] P.Awasthi、A.S.Bandeira、M.Charikar、R.Krishnaswamy、S.Villar、R.Ward、Relax,《无需四舍五入:聚类公式的完整性》,ITCS(2015)191-200·Zbl 1364.62144号
[149] T.Iguchi,D.G.Mixon,J.Peterson,S.Villar,可能是可证明正确的k-均值聚类,数学。程序。165 (2017) 605-642. ·Zbl 1377.65012号
[150] Y.LeCun,C.Cortes,C.J.C.Burges,MNIST手写数字数据库,http://yann.LeCun.com/exdb/MNIST/
[151] X.Li,Y.Li,S.Ling,T.Strohmer,K.Wei,《羽毛鸟什么时候聚在一起?》?K-Means,Proximity,and Conic Programming,arXiv:1710.06008应用谐波分析和数据处理787·Zbl 1434.90123号
[152] M.Mahajan,P.Nimbhorkar,K.Varadarajan,平面K-means问题是NP-hard,Theor。计算。科学。442 (2012) 13-21. ·Zbl 1260.68158号
[153] D.G.Mixon,S.Villar,k均值聚类的蒙特卡罗近似证明,arXiv:1710.00956
[154] D.G.Mixon,S.Villar,R.Ward,用半定规划聚类亚高斯混合,Inform。推断6(2017)389-415·Zbl 1381.62189号
[155] J.彭
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。