×

集成卡尔曼反演:一种用于机器学习任务的无导数技术。 (英语) Zbl 1430.68266号

总结:机器学习的标准概率观点产生了经验风险最小化任务,这些任务通常通过随机梯度下降(SGD)及其变体来解决。我们将这些任务表述为经典的反演或滤波问题,此外,我们还提出了一种有效的无梯度算法,用于使用集合卡尔曼反演(EKI)来求解这些问题。该方法本质上是可并行的,适用于具有不可微损失函数的问题,对于这些问题,反向传播是不可能的。我们方法的应用包括使用深度神经网络的离线和在线监督学习,以及基于图的半监督学习。EKI过程的本质是基于集合的近似梯度下降,其中导数被集合内的差异所取代。我们建议对基本方法进行一些修改,这些方法源自于在SGD背景下开发的经验成功的启发式。数值结果表明,该算法具有广泛的适用性和鲁棒性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
60G35型 信号检测和滤波(随机过程方面)
2015年1月62日 贝叶斯推断
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen-Zhu Z、Li Y和Song Z 2018超参数化深度学习收敛理论CoRR公司(arXiv:1811.03962)
[2] 安德鲁斯·D和赫茨伯格A 1985数据:学生和研究人员从多个领域收集问题(统计学中的斯普林格系列)(纽约:施普林格)·Zbl 0567.62002号 ·doi:10.1007/978-1-4612-5098-2
[3] Bach F和Moulines E 2013收敛速度为o(1/n)的非严格凸光滑随机逼近神经信息处理系统研究进展第773-81页
[4] Bengio Y、Boulanger-lew N、Pascanu R和Montreal U,2013年,循环网络优化进展声学、语音和信号处理中的IEEE国际协调 ·doi:10.1109/ICASSP.2013.6639349
[5] Bergemann K和Reich S 2010缓和集合卡尔曼滤波器Q.J.R.Meteorol公司。Soc公司。136 1636-43 ·doi:10.1002/qj.672
[6] Bertozzi A和Flenner A 2012高维数据分类图上的扩散界面模型多尺度模型。模拟。10 1090-118 ·Zbl 1259.68215号 ·数字对象标识码:10.1137/1083109X
[7] Bertozzi A L、Luo X、Stuart A M和Zygalakis K C 2018 SIAM/ASAJ.不确定性量化。6 568-95 ·兹比尔1394.62083 ·doi:10.1137/17m1134214
[8] Binkowski M、Marti G和Donnat P 2017异步时间序列的自回归卷积神经网络CoRR公司(阿西佛:1703.04122)
[9] Boser B E,Guyon I M和Vapnik V N 1992最优边缘分类器的训练算法程序。第五届计算学习理论年度研讨会(纽约州纽约市:ACM)第144-52页
[10] Candes E J和Tao T 2006从随机投影中恢复近最优信号:通用编码策略?IEEE传输。信息Theor。52 5406-25 ·Zbl 1309.94033号 ·doi:10.1109/TIT.2006.885507
[11] Carreira-Perpina M和Wang W 2014深度嵌套系统的分布式优化程序。第17届国际人工智能与统计大会ed S Kaski和J Corander第10-9页
[12] Chaudhari P、Choromanska A、Soatto S、LeCun Y、Baldassi C、Borgs C、Chayes J T、Sagun L和Zecchina R 2016 Entropy-sgd:向宽山谷倾斜梯度下降CoRR公司(arXiv:1611.01838)·Zbl 1459.65091号
[13] Chaudhari P和Soatto S 2017随机梯度下降进行变分推理,收敛到深网络的极限环CoRR公司(arXiv:1710.11029)
[14] De Vito E、Rosasco L、Caponnetto A、De Giovannini U和Odone F 2005将示例学习作为反问题J.马赫。学习。物件。6 ·Zbl 1222.68180号
[15] Dieuleveut A公司2016年大步长非参数随机逼近Ann.统计。44 1363-99 ·Zbl 1346.60041号 ·doi:10.1214/15-AOS1391
[16] Duchi J、Hazan E和Singer Y 2011在线学习和随机优化的自适应次梯度方法J.马赫。学习。物件。12 2121-59 ·Zbl 1280.68164号
[17] Dunlop M 2017私人通信
[18] Evensen G 2003集合卡尔曼滤波器:理论公式和实际实现海洋动力学。53 343-67 ·doi:10.1007/s10236-003-0036-9
[19] Ernst O G、Sprungk B和Starkloff H J 2015贝叶斯反问题中集合和多项式混沌卡尔曼滤波器的分析J.不确定性量化。3 823-51 ·Zbl 1339.60041号 ·doi:10.1137/140981319
[20] Gil-Alana L 2006澳大利亚墨尔本每日最高和最低温度下的长记忆行为流星。申请。11 319-28 ·doi:10.1017/S1350482704001422
[21] Glorot X和Bengio Y 2010理解训练深度前馈神经网络的难度程序。人工智能和统计国际会议
[22] Goodfellow I、Bengio Y和Courville A,2016年深度学习(马萨诸塞州剑桥:麻省理工学院出版社)·兹比尔1373.68009
[23] Goodfellow I、Shlens J和Szegedy C 2015解释和利用对抗性示例学习表征国际会议
[24] Graham B 2014分数最大值CoRR公司(arXiv:1412.6071)
[25] Gulcehre C、Cho K、Pascanu R和Bengio Y 2014深度前馈和递归神经网络的学习范数池程序。欧洲机器学习和数据库知识发现会议第8724卷(柏林:施普林格)第530-46页·doi:10.1007/978-3-662-44848-9_34
[26] Haber E、Lucka F和Ruthotto L 2018 Never look back——一种改进的enkf方法及其在无反向传播神经网络训练中的应用CoRR公司(arXiv:1805.08034)
[27] 海金S S 2001卡尔曼滤波与神经网络(纽约:威利)·doi:10.1002/0471221546
[28] He K,Zhang X,Ren S和Sun J 2014深卷积网络中视觉识别的空间金字塔池2014年计算机愿景-ECCVed D车队(查姆:施普林格)pp 346-61·doi:10.1007/978-3319-10578-9_23
[29] Hinton G和Salakhutdinov R 2006使用神经网络降低数据的维数科学类313 504-7 ·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[30] Hoerl A E和Kennard R W 1970岭回归:非正交问题的有偏估计技术计量学12 55-67 ·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[31] Hornik K 1991多层前馈网络的近似能力神经网络。4 251-7 ·doi:10.1016/0893-6080(91)90009-T
[32] Houtekamer P、He B和Mitchell H L 2014集合卡尔曼滤波器的并行实现周一。我们。版次。142 1163-82 ·doi:10.1175/MWR-D-13-00011.1
[33] Iglesias M、Lu Y和Stuart A 2016几何反问题的贝叶斯水平集方法接口自由边界18 181-217 ·兹比尔1353.65050 ·doi:10.4171/IFB/362
[34] Iglesias M A、Law K J H和Stuart A M 2013反问题的集合Kalman方法反问题29 045001年·兹比尔1311.65064 ·doi:10.1088/0266-5611/29/4/045001
[35] Jordan M 2017基于梯度的优化:加速、分布式、异步和随机ACM SIGMETRICS性能评估审查第45卷第58页
[36] Bergemann K和Reich S 2010集合卡尔曼滤波器的定位技术Q.J.R.Meteorol公司。Soc公司。136 701-7 ·doi:10.1002/qj.591
[37] Kiefer J和Wolfowitz J 1952回归函数最大值的随机估计安。数学。斯达。23 462-6 ·Zbl 0049.36601号 ·doi:10.1214/aoms/1177729392
[38] Kingma D P和Ba J 2014 Adam:一种随机优化方法CoRR公司(arXiv:1412.6980)
[39] Klambauer G、Unterthiner T、Mayr A和Hochreiter S 2017自归一化神经网络神经信息处理系统的进展30埃德·盖恩第971-80页
[40] Kovachki N B和Stuart A M 2019动量方法分析预印本
[41] Krizhevsky A、Sutskever I和Hinton G E 2012使用深度卷积神经网络进行Imagenet分类神经信息处理系统的进展25埃德·F·佩雷拉第1097-105页
[42] Law K、Stuart A和Zygalakis K,2015年数据同化:数学导论(应用数学课文第62卷)(查姆:斯普林格)·Zbl 1353.60002号 ·doi:10.1007/978-3-319-20325-6
[43] LeCun Y、Bengio Y和Hinton G E 2015深度学习自然521 436-44 ·doi:10.1038/nature14539
[44] Lecun Y、Bottou L、Bengio Y和Haffner P 1998梯度学习在文档识别中的应用程序。IEEE标准第2278-324页
[45] LeCun Y和Cortes C 2010 MNIST手写数字数据库
[46] Lee J D、Simchowitz M、Jordan M I和Recht B 2016梯度下降仅收敛到最小值学习理论会议第1246-57页
[47] Litjens G J S、Kooi T、Bejnordi B E、Setio A A A A、Ciompi F、Ghafoorian M、van der Laak J A W M、van Ginneken B和Sánchez C I 2017医学图像分析深度学习调查CoRR公司(亚美尼亚语:1702.05747)
[48] Manning C D和Schütze H 1999年统计自然语言处理基础(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 0951.68158号
[49] McCullagh P和Nelder J 1989广义线性模型,第二版(查普曼和霍尔/CRC统计学和应用概率系列专著)(伦敦:查普曼和霍尔)·Zbl 0588.62104号 ·doi:10.1007/9781-4899-3242-6
[50] Mishkin D和Matas J 2015你所需要的只是一个好的开始CoRR公司(arXiv:1511.06422)
[51] 墨菲K P 2012机器学习:概率的观点(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 1295.68003号
[52] Nagi J、Ducatelle F、Caro G A D、Ciresan D、Meier U、Giusti A、Nagi F、Schmidhuber J和Gambardella L M 2011基于视觉的手势识别Max-pooling卷积神经网络
[53] Nair V和Hinton G E 2010校正线性单元改进了受限boltzmann机器程序。第27届国际机器学习大会第807-14页
[54] Nesterov Y 1983求解收敛速度为o(1/k2)的凸规划问题的一种方法苏联。数学。多克。27 372-6 ·Zbl 0535.90071号
[55] Netzer Y、Wang T、Coates A、Bissacco A、Wu B和Ng A Y 2011使用无监督特征学习读取自然图像中的数字
[56] Niño E D、Sandu A和Deng X 2016基于改进cholesky分解的集合卡尔曼滤波器的并行实现CoRR公司(arXiv:1606.00807)
[57] Nino-Ruiz E D和Sandu A 2015基于收缩协方差矩阵估计的集合卡尔曼滤波器的高效并行实现程序。2015年IEEE第22届国际高性能计算研讨会(华盛顿特区:IEEE计算机学会)第54页
[58] Pascanu R、Mikolov T和Bengio Y 2013关于训练递归神经网络的难度程序。第30届国际机器学习会议第28卷第III-1310-8页
[59] Paszke A、Gross S、Chintala S、Chanan G、Yang E、DeVito Z、Lin Z、Desmaison A、Antiga L和Lerer A 2017年pytorch NIPS-W中的自动分化
[60] 拉斯穆森C E和威廉姆斯C K 2006机器学习的高斯过程(马萨诸塞州剑桥:麻省理工学院出版社)·Zbl 1177.68165号
[61] Robbins H和Monro S 1951随机近似法安。数学。斯达。22 400-7 ·Zbl 0054.05901号 ·doi:10.1214/aoms/1177729586
[62] Romero A、Ballas N、Kahou S E、Chassang A、Gatta C和Bengio Y 2015 Fitnets:薄深网提示程序。ICLR的
[63] Rosenblatt F 1958感知器:大脑中信息存储和组织的概率模型精神病。版次。65 386-408·doi:10.1037/0042519
[64] Ruck D W、Rogers S K、Kabrisk M、Oxley M E和Suter B W 1990多层感知器作为贝叶斯最优鉴别函数的近似IEEE传输。神经网络。1 296-8 ·数字对象标识代码:10.1109/72.80266
[65] Rumelhart D E、Hinton G E和Williams R J 1988年第章:通过反向传播错误学习表征神经计算:研究基础(马萨诸塞州剑桥:麻省理工学院出版社)第696-9页
[66] Santurkar S、Tsipras D、Ilyas A和Madry A 2018批次标准化如何帮助优化?(不,这与内部协变量转移无关)CoRR公司(arXiv:1805.11604)
[67] Schillings C和Stuart A M 2017反问题集合卡尔曼滤波器分析SIAM J.数字。分析。55 1264-90 ·Zbl 1366.65101号 ·doi:10.1137/16M105959X
[68] Schmidt M、Le Roux N和Bach F 2017用随机平均梯度最小化有限和数学。程序。162 83-112 ·Zbl 1358.90073号 ·doi:10.1007/s10107-016-1030-6
[69] 斯图亚特A和汉弗莱斯A R 1998动力系统与数值分析第2卷(剑桥:剑桥大学出版社)·Zbl 0913.65068号
[70] Su W、Boyd S和Candes E 2014 nesterov加速梯度法建模的微分方程:理论、见解神经信息处理系统的进展27埃德·加赫拉马尼第2510-8页
[71] 此类F P、Madhavan V、Conti E、Lehman J、Stanley K O和Clune J 2017深层神经进化:遗传算法是训练深层神经网络以进行强化学习的竞争性替代方案CoRR公司(arXiv:1712.06567)
[72] Sutskever I、Martens J、Dahl G和Hinton G 2013关于深度学习中初始化和动力的重要性程序。第30届国际机器学习大会第28卷
[73] Sutskever I、Vinyals O和Le Q V 2014使用神经网络进行序列到序列学习程序。第27届神经信息处理系统国际会议第2卷(马萨诸塞州剑桥:麻省理工学院出版社)第3104-12页
[74] Szegedy C、Zaremba W、Sutskever I、Bruna J、Erhan D、Goodfellow I和Fergus R 2014神经网络的有趣特性学习表征国际会议
[75] Taylor G、Burmeister R、Xu Z、Singh B、Patel A和Goldstein T 2016无梯度训练神经网络:一种可扩展的admm方法程序。第33届国际机器学习会议第48卷第2722-31页
[76] Tsai Y H,Hamsici O C和Yang M H 2015用于对象检测的自适应区域池IEEE计算机视觉和模式识别会议第731-9页
[77] Vapnik V N 1995年统计学习理论的本质(柏林:施普林格)·Zbl 0833.62008号 ·数字对象标识代码:10.1007/978-1-4757-2440-0
[78] 沃格尔C R 2002反问题的计算方法(宾夕法尼亚州费城:SIAM)·Zbl 1008.65103号 ·数字对象标识代码:10.1137/1.9780898717570
[79] von Luxburg U 2007光谱聚类教程统计计算。17 395-416 ·数字对象标识代码:10.1007/s11222-007-9033-z
[80] Wang J、Yang Y、Mao J、Huang Z、HuangC和Xu W 2016 Cnn-rnn:多标签图像分类的统一框架IEEE计算机视觉和模式识别会议第2285-94页
[81] Wilson A C、Roelofs R、Stern M、Srebro N和Recht B 2017机器学习中自适应梯度方法的边际值神经信息处理系统的进展30埃德·盖恩第4148-58页
[82] 肖赫(Xiao H)、拉苏尔(Rasul K)和沃尔格拉夫(Vollgraf R)2017 Fashion-mnist:一个用于基准机器学习算法的新图像数据集CoRR公司(arXiv:1708.07747)
[83] Zelnik-manor L和Perona P 2005自校正谱聚类神经信息处理系统的进展17ed L K索尔(马萨诸塞州剑桥:麻省理工学院出版社)第1601-8页
[84] Zhang S、Choromanska A和LeCun Y 2015弹性平均深度学习程序。第28届神经信息处理系统国际会议第1卷(马萨诸塞州剑桥:麻省理工学院出版社)第685-93页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。