×

获取反问题、控制和神经网络训练的稀疏语义解。 (英语) Zbl 07515412号

摘要:现代设计神经网络架构的技术高度依赖于反复试验、启发式和所谓的最佳实践,没有太多严格的理由。选择网络架构后,可以从多种优化和正则化方法中选择一种,使能量函数(或损耗)最小化。考虑到网络体系结构设计的特殊性,如果优化能够产生稀疏的解决方案,从而可以确定网络体系结构各部分的重要性或不重要,这将非常有用。当然,从历史上看,稀疏性对于反问题来说一直是一个有用的概念,研究人员通常更喜欢(L_1)范数而不是(L_2)范数。与控制类似,人们通常将控制变量包含在目标函数中,以尽量减少其工作量。受神经网络设计和训练的激励,我们提出了一种新的列空间搜索方法,该方法强调模型上的数据,以及一种新型迭代Levenberg-Marquardt算法,该算法平滑收敛到正则SVD,而不是PCA固有的突然截断。在我们的迭代Levenberg-Marquardt算法的情况下,只考虑线性化的子问题就足以验证我们的主张。然而,我们对新的列空间搜索方法的主张要求检查线性化子问题的解决方法对完全非线性原始问题的影响;因此,我们考虑了一个复杂的现实世界反问题(从RGB图像确定面部表情)。

MSC公司:

90立方厘米 数学编程
68泰克 人工智能
65Kxx美元 数学规划、优化和变分技术的数值方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 马丁·阿巴迪;阿加瓦尔,阿什什;Paul Barham;尤金·布雷夫多;陈志峰;Citro,Craig;Greg S.科拉多。;安迪·戴维斯;杰弗里·迪恩;马蒂厄·德文;桑杰·盖马瓦特;伊恩·古德费罗;安德鲁·哈普(Andrew Harp);杰弗里·欧文;迈克尔·伊萨德;贾阳青;若泽福维奇(Rafal Jozefowicz);卢卡斯·凯泽;曼朱纳特·库德勒;Josh Levenberg;曼内,蒲公英;拉贾特·蒙加;雪莉·摩尔(Sherry Moore);德里克·默里(Derek Murray);克里斯·奥拉(Chris Olah);Mike Schuster;乔纳森·施伦斯(Jonathon Shlens);斯坦纳(Benoit Steiner);伊利亚·萨茨克弗;塔尔瓦尔、库纳尔;保罗·塔克(Paul Tucker);文森特·范霍克;维杰·瓦苏德万;费尔南达维加斯;葡萄酒、Oriol;典狱长,皮特;马丁·瓦滕伯格(Martin Wattenberg);马丁·威克(Martin Wicke);于、元;Zheng,Xiaoqiang,TensorFlow:异构系统上的大规模机器学习(2015),软件可从
[2] 阿贝格尔,弗雷德里克;罗杰·特曼,《流体力学中的一些控制问题》,Theor。计算。流体动力学。,1, 303-325 (1990) ·Zbl 0708.76106号
[3] 阿赫塔尔,纳维德;Mian,Ajmal,《对抗性攻击对计算机视觉深度学习的威胁:一项调查》,IEEE Access,614410-14430(2018)
[4] 何塞·M·阿尔瓦雷斯。;Salzmann,Mathieu,《学习深层网络中神经元的数量》,(Lee,D.D.;Sugiyama,M.;Luxburg,U.V.;Guyon,I.;Garnett,R.,《神经信息处理系统的进展》29(2016),Curran Associates,Inc.),2270-2278
[5] 詹姆斯·巴格拉马(James Baglama);Reichel,Lothar,Augmented隐式重新启动了Lanczos双对角化方法,SIAM J.Sci。计算。,27、1、19-42(2005年7月)·Zbl 1087.65039号
[6] 鲍,迈克尔;吴,简;姚新伟;Fedkiw,Ronald,《估算三维面部姿势和表情的深层能量》(2018年)
[7] 鲍(Michael H.Bao)。;Cong,Matthew D。;圣菲省格拉布利;Fedkiw,Ronald,使用解剖肌肉进行高质量面部捕获,(2019年IEEE/CVF计算机视觉和模式识别会议,2019年EEE/CVF计算机视觉与模式识别会议),CVPR(2019),10794-10803
[8] 鲍(Michael H.Bao)。;大卫·海德;华欣如;Fedkiw,Ronald,《改进的搜索策略及其在面部混合形状参数估计中的应用》(2020年)
[9] 塔博·比勒;伯恩德·比克尔;保罗·比尔兹利;鲍勃·萨姆纳(Bob Sumner);Gross、Markus、高质量面部几何单次拍摄、ACM Trans。图表。,29,4(2010年7月)
[10] 塔博·比勒;费比安·哈恩(Fabian Hahn);德里克·布拉德利(Derek Bradley);比克尔,伯尔尼;保罗·比尔兹利;克雷格·戈茨曼(Craig Gotsman);罗伯特·W·萨姆纳。;Gross、Markus、使用锚定框架的高质量被动面部性能捕获,ACM Trans。图表。,30、4(2011年7月)
[11] 约书亚·本吉奥;雷杰·杜恰姆(Réjean Ducharme);帕斯卡·文森特;Jauvin,Christian,《神经概率语言模型》,J.Mach。学习。第31137-1155号决议(2003年)·Zbl 1061.68157号
[12] 马里奥·贝特罗;博卡奇,帕特里齐亚,成像逆问题导论(1998),CRC出版社·Zbl 0914.65060号
[13] Bhat,Kiran S。;Rony Goldenthal;叶玉婷;罗纳德·马莱特(Ronald Mallet);Michael Koperwas,《高保真面部动画捕获和轮廓重定目标》(第十二届ACM SIGGRAPH/Eurographics计算机动画研讨会论文集(2013),ACM),7-14
[14] 奥克,比约克,最小二乘问题的数值方法(1996),SIAM·Zbl 0847.65023号
[15] 沃尔克·布兰兹;托马斯·维特(Thomas Vetter,A morphable model for synthesis of 3D face)(《第26届计算机图形与交互技术年会论文集》(1999),美国计算机学会出版社/Addison-Wesley Publishing Co.),187-194年
[16] 马吕斯·博贾尔斯基(Mariusz Bojarski);戴尔·泰斯塔(Davide Del Testa);丹尼尔·德沃拉科夫斯基;伯恩哈德·菲纳(Bernhard Firner);弗莱普,比特;戈亚尔、普拉松;劳伦斯·D·杰克尔(Lawrence D.Jackel)。;马修·蒙福特;乌尔斯·穆勒;张家凯;张欣;杰克·赵;Zieba,Karol,《自驾汽车的端到端学习》(2016)
[17] Bottou,Léon,《随机梯度下降技巧》,421-436(2012),施普林格-柏林-海德堡:施普林格-柏林-海德堡-柏林,海德堡
[18] 莱昂·博图;弗兰克·柯蒂斯(Frank E.Curtis)。;Nocedal,Jorge,《大规模机器学习的优化方法》(2016)·兹比尔1397.65085
[19] 莱昂·博图;乔纳斯·彼得斯;奎尼诺·坎德拉(Quiñonero Candela),华金(Joaquin);丹尼斯·X·查尔斯。;Max Chickering,D。;葡萄牙,埃隆;雷,迪班卡;Patrice Simard;Snelson,Ed,《反事实推理和学习系统:计算广告的例子》,J.Mach。学习。第14、1、3207-3260号决议(2013年1月)·Zbl 1318.62206号
[20] 索菲安·布阿齐兹;Wang,Yangang;Mark Pauly,实时面部动画在线建模,ACM Trans。图表。,32, 4, 40 (2013) ·Zbl 1305.68211号
[21] Broyden,Charles G.,解非线性联立方程的一类方法,数学。计算。,19, 92, 577-593 (1965) ·Zbl 0131.13905号
[22] Broyden,Charles G.,《拟Newton方法及其在函数最小化中的应用》,数学。计算。,21, 99, 368-381 (1967) ·Zbl 0155.46704号
[23] Charles G.Broyden,一种新的双秩最小化算法。初步报告,(美国数学学会通告,第16卷(1969年),Amer。数学系:Amer。数学学会,201 Charles St.,Providence,RI),67002940-2213
[24] 阿德里安·布拉特;乔治奥斯·齐米罗普洛斯(Georgios Tzimiropoulos),我们离解决2D 3D人脸对齐问题还有多远?(以及230000个3D面部标志数据集),(2017 IEEE计算机视觉国际会议,2017 IEEE国际计算机视觉会议,ICCV(2017)),1021-1030
[25] 曹、陈;翁燕林;周、顺;童一英;Facewarehouse,Kun Zhou,用于视觉计算的3D面部表情数据库,IEEE Trans。视觉。计算。图表。,20, 3, 413-425 (2014)
[26] Tony F.Chan。;Tai,Xue-Cheng,不连续系数椭圆反问题的水平集和全变分正则化,J.Compute。物理。,193,1,40-66(2004年)·Zbl 1036.65086号
[27] 皮埃尔·夏邦尼尔(Pierre Charbonnier);劳雷·布朗克·费罗;吉勒·奥伯特;Barlaud,Michel,计算机成像中的确定性边缘保持正则化,IEEE Trans。图像处理。,6, 2, 298-311 (1997)
[28] 陈碧莲;何思迈;李振宁;Zhang,Shuzhong,最大块改进和多项式优化,SIAM J.Optim。,22, 1, 87-107 (2012) ·Zbl 1250.90069号
[29] Cong,Matthew;鲍,迈克尔;E、 简·L。;Bhat,Kiran S。;Fedkiw,Ronald,《面部解剖模拟模型的全自动生成》,(第14届ACM SIGGRAPH/Eurographics计算机动画研讨会论文集,计算机械协会:美国纽约州纽约市计算机械协会),175-183
[30] Cong,Matthew;兰,拉娜;Fedkiw,Ronald,《香港面部动画肌肉模拟:骷髅岛》,(ACM SIGGRAPH 2017年会谈,ACM SIG GRAPH’17(2017),计算机械协会:美国纽约州纽约市计算机械协会)
[31] Cong,Matthew D。;Bhat,Kiran S。;Fedkiw,Ronald,高端面部动画的艺术导向肌肉模拟,(第15届ACM SIGGRAPH/欧洲计算机动画研讨会论文集。第15届美国计算机动画学会SIGGRACH/欧洲图形研讨会论文集,SCA’16(2016)),119-127
[32] Cong,Matthew D。;兰,拉娜;Fedkiw,Ronald,基于稀疏标记的面部重建高分辨率数据的局部几何索引(2019年),arXiv预印本
[33] Davidon,William C.,《最小化的可变公制方法》(1959年),阿贡国家实验室,技术报告ANL-5990,5·Zbl 0752.90062号
[34] 杰弗里·迪恩;格雷格·科拉多(Greg Corrado);拉贾特·蒙加;陈凯;马蒂厄·德文;毛,马克;马克·阿雷里奥·兰扎托;高级,安德鲁;保罗·塔克(Paul Tucker);Yang,Ke,大规模分布式深度网络,(《神经信息处理系统进展》(2012)),1223-1231
[35] 雪莱·德克森;Keselman,Harvey J.,《向后、向前和逐步自动子集选择算法:获得真实和噪声变量的频率》,英国数学杂志。统计心理学。,45, 2, 265-282 (1992)
[36] 费尔南多·迪亚兹;唐纳德·梅茨勒(Donald Metzler);Amer-Yahia,Sihem,《在线约会系统中的相关性和排名》,(第33届国际ACM SIGIR信息检索研究与开发会议论文集。第33届ACM SIGIR信息检索研发会议论文集,SIGIR’10(2010),计算机械协会:美国纽约州纽约市计算机械协会),66-73
[37] 杜奇,约翰;哈赞,埃拉德;Singer,Yoram,在线学习和随机优化的自适应次梯度方法,J.Mach。学习。第12号决议,2121-2159(2011年7月)·Zbl 1280.68164号
[38] 布拉德利·埃夫隆;特雷弗·哈斯蒂;伊恩·约翰斯通;Robert Tibshirani,《最小角度回归》,《Ann.Stat.》,第32、2、407-499页(2004年)·Zbl 1091.62054号
[39] 英格兰,海因茨·沃纳;马丁·汉克;Neubauer,Andreas,《反问题的正则化》,第375卷(1996),Springer Science&Business Media·Zbl 0859.65054号
[40] Fan,Jinyan,三次收敛非线性方程的修正Levenberg-Marquardt方法,数学。计算。,81, 277, 447-466 (2012) ·Zbl 1242.65103号
[41] 罗纳德·费德昆(Ronald Fedkiw);朱依林;林,温妮;Wu,Jane,《连续数学方法,强调机器学习》(2020),斯坦福CS205L 2020年冬季讲座幻灯片
[42] Fedkiw,Ronald P。;吉列尔莫·萨皮罗;Shu,Chi-Wang,计算机视觉和图像处理中基于震动捕捉、水平集和PDE的方法:对Osher贡献的回顾,J.Compute。物理。,185, 2, 309-341 (2003) ·Zbl 1026.68147号
[43] Fehlberg,Erwin,具有步长控制的低阶经典Runge-Kutta公式及其在一些传热问题中的应用(1969年),NASA,技术报告315
[44] 罗杰·弗莱彻,《可变度量算法的新方法》,计算。J.,13,317-322(1970年)·Zbl 0207.17402号
[45] 罗杰·弗莱彻,《实用优化方法》(1980),约翰·威利父子公司·Zbl 0988.65043号
[46] 罗杰,弗莱彻;Powell,Michael J.D.,最小化的快速收敛下降法,计算。J.,6,2,163-168(1963)·Zbl 0132.11603号
[47] 杰西卡·盖恩斯。;Lyons,Terry J.,随机微分方程数值解中的变步长控制,SIAM J.Appl。数学。,57, 5, 1455-1484 (1997) ·Zbl 0888.60046号
[48] 日内瓦,尼古拉斯;Zabaras,Nicholas,《用物理约束的深度自回归网络建模PDE系统动力学》,J.Compute。物理。,403,第109056条,第(2020)页·Zbl 1454.65130号
[49] 耿正林;丹尼尔·约翰逊(Daniel Johnson);Fedkiw,Ronald,《强迫机器学习输出物理上精确的结果》,J.Compute。物理。,406,第109099条pp.(2020)·Zbl 1453.68164号
[50] 阿比吉特·戈什;格雷厄姆·菲夫(Graham Fyffe);Borom Tunwattanapong;杰·布什;于雪明;Debevec,Paul,使用偏振球面梯度照明的多视角人脸捕获,(2011年SIGGRAPH亚洲会议论文集。2011年SIG GRAPH亚太会议论文集,SA’11(2011),计算机械协会:美国纽约州纽约市计算机械协会)·Zbl 1305.68284号
[51] 弗雷德里克·吉布(Frederic Gibou);大卫·海德;Fedkiw,Ron,《多相流的夏普接口方法和深度学习技术》,J.Compute。物理。,380, 442-463 (2019) ·Zbl 1451.76131号
[52] Goldfarb,Donald,《由变分平均值导出的变量测量方法家族》,《数学》。计算。,24, 109, 23-26 (1970) ·Zbl 0196.18002号
[53] 伊恩·古德费罗;约书亚·本吉奥;Aaron Courville,《深度学习》(2016),麻省理工学院出版社·Zbl 1373.68009号
[54] Ariel戈登;伊班、埃拉德;奥菲尔·纳丘姆(Ofir Nachum);陈波;吴浩;杨天菊;Choi,Edward,MorphNet:深度网络的快速简单资源约束结构学习(2018 IEEE/CVF计算机视觉和模式识别会议(2018)),1586-1595
[55] 格雷佩尔、托尔;奎尼诺·坎德拉(Quiñonero Candela),华金(Joaquin);托马斯·博尔切特(Thomas Borchert);Herbrich,Ralf,微软Bing搜索引擎中赞助搜索广告的Web-scale Bayesian点击率预测,(第27届国际机器学习会议论文集。第27届机器学习国际会议论文集,ICML’10(2010),Omnipress:美国威斯康星州麦迪逊Omnipress),13-20
[56] 郭一文;姚安邦;Chen,Yurong,用于高效dnns的动态网络手术,(神经信息处理系统的进展。神经信息处理系统的进展,NIPS(2016))
[57] 韩、宋;毛慧子;Dally,William J.,《深度压缩:用修剪、训练量化和哈夫曼编码压缩深度神经网络》(2015)
[58] 韩、宋;普尔,杰夫;约翰·Tran;Dally,William,《学习有效神经网络的权重和连接》,(Cortes,C.;Lawrence,N.D.;Lee,D.D.;Sugiyama,M.;Garnett,R.,《神经信息处理系统的进展》28(2015),Curran Associates,Inc.),1135-1143
[59] 特雷弗·哈斯蒂;Robert Tibshirani;Jerome Friedman,《统计学习的要素》,Springer Series in Statistics(2001),Springer:Springer New York,NY,USA·Zbl 0973.62007号
[60] 何一辉;张向玉;孙健,《加速超深层神经网络的通道修剪》(IEEE国际计算机视觉会议论文集(2017)),1389-1397
[61] Heath,Michael T.,《科学计算:介绍性调查》(2002年),SIAM·Zbl 1411.65003号
[62] Janne Heikkila;Silven,Olli,带隐式图像校正的四步摄像机校准程序,(IEEE计算机学会计算机视觉和模式识别会议论文集(1997),IEEE),1106-1112
[63] 谢佩伦;马,重阳;俞继洪;Li,Hao,无约束实时面部性能捕获,(IEEE计算机视觉和模式识别会议论文集(2015)),1675-1683
[64] 黄浩达;柴,金乡;童欣;Wu,Xiang-Tao,利用运动捕捉和3D扫描获取高清晰度面部表现,ACM图形交易(TOG),第30卷,第74卷(2011年),ACM
[65] 黄,桑迪;Papernot,尼古拉斯;伊恩·古德费罗;段燕;Abbeel,Pieter,《神经网络政策的对抗性攻击》(2017年)
[66] 赫尔利,尼尔;Rickard,Scott,比较稀疏性度量,IEEE Trans。《信息论》,55,10,4723-4741(2009)·Zbl 1367.94094号
[67] 布罗迪·胡瓦尔;王涛;Sameep Tandon;Jeff Kiske;宋,威尔;乔尔·帕扎亚姆帕利尔;米哈伊洛·安德里卢卡;普拉纳夫·拉杰普卡尔;Toki Migimatsu;罗伊斯·程悦;费尔南多·穆吉卡;亚当·科茨(Adam Coates);Ng,Andrew Y.,《公路驾驶深度学习的实证评估》(2015)
[68] 艾奇姆(Ichim),亚历山德鲁·尤根(Alexandru Eugen);索菲安·布阿齐兹;Pauly,Mark,通过手持视频输入创建动态三维头像,ACM Trans。图表。,34, 4, 45 (2015)
[69] 阿米亚·贾格塔普(Ameya D.Jagtap)。;川口,Kenji;Karniadakis,George Em,自适应激活函数加速了深层物理信息神经网络的收敛,J.Compute。物理。,404,第109136条pp.(2020)·Zbl 1453.68165号
[70] 安东尼·詹姆逊;路易吉·马蒂内利;Pierce,Niles A.,使用Navier-Stokes方程的最佳空气动力学设计,Theor。计算。流体动力学。,10, 213-237 (1998) ·Zbl 0912.76067号
[71] 贾阳青;埃文·谢尔哈默(Evan Shelhamer);杰夫·多纳休;谢尔盖·卡拉耶夫;乔纳森·朗;Ross Girshick;塞尔吉奥·瓜达拉马;Darrell,Trevor,Caffe:快速特征嵌入的卷积架构,(第22届美国计算机学会国际多媒体会议论文集。第22届美国计算机学会国际多媒体会议论文集,MM’14(2014),计算机械协会:美国计算机械协会,纽约,纽约,美国),675-678
[72] Kingma,Diederik P。;Ba Adam,Jimmy,《随机优化方法》(2014)
[73] Alex Krizhevsky;伊利亚·萨斯科弗;Hinton,Geoffrey E.,用深度卷积神经网络进行Imagenet分类,(Pereira,F.;Burges,C.J.C.;Bottou,L.;Weinberger,K.Q.,《神经信息处理系统进展》25(2012),Curran Associates,Inc.),1097-1105
[74] Krylov,Igor‘Anatol'yevich;Chernous'ko,Feliks Leonidovich,用局部变量法解决最优控制问题,苏联计算机。数学。数学。物理。,6, 2, 12-31 (1966)
[75] 兰,拉娜;Cong,Matthew;Fedkiw,Ronald,《解剖面部肌肉模型进化的经验教训》(ACM SIGGRAPH数字化生产研讨会论文集。ACM SIG GRAPH数字生产研讨会论文集中,DigiPro’17(2017),计算机械协会:美国纽约州纽约市计算机械协会)
[76] 杰夫·兰德(Jeff Lander),《剥皮骨头:网络一代的游戏编程》,《游戏开发杂志》,1998年第5期,第1期,第10-18页
[77] Larsen,Rasmus,Lanczos二对角化伴部分再正交化,DAMI Rep.Ser。,27537(1998年12月)
[78] Le,Quoc V。;Ngiam、Jiquan;亚当·科茨(Adam Coates);阿比克·拉希里;鲍比·普罗克诺(Bobby Prochnow);Ng,Andrew Y.,《深度学习的优化方法》(2011)
[79] Yann LeCun;Boser,Bernhard E。;约翰·丹克(John S.Denker)。;Donnie Henderson;理查德·霍华德(Richard E.Howard)。;韦恩·哈伯德(Wayne E.Hubbard)。;Jackel,Lawrence D.,用反向传播网络进行手写数字识别,(Touretzky,D.S.,《神经信息处理系统的进展》2(1990),Morgan-Kaufmann),396-404
[80] Yann LeCun;莱昂·博图;Yoshua Bengio,多层图形变压器网络的阅读检查,(1997 IEEE声学、语音和信号处理国际会议,第1卷(1997)),151-154
[81] Yann LeCun;莱昂·博图;约书亚·本吉奥;Patrick Haffner,梯度学习应用于文档识别,Proc。IEEE,86,11,2278-2324(1998)
[82] Yann LeCun;黄福杰;Bottou,Léon,具有姿势和照明不变性的通用对象识别的学习方法,(2004年IEEE计算机学会计算机视觉和模式识别会议论文集,2004年,第2卷。2004年IEEE计算机学会计算机视觉和模式识别会议记录,2004年,第2卷,CVPR 2004(2004)),II-104
[83] Levenberg,Kenneth,用最小二乘法求解某些非线性问题的方法,Q.Appl。数学。,2, 2, 164-168 (1944) ·Zbl 0063.03501号
[84] 约翰·刘易斯。;Anjyo,Ken;李泰云;张梦洁;弗雷德·皮欣;邓志刚(Deng,Zhigang),《混合型面部模型的实践与理论》(Lefebvre,Sylvain;Spagnuolo,Michela,Eurographics 2014-最新报告(2014),欧洲制图协会)
[85] 李浩;阿西姆·卡达夫;伊戈尔·杜丹诺维奇;哈南Samet;Graf,Hans Peter,高效转化子的剪枝过滤器(2016)
[86] 李浩;韦斯,蒂鲍特(Thibaut Weise);Pauly,Mark,基于示例的面部操纵,ACM Trans。图表。,29, 4, 32 (2010)
[87] 李浩;俞继洪;叶玉婷;Bregler,Chris,实时面部动画与飞行矫正,ACM Trans。图表。,第32、4条,第42页(2013年)·Zbl 1305.68254号
[88] 李子茂;Miika Aittala;弗莱多·杜兰德;Lehtinen,Jaakko,通过边缘采样的可微蒙特卡罗射线追踪,ACM Trans。图表。,37、6(2018年12月)
[89] Ling,Julia;琼斯、里斯;Templeton,Jeremy,《具有不变性系统的机器学习策略》,J.Compute。物理。,318, 22-35 (2016) ·Zbl 1349.76124号
[90] 刘、庄;李建国;沈志强;黄、高;严寿梦;张长水,通过网络精简学习高效卷积网络,(2017 IEEE国际计算机视觉会议,2017 IEEE计算机视觉国际会议,ICCV(2017)),2755-2763
[91] Loper,Matthew M。;Black,Michael J.,Opendr:一种近似可微分的渲染器,(欧洲计算机视觉会议(2014),施普林格),154-169
[92] 娄以飞;张晓群;斯坦利·奥斯尔(Stanley Osher);Andrea Bertozzi,《通过非本地操作员进行图像恢复》,J.Sci。计算。,42, 185-197 (2010) ·Zbl 1203.65088号
[93] 克里斯托斯·路易斯;凯伦·乌尔里奇;Welling,Max,深度学习的贝叶斯压缩,(Guyon,I.;Luxburg,U.V.;Bengio,S.;Wallach,H.;Fergus,R.;Vishwanathan,S.;Garnett,R.,《神经信息处理系统进展30》(2017),Curran Associates,Inc.),3288-3298
[94] 马诺利斯I.A.卢拉基斯。;Argyros,Antonis A.,Levenberg-Marquardt是实现光束调整最有效的优化算法吗?,(第十届IEEE国际计算机视觉会议,第十届国际计算机视觉大会,ICCV'05,第2卷(2005),IEEE),1526-1531
[95] 马荣荣;苗剑玉;牛、凌峰;张鹏,用于学习稀疏深度神经网络的变换正则化,神经网络。,119, 286-298 (2019) ·Zbl 1434.68512号
[96] 纳迪亚·马格纳特·塔尔曼;理查德·拉佩里埃(Richard Laperrière);丹尼尔·塔尔曼(Daniel Thalmann),手动画和物体抓取的联合依赖局部变形,(88年《图形界面学报》(1989年),加拿大信息处理学会:加拿大信息处理协会),26-33
[97] Marquardt,Donald W.,非线性参数最小二乘估计算法,J.Soc.Ind.Appl。数学。,11, 2, 431-441 (1963) ·Zbl 0112.10505号
[98] Warren S.McCulloch。;沃尔特·皮特斯,《神经活动内在思想的逻辑演算》,布尔。数学。生物物理学。,5, 115-133 (1943) ·Zbl 0063.03860号
[99] 布莱恩·麦克菲(Brian McFee);Lanckriet,Gert,Metric learning to rank,(第27届国际机器学习会议论文集。第27届机器学习国际会议论文集,ICML’10,美国威斯康星州麦迪逊(2010),Omnipress),775-782
[100] 阿卜杜勒·拉赫曼·穆罕默德;乔治·E·达尔。;Hinton,Geoffrey,使用深信度网络的声学建模,IEEE Trans。音频语音语言处理。,20, 1, 14-22 (2012)
[101] Nash,Stephen G.,截断Newton方法调查,J.Compute。申请。数学。,124、1-2、45-59(2000年)·Zbl 0969.65054号
[102] 基里尔·内克柳多夫;德米特里·莫尔恰诺夫;阿瑟尼阿舒卡;Vetrov,Dmitry P.,通过对数正态乘性噪声进行结构化贝叶斯修剪,(Guyon,I.;Luxburg,U.V.;Bengio,S.;Wallach,H.;Fergus,R.;Vishwanathan,S.,Garnett,R.,《神经信息处理系统的进展》30(2017),Curran Associates,Inc.),6775-6784
[103] Nesterov,Yurii,求解具有收敛速度的凸规划问题的方法\(O(1/k^2)\),Sov。数学。道克。,27, 372-376 (1983) ·Zbl 0535.90071号
[104] Nesterov,Yurii,坐标下降法在大规模优化问题上的效率,SIAM J.Optim。,22, 2, 341-362 (2012) ·Zbl 1257.90073号
[105] 托马斯·诺伊曼;瓦拉纳西,基兰;斯蒂芬·温格;马库斯·瓦克(Markus Wacker);马库斯·马格纳(Marcus Magnor);Theobalt,Christian,稀疏局部变形分量,ACM Trans。图表。,32, 6, 179 (2013)
[106] Nocedal,Jorge,用有限存储更新拟Newton矩阵,数学。计算。,35, 151, 773-782 (1980) ·Zbl 0464.65037号
[107] 豪尔赫·诺塞达尔;Wright,Stephen J.,《数值优化》(2006),施普林格出版社·Zbl 1104.65059号
[108] 朱莉·努蒂尼(Julie Nutini);马克·施密特(Mark Schmidt);伊萨姆·拉拉吉;迈克尔·弗里德兰德(Michael Friedlander);Koepke,Hoyt,坐标下降比随机选择更快地收敛于高斯-南威尔规则,(国际机器学习会议(2015)),1632-1641
[109] Park,Jongsoo;李胜;Wen,Wei;Tang,Ping Tak Peter;李海;陈毅然;Dubey,Pradeep,《使用直接稀疏卷积和引导修剪的更快CNN》(2016)
[110] 亚当·帕斯克(Adam Paszke);格罗斯,萨姆;马萨,弗朗西斯科;亚当·勒勒;詹姆斯·布拉德伯里(James Bradbury);格雷戈里·查南(Gregory Chanan);特雷弗·基林;林泽明;纳塔利亚·吉梅尔谢恩(Natalia Gimelshein);卢卡·安提卡;阿尔班·德斯梅森;安德烈亚斯·科普夫;爱德华·杨;扎卡里·德维托;马丁·赖森(Martin Raison);阿利坎·特贾尼;奇拉姆库尔蒂,萨桑克;斯坦纳(Benoit Steiner);方、鲁;白俊杰;Chintala,Soumith,PyTorch:一个命令式、高性能的深度学习库,(Wallach,H.;Larochelle,H.,Beygelzimer,A.;Buc,F.d'Alché;Fox,E.;Garnett,R.,《神经信息处理系统的进展》32(2019),Curran Associates,Inc.),8024-8035
[111] John C.Platt,《序列最小优化:训练支持向量机的快速算法》(1998年4月),微软研究院,技术报告MSR-TR-98-14
[112] Powell,Michael J.D.,非线性方程的混合方法,(Rabinowitz,Philip,非线性代数方程的数值方法(1970),Gordon和Breach),87-114·Zbl 0277.65028号
[113] 齐英和;吕佳才;鲁本·斯卡多弗利(Ruben Scardovelli);圣埃芬·扎勒斯基;Tryggvason,Grétar,使用机器学习计算流体体积法的曲率,J.Compute。物理。,377, 155-161 (2019)
[114] 钱宁,关于梯度下降学习算法中的动量项,神经网络。,12, 1, 145-151 (1999)
[115] 马齐亚·莱斯;巴黎佩迪卡里斯;Karniadakis,George Em,《基于物理的神经网络:用于解决涉及非线性偏微分方程的正向和反向问题的深度学习框架》,J.Compute。物理。,378, 686-707 (2019) ·Zbl 1415.68175号
[116] 尤西·鲁布纳;卡洛·托马西;Guibas,Leonidas J.,图像数据库应用的分布度量,(第六届计算机视觉国际会议(IEEE分类号98CH36271)(1998)),59-66
[117] Ruder,Sebastian,梯度下降优化算法概述(2016)
[118] Moktar A.萨拉马。;约翰·加尔巴(John A.Garba)。;Laura A.Demsetz。;Udwadia,Firdaus E.,受控结构的同步优化,计算。机械。,3275-282(1988年)·Zbl 0635.73097号
[119] Shanno,David F.,函数最小化的拟Newton方法条件,数学。计算。,24, 111, 647-656 (1970) ·兹比尔0225.65073
[120] 石浩俊迈克尔;涂、申银英;徐阳阳;尹沃涛,坐标下降算法入门(2016)
[121] Sifakis,Eftychios;Neverov,Igor;Fedkiw,Ronald,从稀疏运动捕捉标记数据自动确定面部肌肉激活,(ACM SIGGRAPH 2005论文。ACM SIG GRAPH 2005论文,SIGGRAP’05,美国纽约州纽约市(2005),计算机协会),417-425
[122] Sifakis,Eftychios;安德鲁·塞尔;罗宾森·莫舍(Robinson Mosher),阿夫拉姆(Avram);Fedkiw,Ronald,用基于物理的面部肌肉模型模拟语音,(2006年ACM SIGGRAPH/欧洲制图计算机动画研讨会论文集。2006年ACM-SIGGRACH/欧洲绘图计算机动画研讨会会议论文集,SCA'06,Goslar,DEU(2006),欧洲制图协会),261-270
[123] 贾斯汀·西里尼亚诺;Spiliopoulos,Konstantinos,DGM:解偏微分方程的深度学习算法,J.Compute。物理。,375, 1339-1364 (2018) ·Zbl 1416.65394号
[124] Sorensen,Danny C.,带模型信赖域修正的牛顿方法,SIAM J.Numer。分析。,19, 2, 409-426 (1982) ·Zbl 0483.65039号
[125] 苏嘉伟;巴尔加斯(Vargas)、达尼洛·瓦斯科尼特斯(Danilo Vasconsellos);Sakurai,Kouichi,愚弄深层神经网络的单像素攻击,IEEE Trans。进化。计算。,23, 5, 828-841 (2019)
[126] 伊利亚·萨茨克弗;詹姆斯·马滕斯(James Martens);乔治·达尔;杰弗里·辛顿(Geoffrey Hinton),《关于深度学习中初始化和动力的重要性》(On the importance of initialization and momenture in deep learning),(2013年国际机器学习会议),1139-1147
[127] Theano:用于快速计算数学表达式的Python框架(2016年5月),arXiv电子版
[128] 朱斯塔斯·提斯(Justus Thies);迈克尔·佐尔霍费尔(Michael Zollhofer);马克·斯塔明格(Marc Stamminger);克里斯蒂安·西奥巴特(Christian Theobalt);Nießner,Matthias,Face2Face:实时人脸捕获和RGB视频的重新制作(IEEE计算机视觉和模式识别会议论文集(2016)),2387-2395
[129] Tijmen Tieleman;杰弗里·辛顿(Geoffrey Hinton),第6.5讲:rmsprop:将梯度除以最近量级的运行平均值,Coursera:Neural Netw。机器。学习。,4, 2, 26-31 (2012)
[130] Tseng,Paul,不可微最小化的块坐标下降方法的收敛性,J.Optim。理论应用。,109, 3, 475-494 (2001) ·Zbl 1006.65062号
[131] 马尔科·沃科宁;Dénes的Vadász;帕西·A·卡贾莱宁。;埃尔基·萨默萨洛;Kaipio,Jari P.,Tikhonov正则化和电阻抗断层成像中的先验信息,IEEE Trans。医学成像,17,2,285-293(1998)
[132] 王敏;Wen Cheung,Siu;Tat Leung,Wing;Eric T.Chung。;叶芬迪耶夫,雅尔钦;玛丽·惠勒(Mary Wheeler),《流体动力学降阶深度学习》(Reduced order deep learning for flow dynamics)。深度学习和模型简化之间的相互作用,J.Compute。物理。,401,第108939条pp.(2020)·Zbl 1454.76007号
[133] Wen,Wei;陈毅然;李海;何玉雄;Rajbhandari,Samyam;张敏佳;王文翰;刘芳;胡斌,《学习长短期记忆中的内在稀疏结构》(ICLR 2018年会议(2018年2月))
[134] Wen,Wei;吴春鹏;王燕丹;陈毅然;Li,Hai,深度神经网络中的学习结构稀疏性,(Lee,D.D.;Sugiyama,M.;Luxburg,U.V.;Guyon,I.;Garnett,R.,《神经信息处理系统的进展》29(2016),Curran Associates,Inc.),2074-2082
[135] Wright,Stephen J.,坐标下降算法,数学。程序。,151, 1, 3-34 (2015) ·Zbl 1317.49038号
[136] 吴成雷;德里克·布拉德利(Derek Bradley);格罗斯,马库斯;Beeler,Thabo,用于单目面部捕获的解剖约束局部变形模型,ACM Trans。图表。,351115(2016)
[137] 杨焕瑞;Wen,Wei;Deephoyer,Hai Li.,学习具有可微尺度-变稀疏性测度的稀疏神经网络,(国际学习表征会议(2020))
[138] Yun、Jihun;郑鹏;杨恩浩(Yang,Eunho);奥雷利·洛扎诺;Aravkin,Aleksandr,Trimming the \(\ell_1\)regularizer:statistical analysis,optimization,and applications to deep learning,(乔杜里,卡马利卡;萨拉库丁诺夫,鲁斯兰,《第36届机械学习国际会议论文集》,第36届国际机器学习会议论文集,美国加利福尼亚长滩。第36届机器学习国际会议论文集。第36届机器学习国际会议论文集,美国加利福尼亚州长滩,机器学习研究论文集,第97卷(2019年6月),7242-7251,PMLR
[139] Zeiler、Matthew D.、ADADELTA:自适应学习率方法(2012)
[140] 张晓群;马丁·汉堡包;布列松,泽维尔;Osher,Stanley,用于反褶积和稀疏重建的Bregmaized非局部正则化,SIAM J.Imaging Sci。,3, 3, 253-276 (2010) ·Zbl 1191.94030号
[141] 齐恩基维茨,乌列吉尔德·塞西尔;Taylor,Robert Leroy,《有限元方法》,第1卷:基础,第1册(2000年),巴特沃斯·海尼曼·Zbl 0974.76003号
[142] 齐恩基维茨,乌列吉尔德·塞西尔;Taylor,Robert Leroy,《有限元方法》,第2卷:固体力学,第2期(2000年),巴特沃斯·海尼曼·Zbl 0974.76004号
[143] 佐斯、加斯帕德;德里克·布拉德利(Derek Bradley);贝拉德,帕斯卡;塔博·比勒(Thabo Beeler),颌骨动画实验装置,ACM Trans。图表。,37, 4, 1-12 (2018)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。