×

机器学习中的自动分化:一项调查。 (英语) Zbl 06982909号

摘要:导数,主要以梯度和黑森函数的形式存在于机器学习中。自动微分(AD),也称为算法微分或简称“autodiff”,是一系列技术,类似于反向传播,但比反向传播更通用,用于高效、准确地计算表示为计算机程序的数值函数的导数。AD是一个小型但成熟的领域,应用领域包括计算流体动力学、大气科学和工程设计优化。直到最近,机器学习和AD领域在很大程度上还互不了解,在某些情况下,还独立地发现了彼此的结果。尽管通用AD具有相关性,但在机器学习工具箱中却一直没有通用AD,随着它以“动态计算图”和“可微编程”的名义被不断采用,这种情况正在慢慢改变。我们调查了AD和机器学习的交叉点,涵盖应用程序,其中AD具有直接相关性,并解决了主要的实现技术。通过精确定义主要的差异化技术及其相互关系,我们旨在明确术语“autodiff”、“autodifferential”和“symbol differentiation”的用法,因为在机器学习设置中越来越多地遇到这些术语。

MSC公司:

65D25个 数值微分
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Mart´un n Abadi、Ashish Agarwal、Paul Barham、Eugene Brevdo、Zhifeng Chen、Craig Citro、Greg S Corrado、Andy Davis、Jeffrey Dean、Matthieu Devin等。传感器流:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.044672016。
[2] D.S.Adamson和C.W.Winant。无限区域变化下游初始强冲击波的SLANG模拟。《连续系统仿真语言应用会议记录》,第231-40页,1969年。27
[3] Naman Agarwal、Brian Bullins和Elad Hazan。线性时间二阶随机优化。技术报告arXiv:1602.03943,arXiv预印本,2016年·Zbl 1441.90115号
[4] R.K.Al Seyab和Y.Cao。基于连续时间递归神经网络和自动微分的预测控制非线性系统辨识。《过程控制杂志》,18(6):568–5812008。doi:10.1016/j.jprocont.2007.10.012。
[5] Brandon Amos和J Zico Kolter。OptNet:作为神经网络层的可差分优化。arXiv预印arXiv:1703.004432017。
[6] Marianna S.Apostolopoulou、Dimitris G.Sotiropoulos、Ioannis E.Livieris和Panagiotis Pintelas。一种无记忆BFGS神经网络训练算法。第七届IEEE工业信息学国际会议,印度2009年,第216-221页,2009年6月。doi:10.1109/INDIN.2009.5195806。
[7] 安德鲁·W·阿佩尔。运行时标记不是必需的。Lisp和符号计算,2(2):153-1621989。
[8] Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio。神经机器翻译通过联合学习对齐和翻译。arXiv预印arXiv:1409.04732014。
[9] 丹尼尔·保罗·巴雷特和杰弗里·马克·西斯金德。Felzenszwalb-Baum-Welch:通过改变外观来检测事件。arXiv预印arXiv:1306.47462013。
[10] 埃里克·巴斯蒂安神父、帕斯卡尔·兰姆林神父、拉兹万·帕斯卡努神父、詹姆斯·伯格斯特拉神父、伊恩·古德费罗神父、阿诺德·伯格伦神父、尼古拉斯·布沙德神父、大卫·沃德·法利神父和约舒亚·本吉奥神父。Theano:新功能和速度改进。深度学习和无监督特征学习NIPS 2012研讨会,2012年。
[11] 弗里德里希·L·鲍尔。计算图和舍入误差。SIAM数值分析杂志,11(1):87-961974·Zbl 0337.65028号
[12] 在11米G¨une的Baydin、Barak A.Pearlmutter和Jeffrey Mark Siskind。Diffsharp:的AD库。NET语言。2016年9月12日至15日,英国牛津基督教堂举行的第七届算法区分国际会议,2016a。另请参见arXiv:1611.03423。
[13] 在11米G¨une的Baydin、Barak A.Pearlmutter和Jeffrey Mark Siskind。深度学习的技巧。2016年9月12日至15日,英国牛津基督教堂第七届国际算法区分会议,2016b。另请参见arXiv:1611.03777。
[14] 在上午G¨une s Baydin、Robert Cornish、David Mart´11n nez Rubio、Mark Schmidt和Frank Wood。在线学习速率自适应超梯度下降。2018年4月30日至5月3日,加拿大温哥华,第六届国际学习代表大会(ICLR)。
[15] L.M.Beda、L.N.Korolev、N.V.Sukkikh和T.S.Frolova。BESM机器的自动区分程序(俄语)。技术报告,苏联莫斯科科学院精密力学和计算技术研究所,1959年。28
[16] Bradley M.Bell和James V.Burke。隐函数和最优值的算法微分。C.H.Bischof、H.M.B¨ucker、P.Hovland、U.Naumann和J.Utke编辑,《自动微分进展》,《计算科学与工程讲义》第64卷,第67-77页。施普林格-柏林-海德堡,2008年。doi:10.1007/978-3-540-68942-37·Zbl 1152.65434号
[17] 克劳斯·本特森和奥利·斯塔宁。FADBAD,一个用于自动区分的灵活C++包。技术报告IMM-REP-1996-17,丹麦技术大学数学建模系,丹麦林比,1996年。
[18] 约舒亚·本吉奥(Yoshua Bengio)、亚伦·库维尔(Aaron Courville)和帕斯卡·文森特(Pascal Vincent)。表征学习:回顾和新观点。IEEE模式分析和机器智能汇刊,35(8):1798–18282013。
[19] Charles W.Bert和Moinuddin Malik。计算力学中的微分求积方法:综述。《应用力学评论》,491996年。doi:10.1115/1.3101882·Zbl 0857.73077号
[20] Martin Berz、Kyoko Makino、Khodr Shamseddine、Georg H.Hoffst¨atter和Weishi Wan。COSY INFINITY及其在非线性动力学中的应用。在M.Berz、C.Bischof、G.Corliss和A.Griewank,编辑,《计算微分:技术、应用和工具》,第363-5页。工业与应用数学学会,宾夕法尼亚州费城,1996年。
[21] Christian Bischof、Alan Carle、George Corliss、Andreas Griewank和Paul Hovland。ADIFOR 2.0:Fortran 77程序的自动区分。计算科学工程,IEEE,3(3):18-321996。doi:10.1109/99.537089。
[22] 克里斯蒂安·比肖夫(Christian Bischof)、卢卡斯·卢(Lucas Roh)和安德鲁·莫尔·奥茨(Andrew Mauer-Oats)。ADIC:用于ANSI-C的可扩展自动区分工具。软件实践与经验,27(12):1427–561997。
[23] Christian H.Bischof、H.Martin B¨ucker和Bruno Lang。计算金融的自动微分。E.J.Kontoghiorghes、B.Rustem和S.Siokos主编,《决策中的计算方法,经济学和金融》,《应用优化》第74卷,第297-310页。美国施普林格出版社,2002年。doi:10.1007/9781-4757-3613-715·Zbl 1045.65020号
[24] Christian H.Bischof、H.Martin B¨ucker、Arno Rasch、Emil Slusanschi和Bruno Lang。通用计算流体动力学软件包FLUENT的自动微分。流体工程杂志,129(5):652–82006。doi:10.1115/12720475。
[25] Christian H.Bischof、Paul D.Hovland和Boyana Norris。关于自动微分工具的实现。高阶和符号计算,21(3):311–312008。doi:10.1007/s10990-008-9034-4·Zbl 1168.65324号
[26] V.G.Boltyanskii、R.V.Gamkrelidze和L.S.Pontryagin。最优过程理论I:最大值原理。伊兹韦斯特。阿卡德。Nauk S.S.R.系列。材料,24:3–421960年。
[27] 莱昂博图。具有随机梯度下降的大规模机器学习。2010年COMPSTAT会议记录,第177-186页。施普林格,2010年。29
[28] L´eon Bottou和Yann LeCun。SN:连接主义模型的模拟器。《神经尼姆学报》88,第371-382页,法国尼姆,1988年。统一资源定位地址http://leon.bottou.org/papers/bottou-lecun-88。
[29] L´eon Bottou和Yann LeCun。豪华参考手册,2002.URLhttp://flush。sourceforge.net/doc.html。
[30] L´eon Bottou、Frank E.Curtis和Jorge Nocedal。大规模机器学习的优化方法。arXiv预印arXiv:1606.048382016·Zbl 1397.65085号
[31] L´eon Bottou。在线学习和随机近似。《神经网络中的在线学习》,1998年17月9日。
[32] Claude Brezinski和M.Redivo Zaglia。外推方法:理论与实践。北荷兰,1991年·Zbl 0744.65004号
[33] A.E.Bryson和W.F.Denham。求解最优规划问题的最速上升法。《应用力学杂志》,29(2):2471962。doi:10.1115/1.3640537·Zbl 0112.20003号
[34] 亚瑟·E·布莱森和于智浩。应用最优控制:优化、估计和控制。马萨诸塞州沃尔瑟姆布莱斯戴尔,1969年。
[35] Rirchard L.Burden和J.Douglas Faires。数值分析。布鲁克斯/科尔,2001年。
[36] 卢卡·卡普里奥蒂。快速希腊算法微分。《计算金融杂志》,14(3):32011年3月·Zbl 1395.91491号
[37] 格雷戈里·卡迈克尔(Gregory R.Carmichael)和阿德里安·桑德(Adrian Sandu)。通过自动微分对大气化学模型进行敏感性分析。大气环境,31(3):475–891997。
[38] 鲍勃·卡彭特、马修·D·霍夫曼、马库斯·布鲁贝克、丹尼尔·李、彼得·李和迈克尔·贝当古。Stan数学库:C++中的反向模式自动微分。arXiv预印arXiv:1509.071642015。
[39] Bob Carpenter、Andrew Gelman、Matt Hoffman、Daniel Lee、Ben Goodrich、Michael Betancourt、Michael A Brubaker、Jiqiang Guo、Peter Li和Allen Riddell。斯坦:一种概率编程语言。《统计软件杂志》,20:1–372016年。
[40] 丹尼尔·卡萨诺娃(Daniele Casanova)、罗宾·夏普(Robin S.Sharp)、马克·芬奇(Mark Final)、布鲁斯·克里斯蒂安森(Bruce Christianson)和帕特·西蒙兹(Pat Symonds)。自动识别在赛车性能优化中的应用。乔治·科尔利斯、克里斯特·福尔、安德烈亚斯·格雷万克、劳伦·哈斯科¨et和乌维·诺曼编著的《算法的自动区分》,第117-124页。Springer-Verlag纽约公司,美国纽约州纽约市,2002年。国际标准图书编号0-387-95305-1。
[41] 伊莎贝尔·查彭蒂尔和穆罕默德·盖米尔。有效的伴随导数:应用于气象模式Meso-NH。优化方法与软件,13(1):35-632000·兹伯利0983.76067
[42] 陈丹琪和克里斯托弗·曼宁。一种使用神经网络的快速准确的依赖性解析器。《2014年自然语言处理实证方法会议论文集》,第740-750页,2014年。30
[43] Sharan Chetlur、Cliff Woolley、Philippe Vandermersch、Jonathan Cohen、John Tran、Bryan Catanzaro和Evan Shelhamer。cuDNN:用于深度学习的高效原语。arXiv预印arXiv:1410.07592014。
[44] Siddhartha Chib和Edward Greenberg。理解大都会黑斯廷斯算法。美国统计学家,49(4):327–3351995。doi:10.1080/00031305.1995。10476177
[45] 布鲁斯·克里斯蒂安森(Bruce Christianson)。反向累积和吸引人的固定点。优化方法和软件,3(4):311-3261994。
[46] 布鲁斯·克里斯蒂安森(Bruce Christianson)。用于自动微分的莱布尼茨符号。肖恩·福思(Shaun Forth)、保罗·霍夫兰(Paul Hovland)、埃里克·菲普斯(Eric Phipps)、让·乌特克(Jean Utke)和安德烈亚·沃尔特(Andrea Walther)主编,《算法区分的最新进展》(Recent Advances In Algorithmic Differentiation),《计算科学与工程讲。施普林格,柏林,2012年。国际标准图书编号978-3-540-68935-5。doi:10.1007/978-3642-30023-31·Zbl 1251.65024号
[47] 威廉·克利福德(William K.Clifford)。双四元数的初步草图。伦敦数学学会会刊,4:381-951873。
[48] J Cohen和M Jeroen Molemaker。使用cuda的快速双精度cfd代码。并行计算流体动力学:最新进展和未来方向,第414-429页,2009年。
[49] Ronan Collobert、Koray Kavukcuoglu和Cl´ement Farabet。火炬7:机器学习的类似Matlab的环境。在BigLearn,NIPS Workshop,编号EPFL-CONF1923762011。
[50] 乔治·F·科利斯。微分算法的应用,《计算机透视》第19卷,第127-48页。波士顿学术出版社,1988年·Zbl 0659.65016号
[51] 马蒂厄·库巴里奥(Matthieu Courbariaux)、约书亚·本吉奥(Yoshua Bengio)和珍妮·皮埃尔·戴维(Jean-Pierre David)。二进制连接:在传播过程中使用二进制权重训练深层神经网络。《神经信息处理系统进展》,第3123-3131页,2015年。
[52] 纳芙尼特·达拉和比尔·特里格斯。人体检测定向梯度直方图。《2005年IEEE计算机学会计算机视觉和模式识别会议论文集》(CVPR'05),第886-93页,美国华盛顿特区,2005年。IEEE计算机协会。doi:10.10109/CVPR.2005.177。
[53] 本杰明·多弗涅(Benjamin Dauvergne)和劳伦特·哈斯科(Laurent Hasco¨)。反向自动微分中检查点的数据流方程。V.N.Alexandrov、G.D.van Albada、P.M.A.Sloot和J.Dongarra,《计算科学-ICCS 2006》编辑,《计算机科学讲义》第3994卷,第566-73页,Dauvergne,2006年。柏林施普林格·Zbl 1157.65334号
[54] 约翰·丹尼斯和罗伯特·施纳贝尔。无约束优化和非线性方程的数值方法。应用数学经典。工业和应用数学学会,费城,1996年。31 ·Zbl 0847.65038号
[55] L.C.狄克逊。使用自动微分计算黑森步和牛顿步。A.Griewank和G.F.Corliss编辑,《算法的自动区分:理论、实现和应用》,第114-125页。宾夕法尼亚州费城SIAM,1991年·Zbl 0782.65021号
[56] 西蒙·杜安(Simon Duane)、安东尼·肯尼迪(Anthony D.Kennedy)、布莱恩·彭德尔顿(Brian J.Pendleton)和邓肯·罗伊斯(Duncan Roweth)。混合蒙特卡罗。《物理快报B》,195(2):216–2221987。
[57] 约翰·杜奇(John Duchi)、伊拉德·哈赞(Elad Hazan)和约拉姆·辛格(Yoram Singer)。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121–21592011·Zbl 1280.68164号
[58] Ulf Ekstr–om、Lucas Visscher、Radovan Bast、Andreas J.Thorvaldsen和Kenneth Ruud。来自自动微分的任意阶密度函数响应理论。化学理论与计算杂志,6:1971-802010。doi:10.1021/ct100117s。
[59] Jerry Eriksson、M˚arten Gulliksson、Per Lindstr–om和Per˚Ake Wedin。用于使用自动微分训练大型前馈神经网络的正则化工具。优化方法与软件,10(1):49-691998。doi:10.1080/10556789808805701·Zbl 0913.68177号
[60] S.M.Ali Eslami、Nicolas Heess、Theophane Weber、Yuval Tassa、David Szepesvari、Koray Kavukcuoglu和Geoffrey E.Hinton。参与、推断、重复:使用生成模型快速理解场景。D.D.Lee、M.Sugiyama、U.V.Luxburg、I.Guyon和R.Garnett,编辑,《神经信息处理系统进展》29,第3225-3233页。Curran Associates,Inc.,2016年。
[61] 詹妮·罗斯·芬克尔(Jenny Rose Finkel)、亚历克斯·克莱曼(Alex Kleeman)和克里斯托弗·曼宁(Christopher D.Manning)。高效、基于特征的条件随机字段解析。《计算语言学协会第46届年会会议记录》(ACL 2008),第959-67页,2008年。
[62] Bengt Fornberg。解析函数的数值微分。ACM数学软件汇刊,7(4):512-261981。doi:10.1145/355972.355979·兹伯利0465.65012
[63] 肖恩·福思(Shaun A.Forth)。MATLAB中正向模式自动微分的高效重载实现。ACM数学软件汇刊,32(2):195–2222006·Zbl 1365.65053号
[64] 肖恩·福思(Shaun A.Forth)和特雷弗·埃文斯(Trevor P.Evans)。通过多重网格网格顶点Euler流求解器的AD进行翼型优化。George Corliss、Christ’ele Faure、Andreas Griewank、Laurent Hasco¨et和Uwe Naumann编辑,《算法的自动区分:从模拟到优化》,第153-160页。纽约州纽约市施普林格,2002年。国际标准书号978-1-4613-0075-5。doi:10.1007/978-1-4613-0075-5 17。
[65] 罗伯特·福勒、大卫·盖伊和布莱恩·科尼根。AMPL:数学编程的建模语言。达克斯伯里出版社,2002年·Zbl 0701.90062号
[66] 大卫·M·盖伊。非线性规划问题中部分可分结构的自动发现与利用。技术报告,贝尔实验室,新泽西州默里山,1996年。32
[67] 阿瑟夫·H·盖布雷梅欣(Assefaw H.Gebremedhin)、阿里吉特·塔拉夫达尔(Arijit Tarafdar)、亚历克斯·波顿(Alex Pothen)和安德烈亚·沃尔特(Andrea Walther)。使用着色和自动微分有效计算稀疏Hessian。信息计算杂志,21(2):209-232009。doi:10.1287/ijoc.1080.0286·Zbl 1243.65071号
[68] 阿瑟夫·H·盖布雷梅欣(Assefow H Gebremedhin)、杜·阮(Duc Nguyen)、Md Mostofa Ali Patwary和亚历克斯·波顿(Alex Pothen)。ColPack:科学计算中用于图形着色和相关问题的软件。ACM数学软件汇刊(TOMS),40(1):2013年1月·Zbl 1295.65144号
[69] 塞缪尔·格什曼和诺亚·古德曼。概率推理中的分期推理。《认知科学学会年会论文集》,第36期,2014年。
[70] 拉尔夫·吉林(Ralf Giering)和托马斯·卡明斯基(Thomas Kaminski)。伴随码构造的方法。ACM数学软件汇刊,24:437–741998年。doi:10.1145/293686.293695·兹伯利0934.65027
[71] Kevin Gimpel、Dipanjan Das和Noah A.Smith。用于自然语言处理的分布式异步在线学习。在《第十四届计算自然语言学习会议论文集》中,CoNLL’10,第213–222页,美国宾夕法尼亚州斯特劳兹堡,2010年。计算语言学协会。
[72] Mark Girolami和Be Calderhead。黎曼流形朗之万和哈密顿蒙特卡罗方法。英国皇家统计学会杂志:B辑(统计方法),73(2):123–2142011。
[73] Yoav Goldberg,自然语言处理神经网络模型入门。《人工智能研究杂志》,57:345–4202016年·Zbl 1401.68264号
[74] 伊恩·古德费罗(Ian Goodfellow)、约舒亚·本吉奥(Yoshua Bengio)和亚伦·库维尔(Aaron Courville)。深度学习。麻省理工学院出版社,2016年。http://www.deeplearningbook.org。 ·Zbl 1373.68009号
[75] 安德鲁·德·戈登(Andrew D Gordon)、托马斯·汉津格(Thomas A Henzinger)、阿迪蒂亚·瓦诺里(Aditya V Nori)和斯里拉姆·拉贾马尼(Sriram K Rajamani)。概率规划。《软件工程的未来》,第167-181页。ACM,2014年。
[76] 约翰内斯·格拉布梅尔和埃里奇·卡尔托芬。计算机代数手册:基础,应用,系统。斯普林格,2003年·Zbl 1017.68162号
[77] 马库斯·格拉布纳(Markus Grabner)、托马斯·波克(Thomas Pock)、托比亚斯·格罗斯(Tobias Gross)和伯恩哈德·凯恩斯(Bernhard Kainz)。GPU加速2D/3D注册的自动区分。C.H.Bischof、H.M.B¨ucker、P.Hovland、U.Naumann和J.Utke编辑,《自动微分进展》,《计算科学与工程讲义》第64卷,第259-269页。施普林格-柏林-海德堡,2008年。doi:10.1007/978-3-540-68942-3 23·Zbl 1147.92310号
[78] Will Grathwohl、Dami Choi、Yuhuai Wu、Geoff Roeder和David Duvenaud。通过空隙的反向传播:优化黑盒梯度估计的控制变量。arXiv预印arXiv:1711.001232017。
[79] Alex Graves、Greg Wayne和Ivo Danihelka。神经图灵机器。arXiv预印arXiv:1410.54012014。33
[80] Alex Graves、Greg Wayne、Malcolm Reynolds、Tim Harley、Ivo Danihelka、Agnieszka Grabska-Barwi´nska、Sergio G´omez Colmenarejo、Edward Grefenstette、Tiago Ramalho、John Agapiou等人。使用具有动态外部存储器的神经网络进行混合计算。《自然》,538(7626):471-4762016。
[81] 爱德华·格雷芬斯特特(Edward Grefenstette)、卡尔·莫里茨·赫尔曼(Karl Moritz Hermann)、穆斯塔法·苏莱曼(Mustafa Suleyman)和菲尔·布隆森(Phil Blunsom)。学习用无限的记忆进行交流。《神经信息处理系统进展》,第1828-1836页,2015年。
[82] 安德烈亚斯·格里万克(Andreas Griewank)。关于自动微分。M.Iri和K.Tanabe主编,《数学编程:最新发展和应用》,第83–108页。Kluwer学术出版社,1989年·兹伯利0696.65015
[83] 安德烈亚斯·格里万克。关于自动微分的数学观点。《数字学报》,12:321–982003年。doi:10.1017/S0962492902000132·Zbl 1047.65012号
[84] 安德烈亚斯·格里万克(Andreas Griewank)。谁发明了反向分化模式?Documenta Mathematica,额外卷ISMP:389–400,2012年·Zbl 1293.65035号
[85] 安德烈亚斯·格雷万克和安德烈亚·沃尔特。评估衍生品:算法微分的原理和技术。工业和应用数学学会,费城,2008年。doi:10.1137/1.9780898717761·Zbl 1159.65026号
[86] 安德烈亚斯·格里万克(Andreas Griewank)、克什蒂吉·库尔什赫塔(Kshitij Kulshreshtha)和安德烈亚·沃尔特(Andrea Walther)。算法微分的数值稳定性。计算,94(2-4):125–149,2012年·Zbl 1238.65013号
[87] Audrunas Gruslys、R´emi Munos、Ivo Danihelka、Marc Lanctot和Alex Graves。通过时间进行内存高效的反向传播。《神经信息处理系统进展》,第4125-4133页,2016年。
[88] Suyog Gupta、Ankur Agrawal、Kailash Gopalakrishnan和Pritish Narayanan。深度学习,数值精度有限。第32届国际机器学习会议(ICML-15)会议记录,第1737-1746页,2015年。
[89] Gundolf Haase、Ulrich Langer、Ewald Lindner和Wolfram M–uhlhuber。使用AD优化工业结构力学问题的尺寸。《算法的自动微分》,第181-188页。斯普林格,2002年。
[90] Stefan Hadjis、Firas Abuzaid、Ce Zhang和Christopher R´e。咖啡控制:浅显的想法可以加快深度学习。《第四届云数据分析研讨会论文集》,第2页。ACM,2015年。
[91] 威廉·罗文·汉密尔顿。共轭函数理论或代数偶;随附一篇关于代数作为纯粹时间科学的初级论文。《爱尔兰皇家学院学报》,17:293–4221837年。
[92] Laurent Hasco¨et和Val´erie Pascual。Tapenade自动区分工具:原理、模型和规范。ACM数学软件交易,39(3),2013年。doi:10.1145/2450153.2450158。34 ·兹比尔1295.65026
[93] 罗伯特·赫奇特·尼尔森。反向传播神经网络理论。在国际神经网络联合会议上,IJCNN 1989,第593–605页。IEEE,1989年。
[94] 露丝·L·欣金斯。用于磁场计算的自动微分并行计算。技术报告,加州劳伦斯伯克利实验室,1994年。
[95] 杰弗里·欣顿(Geoffrey E.Hinton)和佐宾·加赫拉马尼(Zoubin Ghahramani)。发现稀疏分布式表示的生成模型。伦敦皇家学会哲学学报B:生物科学,352(1358):1177-11901997。
[96] 马修·霍夫曼和安德鲁·盖尔曼。无转取样器:在哈密顿蒙特卡罗中自适应设置路径长度。机器学习研究杂志,15:1351–13812014·Zbl 1319.60150号
[97] 伯托尔德·K·P·霍恩。了解图像强度。人工智能,8:201–2311977·Zbl 0359.68118号
[98] Jim E.Horwedel、Brian A.Worley、E.M.Oblow和F.G.Pin。GRESS 1.0版用户手册。技术备忘录ORNL/TM 10835,Martin Marietta Energy Systems,Inc.,橡树岭国家实验室,橡树脊,1988年。
[99] 马克斯·杰雷尔。非均衡模型估计的自动微分和区间算法。计算经济学,10(3):295–3161997·Zbl 0892.90042号
[100] 贾阳庆、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe:快速特征嵌入的卷积架构。第22届ACM国际多媒体会议记录,第675-678页。ACM,2014年。
[101] 马修·约翰逊(Matthew Johnson)、大卫·K·杜维诺(David K Duvenaud)、亚历克斯·威尔奇科(Alex Wiltschko)、瑞安·P·亚当斯(Ryan P Adams)和桑迪普·R·达塔(Sandeep R Datta)。用神经网络组成图形模型,用于结构化表示和快速推理。《神经信息处理系统进展》,第2946–2954页,2016年。
[102] Neil D Jones、Carsten K Gomard和Peter Sestoft。部分评估和自动程序生成。彼得·塞斯托夫特(Peter Sestoft),1993年·Zbl 0875.68290号
[103] 西蒙·佩顿·琼斯(Simon L Peyton Jones)和约翰·朗奇伯里(John Launchbury)。非限定功能语言中作为一级公民的无框价值观。在函数编程语言和计算机体系结构会议上,第636–666页。施普林格,1991年。
[104] SL Peyton Jones、Cordy Hall、Kevin Hammond、Will Partain和Philip Wadler。Glasgow Haskell编译器:技术概述。程序中。英国信息技术联合框架(JFIT)技术会议,第93卷,1993b。
[105] 阿尔曼·朱林和托马斯·米科洛夫。使用堆栈增强递归网推断算法模式。《神经信息处理系统进展》,第190-198页,2015年。35
[106] 大卫·尤德斯(David W.Juedes)。自动区分工具的分类。A.Griewank和G.F.Corliss编辑,《算法的自动区分:理论、实现和应用》,第315-29页。工业和应用数学学会,宾夕法尼亚州费城,1991年·Zbl 0782.65029号
[107] D.Kingma和J.Ba.Adam:一种随机优化方法。2015年圣地亚哥国际学习代表大会(ICLR)。
[108] Diederik P.Kingma和Max Welling。自动编码变分贝叶斯。在2014年国际学习代表大会上。
[109] 亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克弗(Ilya Sutskever)和杰弗里·欣顿(Geoffrey E.Hinton)。使用深度卷积神经网络进行ImageNet分类。《神经信息处理系统进展》,第1097-1105页,2012年。
[110] K.Kubo和M.Iri.PADRE2,第1版用户手册。研究备忘录RMI 90-01,东京大学数学工程和信息物理系,东京,1990年。
[111] Alp Kucukelbir、Dustin Tran、Rajesh Ranganath、Andrew Gelman和David M.Blei。自动微分变分推理。机器学习研究杂志,18(14):1–452017·Zbl 1437.62109号
[112] Tejas D.Kulkarni、Pushmet Kohli、Joshua B.Tenenbaum和Vikash Mansinghka。图片:用于场景感知的概率编程语言。2015年6月,IEEE计算机视觉和模式识别会议(CVPR)。
[113] 安基特·库马尔(Ankit Kumar)、奥赞·伊尔索伊(Ozan Irsoy)、彼得·昂德鲁斯卡(Peter Ondruska)、莫希特·伊耶(Mohit Iyyer)、詹姆斯·布拉德伯里(James Bradbury)、伊斯哈安·古拉贾尼(Ishaan Gulrajani)、维克多。问我任何问题:用于自然语言处理的动态记忆网络。Maria Florina Balcan和Kilian Q.Weinberger,编辑,《第33届机器学习国际会议论文集》,《机器学习研究论文集》第48卷,第1378–1387页,美国纽约州纽约市,2016年6月20–22日。PMLR公司。
[114] C.L.劳森。使用W算法和U算法计算导数。内部计算备忘录CM-286,喷气推进实验室,加利福尼亚州帕萨迪纳,1971年。
[115] Tuan Anh Le、At l’m G¨une s Baydin和Frank Wood。推理编译和通用概率编程。《第20届国际人工智能与统计会议论文集》(AISTATS),《机器学习研究论文集》第54卷,第1338-1348页,美国佛罗里达州劳德代尔堡,2017年。PMLR公司。
[116] Yann LeCun、L´eon Bottou、Yoshua Bengio和Patrick Haffner。基于梯度的学习应用于文档识别。IEEE会议记录,86(11):2278–23241998。
[117] Yann LeCun、Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》,521(7553):436–4442015年。
[118] G.W.莱布尼茨。机器算术在qua non-additio tantum et subtractio sed et multiplatio nullo,divisio vero paene nullo animi labour peragantur中的应用。汉诺威,1685年。36
[119] 泽维尔·勒罗伊。基于类型的拆箱的有效性。1997年《TIC:汇编中的研讨会类型》,1997年。
[120] 塞普·林奈马。将算法的累积舍入误差表示为局部舍入误差的泰勒展开。赫尔辛基大学硕士论文,1970年。
[121] 塞普·林奈马。累积舍入误差的泰勒展开。BIT数值数学,16(2):146-1601976·Zbl 0332.65024号
[122] 马修·洛珀(Matthew M.Loper)和迈克尔·布莱克(Michael J.Black)。OpenDR:一种近似的可差分渲染器。在欧洲计算机视觉会议上,第154-169页。斯普林格,2014年。
[123] Dougal Maclaurin。可组合微分程序的建模、推理和优化。哈佛大学工程与应用科学学院博士论文,2016年。
[124] 道格尔·麦克劳林(Dougal Maclaurin)、大卫·杜维诺(David Duvenaud)和瑞安·亚当斯(Ryan Adams)。基于梯度的可逆学习超参数优化。在机器学习国际会议上,第2113-2122页,2015年。
[125] Oleksandr Manzyuk、Barak A.Pearlmutter、Alexey Andreyevich Radul、David R Rush和Jeffrey Mark Siskind。高阶函数前向自动微分中标记扰动的混淆。arXiv预印arXiv:1211.48922012。
[126] 大卫·Q·梅恩和大卫·H·雅各布森。差分动态编程。美国爱思唯尔酒吧。纽约,1970年·Zbl 0223.49022号
[127] 弗拉基米尔·马祖里克(Vladimir Mazourik)。将自动微分集成到PC的数字库中。A.Griewank和G.F.Corliss编辑,《算法的自动区分:理论、实现和应用》,第315-29页。工业和应用数学学会,宾夕法尼亚州费城,1991年·Zbl 0782.65031号
[128] Renate Meyer,David A.Fournier和Andreas Berg。随机波动率:使用自动微分和扩展卡尔曼滤波器的贝叶斯计算。计量经济学期刊,6(2):408-4202003。doi:10.111/1368-423X.t01-1-00116·Zbl 1065.91533号
[129] 米歇洛蒂。MXYZPTLK:微分代数的实用、用户友好的C++实现:用户指南。技术备忘录FN-535,费米国家加速器实验室,伊利诺伊州巴达维亚,1990年。
[130] 汤姆的米科洛夫、马丁·卡拉菲亚特、卢卡的汉堡、扬·塞尔诺基和桑吉夫·库丹普尔。基于递归神经网络的语言模型。2010年国际言语传播协会第十一届年会。
[131] J.D.M¨uller和P.Cusdin。关于使用自动微分的离散伴随CFD代码的性能。国际流体数值方法杂志,47(8-9):939–9452005。ISSN 1097-0363。doi:10.1002/fld.885。37 ·Zbl 1134.76431号
[132] 乌维·诺曼(Uwe Naumann)。对偶计算图上雅可比矩阵的消去法最优累加。数学规划,99(3):399–4212004·Zbl 1084.68144号
[133] 乌乌·诺曼(Uwe Naumann)和简·里埃姆(Jan Riehme)。使用NAGWare Fortran 95编译器计算伴随。H.M.B¨ucker、G.Corliss、P.Hovland、U.Naumann和B.Norris,编辑,《自动区分:应用、理论和实现》,《计算科学与工程讲义》,第159-69页。斯普林格,2005年·Zbl 1270.65090号
[134] 拉德福德·M·尼尔。使用马尔可夫链蒙特卡罗方法进行概率推断。技术报告CRG-TR-93-1,多伦多大学计算机科学系,1993年。
[135] 理查德·内丁格(Richard D.Neidinger)。自动区分和APL。《大学数学杂志》,20(3):238–511989。doi:10.2307/2686776。
[136] 约翰·F·诺兰。数字计算机上的分析微分。硕士论文,麻省理工学院,1953年。
[137] J.F.Ostiguy和L.Michelotti。Mxyzptlk:一个高效的本地C++差异化引擎。粒子加速器会议(PAC 2007),第3489–91页。IEEE,2007年。doi:10。1109/太平洋,2007年7月44日,第468页。
[138] 大卫·B·帕克。学习逻辑:将人脑皮层植入硅中。技术报告TR-47,麻省理工学院经济与管理科学计算研究中心,1985年。
[139] Val´erie Pascual和Laurent Hasco¨et。TAPENADE for C.《自动微分的进展》,计算科学与工程讲义,199-210页。施普林格,2008年。doi:10.1007/978-3-540-68942-318。
[140] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分。2017年12月9日在美国加利福尼亚州长滩举行的NIPS 2017 Autodiff研讨会:基于梯度的机器学习软件和技术的未来。
[141] 巴拉克·A·皮尔默特。黑森快速精确乘法。神经计算,6:147–601994。doi:10.1162/neco.1996.1.147。
[142] 巴拉克·A·皮尔默特和杰弗里·马克·西斯金德。功能框架中的反向模式AD:Lambda是最终的反向传播器。《美国计算机学会编程语言与系统汇刊》(TOPLAS),30(2):1–362008年3月。doi:10.1145/1330017.1330018·Zbl 1175.68104号
[143] 丁玉鹏和唐纳德·罗宾逊。一个新的双常数状态方程。工业和工程化学基础,15(1):59-641976。doi:10.1021/i160057a011。
[144] 约翰·彼得森。标记环境中的未标记数据:在编译时选择最佳表示。《第四届函数式编程语言与计算机体系结构国际会议论文集》,第89-99页。ACM,1989年。38
[145] F.W.Pfeiffer。PROSE中的自动区分。SIGNUM新闻稿,22(1):1987年2月8日。doi:10.1145/24680.24681。
[146] 托马斯·波克、迈克尔·波克和霍斯特·比肖夫。算法微分:应用于计算机视觉中的变分问题。IEEE模式分析和机器智能汇刊,29(7):1180–11932007。doi:10.1109/TPAMI.2007.1044。
[147] William H.Press、Saul A.Teukolsky、William T.Vetterling和Brian P.Flannery。数字食谱:科学计算的艺术。剑桥大学出版社,2007年·兹比尔1132.65001
[148] 路易丝·B·拉尔。关于自动区分的观点:过去、现在和未来?M.B¨ucker、G.Corliss、U.Naumann、P.Hovland和B.Norris,《自动区分:应用、理论和实现》编辑,《计算科学与工程讲义》第50卷,第1-14页。施普林格-柏林-海德堡,2006年。
[149] 卡尔·爱德华·拉斯穆森和克里斯托弗·威廉姆斯。机器学习的高斯过程。麻省理工学院出版社,2006年·兹比尔1177.68165
[150] J.Revels、M.Lubin和T.Papamarkou。Julia中的正向模式自动微分。arXiv:1607.07892[cs.MS],2016年a。统一资源定位地址https://arxiv.org/abs/1607.07892。
[151] Jarrett Revels、Miles Lubin和Theodore Papamarkou。Julia中的正向模式自动微分。arXiv预打印arXiv:1607.078922016b。
[152] 丹尼尔·希梅内斯·雷泽德(Danilo Jimenez Rezende)、夏基尔·穆罕默德(Shakir Mohamed)和达安·维斯特拉(Daan Wierstra)。深度生成模型中的随机反向传播和近似推理。在2014年国际机器学习会议上,第1278–1286页。
[153] 劳伦斯·C·里奇和大卫·R·希尔。MATLAB中的自动微分。应用数值数学,9:33-431992·Zbl 0753.65017号
[154] 丹尼尔·里奇(Daniel Ritchie)、保罗·霍斯福尔(Paul Horsfall)和诺亚·德古德曼(Noah D Goodman)。概率程序的深度摊销推理。arXiv预印arXiv:1610.057352016。
[155] 伊丽莎白·罗林斯。使用自动微分优化神经网络反馈控制系统。麻省理工学院航空航天系硕士论文,2009年。
[156] L.I.Rozonoer。L.S.Pontryagin最优系统理论中的最大值原理——第二部分。自动化。i Telemekh。,20:1441–1458, 1959.
[157] David E.Rumelhart、Geoffrey E.Hinton和Ronald J.Williams。通过反向传播错误学习表示。《自然》,323(6088):5331986年·Zbl 1369.68284号
[158] 齐格弗里德·M·朗普。INTLAB-神经实验室。《可靠计算的发展》,第77-104页。Kluwer学术出版社,多德雷赫特,1999年。doi:10.1007/97894-017-1247-7 7·Zbl 0949.65046号
[159] 蒂姆·萨利曼斯(Tim Salimans)、迪德里克·金马(Diederik Kingma)和马克斯·威林(Max Welling)。马尔可夫链蒙特卡罗和变分推理:弥合差距。第32届国际机器学习会议(ICML-15)论文集,第1218-1226页,2015年。39
[160] 约翰·萨尔瓦蒂尔(John Salvatier)、托马斯·维埃基(Thomas V Wiecki)和克里斯托弗·范内斯贝克(Christopher Fonnesbeck)。使用PyMC3在Python中进行概率编程。PeerJ计算机科学,2:e552016年。
[161] Tom Schaul、Sixin Zhang和Yann LeCun。不再有令人讨厌的学习率。在2013年国际机器学习会议上,第343–351页。
[162] J¨urgen Schmidhuber。神经网络中的深度学习:概述。神经网络,61:85–117,2015年。
[163] 尼科尔·施劳多夫(Nicol N.Schraudolph)。随机梯度下降中的局部增益自适应。《人工神经网络国际会议论文集》,第569-74页,苏格兰爱丁堡,1999年。IEE伦敦。doi:10.1049/cp:19991170。
[164] Nicol N.Schraudolph和Thore Graepel。结合共轭方向法和梯度的随机逼近。第九届国际人工智能与统计研讨会论文集,2003年·Zbl 1013.68699号
[165] 弗兰克·塞德和阿米特·阿加瓦尔。CNTK:微软的开源深度学习工具包。《第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,KDD’16,第2135–2135页,美国纽约州纽约市,2016年。ACM。国际标准图书编号978-1-4503-4232-2。doi:10.1145/2939672.2945397。
[166] 诺姆·沙泽尔(Noam Shazeer)、阿扎利亚·米罗塞尼(Azalia Mirhoseini)、科兹托夫·马齐亚茨(Krzysztof Maziarz)、安迪·戴维斯(Andy Davis)、奎克·勒(Quoc Le)、杰弗里·欣顿(Geoffrey。超大神经网络:稀疏选通的专家混合层。2017年和2017年国际学习代表大会。
[167] 奥林·西弗斯(Olin Shivers)。高阶语言的控制流分析。卡内基·梅隆大学博士论文,1991年·Zbl 1302.68072号
[168] Alex Shtof、Alexander Agathos、Yotam Gingold、Ariel Shamir和Daniel Cohen-Or。用于基于草图建模的地理语义捕捉。计算机图形论坛,32(2):245–532013。doi:10.1111/cfg.12044。
[169] N.Siddharth、Brooks Paige、Jan Willem van de Meent、Alban Desmaison、Noah D.Goodman、Pushmet Kohli、Frank Wood和Philip Torr。使用半监督深度生成模型学习解纠缠表示。在I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑的《神经信息处理系统进展》30,第5927-5937页。Curran Associates,Inc.,2017年。
[170] Patrice Simard、Yann LeCun、John Denker和Bernard Victori。模式识别中的变换不变性、切线距离和切线传播。在G·奥尔(G.Orr)和K·穆勒(K.Muller)主编的《神经网络:贸易的诡计》(Neural Networks:Tricks of the Trade)中。斯普林格,1998年。
[171] Z.Sirkes和E.Tziperman。伴随的有限差还是有限差的伴随?《月度天气评论》,125(12):3373–81997。doi:10.1175/1520-0493(1997)125h3373:FDOAi2.0.CO;二点四零
[172] 杰弗里·马克·西斯金德(Jeffrey Mark Siskind)和巴拉克·A·皮尔默特(Barak A.Pearlmutter)。扰动混淆和参照透明度:转发模式AD的正确功能实现。摘自Andrew Butterfield,编辑,《函数语言的实现和应用——第17届国际研讨会》,IFL’05,第1-9页,爱尔兰都柏林,2005年。都柏林三一学院计算机科学系技术报告TCD-CS-2005-60。
[173] 杰弗里·马克·西斯金德(Jeffrey Mark Siskind)和巴拉克·A·皮尔默特(Barak A.Pearlmutter)。使用多变量单自由流分析,用一级导数算子编译一种高阶函数编程语言,实现高效的Fortran-like代码。技术报告TR-ECE-08-01,普渡大学电气与计算机工程学院,2008a·Zbl 1156.68335号
[174] 杰弗里·马克·西斯金德(Jeffrey Mark Siskind)和巴拉克·A·皮尔默特(Barak A.Pearlmutter)。在功能框架中嵌套前向模式AD。高阶和符号计算,21(4):361–3762008b·Zbl 1175.68104号
[175] 杰弗里·马克·西斯金德(Jeffrey Mark Siskind)和巴拉克·A·皮尔默特(Barak A.Pearlmutter)。使用内置AD高效实现高阶语言。2016年9月12日至15日,英国牛津基督教堂举行的第七届算法区分国际会议。另请参见arXiv:1611.03416·Zbl 1295.65028号
[176] 杰弗里·马克·西斯金德(Jeffrey Mark Siskind)和巴拉克·A·皮尔默特(Barak A.Pearlmutter)。没有用户注释的任意程序的分治检查点。2017年12月9日在美国加利福尼亚州长滩举行的NIPS 2017 Autodiff研讨会:基于梯度的机器学习软件和技术的未来。另请参见arXiv:1708.06799·Zbl 1455.65037号
[177] 埃米尔·斯拉桑斯基和弗拉德·杜米特雷尔。ADiJaC-Java类文件的自动区分。ACM数学软件交易,43(2):2016年9月9:1–9:33。ISSN 00983500。doi:10.1145/2904901·Zbl 1391.65045号
[178] 伯特·斯佩尔彭宁。编译算法给出的函数的快速偏导数。伊利诺伊大学厄巴纳香槟分校计算机科学系博士论文,1980年。
[179] Suvrit Sra、Sebastian Nowozin和Stephen J.Wright。机器学习优化。麻省理工学院出版社,2011年。
[180] 菲利普·斯拉杰(Filip Srajer)、祖扎娜·库科洛娃(Zuzana Kukelova)和安德鲁·菲茨吉本(Andrew Fitzgibbon)。机器学习和计算机视觉中一些问题的选定算法微分工具的基准。AD2016:第七届算法区分国际会议,2016年9月12日星期一至15日星期四,英国牛津基督教堂:计划和摘要,第181-184页。工业和应用数学学会(SIAM),2016年·Zbl 1453.65050号
[181] Akshay Srinivasan和Emanuel Todorov。图形牛顿。技术报告arXiv:1508.00952,arXiv预印本,2015年。
[182] Andreas Stuhlm¨uller、Jacob Taylor和Noah Goodman。学习随机倒数。《神经信息处理系统进展》,第3048–3056页,2013年。
[183] Felipe Petroski Soke、Vashish Madhavan、Edoardo Conti、Joel Lehman、Kenneth O.Stanley和Jeff Clune。深层神经进化:遗传算法是训练深层神经网络进行强化学习的一种竞争性替代方法。arXiv预印arXiv:1712.065672017。41
[184] Sainbayar Sukhbaatar、Jason Weston、Rob Fergus等。端到端内存网络。《神经信息处理系统进展》,第2440–2448页,2015年。
[185] 杰拉尔德·苏斯曼(Gerald J.Sussman)和杰克·智慧(Jack Wisdom)。经典力学的结构与解释。麻省理工学院出版社,2001年。doi:10.1063/1.1457268·Zbl 0983.70001号
[186] 乔纳森·泰勒(Jonathan Taylor)、理查德·斯特宾(Richard Stebbing)、瓦伦·拉马克里希纳(Varun Ramakrishna)、杰米·凯斯金(Cem Keskin)、杰米·肖顿(Jamie Shotton)、沙赫拉姆·伊扎迪(Shahram Izadi)、亚。基于单目深度序列的用户特定手部建模。《IEEE计算机视觉和模式识别会议记录》,第644-651页,2014年。
[187] 杰弗里·托马斯(Jeffrey P.Thomas)、厄尔·道尔(Earl H.Dowell)和肯尼斯·霍尔(Kenneth C.Hall)。使用自动微分创建计算流体动力学求解器的非线性降阶模型。AIAA论文,7115:20062006。
[188] T.Tieleman和G.Hinton。第6.5讲-RMSProp:将梯度除以最近量级的运行平均值。课程:机器学习的神经网络,4(2),2012年。
[189] Seiya Tokui、Kenta Oono、Shohei Hido和Justin Clayton。Chainer:用于深度学习的下一代开源框架。2015年第二十届神经信息处理系统年会机器学习系统(LearningSys)研讨会论文集。
[190] Dustin Tran、Alp Kucukelbir、Adji B.Dieng、Maja Rudolph、Dawen Liang和David M.Blei。Edward:概率建模、推理和批评库。arXiv预印本arXiv:11610.097872016。
[191] Dustin Tran、Matthew D.Hoffman、Rif A.Saurous、Eugene Brevdo、Kevin Murphy和David M.Blei。深度概率编程。在2017年国际学习代表大会上。
[192] Bill Triggs、Philip F.McLauchlan、Richard I.Hartley和Andrew W.Fitzgibbon。束调整——现代综合。在视觉算法国际研讨会上,第298-372页。斯普林格,1999年。
[193] 乔治·塔克(George Tucker)、安德烈·姆尼赫(Andriy Mnih)、克里斯·麦迪森(Chris J.Maddison)、约翰·劳森(John Lawson)和贾沙·索尔·迪克斯坦(Jascha Sohl-Dickstein)。REBAR:离散潜在变量模型的低方差、无偏梯度估计。《神经信息处理系统进展》,第2624-2633页,2017年。
[194] Bart van Merri¨enboer、Alexander B.Wiltschko和Dan Moldovan。Tangent:使用Python.arXiv预打印arXiv:1711.027122017中的源代码转换进行自动区分。
[195] 阿伦·维尔马。介绍自动微分。《当代科学》,78(7):804–72000。
[196] S.V.N.Vishwanathan、Nicol N.Schraudolph、Mark W.Schmidt和Kevin P.Murphy。用随机梯度方法加速条件随机场的训练。第23届国际机器学习会议(ICML'06)42期会议记录,第969-76页,2006年。doi:10.1145/1143844.1143966。
[197] 安德烈亚·沃尔特(Andrea Walther)。最优控制显式Runge-Kutta方法的自动微分。计算优化与应用,36(1):83–1082007。doi:10.1007/s10589-006-0397-3·Zbl 1278.49037号
[198] 安德烈亚·沃尔特(Andrea Walther)和安德烈亚斯·格雷万克(Andreas Griewank)。ADOL-C入门。U.Naumann和O.Schenk,《组合科学计算》编辑,第7章,第181-202页。查普曼-霍尔CRC计算科学,2012年。doi:10.1201/b11644-8。
[199] 罗伯特·温格特(Robert E.Wengert)。一个简单的自动导数评估程序。ACM通讯,7:463–41964·Zbl 0131.34602号
[200] 保罗·威尔博斯(Paul J.Werbos)。超越回归:行为科学中预测和分析的新工具。哈佛大学博士论文,1974年。
[201] 罗纳德·威廉姆斯。用于连接强化学习的简单统计梯度允许算法。机器学习,8(3-4):229-2561992·兹比尔0772.68076
[202] J.Willkomm和A.Vehreschild。ADiMat手册,2013年。统一资源定位地址http://adimat.sc。informatik.tu-darmstadt.de/doc/。
[203] 大卫·温盖特(David Wingate)、诺亚·古德曼(Noah Goodman)、安德烈亚斯·斯图尔姆(Andreas Stuhlm¨uller)和杰弗里·马克·西斯金德(Jeffrey Mark Siskind)。概率程序的非标准解释以实现有效推理。神经信息处理系统进展,2011年23月。
[204] 杨伟伟、赵勇、李燕和陈晓倩。基于自动微分法的BP神经网络PID控制器的应用。F.Sun、J.Zhang、Y.Tan、J.Cao和W.Yu主编,《神经网络进展-ISNN 2008》,计算机科学讲义第5264卷,第702-711页。施普林格-柏林-海德堡,2008年。doi:10.1007/978-3-540-87734-980。
[205] Ilker Yildirim、Tejas D.Kulkarni、Winrich A.Freiwald和Joshua B.Tenenbaum。有效且稳健的视觉分析-合成:计算框架、行为测试和建模神经元表征。2015年认知科学学会年会。
[206] 余浩南(Haonan Yu)和杰弗里·马克·西斯金德(Jeffrey Mark Siskind)。从用句子描述的视频中学习扎根的语言。计算语言学协会第51届年会会议记录,第53-63页,保加利亚索非亚,2013年。计算语言学协会。
[207] 沃伊西奇·扎伦巴(Wojciech Zaremba)、托马斯·米科洛夫(Tomas Mikolov)、阿尔曼德·朱林(Armand Joulin)和罗伯·弗格斯(Rob Fergus)。从例子中学习简单的算法。在2016年国际机器学习会议上,第421-429页。
[208] 朱慈友、理查德·伯德、吕培煌和豪尔赫·诺塞达尔。算法778:L-BFGS-B:Fortran子例程用于大规模有界约束优化。ACM数学软件汇刊(TOMS),23(4):550–601997·Zbl 0912.65057号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。