×

兹马思-数学第一资源

机器学习中的自动微分:综述。(英语) Zbl 06982909
摘要:导数,主要以梯度和黑森函数的形式存在于机器学习中。自动微分(Automatic differentication,AD)也称为算法微分或简称为“autodiff”,是一系列与反向传播类似但比反向传播更为通用的技术,用于高效、准确地计算以计算机程序表示的数值函数的导数。AD是一个小而成熟的领域,应用领域包括计算流体力学、大气科学和工程设计优化。直到最近,机器学习和广告领域基本上还没有相互了解,而且在某些情况下,已经独立地发现了彼此的结果。尽管通用AD具有相关性,但它在机器学习工具箱中一直缺失,这种情况随着其以“动态计算图”和“可微程序设计”的不断采用而慢慢改变。我们调查了广告和机器学习的交叉点应用程序广告具有直接的相关性,并解决了主要的实现技术。通过精确定义主要的微分技术及其相互关系,我们的目的是使术语“autodiff”、“auto differentication”和“symbol differentication”的用法变得清晰,因为这些术语在机器学习环境中越来越多地遇到。

理学硕士:
65度25 数值微分
PDF格式 BibTeX公司 XML 引用
全文: 链接
参考文献:
[1] Mart´n Abadi,Ashish Agarwal,Paul Barham,Eugene Brevdo,Zhifeng Chen,Craig Citro,Greg S Corrado,Andy Davis,Jeffrey Dean,Matthieu Devin等.TensorFlow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467,2016年。
[2] D、 S.亚当森和C.W.温南特。对无限区域变化下游初始强冲击波的俚语模拟。连续系统模拟语言应用会议记录,第231-401969页。27
[3] 纳曼·阿加瓦尔、布莱恩·布林斯和埃拉德·哈桑。线性时间的二阶随机优化。技术报告arXiv:1602.03943,arXiv预印本,2016年·Zbl 1441.90115
[4] R、 K.Al-Seyab和Y.Cao。基于连续时间递归神经网络和自动微分的预测控制非线性系统辨识。过程控制杂志,18(6):568–5812008年。doi:10.1016/j.jprocont。2007年10月12日。
[5] 布兰登·阿莫斯和J·齐科·科尔特。OptNet:神经网络中可微优化的一个层次。arXiv预印本arXiv:1703.004432017年。
[6] Marianna S.Apostolopoulou、Dimitris G.Sotiropoulos、Ioannis E.Livieris和Panagiotis Pintelas。一种无记忆BFGS神经网络训练算法。在2009年第7届IEEE国际工业信息学会议上,第216-221页,2009年6月。doi:10.1109/INDIN。2009.5195806。
[7] 安德鲁W阿佩尔。不需要运行时标记。Lisp和符号计算,2(2):153–1621989。
[8] Dzmitry Bahdanau、Kyunghyun Cho和Yoshua Bengio。神经机器翻译联合学习对齐和翻译。arXiv预印本arXiv:1409.04732014年。
[9] 丹尼尔·保罗·巴雷特和杰弗里·马克·西斯金。Felzenszwalb-Baum-Welch:通过改变外观进行事件检测。arXiv预印本arXiv:1306.47462013年。
[10] 弗雷德·巴斯蒂安、帕斯卡·兰布林、拉兹万·帕斯卡努、詹姆斯·伯格斯特拉、伊恩·古德费罗、阿诺·伯格伦、尼古拉斯·布查德、大卫·沃德·法利和约斯华·本吉奥。新功能和速度改进。深度学习和无监督特征学习NIPS 2012研讨会,2012年。
[11] 弗里德里希·L·鲍尔。计算图与舍入误差。《数值分析杂志》,1974年第11期,第96期·Zbl 0337.65028
[12] 在ılım gune¸s Baydin,Barak A.Pearlmutter和Jeffrey Mark Siskind。Diffsharp:一个广告库。网络语言。第七届算法微分国际会议,英国牛津基督教堂,2016年9月12-15日,2016a。另见arXiv:1611.03423。
[13] 在ılım gune¸s Baydin,Barak A.Pearlmutter和Jeffrey Mark Siskind。深入学习的技巧。第七届算法微分国际会议,英国牛津基督教堂,2016年9月12-15日,2016b。另见arXiv:1611.03777。
[14] 在贝丁,罗伯特·科尼什,大卫·马特·内兹·鲁比奥,马克·施密特和弗兰克·伍德。具有超梯度下降的在线学习速率适应。2018年4月30日至5月3日在加拿大温哥华举行的第六届学习表征国际会议(ICLR)。
[15] 五十、 贝达,科罗列夫,苏基赫和弗罗洛娃。机器自动微分程序BESM(俄语)。技术报告,科学院精密力学和计算技术研究所,莫斯科,苏联,1959年。28
[16] 布拉德利·M·贝尔和詹姆斯·V·伯克。隐函数与最优值的算法微分。在C.H.Bischoff,H.M.Bucker,P.Hovland,U.Naumann和J.Utke编者,自动微分的进展,计算科学与工程课堂讲稿第64卷,第67-77页。斯普林格柏林海德堡,2008年。doi:10.1007/978-3-540-68942-3 7·Zbl 1152.65434
[17] 克劳斯·本特森和奥勒·斯塔宁。对于灵活的C++软件包来说,这是一个糟糕的软件包。技术报告IMM-REP-1996-17,丹麦林格比技术大学数学建模系,1996年。
[18] Yoshua Bengio,Aaron Courville和Pascal Vincent。表征学习:回顾与新视角。IEEE模式分析与机器智能汇刊,35(8):1798–18282013。
[19] 查尔斯·W·伯特和莫努丁·马利克。计算力学中的微分求积法:综述。应用力学评论,491996。doi:10.1115/1.3101882·邮政编码:0857.73077
[20] Martin Berz,Kyoko Makino,Khodr Shamseddine,Georg H.Hoffst–atter和Weishi Wan。COSY无穷大及其在非线性动力学中的应用。M.Berz,C.Bischoff,G.Corliss,和A.Griewank,编辑,《计算微分:技术、应用和工具》,第363-5页。工业和应用数学学会,费城,宾夕法尼亚州,1996年。
[21] 克里斯蒂安·比肖夫、艾伦·卡尔、乔治·科利斯、安德烈亚斯·格里旺克和保罗·霍夫兰。adifor2.0:fortran77程序的自动微分。计算科学工程,IEEE,3(3):18-321996。doi:10.1109/99.537089。
[22] 克里斯蒂安·比肖夫、卢卡斯·卢克和安德鲁·摩尔·奥茨。ADIC:ANSI-C的可扩展自动微分工具。软件实践与经验,27(12):1427-561997。
[23] Christian H.Bischof,H.Martin B–ucker,和Bruno Lang.计算金融的自动微分。在E.J.Kontoghiorges,B.Rustem和S.Siokos,《决策、经济和金融中的计算方法》,应用优化第74卷,第297-310页。美国施普林格出版社,2002年。内政部:10.1007/978-1-4757-3613-7 15·Zbl 1045.65020
[24] Christian H.Bischoff,H.Martin B–ucker,Arno Rasch,Emil Slusanschi,和Bruno Lang.通用计算流体力学软件包FLUENT的自动微分。流体工程杂志,129(5):652-82006。doi:10.1115/1.2720475。
[25] 克里斯蒂安·H·比肖夫、保罗·D·霍夫兰和博雅娜·诺里斯。关于自动微分工具的实现。高阶与符号计算,21(3):311–312008。doi:10.1007/s10990-008-9034-4·Zbl 1168.65324号
[26] 五、 博尔提扬斯基,R.V.Gamkrelidze和L.S.Pontryagin。最优过程理论Ⅰ:最大值原理。伊兹维斯特。阿卡德。Nauk S.S.R.服务。材料。,24:3–42,1960年。
[27] L'eon Bottou酒店。随机梯度下降的大规模机器学习。2010年《COMPSTAT会刊》,第177-186页。斯普林格,2010年。29
[28] L'eon Bottou和Yann LeCun。SN:连接主义模型的模拟器。《神经元学报88》,第371-382页,尼姆,法国,1988年。网址http://leon.bottou.org/papers/bottou-lecun-88。
[29] L'eon Bottou和Yann LeCun。2002年Lush参考手册。网址http://lush。sourceforge。净/文件。html。
[30] L'eon Bottou,Frank E.Curtis和Jorge Nocedal。大规模机器学习的优化方法。arXiv预印本arXiv:1606.048382016年·Zbl 1397.65085
[31] L'eon Bottou酒店。在线学习和随机逼近。神经网络在线学习,17:9,1998。
[32] 克劳德·布雷津斯基和雷迪沃·扎格利亚。外推法:理论与实践。北荷兰,1991年·Zbl 0744.65004
[33] A、 E.Bryson和W.F.Denham。求解最优规划问题的最速上升法。应用力学杂志,29(2):2472062。doi:10.1115/1.3640537·Zbl 0112.20003
[34] 亚瑟·E·布莱森和余志浩。应用最优控制:优化,估计和控制。布拉斯德尔,沃瑟姆,马萨诸塞州,1969年。
[35] 里查德和道格拉斯·费尔哈德。数值分析。布鲁克斯/科尔,2001年。
[36] 卢卡·卡普里奥蒂。快速希腊通过算法微分。计算金融杂志,14(3):3,2011·Zbl 1395.91491
[37] 格雷戈里·R·卡迈克尔和阿德里安·桑杜。大气化学模式的自动微分灵敏度分析。大气环境,31(3):475–891997。
[38] 鲍勃卡彭特,马修D霍夫曼,马库斯布鲁贝克,丹尼尔李,彼得李,和迈克尔贝当古。Stan数学库:C++中的反向模式自动微分。arXiv预印本arXiv:1509.071642015年。
[39] 鲍勃·卡彭特、安德鲁·盖尔曼、马特·霍夫曼、丹尼尔·李、本·古德里奇、迈克尔·贝当古、迈克尔·布鲁贝克、郭继强、李彼得和艾伦·里德尔。斯坦:一种概率编程语言。《统计软件杂志》,20:1–37,2016年。
[40] 丹尼尔卡萨诺娃,罗宾S。夏普,马克决赛,布鲁斯克里斯蒂安森,帕特西蒙兹。自动微分在赛车性能优化中的应用。在George Corliss,Christ'ele Faure,Andreas Griewank,Lauren Hasco¨et和Uwe Naumann,编辑,自动微分算法,117-124页。Springer Verlag New York,Inc.,美国纽约州纽约市,2002年。国际标准书号0-387-95305-1。
[41] 伊莎贝尔·夏彭蒂埃和穆罕默德·盖米尔斯。有效伴随导数:在中NH气象模式中的应用。优化方法和软件,13(1):35–632000·Zbl 0983.76067
[42] 陈丹琪和克里斯托弗·曼宁。一种基于神经网络的快速准确的依赖关系分析器。《2014年自然语言处理经验方法大会论文集》,第740-750页,2014年。30
[43] 沙兰·切特鲁尔、克里夫·伍利、菲利普·范德默施、乔纳森·科恩、约翰·特兰、布赖恩·卡坦扎罗和埃文·谢尔哈默。cuDNN:深度学习的有效原语。arXiv预印本arXiv:1410.0759,2014年。
[44] 悉达多·奇布和爱德华·格林伯格。了解大都会黑斯廷斯算法。美国统计学家,49(4):327-3351995。doi:10.1080/00031305.1995。10476177
[45] 布鲁斯·克里斯蒂安森。反向积累和吸引不动点。优化方法和软件,3(4):311–3261994。
[46] 布鲁斯·克里斯蒂安森。自动微分的莱布尼茨符号。在Shaun Forth,Paul Hovland,Eric Phipps,Jean Utke和Andrea Walther,编辑,算法微分的最新进展,计算科学与工程课堂讲稿第87卷,第1-9页。斯普林格,柏林,2012年。ISBN 978-3-540-68935-5。doi:10.1007/978-3-642-30023-3 1·Zbl 1251.65024
[47] 威廉·K·克利福德。双四元数的初步草图。伦敦数学学会会刊,4:381-951873。
[48] 马克和杰罗恩。基于cuda的快速双精度cfd程序。并行计算流体力学:最新进展和未来方向,第414-4292009页。
[49] Ronan Collobert、Koray Kavukcuoglu和Cl’ement Farabet。Torch7:一个类似Matlab的机器学习环境。在BigLearn,NIPS研讨会,编号:EPFL-CONF1923762011。
[50] 乔治·F·科利斯。微分算法的应用,《计算机透视》第19卷,127-48页。学术出版社,波士顿,1988年·Zbl 0659.65016
[51] 马修·库布里奥、约舒亚·本吉奥和让·皮埃尔·大卫。二进制连接:在传播过程中用二进制权重训练深层神经网络。神经信息处理系统的进展,第3123-3131页,2015年。
[52] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度直方图。2005年IEEE计算机学会计算机视觉与模式识别会议论文集(CVPR'05),886-93页,华盛顿特区,美国,2005年。IEEE计算机协会。doi:10.1109/CVPR。2005.177。
[53] Benjamin Dauvergne和Laurent Hasco–et.逆向自动微分中检查点的数据流方程。在V.N.Alexandrov,G.D.van Albada,P.M.A.Sloot和J.Dongarra,《计算科学-ICCS 2006》,第3994卷,计算机科学课堂讲稿,566-73页,Dauvergne,2006。斯普林格柏林·Zbl 1157.65334
[54] 丹尼斯·施纳贝尔和丹尼斯·施纳贝尔。无约束优化和非线性方程组的数值方法。应用数学经典。工业和应用数学学会,费城,1996年。31个·Zbl 0847.65038
[55] 五十、 狄克逊。利用自动微分法计算Hessians和Newton步长。编辑A.Griewank和G.F.Corliss,《算法的自动微分:理论、实现和应用》,第114-125页。暹罗,费城,宾夕法尼亚州,1991年·Zbl 0782.65021
[56] 西蒙·杜安、安东尼·D·肯尼迪、布莱恩·J·彭德尔顿和邓肯·罗威。混合蒙特卡罗。物理快报B,195(2):216–2221987年。
[57] 约翰·杜奇、埃拉德·哈桑和约兰·辛格。在线学习和随机优化的自适应次梯度方法。机器学习研究杂志,12(7月):2121-21592011·Zbl 1280.68164
[58] Ulf Ekstr–om,Lucas Visscher,Radovan Bast,Andreas J.Thorvaldsen和Kenneth Ruud。自微分的任意阶密度泛函响应理论。化学理论与计算杂志,6:1971-802010。doi:10.1021/ct100117s。
[59] 杰里·埃里克森、阿滕·古利克森先生、佩尔·林德斯特罗姆先生和佩尔·阿克·韦丁。使用自动微分法训练大型前向神经网络的正则化工具。优化方法和软件,10(1):49–691998。doi:10.1080/1055678980805701·Zbl 0913.68177
[60] S、 M.Ali Eslami,Nicolas Heess,Theophane Weber,Yuval Tassa,David Szepesvari,Koray Kavukcuoglu和Geoffrey E.Hinton。参与、推断、重复:使用生成模型快速理解场景。D.D.Lee,M.Sugiyama,U.V.Luxburg,I.Guyon和R.Garnett,编者,神经信息处理系统进展29,3225-3233页。Curran Associates,Inc.,2016年。
[61] 詹妮·罗丝·芬克尔、亚历克斯·克莱曼和克里斯托弗·D·曼宁。高效、基于特征的条件随机域解析。计算语言学协会第46届年会论文集(ACL 2008),第959-672008页。
[62] 本特·福恩伯格。解析函数的数值微分。《数学软件ACM汇刊》,7(4):512–261981年。内政部:10.1145/355972.355979·Zbl 0465.65012
[63] 肖恩A.福斯。一种在MATLAB中实现前向模自动微分的高效重载实现。ACM数学软件交易,32(2):195–2222006·Zbl 1365.65053
[64] 肖恩·A·福斯和特雷弗·P·埃文斯。通过多网格单元顶点欧拉流动求解器的AD优化机翼。在George Corliss,Christ'ele Faure,Andreas Griewank,Laurent Hasco–et和Uwe Naumann编者,自动区分算法:从模拟到优化,第153-160页。斯普林格纽约,纽约,纽约,纽约,2002年。ISBN 978-1-4613-0075-5。doi:10.1007/978-1-4613-0075-5 17。
〔65〕 布莱恩·科恩和大卫·科恩。AMPL:一种用于数学规划的建模语言。杜克斯伯里出版社,2002年·Zbl 0701.90062
[66] 大卫·M·盖伊。非线性规划问题中部分可分结构的自动发现与开发。技术报告,贝尔实验室,莫里希尔,新泽西州,1996年。32
[67] 阿塞福·H·盖布雷梅丁、阿里吉特·塔拉夫达、亚历克斯·波坦和安德烈·沃尔特。利用着色和自动微分的稀疏hessian的高效计算。通知计算杂志,21(2):209-232009。doi:10.1287/ijoc。1080.0286·Zbl 1243.65071
[68] Assefaw H Gebremedhin,Nguyen,医学博士Mostofa Ali Patwary和Alex Pothen。ColPack:科学计算中图形着色和相关问题的软件。ACM数学软件交易(TOMS),40(1):12013年·Zbl 1295.65144
〔69〕 塞缪尔·格什曼和诺亚·古德曼。概率推理中的摊余推理。《认知科学学会年会论文集》,第36期,2014年。
[70] 拉尔夫·吉林和托马斯·卡明斯基。伴随码构造的方法。ACM数学软件交易,24:437–741998。3695美元/3695美元·Zbl 0934.65027
[71] 凯文·吉佩尔、迪潘詹·达斯和诺亚·A·史密斯。面向自然语言处理的分布式异步在线学习。第十四届计算性自然语言学习会议论文集,第10届,第213-222页,美国宾夕法尼亚州斯特劳德斯堡,2010年。计算语言学协会。
[72] 马克·吉罗拉米和卡尔德赫德。黎曼流形朗之万和哈密顿蒙特卡罗方法。英国皇家统计学会杂志:B辑(统计方法),73(2):123-2142011。
[73] 约夫·戈德伯格。自然语言处理的神经网络模型入门。人工智能研究杂志,57:345–4202016·Zbl 1401.68264
[74] 伊恩·古德费罗、尤斯华·本吉奥和亚伦·库尔维尔。深度学习。麻省理工学院出版社,2016年。http://www.deeplearningbook.org。 ·Zbl 1373.68009
[75] 安德鲁·D·戈登、托马斯·A·亨辛格、阿迪蒂亚·V·诺里和斯里兰·K·拉贾马尼。概率规划。《软件工程的未来》论文集,167-181页。ACM,2014年。
[76] 约翰内斯·格拉梅耶和埃里希·卡尔托芬。计算机代数手册:基础,应用,系统。斯普林格,2003年·Zbl 1017.68162
[77] Markus Grabbner、Thomas Pock、Tobias Gross和Bernhard Kainz。GPU加速2D/3D配准的自动微分。在C.H.Bischoff,H.M.Bucker,P.Hovland,U.Naumann和J.Utke编者,自动微分的进展,计算科学与工程课堂讲稿第64卷,第259-269页。斯普林格柏林海德堡,2008年。doi:10.1007/978-3-540-68942-3 23·Zbl 1147.92310
[78] 威尔·格拉斯沃尔、崔大美、吴玉怀、杰夫·罗德和大卫·杜文诺。穿过空洞的反向传播:用于黑箱梯度估计的优化控制变量。arXiv预印本arXiv:1711.00123,2017年。
[79] 亚历克斯·格雷夫斯、格雷格·韦恩和伊沃·丹尼尔卡。神经图灵机器。arXiv预印本arXiv:1410.54012014年。33
[80] Alex Graves,Greg Wayne,Malcolm Reynolds,Tim Harley,Ivo Danielka,Agnieska Grabska Barwi´nska,Sergio G´omez Colmenarejo,Edward Grefenstette,Tiago Ramalho,John Agapiou等。使用具有动态外部记忆的神经网络的混合计算。《自然》,538(7626):471–4762016年。
[81] 爱德华·格雷芬斯泰特、卡尔·莫里茨·赫尔曼、穆斯塔法·苏莱曼和菲尔·布伦索姆。学习用无限的记忆转换。神经信息处理系统的进展,第1828-18362015页。
[82] 安德烈亚斯·格里万克。关于自动微分。M.Iri和K.Tanabe,编辑,《数学规划:近期发展和应用》,第83-108页。Kluwer学术出版社,1989年·Zbl 0696.65015
[83] 安德烈亚斯·格里万克。自动微分的数学观点。《数值学报》,12:321–982003年。doi:10.1017/s0962492000132·Zbl 1047.65012号
[84] 安德烈亚斯·格里万克。谁发明了逆向分化模式?Mathematica文献集,ISMP:389–4002012年增刊·Zbl 1293.65035
[85] 安德烈亚斯·格里万克和安德烈·沃尔特。求导:算法微分的原理和技术。工业与应用数学学会,费城,2008年。doi:10.1137/1.9780898717761·Zbl 1159.65026
[86] 安德烈亚斯·格里万克、克希蒂吉·库尔什什塔和安德烈·沃尔特。关于算法微分的数值稳定性。计算,94(2-4):125-1492012·Zbl 1238.65013
[87] Audrunas Gruslys、R'emi Munos、Ivo Danielka、Marc Lanctot和Alex Graves。记忆效率随时间的反向传播。神经信息处理系统进展,4125-4133页,2016年。
[88] Suyog Gupta、Ankur Agrawal、Kailash Gopalakrishnan和Pritish Narayanan。有限数值精度的深度学习。第32届国际机器学习大会论文集(ICML-15),第1737-1746页,2015年。
[89] 沃尔夫·哈尔瓦德和杜鲁尔。使用AD优化工业结构力学问题的尺寸。自动微分算法,181-188页。斯普林格,2002年。
[90] Stefan Hadjis,Firas Abuzaid,Ce Zhang,和Christopher’e.Caffe con-troll:用浅显的想法来加速深度学习。第四届云端数据分析研讨会论文集,第2页。ACM,2015年。
[91] 威廉·罗恩·汉密尔顿。共轭函数或代数偶理论;一篇关于代数作为纯时间科学的初级论文。《爱尔兰皇家学院学报》,17:293–422,1837。
[92] 劳伦特·哈斯科和瓦利·帕斯卡。Tapenade自动微分工具:原理、模型和规范。ACM数学软件交易,39(3),2013年。doi:10.1145/2450153.2450158。34个·Zbl 1295.65026
[93] 罗伯特·赫特·尼尔森。反向传播神经网络理论。国际神经网络联席会议,IJCNN1989,593-605页。IEEE,1989年。
[94] 露丝·L·辛金斯。应用于磁场计算的自动微分并行计算。技术报告,劳伦斯伯克利实验室,加利福尼亚州,1994年。
[95] Geoffrey E.Hinton和Zoubin Ghahramani。用于发现稀疏分布表示的生成模型。伦敦皇家学会哲学汇刊B:生物科学,352(1358):1177-11901997。
[96] 马修·霍夫曼和安德鲁·盖尔曼。不掉头取样器:哈密顿蒙特卡罗自适应设置路径长度。机器学习研究杂志,15:1351–13812014·Zbl 1319.60150
[97] 伯托尔德·K·P·霍恩。了解图像强度。人工智能,8:201–2311977·Zbl 0359.68118
[98] 吉姆霍维德尔,布莱恩A沃利,E.M.Oblow和F.G.Pin。GRESS 1.0版用户手册。技术备忘录ORNL/TM 10835,Martin Marietta Energy Systems,Inc.,橡树岭国家实验室,橡树岭,1988年。
[99] 马克斯·E·杰雷尔。非平衡模型估计的自动微分和区间算法。计算经济学,10(3):295-3161997·邮政编码:0892.90042
[100] 贾阳青、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉尔希克、塞尔吉奥·瓜达拉玛和特雷弗·达雷尔。Caffe:快速特征嵌入的卷积体系结构。第22届ACM国际多媒体会议论文集,第675-678页。ACM,2014年。
[101] 马修·约翰逊,大卫·K·杜文诺,亚历克斯·威尔特施科,瑞安·P·亚当斯和桑德普·R·达塔。用神经网络构造图形模型进行结构化表示和快速推理。神经信息处理系统的进展,第2946-29542016页。
[102] 尼尔·琼斯、卡斯滕·K·戈麦德和彼得·塞斯托夫。自动生成部分评估程序。彼得·塞斯托夫,1993年a·Zbl 0875.68290
[103] 西蒙·佩顿·琼斯和约翰·劳恩布里。非严格函数语言中的一等公民的无价值。在函数式编程语言和计算机体系结构会议上,第636-666页。斯普林格,1991年。
[104] 斯佩顿·琼斯、科迪·霍尔、凯文·哈蒙德、威尔·帕坦和菲利普·瓦德勒。格拉斯哥-哈斯克尔编译器:技术概述。进行中。英国信息技术联合框架(JFIT)技术会议,第93卷,1993b。
[105] 阿尔芒·朱林和托马斯·米科洛夫。利用堆栈增强递归网络推断算法模式。神经信息处理系统的进展,第190-198页,2015年。35
[106] 大卫·W·朱迪斯。自动区分工具的分类。编辑A.Griewank和G.F.Corliss,《算法的自动微分:理论、实现和应用》,第315-29页。工业与应用数学学会,费城,宾夕法尼亚州,1991年·Zbl 0782.65029
[107号] D、 金马和巴。亚当:一种随机优化方法。2015年在圣地亚哥举行的国际学习代表大会(ICLR)。
[108] Diederik P.Kingma和Max Welling。自动变分编码。2014年学习表征国际会议。
[109号] Alex Krizhevsky,Ilya Sutskever和Geoffrey E.Hinton。用深卷积神经网络进行图像网络分类。神经信息处理系统的进展,第1097-11052012页。
[110] K、 库波和伊里。PADRE2,第1版-用户手册。研究备忘录RMI 90-01,东京大学数学工程和信息物理系,东京,1990年。
[111] 阿尔普·库库克尔比尔、达斯汀·特兰、拉杰什·兰加纳思、安德鲁·盖尔曼和大卫·M·布莱。自动微分变分推理。机器学习研究杂志,18(14):1-452017·Zbl 1437.62109
[112] Tejas D.Kulkarni、Pushmete Kohli、Joshua B.Tenenbaum和Vikash Mansinghka。图片:一种用于场景感知的概率编程语言。在IEEE计算机视觉和模式识别(CVPR)会议上,2015年6月。
[113] 安基特·库马尔、奥赞·伊尔索伊、彼得·翁德鲁斯卡、莫希特·伊耶、詹姆斯·布拉德伯里、伊沙安·古拉贾尼、维克托·钟、罗曼·保卢斯和理查德·索彻。问我任何问题:用于自然语言处理的动态记忆网络。Maria Florina Balcan和Kilian Q.Weinberger,编辑,《第33届机器学习国际会议论文集》,机器学习研究论文集第48卷,1378-1387页,美国纽约,纽约,2016年6月20-22日。PMLR。
[114] C、 劳森。用W-算术和U-算术计算导数。内部计算备忘录CM-286,喷气推进实验室,加利福尼亚州帕萨迪纳,1971年。
[115] 团安乐,在贝丁,弗兰克·伍德。推理编译和通用概率规划。《第20届国际人工智能与统计会议论文集》(AISTATS),机器学习研究论文集第54卷,1338-1348页,美国佛罗里达州劳德代尔堡,2017年。PMLR。
[116] Yann LeCun、L'eon Bottou、Yoshua Bengio和Patrick Haffner。梯度学习在文档识别中的应用。IEEE论文集,86(11):2278-23241998。
[117] Yann LeCun,Yoshua Bengio和Geoffrey Hinton。深度学习。《自然》,521(7553):436–4442015年。
[118] G、 莱布尼茨。机器算术是一种非加法、减法和乘法运算,它是一种简单的运算方法。汉诺威,1685年。36
[119] 泽维尔·勒罗伊。基于类型的拆箱的有效性。1997年:汇编工作坊类型,1997年。
[120] 塞波林奈马。将算法的累积舍入误差表示为局部舍入误差的泰勒展开式。赫尔辛基大学硕士论文,1970年。
〔121〕 塞波林奈马。累积舍入误差的泰勒展开式。比特数值数学,16(2):146-1601976·Zbl 0332.65024
[122号] 马修·M·洛珀和迈克尔·J·布莱克。OpenDR:一个近似可微渲染器。欧洲计算机视觉会议,第154-169页。斯普林格,2014年。
[第123号] 麦克劳林。可组合可微过程的建模、推理与优化。哈佛大学工程与应用科学学院博士论文,2016年。
[124] Dougal Maclaurin,David Duvenaud和Ryan Adams。基于梯度的可逆学习超参数优化。国际机器学习会议,2113-2122页,2015年。
[125] Oleksandr Manzyuk、Barak A.Pearlmutter、Alexey Andreyevich Radul、David R Rush和Jeffrey Mark Siskind。高阶函数正向自动微分中标记扰动的混淆。arXiv预印本arXiv:1211.48922012年。
[126] 大卫·Q·梅恩和大卫·H·雅各布森。微分动态规划。美国爱思唯尔酒吧。纽约,1970年·中银0223.49022
[127号] 弗拉基米尔·马祖里克。将自动微分集成到PC的数字库中。a.Griewank和G.F.Corliss,编辑,《算法的自动微分:理论、实现和应用》,第315-29页。工业与应用数学学会,费城,宾夕法尼亚州,1991年·Zbl 0782.65031
[128] 雷纳特·迈耶、大卫·A·福尼尔和安德烈亚斯·伯格。随机波动性:使用自动微分和扩展卡尔曼滤波的贝叶斯计算。计量经济学杂志,6(2):408-4202003。doi:10.1111/1368-423X。t01-1-00116·10653ZB913
[129] 五十、 米歇洛蒂。MXYZPTLK:一个实用的、用户友好的微分代数的C++实现:用户指南。技术备忘录FN-535,费米国家加速器实验室,伊利诺伊州巴达维亚,1990年。
[130] Tom'aˇs Mikolov,Martin Karafi'at,Luk'aˇaˉs Burget,JanˇCernock'y和Sanjeev Khudanpur。基于递归神经网络的语言模型。2010年国际言语传播协会第十一届年会。
[131号] J、 D.M.uller和P.Cusdin。用自动微分法研究离散伴随CFD程序的性能。国际流体数值方法杂志,47(8-9):939-9452005。ISSN 1097-0363。doi:10.1002/英尺。885年37日·Zbl 1134.76431
[132] 乌韦·诺曼。对偶计算图上Jacobian矩阵的消去法最优累加。数学规划,99(3):399–4212004年·Zbl 1084.68144
[133] 乌韦·诺曼和简·里埃姆。使用NAGWare Fortran 95编译器进行计算。在H.M.B?ucker、G.Corliss、P.Hovland、U.Naumann和B.Norris编著,《自动微分:应用、理论和实现》,计算科学与工程课堂讲稿,第159-69页。斯普林格,2005年·Zbl 1270.65090
[134号] 雷德福德·M·尼尔。用马尔可夫链蒙特卡罗方法进行概率推理。技术报告CRG-TR-93-1,多伦多大学计算机科学系,1993年。
[135] 理查德·D·奈丁格。自动微分与APL。大学数学杂志,20(3):238-511989。doi:10.2307/2686776。
[136] 约翰·F·诺兰。数字计算机上的解析微分。硕士论文,麻省理工学院,1953年。
[137] J、 奥斯提古和米歇洛蒂。Mxyzptlk:一个高效的本地C++差异化引擎。在粒子加速器会议(PAC 2007),第3489-91页。IEEE,2007年。内政部:10。1109/太平洋。2007.4440468。
[138] 大卫·B·帕克。学习逻辑:用硅铸造人脑皮层。技术报告TR-47,经济和管理科学计算研究中心,麻省理工学院,1985年。
[139号] Val'erie Pascual和Laurent Hasco¨et.TAPENADE for C.自动微分的进展,计算科学与工程课堂讲稿,199-210页。斯普林格,2008年。第1008-948页。
[140] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。Pythorch中的自动微分。在NIPS 2017 Autodiff研讨会:基于梯度的机器学习软件和技术的未来,加利福尼亚州长滩,美国,2017年12月9日。
[141] 巴拉克A。珠穆特。黑森函数的快速精确乘法。神经计算,6:147–601994。doi:10.1162/neco。1994.6.1.147。
[142号] 巴拉克·A·珀尔穆特和杰弗里·马克·西斯金德。功能框架中的反向模式广告:终极反向传播者Lambda。ACM编程语言与系统事务(TOPLAS),30(2):1–362008年3月。doi:10.1145/1330017.1330018·Zbl 1175.68104
[143] 丁玉鹏和唐纳德·B·罗宾逊。一个新的双常数状态方程。工业与工程化学基础,15(1):59-641976。doi:10.1021/i160057a011。
[144] 约翰·彼得森。标记环境中的未标记数据:在编译时选择最佳表示。第四届函数式编程语言与计算机体系结构国际会议论文集,第89-99页。ACM,1989年。38
[145] F、 埃菲尔。散文的自动区分。SIGNUM时事通讯,22(1):2-8,1987年。doi:10.1145/24680.24681。
[146号] 托马斯·波克、迈克尔·波克和霍斯特·比肖夫。算法微分:在计算机视觉变分问题中的应用。IEEE模式分析与机器智能汇刊,29(7):1180–11932007年。doi:10.1109/TPAMI。2007.1044。
[147] 威廉·H·普赖斯,索尔A·特科斯基,威廉·T·维特林,布莱恩·P·弗兰纳里。数字食谱:科学计算的艺术。剑桥大学出版社,2007年·Zbl 1132.65001型
[148] 路易丝·B·拉尔。自动分化的观点:过去、现在和未来?M.B–ucker、G.Corliss、U.Naumann、P.Hovland和B.Norris编者,《自动微分:应用、理论和实现》,计算科学与工程课堂讲稿第50卷,第1-14页。斯普林格柏林海德堡,2006年。
[149号] 卡尔·爱德华·拉斯穆森和克里斯托弗·K·I·威廉姆斯。机器学习的高斯过程。麻省理工学院出版社,2006年·Zbl 1177.68165
[150] J、 Revels,M.Lubin和T.Papamarkou。Julia中的正向模式自动微分。arXiv:1607.07892[cs.MS],2016a。网址https://arxiv.org/abs/1607.07892。
[151] 贾勒特·瑞维斯、迈尔斯·鲁宾和西奥多·帕帕马库。Julia中的正向模式自动微分。arXiv预印本arXiv:1607.078922016b。
[152] 丹尼洛·希门尼斯·雷泽德、夏克尔·穆罕默德和达安·维尔斯特拉。深层生成模型中的随机反向传播和近似推理。国际机器学习会议,第1278-1286页,2014年。
[153] 劳伦斯·C·里奇和大卫·R·希尔。MATLAB中的自动微分。应用数值数学,9:33–431992·Zbl 0753.65017
[154] 丹尼尔·里奇、保罗·霍斯法尔和诺亚·D·古德曼。概率程序的深度摊余推理。arXiv预印本arXiv:1610.057352016。
[155] 伊丽莎白·罗林斯。利用自动微分优化神经网络反馈控制系统。麻省理工学院航空航天系硕士论文,2009年。
[156] 五十、 一、罗佐纳。五十、 最佳系统理论中的庞特里亚金最大值原理-第二部分。自动装置。我打电话给你。,20: 1958年至1449年。
[157] 大卫·E·鲁梅尔哈特、杰弗里·E·辛顿和罗纳德·J·威廉姆斯。通过反向传播错误学习表示。《自然》,323(6088):533,1986年·Zbl 1369.68284号
[158] 齐格弗里德M.伦普。Interlab INTerval实验室。可靠计算的发展,第77-104页。Kluwer学术出版社,多德雷赫特,1999年。doi:10.1007/97894-017-1247-7 7·Zbl 0949.65046
[159] 蒂姆·萨利曼斯、迪德里克·金马和马克斯·韦林。马尔可夫链蒙特卡罗和变分推理:填补差距。第32届国际机器学习会议论文集(ICML-15),第1218-1226页,2015年。39
[160] 约翰·萨尔瓦蒂埃、托马斯·维茨基和克里斯托弗·方内斯贝克。使用PyMC3在Python中进行概率编程。PeerJ Computer Science,2:E552016年。
[161] 汤姆绍尔,张思欣,杨乐春。不再有令人讨厌的学习率。国际机器学习会议,第343-351页,2013年。
[162] 施穆尔根。神经网络的深度学习:综述。《神经网络》,61:85–117,2015年。
[163] 尼科尔·N·施劳多夫。随机梯度下降中的局部增益自适应。国际人工神经网络会议记录,569-74页,苏格兰爱丁堡,1999年。伦敦国际机场。doi:10.1049/cp:19991170。
[164] 尼科尔·N·施劳多夫和托尔·格雷佩尔。结合共轭方向法和随机梯度近似。2003年第九届人工智能与统计国际研讨会论文集·Zbl 1013.68699
[165] 弗兰克·塞德和阿米特·阿加瓦尔。CNTK:微软的开源深度学习工具包。第22届ACM SIGGDD知识发现与数据挖掘国际会议论文集,KDD'16,第2135-2135页,美国纽约,2016年。ACM公司。国际标准书号978-1-4503-4232-2。doi:10.1145/2939672.2945397。
[166号] 诺姆·沙泽尔、阿扎莉亚·米霍塞尼、克尔兹托夫·马齐亚尔兹、安迪·戴维斯、库克·勒、杰弗里·辛顿和杰夫·迪恩。大得离谱的神经网络:专家层的稀疏门控混合体。参加2017年、2017年国际学习代表大会。
[167] 奥林颤抖着。高阶语言的控制流分析。博士论文,卡内基梅隆大学,1991年·Zbl 1302.68072
[168号] 亚历克斯·什托夫、亚历山大·阿加索斯、尤塔姆·金戈尔德、阿里尔·沙米尔和丹尼尔·科恩或。基于草图建模的地理语义捕捉。计算机图形学论坛,32(2):245-532013。doi:10.1111/cgf。12044
[169] N、 西德哈斯,布鲁克斯·佩吉,简·威廉·范德梅特,阿尔班·德斯迈森,诺亚·D·古德曼,普希梅特·科利,弗兰克·伍德和菲利普·托尔。用半监督深层生成模型学习解纠缠表示。在I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan和R.Garnett,编辑,神经信息处理系统的进展30,第5927-5937页。Curran Associates,Inc.,2017年。
[170] 帕特里斯·西马尔、扬·莱昆、约翰·登克和伯纳德·维克多里。模式识别中的变换不变性,切线距离和切线传播。在G.Orr和K.Muller,编辑,神经网络:交易的技巧。斯普林格,1998年。
[171] Z、 Sirkes和E.Tziperman。伴随的有限差分还是有限差分的伴随?每月天气回顾,125(12):3373-81997。doi:10.1175/1520-0493(1997)125h3373:fdoai2。0.CO;二点四零
[第172条] 杰弗里·马克·西斯金德和巴拉克·A·珀尔穆特。扰动混淆和参照透明:前向模式广告的正确功能实现。安德鲁·巴特菲尔德,编辑,功能语言的实施和应用第17届国际研讨会,IFL'05,第1-9页,爱尔兰都柏林,2005年。都柏林三一学院计算机科学系技术报告TCD-CS-2005-60。
[173] 杰弗里·马克·西斯金德和巴拉克·A·珀尔穆特。利用多变量联合自由流分析,将一类导数算子的高阶函数程序设计语言编译成高效的类Fortran代码。技术报告TR-ECE-08-01,普渡大学电气与计算机工程学院,2008a·Zbl 1156.68335
[174] 杰弗里·马克·西斯金德和巴拉克·A·珀尔穆特。在功能框架中嵌套前向模式广告。高阶与符号计算,21(4):361–37620008b·Zbl 1175.68104
[175] 杰弗里·马克·西斯金德和巴拉克·A·珀尔穆特。利用内置广告高效实现高阶语言。第七届算法微分国际会议,英国牛津基督教堂,2016年9月12-15日。另见arXiv:1611.03416·Zbl 1295.65028
[176] 杰弗里·马克·西斯金德和巴拉克·A·珀尔穆特。无用户注释的任意程序的分而治之检查点。在NIPS 2017 Autodiff研讨会:基于梯度的机器学习软件和技术的未来,加利福尼亚州长滩,美国,2017年12月9日。另见arXiv:1708.06799·Zbl 1455.65037
[177] 埃米尔·杜米尔桑奇。ADiJaC自动区分Java类文件。ACM数学软件交易,43(2):9:1–9:33,2016年9月。ISSN 00983500。doi:10.1145/2904901·Zbl 1391.65045
[178] 伯特·斯佩尔彭宁。快速编译算法给定函数的偏导数。博士论文,计算机科学系,伊利诺伊大学香槟分校,1980年。
[179] Suvrit Sra,Sebastian Nowozin和Stephen J.Wright。机器学习优化。麻省理工学院出版社,2011年。
[180度] 菲利普·斯拉杰、祖扎娜·库克洛娃和安德鲁·菲茨吉本。机器学习和计算机视觉中的一些问题的算法微分工具的基准。AD2016:第七届算法微分国际会议,2016年9月12日星期一至15日星期四,英国牛津基督教堂:课程和摘要,181-184页。工业与应用数学学会(SIAM),2016年·Zbl 1453.65050
[181号] 阿克谢·斯里尼瓦桑和伊曼纽尔·托多罗夫。图解牛顿。技术报告arXiv:1508.00952,arXiv预印本,2015年。
[182号] 安德烈亚斯·斯图勒、雅各布·泰勒和诺亚·古德曼。学习随机逆。神经信息处理系统的进展,3048-3056页,2013年。
[183] 菲利佩·彼得罗斯基,瓦希什特·马德哈万,爱德华多·孔蒂,乔尔·雷曼,肯尼斯·O·斯坦利,杰夫·克伦。深层神经进化:遗传算法是训练深层神经网络强化学习的一种有竞争力的选择。arXiv预印本arXiv:1712.06567,2017年。41
[184] Sainbayar Sukhbaatar,Jason Weston,Rob Fergus等,端到端内存网络。神经信息处理系统的进展,第2440-2448页,2015年。
[185] 杰拉尔德J.苏斯曼和杰克·怀斯曼。经典力学的结构与解释。麻省理工学院出版社,2001年。doi:10.1063/1.1457268·Zbl 0983.70001
[186] 乔纳森·泰勒、理查德·斯特宾、瓦伦·拉玛克里希纳、塞姆·凯斯金、杰米·肖顿、沙赫拉姆·伊扎迪、亚伦·赫茨曼和安德鲁·菲茨吉本。基于单目深度序列的用户特定手模型。《IEEE计算机视觉与模式识别会议论文集》,第644-651页,2014年。
[187] 杰弗里·P·托马斯、厄尔·H·道威尔和肯尼斯·C·霍尔。利用自动微分法建立计算流体动力学求解器的非线性降阶模型。AIAA论文,7115:2006,2006。
[188] T、 铁汉和铁汉。第6.5课-RMSProp:将梯度除以其最近震级的平均值。COURSERA:《机器学习的神经网络》,4(2),2012年。
[189] 西娅·托奎、肯塔·奥诺、秀喜和贾斯汀·克莱顿。Chainer:一个下一代的用于深度学习的开源框架。《神经信息处理系统(NIPS)第二十九届年会机器学习系统研讨会论文集》,2015年。
[190号] Dustin Tran,Alp Kucukelbir,Adji B.Dieng,Maja Rudolph,Dawen Liang和David M.Blei。爱德华:概率建模、推理和批评的图书馆。arXiv预印本arXiv:1610.097872016年。
[191] Dustin Tran、Matthew D.Hoffman、Rif A.Saurus、Eugene Brevdo、Kevin Murphy和David M.Blei。深度概率规划。2017年国际学习代表大会。
[192号] 比尔·特里格斯、菲利普·F·麦克劳克兰、理查德·I·哈特利和安德鲁·W·菲茨吉本。束调整——现代综合。国际视觉算法研讨会,298-372页。斯普林格,1999年。
[193] 乔治·塔克、安德烈·姆尼赫、克里斯·J·麦迪森、约翰·劳森和贾斯卡·索尔·狄克斯坦。钢筋:离散潜在变量模型的低方差,无偏梯度估计。神经信息处理系统的进展,第2624-26332017页。
[194号] 亚历山大韦尔巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴恩巴顿。切线:在Python中使用源代码转换自动区分。arXiv预印本arXiv:1711.02712,2017年。
[195] 阿伦·维尔马。介绍自动微分。当代科学,78(7):804-72000。
[196] S、 V.N.Vishwanathan,Nicol N.Schraudolph,Mark W.Schmidt和Kevin P.Murphy。用随机梯度法加速训练条件随机场。在第23届机器学习国际会议(ICML'06)的42个会议记录中,第969-76页,2006年。doi:10.1145/1143844.1143966。
[197] 安德烈·沃尔特。最优控制显式Runge-Kutta方法的自动微分。计算优化与应用,36(1):83-1082007。doi:10.1007/s10589-006-0397-3·兹布1278.49037
[198] 安德烈·沃尔特和安德烈亚斯·格里万克。《ADOL-C入门》,U.Naumann和O.Schenk,编辑,组合科学计算,第7章,181-202页。查普曼霍尔CRC计算科学,2012年。doi:10.1201/b11644-8。
[199] 罗伯特·E·温格特。一个简单的自动求导程序。ACM通讯,7:463–41964·Zbl 0131.34602
[200] 保罗·J·沃博斯。超越回归:行为科学中预测和分析的新工具。哈佛大学博士论文,1974年。
[201] 罗纳德·J·威廉姆斯。用于连接强化学习的简单统计梯度跟踪算法。机器学习,8(3-4):229–2561992年·Zbl 0772.68076
[202] J、 威尔科姆和A.Vehreschild。ADiMat手册,2013年。网址http://adimat.sc。信息。达姆施塔特。数据元素/文档/。
[203] 大卫·温盖特、诺亚·古德曼、安德烈亚斯·斯图勒和杰弗里·马克·西斯金德。有效推理概率程序的非标准解释。神经信息处理系统进展,23,2011。
[204] 杨伟伟,赵勇,李岩,陈晓倩。基于BP神经网络的自微分PID控制器的应用。在F.Sun,J.Zhang,Y.Tan,J.Cao,和W.Yu编者,神经网络的进展ISNN 2008,计算机科学课堂讲稿第5264卷,第702-711页。斯普林格柏林海德堡,2008年。doi:10.1007/978-3-540-87734-9 80。
[205] Ilker Yildirim、Tejas D.Kulkarni、Winrich A.Freiwald和Joshua B.Tenenbaum。视觉综合的高效稳健分析:计算框架、行为测试和神经元表征建模。2015年认知科学年会。
[206] 于浩楠和杰弗里·马克西斯金德。从用句子描述的视频学习语言。《计算语言学协会第51届年会论文集》,第53-63页,保加利亚索非亚,2013年。计算语言学协会。
[207] 扎勒巴,米科洛夫,朱林,费格斯。从例子中学习简单的算法。国际机器学习会议,第421-429页,2016年。
[208号] 朱慈友,伯德,吕培煌,诺赛达尔。算法778:L-BFGS-B:大规模有界约束优化的Fortran子程序。ACM数学软件交易(TOMS),23(4):550–601997·Zbl 0912.65057
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。