Automatic Differentiation in Machine Learning: a Survey

Atilim Gunes Baydin; Barak A. Pearlmutter; Alexey Andreyevich Radul; Jeffrey Mark Siskind

导数，主要以梯度和黑森函数的形式存在于机器学习中。自动微分（AD），也称为算法微分或简称“autodiff”，是一系列技术，类似于反向传播，但比反向传播更通用，用于高效、准确地计算表示为计算机程序的数值函数的导数。AD是一个小型但成熟的领域，应用领域包括计算流体动力学、大气科学和工程设计优化。直到最近，机器学习和AD领域在很大程度上还互不了解，在某些情况下，还独立地发现了彼此的结果。尽管通用AD具有相关性，但它在机器学习工具箱中却一直没有出现，随着它以“动态计算图”和“可微编程”的名义被不断采用，这种情况正在慢慢改变。我们调查了AD和机器学习的交叉点，涵盖了AD具有直接相关性的应用程序，并讨论了主要的实现技术。通过精确定义主要的差异化技术及其相互关系，我们的目的是明确术语“自动差异化”、“自动区别化”和“符号差异化”的用法，因为在机器学习设置中越来越多地遇到这些术语。

机器学习中的自动区分技术综述

摘要