机器学习中的自动区分技术综述
Atilim Gunes Baydin、Barak A.Pearlmutter、Alexey Andreyevich Radul、Jeffrey Mark Siskind; 18(153):1−43, 2018.
摘要
导数,主要以梯度和黑森函数的形式存在于机器学习中。自动微分(AD),也称为算法微分或简称“autodiff”,是一系列技术,类似于反向传播,但比反向传播更通用,用于高效、准确地计算表示为计算机程序的数值函数的导数。AD是一个小型但成熟的领域,应用领域包括计算流体动力学、大气科学和工程设计优化。直到最近,机器学习和AD领域在很大程度上还互不了解,在某些情况下,还独立地发现了彼此的结果。尽管通用AD具有相关性,但它在机器学习工具箱中却一直没有出现,随着它以“动态计算图”和“可微编程”的名义被不断采用,这种情况正在慢慢改变。我们调查了AD和机器学习的交叉点,涵盖了AD具有直接相关性的应用程序,并讨论了主要的实现技术。通过精确定义主要的差异化技术及其相互关系,我们的目的是明确术语“自动差异化”、“自动区别化”和“符号差异化”的用法,因为在机器学习设置中越来越多地遇到这些术语。
[腹肌]
[pdf格式][围兜]