Disentangling Trainability and Generalization in Deep Neural Networks

Lechao Xiao; Jeffrey Pennington; Samuel Schoenholz

深层神经网络中的解缠绕训练与泛化

肖乐超、杰弗里·彭宁顿、塞缪尔·肖恩霍尔茨

第37届机器学习国际会议记录，PMLR 119:10462-104722020年。

摘要

深度学习理论的一个长期目标是描述给定神经网络体系结构可训练的条件，如果是，它对未知数据的概括程度如何。在这项工作中，我们在非常宽和非常深的网络的极限中提供了这样一个特征，从而大大简化了分析。对于宽网络，梯度下降下的轨迹由神经切线内核（NTK）控制，而对于深度网络，NTK本身仅保持微弱的数据依赖性。通过分析NTK的频谱，我们制定了一系列体系结构（包括全连接网络（FCN）和卷积神经网络（CNN））中可训练性和泛化的必要条件。我们确定了超参数空间中的大区域，对于这些区域，网络可以记忆训练集，但完全无法推广。我们发现，没有全局平均池的CNN与FCN的行为几乎相同，但有池的CNNs具有显著不同的泛化性能，通常更好。这些理论结果在各种网络架构的CIFAR10上得到了实验验证。我们包括一个\ href{https://colab.research.google.com/github/google/neural-tangents/blob/master/notebooks/disentangling_trainability_and_generalization.ipynb}{colab}笔记本，再现论文的基本结果。

引用本文

BibTeX公司

@会议记录{pmlr-v119-xiao20b，title={深层神经网络中的分离可训练性和泛化}，author={肖、乐超和彭宁顿、杰弗里和肖恩霍尔茨、塞缪尔}，booktitle={第37届机器学习国际会议论文集}，页码={10462--10472}，年份={2020年}，编辑＝{III，Hal Daumé和Singh，Aarti}，体积={119}，series={机器学习研究论文集}，月={7月13日至18日}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v119/xiao20b/xiao20b.pdf},url={https://proceedings.mlr.press/v119/xiao20b.html},抽象={深度学习理论的一个长期目标是表征给定神经网络架构可训练的条件，如果是，它可以在多大程度上推广到看不见的数据。在这项工作中，我们在非常广泛和非常深入的网络的极限下提供了这样的表征，为此分析简化了考虑拉布利。对于宽网络，梯度下降下的轨迹由神经切线核（NTK）控制，而对于深网络，NTK本身仅保持弱数据依赖性。通过分析NTK的频谱，我们制定了一系列体系结构（包括全连接网络（FCN）和卷积神经网络（CNN））中可训练性和泛化的必要条件。我们确定了超参数空间中的大区域，对于这些区域，网络可以记忆训练集，但完全无法推广。我们发现，没有全局平均池的CNN与FCN的行为几乎相同，但有池的CNNs具有显著不同的泛化性能，通常更好。这些理论结果在各种网络架构的CIFAR10上得到了实验验证。我们包括一个\ href{https://colab.research.google.com/github/google/neural-tangents/blob/master/notebooks/disentangling_trainability_and_generalization.ipynb}复制论文基本结果的笔记本}

尾注

%0会议论文%深度神经网络中T分解的可训练性和泛化%A乐超肖%杰弗里·彭宁顿%塞缪尔·肖恩霍尔茨%第37届机器学习国际会议论文集%C机器学习研究论文集%D 2020年%哈尔·达梅三世%艾尔蒂·辛格%F pmlr-v119-xiao20b型%我PMLR%电话：10462-10472%U型https://proceedings.mlr.press/v119/xiao20b.html%V 119（伏119）%X深度学习理论的一个长期目标是描述给定神经网络架构可训练的条件，如果是这样，它对未知数据的推广程度如何。在这项工作中，我们在非常宽和非常深的网络的极限中提供了这样一个特征，从而大大简化了分析。对于宽网络，梯度下降下的轨迹由神经切线核（NTK）控制，而对于深网络，NTK本身仅保持弱数据依赖性。通过分析NTK的频谱，我们制定了一系列体系结构（包括全连接网络（FCN）和卷积神经网络（CNN））中可训练性和泛化的必要条件。我们确定了超参数空间中的大区域，对于这些区域，网络可以记忆训练集，但完全无法推广。我们发现，没有全局平均池的CNN与FCN的行为几乎相同，但有池的CNNs具有显著不同的泛化性能，通常更好。这些理论结果在各种网络架构的CIFAR10上得到了实验证实。我们包括一个\ href{https://colab.research.google.com/github/google/neural-tangents/blob/master/notebooks/disentangling_trainability_and_generalization.ipynb}{colab}笔记本，再现论文的基本结果。

亚太地区

Xiao，L.、Pennington，J.和Schoenholz，S.（2020年）。深层神经网络中的分离可训练性和泛化。第37届机器学习国际会议记录，英寸机器学习研究进展119:10462-10472可从https://proceedings.mlr.press/v119/xiao20b.html。

深层神经网络中的解缠绕训练与泛化

摘要

引用本文

相关材料