深层神经网络中的解缠绕训练与泛化
肖乐超、杰弗里·彭宁顿、塞缪尔·肖恩霍尔茨
第37届机器学习国际会议记录,PMLR 119:10462-104722020年。
摘要
深度学习理论的一个长期目标是描述给定神经网络体系结构可训练的条件,如果是,它对未知数据的概括程度如何。在这项工作中,我们在非常宽和非常深的网络的极限中提供了这样一个特征,从而大大简化了分析。对于宽网络,梯度下降下的轨迹由神经切线内核(NTK)控制,而对于深度网络,NTK本身仅保持微弱的数据依赖性。通过分析NTK的频谱,我们制定了一系列体系结构(包括全连接网络(FCN)和卷积神经网络(CNN))中可训练性和泛化的必要条件。我们确定了超参数空间中的大区域,对于这些区域,网络可以记忆训练集,但完全无法推广。我们发现,没有全局平均池的CNN与FCN的行为几乎相同,但有池的CNNs具有显著不同的泛化性能,通常更好。这些理论结果在各种网络架构的CIFAR10上得到了实验验证。我们包括一个\ href{https://colab.research.google.com/github/google/neural-tangents/blob/master/notebooks/disentangling_trainability_and_generalization.ipynb}{colab}笔记本,再现论文的基本结果。
引用本文
相关材料