深层和狭义神经网络的崩溃

@第{Lu2018CollapseOD条,title={深层和狭义神经网络的崩溃},author={Lu Lu和Yanhui Su以及George Em Karniadakis},期刊={ArXiv},年份={2018年},体积={abs/1808.04947},网址={https://api.semanticscholar.org/CorpusID:81981236}}
结果表明,即使对校正的线性单元激活,深度和窄范围神经网络(NN)也会根据损失以高概率收敛到目标函数的错误平均或中值状态。

本文中的数字

BN如何增加折叠神经网络滤波器?

本工作揭示了具有批归一化(BN)和校正线性激活函数的DNN中一种有害的稀疏化过程,称为滤波器崩溃,并提出了一种简单而有效的方法,称为后移位BN(psBN),其具有与BN相同的表示能力,同时能够在训练期间BN参数饱和时自动使其再次可训练。

少即是多:深度神经网络的自适应可训练梯度删除

提出了一种选择性梯度丢弃方法,该方法不依赖于丢弃随机权重,而是学习冻结特定连接的训练过程,从而通过驱动网络使用更显著的权重,自适应地增加整个网络的稀疏性。

基于Sharkovsky定理的ReLU网络深度-宽度权衡

指出了动力系统中DNNs表示性与Sharkovsky定理之间的一种新联系,它使我们能够基于广义不动点概念(称为周期点)的存在来刻画ReLU网络表示函数的深度-宽度权衡。

深整流网络中神经元死亡的概率界

本文推导了ReLU网络初始化为可训练点的概率的上下界,作为模型超参数的函数,并提出了一种实用的符号翻转方案,该方案保证了k层网络中活数据点的比率至少为2−k。

用可变性解释多层感知器可训练性

本研究侧重于具有相同参数数量的多层感知器(MLP)模型,实证表明,变异性与激活次数呈正相关,与一种称为“坍塌到常数”的现象呈负相关,这与众所周知的消失梯度现象有关。

改进的深度窄前馈神经网络权值初始化

提出了一种新的权重初始化方法来解决“死亡ReLU”问题,其中ReLU神经元处于非活动状态并产生零输出,并证明了这些特性如何使信号矢量有效传播。

常目标函数ReLU激活深度神经网络训练中随机梯度下降的收敛性证明

这项工作证明,在SGD优化方法的学习率足够小但不可求的假设下,当SGD步数增加到无穷大时,所考虑的SGD过程的风险期望在此类DNN的训练中收敛到零。

深度神经网络的鲁棒训练和初始化:自适应基观点

采用DNN的自适应基观点导致了新的初始化和混合最小二乘/梯度下降优化器,提供了对这些技术的分析,并通过数值示例说明了表征当前使用DNN的科学应用的基准的精度和收敛速度的显著提高。
...

理解训练深度前馈神经网络的困难

这里的目标是更好地理解为什么随机初始化的标准梯度下降在深度神经网络中表现如此糟糕,更好地理解这些最近的相对成功,并帮助设计未来更好的算法。

哪些神经网络结构会导致梯度的爆炸和消失?

给定的神经网络是否具有爆炸/消失梯度主要取决于网络的体系结构,因此可以在初始化时进行测试,这意味着在初始化时产生可管理梯度的完全连接网络必须具有许多隐藏层,其宽度与网络深度大致相同。

激活函数中的小非线性会在神经网络中产生坏的局部极小值

结果表明,一般来说,“无伪局部极小值”是一个局限于深线性网络的性质,从线性网络获得的见解可能不稳健,并给出了深线性网络全局最优性的一个综合表征,它统一了该主题的其他结果。

自归一化神经网络

引入自规范化神经网络(SNN)实现高级抽象表示,并证明了通过多个网络层传播的接近零均值和单位方差的激活将收敛到零均值和单元方差,即使在存在噪声和扰动的情况下也是如此。

深度学习中初始化和动量的重要性

结果表明,当带有动量的随机梯度下降使用设计良好的随机初始化和动量参数的特定类型的缓慢增加计划时,它可以将DNN和RNN训练到以前只有使用Hessian-Free优化才能达到的性能水平。

基于指数线性单元(ELU)的快速准确深度网络学习

“指数线性单元”(ELU)加快了深度神经网络的学习,在5层以上的网络上,它比ReLU和LReLU具有更高的分类精度和更好的泛化性能。

深度线性神经网络梯度下降的收敛性分析

通过最大化任何秩亏解的初始损失,最小化白化数据的损失,分析了深度线性神经网络梯度下降训练收敛到全局最优的速度。

深线性神经网络非线性学习动力学的精确解

结果表明,深线性网络表现出与非线性网络模拟中相似的非线性学习现象,包括长平台之后快速过渡到低误差解,以及贪婪的无监督预处理初始条件比随机初始条件收敛更快。

训练深度网络

一种新的体系结构,旨在克服训练深度非常深的网络的挑战,其灵感来源于长短期内存循环网络,它允许信息在信息高速公路上的多个层之间畅通无阻地流动。

深度网络与浅层网络:近似理论视角

提出了一种新的相对维数定义,以封装函数类稀疏性的不同概念,这些概念可以被深层网络利用,但不能被浅层网络利用,从而大大降低近似和学习所需的复杂性。
...