内政部：10.4208/cicp。OA-2020-0165号文件
语料库ID:81981236

深层和狭义神经网络的崩溃

@第{Lu2018CollapseOD条，title={深层和狭义神经网络的崩溃}，author={Lu Lu和Yanhui Su以及George Em Karniadakis}，期刊＝{ArXiv}，年份={2018年}，体积={abs/1808.04947}，网址={https://api.semanticscholar.org/CorpusID:81981236}}

陆璐苏彦辉G.卡尼亚达基斯
出版在里面通信… 2018年8月15日
计算机科学、数学

结果表明，即使对校正的线性单元激活，深度和窄范围神经网络（NN）也会根据损失以高概率收敛到目标函数的错误平均或中值状态。

[PDF]语义阅读器

本文中的数字

话题

整流线性单元启发性参数 Deep ReLU网络

BN如何增加折叠神经网络滤波器？

盛洲（Sheng Zhou）新疆王P.罗李东风李文杰W.Zhang先生

计算机科学

arXiv.org网站

2020

本工作揭示了具有批归一化（BN）和校正线性激活函数的DNN中一种有害的稀疏化过程，称为滤波器崩溃，并提出了一种简单而有效的方法，称为后移位BN（psBN），其具有与BN相同的表示能力，同时能够在训练期间BN参数饱和时自动使其再次可训练。

1

少即是多：深度神经网络的自适应可训练梯度删除

克里斯托斯·阿夫里诺斯N.Vretos公司P.达拉斯

计算机科学

意大利传感器全国会议

2023

提出了一种选择性梯度丢弃方法，该方法不依赖于丢弃随机权重，而是学习冻结特定连接的训练过程，从而通过驱动网络使用更显著的权重，自适应地增加整个网络的稀疏性。

2

基于Sharkovsky定理的ReLU网络深度-宽度权衡

瓦戈斯·查齐亚弗拉提斯Sai Ganesh Nagarajan村Ioannis Panageas公司小王

计算机科学、数学

国际学习会议…

2020

指出了动力系统中DNNs表示性与Sharkovsky定理之间的一种新联系，它使我们能够基于广义不动点概念（称为周期点）的存在来刻画ReLU网络表示函数的深度-宽度权衡。

21

深整流网络中神经元死亡的概率界

布莱恩立管D.鲁宾

计算机科学、数学

2020

本文推导了ReLU网络初始化为可训练点的概率的上下界，作为模型超参数的函数，并提出了一种实用的符号翻转方案，该方案保证了k层网络中活数据点的比率至少为2−k。

深度神经网络训练中随机梯度下降的非收敛性

帕特里克·切里迪托阿努夫·詹岑弗洛里安·罗斯曼内克

计算机科学、数学

复杂性杂志

2021

用可变性解释多层感知器可训练性

Yueyao余尹章（音）

计算机科学

2021

本研究侧重于具有相同参数数量的多层感知器（MLP）模型，实证表明，变异性与激活次数呈正相关，与一种称为“坍塌到常数”的现象呈负相关，这与众所周知的消失梯度现象有关。

改进的深度窄前馈神经网络权值初始化

李显宇金云浩（Yunho Kim）Seungyeop Yang公司Hayong Choi先生

计算机科学

2024

提出了一种新的权重初始化方法来解决“死亡ReLU”问题，其中ReLU神经元处于非活动状态并产生零输出，并证明了这些特性如何使信号矢量有效传播。

高度受影响

常目标函数ReLU激活深度神经网络训练中随机梯度下降的收敛性证明

马丁·胡岑塔勒阿努夫·詹岑凯瑟琳娜·波尔阿德里安·里克特卢卡·斯卡帕

计算机科学、数学

arXiv.org网站

2021

这项工作证明，在SGD优化方法的学习率足够小但不可求的假设下，当SGD步数增加到无穷大时，所考虑的SGD过程的风险期望在此类DNN的训练中收敛到零。

5

深度神经网络的鲁棒训练和初始化：自适应基观点

E.塞尔Mamikon A.古利安拉维·G·帕特尔M.佩雷戈N.查斯克

计算机科学、物理学

数学和科学机器学习

2020

采用DNN的自适应基观点导致了新的初始化和混合最小二乘/梯度下降优化器，提供了对这些技术的分析，并通过数值示例说明了表征当前使用DNN的科学应用的基准的精度和收敛速度的显著提高。

贝叶斯神经网络中的层自适应节点选择：统计保证和实现细节

桑基特·R·詹特Shrijita Bhattacharya先生T.迈蒂

计算机科学

2023

12

理解训练深度前馈神经网络的困难

泽维尔·格洛洛特本吉奥

计算机科学

国际人工智能大会…

2010

这里的目标是更好地理解为什么随机初始化的标准梯度下降在深度神经网络中表现如此糟糕，更好地理解这些最近的相对成功，并帮助设计未来更好的算法。

哪些神经网络结构会导致梯度的爆炸和消失？

计算机科学、数学

神经信息处理系统

2018

给定的神经网络是否具有爆炸/消失梯度主要取决于网络的体系结构，因此可以在初始化时进行测试，这意味着在初始化时产生可管理梯度的完全连接网络必须具有许多隐藏层，其宽度与网络深度大致相同。

226

激活函数中的小非线性会在神经网络中产生坏的局部极小值

Chulhee Yun公司S.Sra公司A.贾巴比

计算机科学、数学

国际学习会议…

2019

结果表明，一般来说，“无伪局部极小值”是一个局限于深线性网络的性质，从线性网络获得的见解可能不稳健，并给出了深线性网络全局最优性的一个综合表征，它统一了该主题的其他结果。

88

自归一化神经网络

G.克拉姆鲍尔托马斯·安提纳安德烈亚斯·迈尔Sepp Hochreiter公司

计算机科学

神经信息处理系统

2017

引入自规范化神经网络（SNN）实现高级抽象表示，并证明了通过多个网络层传播的接近零均值和单位方差的激活将收敛到零均值和单元方差，即使在存在噪声和扰动的情况下也是如此。

深度学习中初始化和动量的重要性

I.Sutskever公司詹姆斯·马滕斯乔治·E·达尔杰弗里·欣顿

计算机科学、数学

机器学习国际会议

2013

结果表明，当带有动量的随机梯度下降使用设计良好的随机初始化和动量参数的特定类型的缓慢增加计划时，它可以将DNN和RNN训练到以前只有使用Hessian-Free优化才能达到的性能水平。

基于指数线性单元（ELU）的快速准确深度网络学习

乔克·阿内·克利夫特托马斯·安提纳Sepp Hochreiter公司

计算机科学

国际学习会议…

2016

“指数线性单元”（ELU）加快了深度神经网络的学习，在5层以上的网络上，它比ReLU和LReLU具有更高的分类精度和更好的泛化性能。

深度线性神经网络梯度下降的收敛性分析

桑吉弗·阿罗拉纳达夫·科恩诺亚·戈洛维奇胡伟

计算机科学、数学

国际学习会议…

2019

通过最大化任何秩亏解的初始损失，最小化白化数据的损失，分析了深度线性神经网络梯度下降训练收敛到全局最优的速度。

252

深线性神经网络非线性学习动力学的精确解

安德鲁·M·萨克斯詹姆斯·麦克莱兰S.甘古利

计算机科学、数学

国际学习会议…

2014

结果表明，深线性网络表现出与非线性网络模拟中相似的非线性学习现象，包括长平台之后快速过渡到低误差解，以及贪婪的无监督预处理初始条件比随机初始条件收敛更快。

训练深度网络

R.斯利瓦斯塔瓦克劳斯·格雷夫J.施密杜贝尔

计算机科学

神经信息处理系统

2015

一种新的体系结构，旨在克服训练深度非常深的网络的挑战，其灵感来源于长短期内存循环网络，它允许信息在信息高速公路上的多个层之间畅通无阻地流动。

1,614

深度网络与浅层网络：近似理论视角

H.姆哈斯卡T.波乔

计算机科学、数学

arXiv.org网站

2016

提出了一种新的相对维数定义，以封装函数类稀疏性的不同概念，这些概念可以被深层网络利用，但不能被浅层网络利用，从而大大降低近似和学习所需的复杂性。

329