递归网络体系结构的实证研究
研究发现,在LSTM的遗忘门上增加1的偏差,可以缩小L STM和最近引入的门极递归单元(GRU)在某些任务(但不是所有任务)上的差距。 状态正则化递归神经网络
结果表明,状态正则化简化了有限状态自动机的提取,并对RNN的状态转移动力学进行了建模,迫使RNN的操作更像带有外部存储器的自动机,而不像有限状态机,这使得RNNs具有更好的可解释性和可解释性。 通用变压器
提出了通用变压器(UT),它是一种并行时间自关注递归序列模型,可以作为变压器模型的推广,解决了可并行性和全局接受场的问题。 递归神经模型的记忆特性
研究两种常用门控单元的记忆特性:长短期记忆(LSTM)和门控递归单元(GRU),它们被用于递归神经网络(RNN),以在多个机器学习任务中实现最先进的性能,发现任务性能惊人地独立于网络深度和连接架构。 可逆递归神经网络
这项工作表明,完全可逆的RNN(不需要存储隐藏的激活)基本上是有限的,并提供了一种存储少量比特的方案,以允许遗忘的完美反转。 神经编程解释器
提出了神经程序解释器(NPI),这是一种递归组合神经网络,它学习表示和执行程序,并能够学习几种类型的组合程序:添加、排序和规范化三维模型。 增量序列学习
在序列学习的背景下考察增量学习,使用多层递归混合密度网络形式的生成性RNN发现与从头开始学习分类的方法相比,转移学习实现了更好的分类性能。 用于实时神经程序生成的门限快速权重
这项工作改进了以前的具有快速权重记忆的端到端可微神经网络,并通过一个实验将其与元学习联系起来,该实验显示了慢速权重如何学习在线学习程序,该程序可以生成能够回答一组查询的较小程序。 基于神经网络的序列到序列学习
本文提出了一种通用的端到端序列学习方法,该方法对序列结构做了最少的假设,并发现颠倒所有源语句中单词的顺序显著提高了LSTM的性能,因为这样做在源句子和目标句子之间引入了许多短期依赖,使得优化问题变得更容易。 递归神经网络的训练
描述了一种新的概率序列模型,该模型结合了受限Boltzmann机器和RNN,比类似模型更强大,但训练难度较小,并且描述了一个随机参数初始化方案,该方案允许带动量的梯度下降来训练RNNs处理长期依赖的问题。 发条式RNN
本文介绍了对简单RNN体系结构的一种简单而强大的修改,即Clockwork RNN(CW-RNN),其中隐藏层被划分为单独的模块,每个模块以自己的时间粒度处理输入,仅以指定的时钟速率进行计算。 如何构造深度递归神经网络
提出了两种新的深层RNN结构,这两种结构与之前尝试堆叠多个递归层以构建深层RNN的尝试正交,并使用基于神经算子的新框架提供了另一种解释。 长短期存储器
介绍了一种新的、高效的、基于梯度的方法,称为长短期记忆(LSTM),它可以通过在特定单元内的恒定误差转盘强制执行恒定误差流,从而学会消除超过1000个离散时间步的最小时滞。 递归网络优化研究进展
这里报道的实验评估了剪切梯度的使用,通过泄漏积分跨越更长的时间范围,先进的动量技术,使用更强大的输出概率模型,鼓励更稀疏的梯度来帮助对称破缺和信用分配。 课程学习
假设课程学习对训练过程收敛到最小的速度和获得的局部极小值的质量都有影响:课程学习可以被视为一种特殊形式的延续方法(非凸函数全局优化的一般策略)。 删除改进了用于手写识别的递归神经网络
结果表明,即使网络主要由循环连接和共享连接组成,使用丢弃(最近提出的一种用于深层结构的正则化方法)也可以大大改进具有长-短记忆单元的RNN。