• 语料库ID:12730022

学习执行

@文章{Zaremba2014LearningTE,title={学习执行},author={Wojciech Zaremba和Ilya Sutskever},期刊={ArXiv},年份={2014},体积={abs/1410.4615},url={https://api.sympicscholar.org/CorpusID:12730022}}
这项工作开发了一种新的课程学习变体,改进了网络在所有实验条件下的性能,并对加法问题产生了巨大影响,使得LSTM能够以99%的准确率将两个9位数相加。

本文中的数字

递归网络体系结构的实证研究

研究发现,在LSTM的遗忘门上增加1的偏差,可以缩小L STM和最近引入的门极递归单元(GRU)在某些任务(但不是所有任务)上的差距。

用于序列学习的递归神经网络述评

本次调查的目的是对递归神经网络的发展现状进行一个完整的解释,并提供一个历史视角和对主要研究的参考。

状态正则化递归神经网络

结果表明,状态正则化简化了有限状态自动机的提取,并对RNN的状态转移动力学进行了建模,迫使RNN的操作更像带有外部存储器的自动机,而不像有限状态机,这使得RNNs具有更好的可解释性和可解释性。

通用变压器

提出了通用变压器(UT),它是一种并行时间自关注递归序列模型,可以作为变压器模型的推广,解决了可并行性和全局接受场的问题。

递归神经模型的记忆特性

研究两种常用门控单元的记忆特性:长短期记忆(LSTM)和门控递归单元(GRU),它们被用于递归神经网络(RNN),以在多个机器学习任务中实现最先进的性能,发现任务性能惊人地独立于网络深度和连接架构。

状态正则化递归神经网络提取自动机并解释预测

结果表明,状态正则化简化了显示RNN状态转移动态的有限状态自动机的提取,并迫使RNN更像具有外部存储器的自动机,而不像有限状态机,这可能导致更具结构的存储器。

可逆递归神经网络

这项工作表明,完全可逆的RNN(不需要存储隐藏的激活)基本上是有限的,并提供了一种存储少量比特的方案,以允许遗忘的完美反转。

神经编程解释器

提出了神经程序解释器(NPI),这是一种递归组合神经网络,它学习表示和执行程序,并能够学习几种类型的组合程序:添加、排序和规范化三维模型。

增量序列学习

在序列学习的背景下考察增量学习,使用多层递归混合密度网络形式的生成性RNN发现与从头开始学习分类的方法相比,转移学习实现了更好的分类性能。

用于实时神经程序生成的门限快速权重

这项工作改进了以前的具有快速权重记忆的端到端可微神经网络,并通过一个实验将其与元学习联系起来,该实验显示了慢速权重如何学习在线学习程序,该程序可以生成能够回答一组查询的较小程序。
...

基于神经网络的序列到序列学习

本文提出了一种通用的端到端序列学习方法,该方法对序列结构做了最少的假设,并发现颠倒所有源语句中单词的顺序显著提高了LSTM的性能,因为这样做在源句子和目标句子之间引入了许多短期依赖,使得优化问题变得更容易。

递归神经网络的训练

描述了一种新的概率序列模型,该模型结合了受限Boltzmann机器和RNN,比类似模型更强大,但训练难度较小,并且描述了一个随机参数初始化方案,该方案允许带动量的梯度下降来训练RNNs处理长期依赖的问题。

基于深度递归神经网络的语音识别

本文研究深度递归神经网络,它将在深度网络中证明非常有效的多层表示与支持RNN的远程上下文的灵活使用相结合。

发条式RNN

本文介绍了对简单RNN体系结构的一种简单而强大的修改,即Clockwork RNN(CW-RNN),其中隐藏层被划分为单独的模块,每个模块以自己的时间粒度处理输入,仅以指定的时钟速率进行计算。

如何构造深度递归神经网络

提出了两种新的深层RNN结构,这两种结构与之前尝试堆叠多个递归层以构建深层RNN的尝试正交,并使用基于神经算子的新框架提供了另一种解释。

长短期存储器

介绍了一种新的、高效的、基于梯度的方法,称为长短期记忆(LSTM),它可以通过在特定单元内的恒定误差转盘强制执行恒定误差流,从而学会消除超过1000个离散时间步的最小时滞。

递归网络优化研究进展

这里报道的实验评估了剪切梯度的使用,通过泄漏积分跨越更长的时间范围,先进的动量技术,使用更强大的输出概率模型,鼓励更稀疏的梯度来帮助对称破缺和信用分配。

基于递归神经网络的语言模型

结果表明,与最先进的退避语言模型相比,使用多个RNN LM的混合可以减少大约50%的困惑。

课程学习

假设课程学习对训练过程收敛到最小的速度和获得的局部极小值的质量都有影响:课程学习可以被视为一种特殊形式的延续方法(非凸函数全局优化的一般策略)。

删除改进了用于手写识别的递归神经网络

结果表明,即使网络主要由循环连接和共享连接组成,使用丢弃(最近提出的一种用于深层结构的正则化方法)也可以大大改进具有长-短记忆单元的RNN。