×

适配器QN

swMATH ID: 44504
软件作者: 尼蒂什·谢里什·凯斯卡(Nitish Shirish Keskar)、阿尔伯特·S·贝拉哈斯(Albert S.Berahas)
描述: adaQN:用于训练RNN的自适应准Newton算法。递归神经网络(RNN)是一种强大的模型,可以在几个模式识别问题上获得优异的性能。然而,由于众所周知的“消失/爆炸”梯度问题,RNN的训练是一项计算困难的任务。提出的用于训练RNN的算法要么利用无曲率信息(或有限曲率信息),要么具有廉价的迭代复杂性,要么试图以增加的迭代成本为代价获得显著的曲率信息。前者包括对角尺度的一阶方法,如ADAGRAD和ADAM,后者包括二阶算法,如Hessian-Free Newton和K-FAC。本文提出了一种用于训练RNN的随机拟Newton算法adaQN。我们的方法保留了较低的迭代成本,同时允许通过随机L-BFGS更新方案进行非对角缩放。该方法使用了一种新的L-BFGS缩放初始化方案,在存储和保留L-BFGS-曲率对方面非常明智。我们在两种语言建模任务上进行了数值实验,表明adaQN与流行的RNN训练算法具有竞争力。
主页: https://arxiv.org/abs/1511.01169
源代码:  https://github.com/david-cortes/stochQN
关键词: 机器学习;arXiv_cs。LG公司;优化和控制;arXiv_路径。OC公司;arXiv_状态ML;循环神经网络;注册护士编号
相关软件: 传奇;L-BFGS公司;索尼亚;阿达格拉德;亚当;阿达德尔塔;新加坡元-QN;制动辅助系统;伦敦银行支持向量机;CIFAR公司;CUTEst公司;LDGB公司;菲尼托;MNIST公司
引用于: 5文件

按年份列出的引文