适配器QN swMATH ID: 44504 软件作者: 尼蒂什·谢里什·凯斯卡(Nitish Shirish Keskar)、阿尔伯特·S·贝拉哈斯(Albert S.Berahas) 描述: adaQN:用于训练RNN的自适应准Newton算法。递归神经网络(RNN)是一种强大的模型,可以在几个模式识别问题上获得优异的性能。然而,由于众所周知的“消失/爆炸”梯度问题,RNN的训练是一项计算困难的任务。提出的用于训练RNN的算法要么利用无曲率信息(或有限曲率信息),要么具有廉价的迭代复杂性,要么试图以增加的迭代成本为代价获得显著的曲率信息。前者包括对角尺度的一阶方法,如ADAGRAD和ADAM,后者包括二阶算法,如Hessian-Free Newton和K-FAC。本文提出了一种用于训练RNN的随机拟Newton算法adaQN。我们的方法保留了较低的迭代成本,同时允许通过随机L-BFGS更新方案进行非对角缩放。该方法使用了一种新的L-BFGS缩放初始化方案,在存储和保留L-BFGS-曲率对方面非常明智。我们在两种语言建模任务上进行了数值实验,表明adaQN与流行的RNN训练算法具有竞争力。 主页: https://arxiv.org/abs/1511.01169 源代码: https://github.com/david-cortes/stochQN 关键词: 机器学习;arXiv_cs。LG公司;优化和控制;arXiv_路径。OC公司;arXiv_状态ML;循环神经网络;注册护士编号 相关软件: 传奇;L-BFGS公司;索尼亚;阿达格拉德;亚当;阿达德尔塔;新加坡元-QN;制动辅助系统;伦敦银行支持向量机;CIFAR公司;CUTEst公司;LDGB公司;菲尼托;MNIST公司 引用于: 5文件 全部的 前5名16位作者引用 2 阿尔伯特·S·贝拉哈斯。 1 Frank E.柯蒂斯。 1 马克·艾森 1 弗洛里安·弗罗姆莱特 1 郭天德 1 韩聪颖 1 阿利亚克桑德·湖滨 1 马吉德·贾哈尼 1 乔恩·拉赫曼 1 刘燕 1 雅利安莫赫塔里 1 亚历杭德罗·里贝罗。 1 彼得·里奇塔里克 1 盖尔·奥尔夫·斯托维克 1 马丁·塔卡 1 周宝玉 5篇连载文章中引用 1 国际近似推理杂志 1 数学编程。A系列B系列 1 SIAM优化杂志 1 优化方法和软件 1 中国运筹学会学报 在4个字段中引用 4 运筹学、数学编程(90-XX) 2 数值分析(65-XX) 1 变分法与最优控制;最优化(49-XX) 1 计算机科学(68至XX) 按年份列出的引文