阳极 swMATH ID: 44201 软件作者: Amir Ghoma、Kurt Keutzer、George Biros 描述: ANODE:神经常微分方程的无条件精确记忆有效梯度。残差神经网络可以看作是单位时间步长的常微分方程(ODE)的正向欧拉离散化。最近,这促使研究人员探索其他离散化方法并训练基于ODE的网络。然而,神经ODE的一个重要挑战是在梯度反向传播过程中其高昂的存储成本。最近,[8]中提出的一种方法声称,这种内存开销可以从O(LN_t)(其中N_t是时间步数)减少到O(L)(通过向后求解正向ODE,其中L是网络的深度)。然而,我们将表明这种方法可能会导致几个问题:(i)对于ReLU/非ReLU激活和一般卷积算子,其数值可能不稳定,并且(ii)由于小时间步长的梯度不一致,所提出的优化离散方法可能导致发散训练。我们讨论了潜在的问题,为了解决这些问题,我们提出了ANODE,一种基于伴随的神经ODE框架,它避免了上述与数值不稳定性相关的问题,并提供了无条件精确的梯度。阳极的内存占用为O(L)+O(N_t),与反向ODE求解的计算成本相同。此外,我们还讨论了一种节省内存的算法,该算法可以在权衡额外计算成本的情况下进一步减少这种占用空间。我们使用ResNet和SqueezeNext神经网络在Cifar-10/100数据集上显示了结果。 主页: https://arxiv.org/abs/1902.10298 源代码: https://github.com/amirgholami/anode 依赖项: 蟒蛇 关键词: 机器学习;arXiv_cs。LG公司;神经ODE 相关软件: 火炬差异;AlexNet公司;ImageNet公司;阳极;掌中宽带;亚当;DGM公司;CIFAR公司;深度愚人;github;时尚GAN;i-RevNet公司;PyTorch公司;SOCS系统;科恩平滑;贝叶斯DA;Wasserstein甘;SINDy公司;hp虚拟专用网络;数据包 引用于: 11文件 全部的 前5名44位作者引用 2 埃琳娜·塞莱多尼 2 埃哈特,马蒂亚斯·约阿希姆 2 布伦朱尔夫·奥雷恩 2 卡罗拉·比比安·施恩利布 1 鲍成龙 1 吉尔·本·沙洛姆 1 伊多·本·耶尔 1 马丁·本宁 1 史蒂文·布鲁顿。 1 伯特兰·查普伦 1 织物领 1 Emil M.康斯坦丁斯库。 1 达斯,萨拉特·钱德拉 1 董斌 1 菲利普·艾奇梅尔 1 莫舍·埃利亚索夫 1 克里斯蒂安·埃特曼 1 罗南·法布雷特 1 Lucile Gaultier公司 1 埃尔达·哈伯 1 纳撒尼尔·P·汉密尔顿。 1 约瑟夫·哈特。 1 泰勒·T·约翰逊。 1 郭伟萌 1 基根·伦辛克 1 丹尼尔·利希特内克尔 1 迭戈·曼扎纳斯·洛佩兹 1 罗伯特·麦克拉克伦。 1 帕特里克·穆索 1 卡林·纳奇巴格尔 1 伊丽莎白·纽曼 1 赛义德·瓦拉 1 阿南达·帕斯卡尔 1 贝斯·彼得斯 1 丹尼尔·里克森。 1 拉斯·鲁索托 1 费迪亚·雪莉 1 石左强 1 巴里·史密斯。 1 乔治·斯特里夫塔利斯 1 埃兰·特里斯特 1 瓦德斯、巴特·范·布洛曼 1 张红 1 张跃进 全部的 前5名8篇连载文章中引用 2 SIAM科学计算杂志 2 数学科学研究 1 物理D 1 欧洲应用数学杂志 1 多体系统动力学 1 统计与计算 1 计算动力学杂志 1 SIAM数据科学数学杂志 全部的 前5名在8个字段中引用 9 计算机科学(68-XX) 4 变异微积分和最优控制;最优化(49-XX) 4 数值分析(65-XX) 1 动力系统和遍历理论(37至XX) 1 统计学(62-XX) 1 粒子和系统力学(70-XX) 1 地球物理学(86-XX) 1 信息与通信理论、电路(94-XX) 按年份列出的引文