熵SGD

熵SGD:偏向梯度下降到宽山谷。本文提出了一种新的优化算法熵SGD,用于训练受能量景观局部几何激励的深层神经网络。具有低泛化误差的局部极值具有很大比例的几乎为零的特征值,只有很少的正或负特征值。我们利用这一观察结果构建了一个基于局部熵的目标函数,该目标函数有利于能量景观中大面积平坦区域的可推广解,同时避免位于尖锐山谷中的不可概化解。从概念上讲,我们的算法类似于SGD的两个嵌套循环,我们在内部循环中使用Langevin动力学来计算每次更新权重之前的局部熵梯度。我们证明了在一定的假设下,新的目标具有更平滑的能量景观,并且在一致稳定性的情况下比SGD具有更好的泛化能力。我们在卷积和递归网络上的实验表明,在泛化误差和训练时间方面,熵SGD与最先进的技术相比有优势。


参考文献中的数学20条,1标准件)

显示第1到第20个结果,共20个。
按年份排序(引用)

  1. 巴斯克维尔,尼古拉斯P。;基廷,乔纳森P。;夹层,弗朗西斯科;Najnudel,Joseph:生成性对抗网络的损失面模型(2022)
  2. 鲁丁,辛西亚;陈超凡;陈志;黄海阳;西米诺娃,莱西亚;钟楚迪:可解释机器学习:基本原理与十大挑战(2022)
  3. 乔杜里,萨彦丹;杜塔,安康;来自量子神经网络的混沌与复杂性。机器学习中扩散度量的研究(2021)
  4. Cooper,Yaim:过参数化神经网络的全局最小值(2021)
  5. 达本,杰罗姆;Langlois,Gabriel P.:关于成像科学中的贝叶斯后验平均估计和Hamilton-Jacobi偏微分方程(2021)
  6. 莫利托,德纳利;尼德尔,迪安娜;沃德,瑞秋:铰链损失的同伦梯度下降的偏差(2021年)
  7. 皮托里诺,法布里齐奥;卢西贝罗,卡罗;费诺尔,克里斯托夫;佩鲁吉尼,加布里埃尔;巴尔达西,卡罗;德米亚年科,伊丽莎维塔;Zecchina,Riccardo:熵梯度下降算法和宽平坦最小值(2021)
  8. 戈尔德,塞巴斯蒂安;阿德瓦尼,Madhu S。;萨克斯,安德鲁M。;克尔扎卡拉,弗洛伦特;Zdeborová,Lenka:师生设置中两层神经网络的随机梯度下降动力学*(2020)
  9. 刘海亮;Markowich,Peter:深度神经网络的选择动力学(2020)
  10. 孙若玉:深度学习的优化:综述(2020)
  11. 张丽安;谢弗,海登:ResNet及其变体的前向稳定性(2020)
  12. 本杰明·奥宾;梅拉德,安托万;巴比尔,琼;克尔扎卡拉,弗洛伦特;麦克里斯,尼古拉斯;Zdeborová,Lenka:委员会机器:学习两层神经网络的计算到统计差距(2019)
  13. 可恶的耶稣,马可;萨贡,莱文;盖革,马里奥;斯皮格勒,斯特凡诺;本·阿沃斯,杰拉德;卡马洛塔,恰拉;乐坤,雅恩;怀亚特,马修;Biroli,Giulio:比较动力学:深层神经网络与玻璃系统(2019)
  14. 普拉蒂克乔达里;乔罗曼斯卡,安娜;索阿托,斯特凡诺;乐坤,雅恩;卡洛,巴尔达西;博格斯,基督徒;查耶斯,詹妮弗;萨贡,莱文;Zecchina,Riccardo:熵SGD:偏向梯度下降到宽山谷(2019)
  15. 陈一凡;孙月娇;Yin,Wotao:R-局部极小的非凸优化和全局最优性界的运行检验方法(2019)
  16. 希尔,米奇;尼杰坎普,埃里克;朱松春:建造望远镜来观察高维图像空间(2019)
  17. 科瓦奇基,尼古拉B。;Stuart,Andrew M.:集合卡尔曼反演:机器学习任务的无导数技术(2019)
  18. 阿奇尔,亚历山德罗;Soatto,Stefano:深层表征中不变性和分离的出现(2018)
  19. 普拉蒂克乔达里;欧伯曼,亚当;史丹利,奥舍;索阿托,斯特凡诺;Carlier,Guillaume:深度松弛:用于优化深层神经网络的偏微分方程(2018)
  20. 尹鹏航;范明明;欧伯曼,亚当;Osher,Stanley:随机后向Euler:隐式梯度下降算法(k)-均值聚类(2018)