倾斜赛场:机器学习的动态损失函数
米格尔·鲁伊兹·加西亚(Miguel Ruiz-Garcia)、葛章(Ge Zhang)、塞缪尔·肖恩霍尔茨(Samuel S Schoenholz)、安德烈亚·刘(Andrea J.Liu)
第38届机器学习国际会议论文集,PMLR 139:9157-91672021年。
摘要
我们表明,通过使用在训练期间循环演变的损失函数,每次强调一节课,可以改进学习。在低参数网络中,对于无法找到标准交叉熵损失的深度极小值的网络,这种动态损失函数可以导致成功的训练。在超参数网络中,动态损失函数可以导致更好的泛化。随着系统的发展,不断变化的损失格局与系统的动态相互作用,从而将损失降至最低,从而带来了改善。特别是,当损失函数振荡时,不稳定性以分叉级联的形式发展,我们使用Hessian核和神经切线核进行了研究。景观中的山谷在一个周期内随着景观的变化而变宽和加深,然后变窄和上升。随着地形变窄,学习率变得过大,网络变得不稳定,并在山谷中反弹。这一过程最终将系统推向损失景观的更深更广的区域,其特征是黑森特征值降低。这导致更好的正则化模型具有更好的泛化性能。
引用本文
相关材料