倾斜赛场:机器学习的动态损失函数

米格尔·鲁伊兹·加西亚(Miguel Ruiz-Garcia)、葛章(Ge Zhang)、塞缪尔·肖恩霍尔茨(Samuel S Schoenholz)、安德烈亚·刘(Andrea J.Liu)
第38届机器学习国际会议论文集,PMLR 139:9157-91672021年。

摘要

我们表明,通过使用在训练期间循环演变的损失函数,每次强调一节课,可以改进学习。在低参数网络中,对于无法找到标准交叉熵损失的深度极小值的网络,这种动态损失函数可以导致成功的训练。在超参数网络中,动态损失函数可以导致更好的泛化。随着系统的发展,不断变化的损失格局与系统的动态相互作用,从而将损失降至最低,从而带来了改善。特别是,当损失函数振荡时,不稳定性以分叉级联的形式发展,我们使用Hessian核和神经切线核进行了研究。景观中的山谷在一个周期内随着景观的变化而变宽和加深,然后变窄和上升。随着地形变窄,学习率变得过大,网络变得不稳定,并在山谷中反弹。这一过程最终将系统推向损失景观的更深更广的区域,其特征是黑森特征值降低。这导致更好的正则化模型具有更好的泛化性能。

引用本文


BibTeX公司
@在诉讼中{pmlr-v139-ruiz-garcia21a,title={倾斜球场:机器学习的动态损失函数},作者={Ruiz Garcia,Miguel和Zhang,Ge和Schoenholz,Samuel S和Liu,Andrea J.},booktitle={第38届机器学习国际会议论文集},页码={9157--9167},年份={2021},editor={Meila,Marina和Zhang,Tong},体积={139},series={机器学习研究论文集},月={7月18日至24日},publisher={PMLR},pdf={http://processes.mlr.press/v139/ruiz-garcia21a/ruiz-garcia21a.pdf},url={https://procedures.mlr.press/v139/ruiz-garcia21a.html},抽象={我们表明,通过使用在训练过程中循环演化的损失函数,一次强调一个类,可以改进学习。在低参数网络中,这种动态损失函数可以成功地训练那些未能找到标准交叉熵损失深度极小值的网络。在高参数网络中损失函数可以导致更好的泛化。随着系统的发展,不断变化的损失格局与系统的动态相互作用,从而将损失降至最低,从而带来了改善。特别是,当损失函数振荡时,不稳定性以分叉级联的形式发展,我们使用Hessian和神经切线核进行研究。景观中的山谷在一个周期内随着景观的变化而变宽和加深,然后变窄和上升。随着地形变窄,学习率变得过大,网络变得不稳定,并在山谷中反弹。这一过程最终将系统推向损失景观的更深更广的区域,其特征是黑森特征值降低。这会产生更好的正则化模型,并提高泛化性能。}}
尾注
%0会议论文%倾斜赛场:机器学习的动态损失函数%米盖尔·鲁伊斯·加西亚%阿格章%塞缪尔·肖恩霍尔茨%A Andrea J.刘%第38届机器学习国际会议论文集%C机器学习研究论文集%D 2021年%E玛丽娜·梅拉%E Tong Zhang先生%F pmlr-v139-ruiz-garcia21a型%我PMLR%电话:9157-9167%U型https://proceedings.mlr.press/v139/ruiz-garcia21a.html%139伏%X我们表明,通过使用在训练期间循环演变的损失函数,每次强调一节课,可以改进学习。在低参数网络中,对于无法找到标准交叉熵损失的深度极小值的网络,这种动态损失函数可以导致成功的训练。在超参数网络中,动态损失函数可以导致更好的泛化。随着系统的发展,不断变化的损失格局与系统的动态相互作用,从而将损失降至最低,从而带来了改善。特别是,当损失函数振荡时,不稳定性以分叉级联的形式发展,我们使用Hessian核和神经切线核进行了研究。景观中的山谷在一个周期内随着景观的变化而变宽和加深,然后变窄和上升。随着景观的缩小,学习率变得太大,网络变得不稳定,并在山谷中反弹。这一过程最终将系统推向损失景观的更深更广的区域,其特征是黑森特征值降低。这导致了具有改进的泛化性能的更好的正则化模型。
亚太地区
Ruiz-Garcia,M.、Zhang,G.、Schoenholz,S.S.和Liu,A.J.(2021)。倾斜赛场:机器学习的动态损失函数。第38届机器学习国际会议论文集,英寸机器学习研究进展139:9157-9167可从https://proceedings.mlr.press/v139/ruiz-garcia21a.html。

相关材料