×

弱凸凹极小极大优化:可证明算法及其在机器学习中的应用。 (英语) Zbl 1502.90194号

摘要:Min-max问题在机器学习中有着广泛的应用,包括具有不可分解损失的学习和对数据分布具有鲁棒性的学习。凸凹极小极大问题是一个活跃的研究课题,有着有效的算法和良好的理论基础。然而,对于具有或不具有光滑性的非凸min-max问题,设计可证明有效的算法仍然是一个挑战。本文研究了一类非凸min-max问题,其目标函数在最小化变量中为弱凸,在最大化变量中为凹。对于这类问题中的非光滑和光滑实例,我们分别提出了一种近似引导的随机次梯度方法和一种近似诱导的随机方差缩减方法。我们分析了所提出的方法的时间复杂性,这些方法用于寻找与最小-最大问题相对应的外部最小化问题的几乎平稳点。

MSC公司:

90立方厘米 数学规划中的极小极大问题
90C26型 非凸编程,全局优化
90立方厘米 随机规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Allen-Zhu,Z.,Natasha:《通过强非凸参数实现更快的非凸随机优化》,第34届国际机器学习会议论文集,2017年,第89-97页。
[2] Allen-Zu,Z.和Hazan,E.,《快速非凸优化的方差缩减》,第33届机器学习国际会议论文集,2016年,第699-707页。
[3] Bennett,C。;Sharpley,R.,算子插值(1988),爱思唯尔科学·Zbl 0647.46057号
[4] Boţ,R.I.和Böhm,A.,(随机)非凸极小极大问题的交替近似粒度步骤,预印本(2020)。网址:arXiv:2007.13605。
[5] Chen,R.S.、Lucier,B.、Singer,Y.和Syrgkanis,V.,非凸目标稳健优化,神经信息处理系统30(NIPS)进展,2017年,第4705-4714页。
[6] Chen,Z.、Yuan,Z..、Yi,J.、Zhou,B.、Chen,E.和Yang,T.,关于平均解收敛的非凸问题的通用分段学习,预印本(2018)。可从arXiv:1808.06296获取。
[7] Davis,D.和Drusvyatskiy,D.,随机寻找凸函数近平稳点的复杂性,预印本(2018)。可从arXiv:1802.08556获取。
[8] Davis,D.和Drusvyatskiy,D.,随机次梯度方法在弱凸函数上以\(####\)的速率收敛,预印本(2018)。可从arXiv:1802.02988获取。
[9] Davis,D。;Drusvyatskiy,D.,基于随机模型的弱凸函数最小化,SIAM J.Optim。,29, 207-239 (2019) ·Zbl 1415.65136号
[10] Davis,D。;Grimmer,B.,非光滑、非凸问题的近导随机次梯度方法,SIAM。J.Optim。,29, 1908-1930 (2019) ·兹比尔1431.65084
[11] Dekel,O.和Singer,Y.,《预算支持向量机》,NIPS,2006年,第345-352页。
[12] Drusvyatskiy,D.,《重新审视近点法》,预印本(2017年)。可从arXiv:1712.06038获取。
[13] Drusvyatskiy,D。;Paquette,C.,最小化凸函数和光滑映射组合的效率,数学。程序。,178, 503-558 (2019) ·Zbl 1431.90111号
[14] Fan,Y.、Lyu,S.、Ying,Y.和Hu,B.,《平均Top-k损失学习,神经信息处理系统(NIPS)进展》。2017年,第497-505页。
[15] 加迪米,S。;Lan,G.,非凸随机规划的随机一阶和零阶方法,SIAM J.Optim。,23, 2341-2368 (2013) ·Zbl 1295.90026号
[16] 加迪米,S。;Lan,G.,非凸非线性随机规划的加速梯度法,数学。程序。,156, 59-99 (2016) ·Zbl 1335.62121号
[17] He,K.,Zhang,X.,Ren,S.和Sun,J.,图像识别的深度剩余学习,IEEE计算机视觉和模式识别会议论文集,2016年,第770-778页。
[18] Lan,G.和Yang,Y.,非凸有限和和多块优化的加速随机算法,预印本(2018)。CoRR abs/1805.05411提供。
[19] Lin,T.,Jin,C.和Jordan,M.I.,《关于非凸凹Minimax问题的梯度下降上升》,机器学习国际会议(ICML),2020年。
[20] Lin,Q.,Ma,R.和Yang,T.,有限和约束凸优化的水平集方法,机器学习国际会议,2018年,第3118-3127页。
[21] Loh,P.L.,高维稳健m-估计量的统计一致性和渐近正态性,Ann.Stat.,45866-896(2017)·Zbl 1371.62023号 ·doi:10.1214/16-AOS1471
[22] Lu,S.,Tsaknakis,I.和Hong,M.,非凸min-max问题的块交替优化:信号处理和通信中的算法和应用,IEEE声学、语音和信号处理国际会议(ICASSP)论文集,2019年。
[23] Lu,S.,Tsaknakis,I.,Hong,M.和Chen,Y.,单侧非凸min-max问题的混合块逐次逼近:算法和应用,IEEE信号处理学报,2020年·Zbl 07590992号
[24] Madry,A.、Makelov,A.、Schmidt,L.、Tsipras,D.和Vladu,A.,《建立抵抗对抗性攻击的深度学习模型》,预印本(2017)。可从arXiv:1706.06083获取。
[25] Namkoong,H.和Duchi,J.C.,基于方差的凸目标正则化,神经信息处理系统(NIPS)进展,2017年,第2975-2984页·Zbl 1489.62193号
[26] 涅米罗夫斯基,A。;朱迪茨基,A。;兰·G。;Shapiro,A.,随机规划的稳健随机近似方法,SIAM。J.Optim。,19, 1574-1609 (2009) ·Zbl 1189.90109号
[27] Nouiehed,M.、Sanjabi,M.、Huang,T.、Lee,J.D.和Razaviyayn,M.,使用迭代一阶方法求解一类非凸最小-最大对策,《神经信息处理系统进展》,2019,第14934-14942页。
[28] Palaniappan,B.和Bach,F.,鞍点问题的随机方差缩减方法,神经信息处理系统进展,2016年,第1408-1416页。
[29] Paquette,C.、Lin,H.、Drusvyatskiy,D.、Mairal,J.和Harchaoui,Z.,基于梯度的非凸优化催化剂,国际人工智能与统计会议,2018年,第613-622页。
[30] Qian,Q.,Zhu,S.,Tang,J.,Jin,R.,Sun,B.,Li,H.,多域鲁棒优化,AAAI人工智能会议论文集,2019年第33卷,第4739-4746页。
[31] Reddi,S.J.、Hefny,A.、Sra,S.、PóczóS,B.和Smola,A.,非凸优化的随机方差减少,第33届国际机器学习会议(ICML)会议记录,2016年,第314-323页。可从JMLR.org获取。
[32] Reddi,S.J.、Sra,S.、Póczos,B.和Smola,A.J.,平滑非凸优化的快速增量方法,第55届IEEE决策与控制会议(CDC),2016年,第1971-1977页。
[33] Rockafellar,R.T.,《单调算子和近点算法》,SIAM J.on Control and Optim。,14 (1976) ·兹比尔0358.90053
[34] Shalev-Shwartz,S.和Wexler,Y.,《最小化最大损失:如何和为什么》,第33届机器学习国际会议论文集,2016年6月19日至24日,美国纽约市,ICML 2016。2016年,第793-801页。可在http://jmlr.org/proceedings/papers/v48/shalev-shwartzb16.html。
[35] Shi,Z.,Zhang,X.和Yu,Y.,《随机方差减少的Bregman散度:鞍点和对抗性预测》,神经信息处理系统进展,2017年,第6031-6041页。
[36] Simonyan,K.和Zisserman,A.,《用于大规模图像识别的极深卷积网络》,预印本(2014)。可从arXiv:1409.1556获取。
[37] Sinha,A.、Namkoong,H.、Volpi,R.和Duchi,J.,《通过原则性对抗训练证明某些分布稳健性》,预印本(2017年)。可从arXiv:1710.10571获取。
[38] Thekumparampil,K.K.,Jain,P.,Netrapalli,P.和Oh,S.,平滑极大极小优化的高效算法,神经信息处理系统进展,2019年,第12680-12691页。
[39] Xu,Y.、Zhu,S.、Yang,S.,Zhang,C.、Jin,R.和Yang,T.,通过SGD学习非凸截断损失,人工智能中的不确定性,PMLR,2020年,第701-711页。
[40] Yang,T.,Lin,Q.,and Li,Z.,凸优化和非凸优化随机动量方法的统一收敛性分析,预印本(2016)。arXiv:1604.03257。
[41] Zhang,S.和He,N.,关于非光滑非凸优化的随机镜像下降收敛速度,预印本(2018)。可从arXiv:1806.04781获取。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。