Böhm,阿克塞尔;迈克尔·塞德迈耶;埃诺·罗伯特·塞特内克;拉杜·伊昂·波 用曾氏的方法,一次两步完成GAN训练。 (英语) Zbl 1492.65175号 SIAM J.数学。数据科学。 4,编号2,750-771(2022). 摘要:受生成对抗网络(GAN)训练的启发,我们研究了使用附加非光滑正则化子求解极小极大问题的方法。我们通过雇佣单调算子理论,尤其是前后向前方法,该方法通过第二次梯度评估来纠正每次更新,避免了已知的极限循环问题,并且与存在约束的外梯度方法相比,这样做需要更少的投影步骤。此外,我们提出了一个看似新的方案,它回收了旧的梯度以减少额外的计算开销。在这样做的过程中,我们重新发现了一种已知的方法,与乐观梯度下降上升对于这两种方案,我们通过统一的方法证明了凸凹极小极大问题的新的收敛速度。导出的误差边界是根据遍历迭代的间隙函数得出的。对于确定性问题和随机问题,我们分别给出了(mathcal{O}(1/k))和(mathcal{O}(1/sqrt{k}))的收敛速度。我们通过在CIFAR10数据集上训练Wasserstein GAN的经验改进来补充我们的理论结果。 引用于6文件 理学硕士: 65K15码 变分不等式及相关问题的数值方法 90立方厘米15 随机规划 90立方厘米 数学规划中的极小极大问题 关键词:极小极大值;凸凹;随机梯度;GAN公司 软件:Wasserstein甘 PDF格式BibTeX公司 XML格式引用 \textit{A.Böhm}等人,SIAM J.数学。数据科学。4,编号2,750--771(2022;Zbl 1492.65175) 全文: 内政部 arXiv公司 参考文献: [1] M.Arjovsky,S.Chintala和L.Bottou,Wasserstein GAN,arXiv:1701.078752017年。 [2] F.Bach,《用凸神经网络打破维度诅咒》,J.Mach。学习。第18号决议(2017年),第629-681页·Zbl 1433.68390号 [3] S.Barratt和R.Sharma,《关于初始得分的注释》,arXiv:1801.01973,2018年。 [4] H.H.Bauschke和P.L.Combettes,Hilbert空间中的凸分析和单调算子理论,CMS图书数学/Ouvrages数学。SMC 408,施普林格,查姆,2011年·Zbl 1218.47001号 [5] Y.Bengio、N.L.Roux、P.Vincent、O.Delalleau和P.Marcotte,凸神经网络,《神经信息处理系统进展》,2006年,第123-130页。 [6] R.I.Boţ、P.Mertikopoulos、M.Staudigl和P.T.Vuong,求解随机变分不等式的微型分批前向-后向-前向方法,Stoch。系统。,11(2021年),第112-139页·Zbl 1489.90195号 [7] R.I.Boţ、M.Sedlmayer和P.T.Vuong,解决单调包含的松弛惯性前向-后向-前向算法及其在GAN中的应用,arXiv:2003.078862020。 [8] T.Chavdarova、G.Gidel、F.Fleuret和S.Lacoste-Julien,用方差减少的外梯度降低GAN训练中的噪音,《神经信息处理系统进展》,2019年,第391-401页。 [9] T.Chavdarova、M.Pagliardini、S.U.Stich、F.Fleuret和M.Jaggi,《用Lookahead-Minmax驯服GANs》,预印本,arXiv:2006.145672020年。 [10] E.R.Csetnek,Y.Malitsky,and M.K.Tam,Shadow Douglas-Rachford spliting for monotone inclusions,应用。数学。最佳。,80(2019年),第665-678页·Zbl 1447.47051号 [11] C.Daskalakis、A.Ilyas、V.Syrgkanis和H.Zeng,乐观训练GAN,2018年国际学习代表大会,https://openreview.net/forum?id=SJJySbbAZ。 [12] C.Daskalakis和I.Panageas,《min-max优化中(乐观)梯度下降的极限点》,《神经信息处理系统进展》,2018年,第9236-9246页。 [13] C.Daskalakis、S.Skoulakis和M.Zampetakis,约束min-max优化的复杂性,第53届ACM SIGACT计算理论研讨会论文集,2021年,第1466-1478页·Zbl 07765262号 [14] I.Gemp和S.Mahadevan,使用变分不等式实现GAN平衡的全局收敛,预印本,arXiv:1808.015312018。 [15] G.Gidel、H.Berard、G.Vignoud、P.Vincent和S.Lacoste-Julien,《生成性对抗网络的变分不等式观点》,2019年国际学习表征会议,https://openreview.net/forum?id=r1laEnA5Ym。 [16] G.Gidel、R.A.Hemmat、M.Pezeshki、R.Le Priol、G.Huang、S.Lacoste-Julien和I.Mitliagkas,《改进游戏动力学的负面动力》,第22届国际人工智能与统计会议,2019年,第1802-1811页。 [17] N.Golowich、S.Patathil、C.Daskalakis和A.Ozdaglar,《学习理论会议》,PMLR,2020,第1758-1784页,在光滑凸凹鞍点问题中,最后迭代比平均迭代慢。 [18] I.Goodfellow,NIPS 2016教程:生成对抗性网络,arXiv:1701.001602016。 [19] I.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio,《生成对抗网》,《神经信息处理系统进展》,2014年,第2672-2680页。 [20] E.Gorbunov、N.Loizou和G.Gidel,外推梯度法:单调变分不等式的Last-Iterate收敛性和与Cocercivity的联系,预印本,arXiv:2110.042612021。 [21] I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville,《Wasserstein GANs的改进训练》,《神经信息处理系统进展》,2017年,第5767-5777页。 [22] E.Y.Hamedani和N.S.Aybat,一般凹凸鞍点问题的原对偶算法,arXiv:1803.014012018·Zbl 1507.65106号 [23] K.He、X.Zhang、S.Ren和J.Sun,图像识别的深度剩余学习,《IEEE计算机视觉和模式识别会议论文集》,2016年,第770-778页。 [24] M.Heusel、H.Ramsauer、T.Unterthiner、B.Nessler和S.Hochreiter,通过两个时间尺度的更新规则训练的GANs收敛到局部纳什均衡,发表在《神经信息处理系统进展》,2017,第6626-6637页。 [25] Y.-G.Hsieh、F.Iutzeler、J.Malick和P.Mertikopoulos,《积极探索,保守更新:具有可变步长缩放的随机外梯度方法》,预印本,arXiv:2003.101622020年。 [26] A.N.Iusem、A.Jofreí、R.I.Oliveira和P.Thompson,随机变分不等式的方差缩减外梯度法,SIAM J.Optim。,27(2017),第686-724页·Zbl 1365.65179号 [27] A.Juditsky、A.Nemirovski和C.Tauvel,用随机镜像-插值算法求解变分不等式,Stoch。系统。,1(2011年),第17-58页·Zbl 1291.49006号 [28] D.P.Kingma和J.Ba,Adam:随机优化方法,arXiv:1412.69802014。 [29] G.Korpelevich,《寻找鞍点和其他问题的外梯度法》,Matecon,12(1976),第747-756页·Zbl 0342.90044号 [30] A.Krizhevsky,Learning Multiple Layers of Features from Tiny Images,cs.toronto.edu/kriz/Learning-Features-2009-TR.pdf,2009年。 [31] T.Liang和J.Stokes,《交互问题:生成性对抗网络的非渐进局部收敛》,第22届国际人工智能与统计会议,K.Chaudhuri和M.Sugiyama编辑,《机器学习研究论文集》89,PMLR,2019年,第907-915页。 [32] Q.Lin,M.Liu,H.Rafique,T.Yang,将弱凸-弱凹鞍点问题作为连续强单调变分不等式求解,arXiv:1810.102072018。 [33] N.Loizou、H.Berard、A.Jolicoeur-Martineau、P.Vincent、S.Lacoste-Julien和I.Mitliagkas,平滑游戏的随机哈密顿梯度方法,机器学习国际会议,PMLR,2020年,第6370-6381页。 [34] N.Loizou、S.Vaswani、I.H.Laradji和S.Lacoste-Julien,《SGD的随机Polyak步长:快速收敛的自适应学习速率》,《国际人工智能与统计会议》,PMLR,2021年,第1306-1314页。 [35] Y.Malitsky,单调变分不等式的投影反射梯度法,SIAM J.Optim。,25(2015),第502-520页·Zbl 1314.47099号 [36] Y.Malitsky和M.K.Tam,无协同效应单调夹杂物的正向分裂方法,SIAM J.Optim。,30(2020年),第1451-1472页·Zbl 1445.47041号 [37] P.Mertikopoulos、B.Lecouat、H.Zenati、C.-S.Foo、V.Chandrasekhar和G.Piliouras,鞍点问题中的乐观镜面下降:走额外(梯度)英里,2019年国际学习代表大会,https://openreview.net/forum?id=Bkg8jjC9KQ。 [38] L.Mescheder、A.Geiger和S.Nowozin,GAN的哪些训练方法实际上是收敛的?,在2018年国际机器学习会议上。 [39] L.Mescheder、S.Nowozin和A.Geiger,《GAN的数字》,预印本,arXiv:1705.104612017年。 [40] K.Mishchenko、D.Kovalev、E.Shulgin、P.Richtaárik和Y.Malitsky,《重新审视随机外梯度》,《国际人工智能与统计会议》,PMLR,2020年,第4573-4582页。 [41] T.Miyato、T.Kataoka、M.Koyama和Y.Yoshida,生成性对抗网络的频谱归一化,学习表征国际会议,2018年,https://openreview.net/forum?id=B1QRgziT-. [42] A.Mokhtari、A.E.Ozdaglar和S.Pattathil,光滑凹凸鞍点问题中乐观梯度和超粒度方法的收敛速度,SIAM J.Optim。,30(2020年),第3230-3251页·Zbl 1454.90057号 [43] A.Nemirovski,Lipschitz连续单调算子变分不等式和光滑凸凹鞍点问题的收敛速度为({O}(1/t)\)的Prox方法,SIAM J.Optim。,15(2004),第229-251页·Zbl 1106.90059号 [44] Y.Nesterov,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109(2007),第319-344页·Zbl 1167.90014号 [45] D.P.Palomar和Y.C.Eldar,《信号处理和通信中的凸优化》,剑桥大学出版社,英国剑桥,2010年·Zbl 1200.90009号 [46] K.Pieper和A.Petrosyan,稀疏神经网络的非凸惩罚,arXiv:2004.115152020。 [47] A.Radford、L.Metz和S.Chintala,深度卷积生成对抗性网络的无监督表示学习,arXiv:11511.064342015。 [48] A.Rakhlin和K.Sridharan,《可预测序列的在线学习》,《第26届学习理论年会论文集》,2013年,第993-1019页。 [49] S.Rakhlin和K.Sridharan,可预测序列的优化、学习和游戏,《神经信息处理系统进展》,2013年,第3066-3074页。 [50] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计师。22,(1951),第400-407页·Zbl 0054.05901号 [51] S.Rosset、G.Swirszcz、N.Srebro和J.Zhu,无限维特征空间中的正则化,《计算学习理论国际会议》,Springer,纽约,2007年,第544-558页·Zbl 1203.68167号 [52] L.I.Rudin、S.Osher和E.Fatemi,基于非线性总变差的噪声去除算法,物理。D、 60(1992年),第259-268页·Zbl 0780.49028号 [53] T.Salimans、I.Goodfellow、W.Zaremba、V.Cheung、A.Radford和X.Chen,《神经信息处理系统进展》,2016年,第2234-2242页。 [54] R.Tibshirani,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,58(1996),第267-288页·Zbl 0850.62538号 [55] P.Tseng,分裂算法在凸规划和变分不等式分解中的应用,SIAM J.控制优化。,29(1991),第119-138页·Zbl 0737.90048号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。