×

用曾氏的方法,一次两步完成GAN训练。 (英语) Zbl 1492.65175号

摘要:受生成对抗网络(GAN)训练的启发,我们研究了使用附加非光滑正则化子求解极小极大问题的方法。我们通过雇佣单调算子理论,尤其是前后向前方法,该方法通过第二次梯度评估来纠正每次更新,避免了已知的极限循环问题,并且与存在约束的外梯度方法相比,这样做需要更少的投影步骤。此外,我们提出了一个看似新的方案,它回收了旧的梯度以减少额外的计算开销。在这样做的过程中,我们重新发现了一种已知的方法,与乐观梯度下降上升对于这两种方案,我们通过统一的方法证明了凸凹极小极大问题的新的收敛速度。导出的误差边界是根据遍历迭代的间隙函数得出的。对于确定性问题和随机问题,我们分别给出了(mathcal{O}(1/k))和(mathcal{O}(1/sqrt{k}))的收敛速度。我们通过在CIFAR10数据集上训练Wasserstein GAN的经验改进来补充我们的理论结果。

理学硕士:

65K15码 变分不等式及相关问题的数值方法
90立方厘米15 随机规划
90立方厘米 数学规划中的极小极大问题

软件:

Wasserstein甘
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Arjovsky,S.Chintala和L.Bottou,Wasserstein GAN,arXiv:1701.078752017年。
[2] F.Bach,《用凸神经网络打破维度诅咒》,J.Mach。学习。第18号决议(2017年),第629-681页·Zbl 1433.68390号
[3] S.Barratt和R.Sharma,《关于初始得分的注释》,arXiv:1801.01973,2018年。
[4] H.H.Bauschke和P.L.Combettes,Hilbert空间中的凸分析和单调算子理论,CMS图书数学/Ouvrages数学。SMC 408,施普林格,查姆,2011年·Zbl 1218.47001号
[5] Y.Bengio、N.L.Roux、P.Vincent、O.Delalleau和P.Marcotte,凸神经网络,《神经信息处理系统进展》,2006年,第123-130页。
[6] R.I.Boţ、P.Mertikopoulos、M.Staudigl和P.T.Vuong,求解随机变分不等式的微型分批前向-后向-前向方法,Stoch。系统。,11(2021年),第112-139页·Zbl 1489.90195号
[7] R.I.Boţ、M.Sedlmayer和P.T.Vuong,解决单调包含的松弛惯性前向-后向-前向算法及其在GAN中的应用,arXiv:2003.078862020。
[8] T.Chavdarova、G.Gidel、F.Fleuret和S.Lacoste-Julien,用方差减少的外梯度降低GAN训练中的噪音,《神经信息处理系统进展》,2019年,第391-401页。
[9] T.Chavdarova、M.Pagliardini、S.U.Stich、F.Fleuret和M.Jaggi,《用Lookahead-Minmax驯服GANs》,预印本,arXiv:2006.145672020年。
[10] E.R.Csetnek,Y.Malitsky,and M.K.Tam,Shadow Douglas-Rachford spliting for monotone inclusions,应用。数学。最佳。,80(2019年),第665-678页·Zbl 1447.47051号
[11] C.Daskalakis、A.Ilyas、V.Syrgkanis和H.Zeng,乐观训练GAN,2018年国际学习代表大会,https://openreview.net/forum?id=SJJySbbAZ。
[12] C.Daskalakis和I.Panageas,《min-max优化中(乐观)梯度下降的极限点》,《神经信息处理系统进展》,2018年,第9236-9246页。
[13] C.Daskalakis、S.Skoulakis和M.Zampetakis,约束min-max优化的复杂性,第53届ACM SIGACT计算理论研讨会论文集,2021年,第1466-1478页·Zbl 07765262号
[14] I.Gemp和S.Mahadevan,使用变分不等式实现GAN平衡的全局收敛,预印本,arXiv:1808.015312018。
[15] G.Gidel、H.Berard、G.Vignoud、P.Vincent和S.Lacoste-Julien,《生成性对抗网络的变分不等式观点》,2019年国际学习表征会议,https://openreview.net/forum?id=r1laEnA5Ym。
[16] G.Gidel、R.A.Hemmat、M.Pezeshki、R.Le Priol、G.Huang、S.Lacoste-Julien和I.Mitliagkas,《改进游戏动力学的负面动力》,第22届国际人工智能与统计会议,2019年,第1802-1811页。
[17] N.Golowich、S.Patathil、C.Daskalakis和A.Ozdaglar,《学习理论会议》,PMLR,2020,第1758-1784页,在光滑凸凹鞍点问题中,最后迭代比平均迭代慢。
[18] I.Goodfellow,NIPS 2016教程:生成对抗性网络,arXiv:1701.001602016。
[19] I.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio,《生成对抗网》,《神经信息处理系统进展》,2014年,第2672-2680页。
[20] E.Gorbunov、N.Loizou和G.Gidel,外推梯度法:单调变分不等式的Last-Iterate收敛性和与Cocercivity的联系,预印本,arXiv:2110.042612021。
[21] I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville,《Wasserstein GANs的改进训练》,《神经信息处理系统进展》,2017年,第5767-5777页。
[22] E.Y.Hamedani和N.S.Aybat,一般凹凸鞍点问题的原对偶算法,arXiv:1803.014012018·Zbl 1507.65106号
[23] K.He、X.Zhang、S.Ren和J.Sun,图像识别的深度剩余学习,《IEEE计算机视觉和模式识别会议论文集》,2016年,第770-778页。
[24] M.Heusel、H.Ramsauer、T.Unterthiner、B.Nessler和S.Hochreiter,通过两个时间尺度的更新规则训练的GANs收敛到局部纳什均衡,发表在《神经信息处理系统进展》,2017,第6626-6637页。
[25] Y.-G.Hsieh、F.Iutzeler、J.Malick和P.Mertikopoulos,《积极探索,保守更新:具有可变步长缩放的随机外梯度方法》,预印本,arXiv:2003.101622020年。
[26] A.N.Iusem、A.Jofreí、R.I.Oliveira和P.Thompson,随机变分不等式的方差缩减外梯度法,SIAM J.Optim。,27(2017),第686-724页·Zbl 1365.65179号
[27] A.Juditsky、A.Nemirovski和C.Tauvel,用随机镜像-插值算法求解变分不等式,Stoch。系统。,1(2011年),第17-58页·Zbl 1291.49006号
[28] D.P.Kingma和J.Ba,Adam:随机优化方法,arXiv:1412.69802014。
[29] G.Korpelevich,《寻找鞍点和其他问题的外梯度法》,Matecon,12(1976),第747-756页·Zbl 0342.90044号
[30] A.Krizhevsky,Learning Multiple Layers of Features from Tiny Images,cs.toronto.edu/kriz/Learning-Features-2009-TR.pdf,2009年。
[31] T.Liang和J.Stokes,《交互问题:生成性对抗网络的非渐进局部收敛》,第22届国际人工智能与统计会议,K.Chaudhuri和M.Sugiyama编辑,《机器学习研究论文集》89,PMLR,2019年,第907-915页。
[32] Q.Lin,M.Liu,H.Rafique,T.Yang,将弱凸-弱凹鞍点问题作为连续强单调变分不等式求解,arXiv:1810.102072018。
[33] N.Loizou、H.Berard、A.Jolicoeur-Martineau、P.Vincent、S.Lacoste-Julien和I.Mitliagkas,平滑游戏的随机哈密顿梯度方法,机器学习国际会议,PMLR,2020年,第6370-6381页。
[34] N.Loizou、S.Vaswani、I.H.Laradji和S.Lacoste-Julien,《SGD的随机Polyak步长:快速收敛的自适应学习速率》,《国际人工智能与统计会议》,PMLR,2021年,第1306-1314页。
[35] Y.Malitsky,单调变分不等式的投影反射梯度法,SIAM J.Optim。,25(2015),第502-520页·Zbl 1314.47099号
[36] Y.Malitsky和M.K.Tam,无协同效应单调夹杂物的正向分裂方法,SIAM J.Optim。,30(2020年),第1451-1472页·Zbl 1445.47041号
[37] P.Mertikopoulos、B.Lecouat、H.Zenati、C.-S.Foo、V.Chandrasekhar和G.Piliouras,鞍点问题中的乐观镜面下降:走额外(梯度)英里,2019年国际学习代表大会,https://openreview.net/forum?id=Bkg8jjC9KQ。
[38] L.Mescheder、A.Geiger和S.Nowozin,GAN的哪些训练方法实际上是收敛的?,在2018年国际机器学习会议上。
[39] L.Mescheder、S.Nowozin和A.Geiger,《GAN的数字》,预印本,arXiv:1705.104612017年。
[40] K.Mishchenko、D.Kovalev、E.Shulgin、P.Richtaárik和Y.Malitsky,《重新审视随机外梯度》,《国际人工智能与统计会议》,PMLR,2020年,第4573-4582页。
[41] T.Miyato、T.Kataoka、M.Koyama和Y.Yoshida,生成性对抗网络的频谱归一化,学习表征国际会议,2018年,https://openreview.net/forum?id=B1QRgziT-.
[42] A.Mokhtari、A.E.Ozdaglar和S.Pattathil,光滑凹凸鞍点问题中乐观梯度和超粒度方法的收敛速度,SIAM J.Optim。,30(2020年),第3230-3251页·Zbl 1454.90057号
[43] A.Nemirovski,Lipschitz连续单调算子变分不等式和光滑凸凹鞍点问题的收敛速度为({O}(1/t)\)的Prox方法,SIAM J.Optim。,15(2004),第229-251页·Zbl 1106.90059号
[44] Y.Nesterov,对偶外推及其在求解变分不等式和相关问题中的应用,数学。程序。,109(2007),第319-344页·Zbl 1167.90014号
[45] D.P.Palomar和Y.C.Eldar,《信号处理和通信中的凸优化》,剑桥大学出版社,英国剑桥,2010年·Zbl 1200.90009号
[46] K.Pieper和A.Petrosyan,稀疏神经网络的非凸惩罚,arXiv:2004.115152020。
[47] A.Radford、L.Metz和S.Chintala,深度卷积生成对抗性网络的无监督表示学习,arXiv:11511.064342015。
[48] A.Rakhlin和K.Sridharan,《可预测序列的在线学习》,《第26届学习理论年会论文集》,2013年,第993-1019页。
[49] S.Rakhlin和K.Sridharan,可预测序列的优化、学习和游戏,《神经信息处理系统进展》,2013年,第3066-3074页。
[50] H.Robbins和S.Monro,《随机近似方法》,《数学年鉴》。统计师。22,(1951),第400-407页·Zbl 0054.05901号
[51] S.Rosset、G.Swirszcz、N.Srebro和J.Zhu,无限维特征空间中的正则化,《计算学习理论国际会议》,Springer,纽约,2007年,第544-558页·Zbl 1203.68167号
[52] L.I.Rudin、S.Osher和E.Fatemi,基于非线性总变差的噪声去除算法,物理。D、 60(1992年),第259-268页·Zbl 0780.49028号
[53] T.Salimans、I.Goodfellow、W.Zaremba、V.Cheung、A.Radford和X.Chen,《神经信息处理系统进展》,2016年,第2234-2242页。
[54] R.Tibshirani,《通过套索进行回归收缩和选择》,J.R.Stat.Soc.Ser。B统计方法。,58(1996),第267-288页·Zbl 0850.62538号
[55] P.Tseng,分裂算法在凸规划和变分不等式分解中的应用,SIAM J.控制优化。,29(1991),第119-138页·Zbl 0737.90048号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。