文件Zbl 1492.65175-zbMATH Open

用曾氏的方法，一次两步完成GAN训练。（英语） Zbl 1492.65175号

SIAM J.数学。数据科学。 4，编号2，750-771（2022）.

摘要：受生成对抗网络（GAN）训练的启发，我们研究了使用附加非光滑正则化子求解极小极大问题的方法。我们通过雇佣单调算子理论，尤其是前后向前方法，该方法通过第二次梯度评估来纠正每次更新，避免了已知的极限循环问题，并且与存在约束的外梯度方法相比，这样做需要更少的投影步骤。此外，我们提出了一个看似新的方案，它回收了旧的梯度以减少额外的计算开销。在这样做的过程中，我们重新发现了一种已知的方法，与乐观梯度下降上升对于这两种方案，我们通过统一的方法证明了凸凹极小极大问题的新的收敛速度。导出的误差边界是根据遍历迭代的间隙函数得出的。对于确定性问题和随机问题，我们分别给出了（mathcal{O}（1/k））和（mathcal{O}（1/sqrt{k}））的收敛速度。我们通过在CIFAR10数据集上训练Wasserstein GAN的经验改进来补充我们的理论结果。

引用于6文件

理学硕士：

65K15码	变分不等式及相关问题的数值方法
90立方厘米15	随机规划
90立方厘米	数学规划中的极小极大问题

关键词：

极小极大值;凸凹;随机梯度;GAN公司

软件：

Wasserstein甘

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	M.Arjovsky，S.Chintala和L.Bottou，Wasserstein GAN，arXiv:1701.078752017年。
[2]	F.Bach，《用凸神经网络打破维度诅咒》，J.Mach。学习。第18号决议（2017年），第629-681页·Zbl 1433.68390号
[3]	S.Barratt和R.Sharma，《关于初始得分的注释》，arXiv:1801.01973，2018年。
[4]	H.H.Bauschke和P.L.Combettes，Hilbert空间中的凸分析和单调算子理论，CMS图书数学/Ouvrages数学。SMC 408，施普林格，查姆，2011年·Zbl 1218.47001号
[5]	Y.Bengio、N.L.Roux、P.Vincent、O.Delalleau和P.Marcotte，凸神经网络，《神经信息处理系统进展》，2006年，第123-130页。
[6]	R.I.Boţ、P.Mertikopoulos、M.Staudigl和P.T.Vuong，求解随机变分不等式的微型分批前向-后向-前向方法，Stoch。系统。，11（2021年），第112-139页·Zbl 1489.90195号
[7]	R.I.Boţ、M.Sedlmayer和P.T.Vuong，解决单调包含的松弛惯性前向-后向-前向算法及其在GAN中的应用，arXiv:2003.078862020。
[8]	T.Chavdarova、G.Gidel、F.Fleuret和S.Lacoste-Julien，用方差减少的外梯度降低GAN训练中的噪音，《神经信息处理系统进展》，2019年，第391-401页。
[9]	T.Chavdarova、M.Pagliardini、S.U.Stich、F.Fleuret和M.Jaggi，《用Lookahead-Minmax驯服GANs》，预印本，arXiv:2006.145672020年。
[10]	E.R.Csetnek，Y.Malitsky，and M.K.Tam，Shadow Douglas-Rachford spliting for monotone inclusions，应用。数学。最佳。，80（2019年），第665-678页·Zbl 1447.47051号
[11]	C.Daskalakis、A.Ilyas、V.Syrgkanis和H.Zeng，乐观训练GAN，2018年国际学习代表大会，https://openreview.net/forum？id=SJJySbbAZ。
[12]	C.Daskalakis和I.Panageas，《min-max优化中（乐观）梯度下降的极限点》，《神经信息处理系统进展》，2018年，第9236-9246页。
[13]	C.Daskalakis、S.Skoulakis和M.Zampetakis，约束min-max优化的复杂性，第53届ACM SIGACT计算理论研讨会论文集，2021年，第1466-1478页·Zbl 07765262号
[14]	I.Gemp和S.Mahadevan，使用变分不等式实现GAN平衡的全局收敛，预印本，arXiv:1808.015312018。
[15]	G.Gidel、H.Berard、G.Vignoud、P.Vincent和S.Lacoste-Julien，《生成性对抗网络的变分不等式观点》，2019年国际学习表征会议，https://openreview.net/forum？id=r1laEnA5Ym。
[16]	G.Gidel、R.A.Hemmat、M.Pezeshki、R.Le Priol、G.Huang、S.Lacoste-Julien和I.Mitliagkas，《改进游戏动力学的负面动力》，第22届国际人工智能与统计会议，2019年，第1802-1811页。
[17]	N.Golowich、S.Patathil、C.Daskalakis和A.Ozdaglar，《学习理论会议》，PMLR，2020，第1758-1784页，在光滑凸凹鞍点问题中，最后迭代比平均迭代慢。
[18]	I.Goodfellow，NIPS 2016教程：生成对抗性网络，arXiv:1701.001602016。
[19]	I.Goodfellow、J.Pouget-Abadie、M.Mirza、B.Xu、D.Warde-Farley、S.Ozair、A.Courville和Y.Bengio，《生成对抗网》，《神经信息处理系统进展》，2014年，第2672-2680页。
[20]	E.Gorbunov、N.Loizou和G.Gidel，外推梯度法：单调变分不等式的Last-Iterate收敛性和与Cocercivity的联系，预印本，arXiv:2110.042612021。
[21]	I.Gulrajani、F.Ahmed、M.Arjovsky、V.Dumoulin和A.C.Courville，《Wasserstein GANs的改进训练》，《神经信息处理系统进展》，2017年，第5767-5777页。
[22]	E.Y.Hamedani和N.S.Aybat，一般凹凸鞍点问题的原对偶算法，arXiv:1803.014012018·Zbl 1507.65106号
[23]	K.He、X.Zhang、S.Ren和J.Sun，图像识别的深度剩余学习，《IEEE计算机视觉和模式识别会议论文集》，2016年，第770-778页。
[24]	M.Heusel、H.Ramsauer、T.Unterthiner、B.Nessler和S.Hochreiter，通过两个时间尺度的更新规则训练的GANs收敛到局部纳什均衡，发表在《神经信息处理系统进展》，2017，第6626-6637页。
[25]	Y.-G.Hsieh、F.Iutzeler、J.Malick和P.Mertikopoulos，《积极探索，保守更新：具有可变步长缩放的随机外梯度方法》，预印本，arXiv:2003.101622020年。
[26]	A.N.Iusem、A.Jofreí、R.I.Oliveira和P.Thompson，随机变分不等式的方差缩减外梯度法，SIAM J.Optim。，27（2017），第686-724页·Zbl 1365.65179号
[27]	A.Juditsky、A.Nemirovski和C.Tauvel，用随机镜像-插值算法求解变分不等式，Stoch。系统。，1（2011年），第17-58页·Zbl 1291.49006号
[28]	D.P.Kingma和J.Ba，Adam：随机优化方法，arXiv:1412.69802014。
[29]	G.Korpelevich，《寻找鞍点和其他问题的外梯度法》，Matecon，12（1976），第747-756页·Zbl 0342.90044号
[30]	A.Krizhevsky，Learning Multiple Layers of Features from Tiny Images，cs.toronto.edu/kriz/Learning-Features-2009-TR.pdf，2009年。
[31]	T.Liang和J.Stokes，《交互问题：生成性对抗网络的非渐进局部收敛》，第22届国际人工智能与统计会议，K.Chaudhuri和M.Sugiyama编辑，《机器学习研究论文集》89，PMLR，2019年，第907-915页。
[32]	Q.Lin，M.Liu，H.Rafique，T.Yang，将弱凸-弱凹鞍点问题作为连续强单调变分不等式求解，arXiv:1810.102072018。
[33]	N.Loizou、H.Berard、A.Jolicoeur-Martineau、P.Vincent、S.Lacoste-Julien和I.Mitliagkas，平滑游戏的随机哈密顿梯度方法，机器学习国际会议，PMLR，2020年，第6370-6381页。
[34]	N.Loizou、S.Vaswani、I.H.Laradji和S.Lacoste-Julien，《SGD的随机Polyak步长：快速收敛的自适应学习速率》，《国际人工智能与统计会议》，PMLR，2021年，第1306-1314页。
[35]	Y.Malitsky，单调变分不等式的投影反射梯度法，SIAM J.Optim。，25（2015），第502-520页·Zbl 1314.47099号
[36]	Y.Malitsky和M.K.Tam，无协同效应单调夹杂物的正向分裂方法，SIAM J.Optim。，30（2020年），第1451-1472页·Zbl 1445.47041号
[37]	P.Mertikopoulos、B.Lecouat、H.Zenati、C.-S.Foo、V.Chandrasekhar和G.Piliouras，鞍点问题中的乐观镜面下降：走额外（梯度）英里，2019年国际学习代表大会，https://openreview.net/forum？id=Bkg8jjC9KQ。
[38]	L.Mescheder、A.Geiger和S.Nowozin，GAN的哪些训练方法实际上是收敛的？，在2018年国际机器学习会议上。
[39]	L.Mescheder、S.Nowozin和A.Geiger，《GAN的数字》，预印本，arXiv:1705.104612017年。
[40]	K.Mishchenko、D.Kovalev、E.Shulgin、P.Richtaárik和Y.Malitsky，《重新审视随机外梯度》，《国际人工智能与统计会议》，PMLR，2020年，第4573-4582页。
[41]	T.Miyato、T.Kataoka、M.Koyama和Y.Yoshida，生成性对抗网络的频谱归一化，学习表征国际会议，2018年，https://openreview.net/forum？id=B1QRgziT-.
[42]	A.Mokhtari、A.E.Ozdaglar和S.Pattathil，光滑凹凸鞍点问题中乐观梯度和超粒度方法的收敛速度，SIAM J.Optim。，30（2020年），第3230-3251页·Zbl 1454.90057号
[43]	A.Nemirovski，Lipschitz连续单调算子变分不等式和光滑凸凹鞍点问题的收敛速度为（{O}（1/t）\）的Prox方法，SIAM J.Optim。，15（2004），第229-251页·Zbl 1106.90059号
[44]	Y.Nesterov，对偶外推及其在求解变分不等式和相关问题中的应用，数学。程序。，109（2007），第319-344页·Zbl 1167.90014号
[45]	D.P.Palomar和Y.C.Eldar，《信号处理和通信中的凸优化》，剑桥大学出版社，英国剑桥，2010年·Zbl 1200.90009号
[46]	K.Pieper和A.Petrosyan，稀疏神经网络的非凸惩罚，arXiv:2004.115152020。
[47]	A.Radford、L.Metz和S.Chintala，深度卷积生成对抗性网络的无监督表示学习，arXiv:11511.064342015。
[48]	A.Rakhlin和K.Sridharan，《可预测序列的在线学习》，《第26届学习理论年会论文集》，2013年，第993-1019页。
[49]	S.Rakhlin和K.Sridharan，可预测序列的优化、学习和游戏，《神经信息处理系统进展》，2013年，第3066-3074页。
[50]	H.Robbins和S.Monro，《随机近似方法》，《数学年鉴》。统计师。22，（1951），第400-407页·Zbl 0054.05901号
[51]	S.Rosset、G.Swirszcz、N.Srebro和J.Zhu，无限维特征空间中的正则化，《计算学习理论国际会议》，Springer，纽约，2007年，第544-558页·Zbl 1203.68167号
[52]	L.I.Rudin、S.Osher和E.Fatemi，基于非线性总变差的噪声去除算法，物理。D、 60（1992年），第259-268页·Zbl 0780.49028号
[53]	T.Salimans、I.Goodfellow、W.Zaremba、V.Cheung、A.Radford和X.Chen，《神经信息处理系统进展》，2016年，第2234-2242页。
[54]	R.Tibshirani，《通过套索进行回归收缩和选择》，J.R.Stat.Soc.Ser。B统计方法。，58（1996），第267-288页·Zbl 0850.62538号
[55]	P.Tseng，分裂算法在凸规划和变分不等式分解中的应用，SIAM J.控制优化。，29（1991），第119-138页·Zbl 0737.90048号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

用曾氏的方法，一次两步完成GAN训练。（英语） Zbl 1492.65175号

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

用曾氏的方法，一次两步完成GAN训练。 （英语） Zbl 1492.65175号

理学硕士：

关键词：

软件：

参考文献：

用曾氏的方法，一次两步完成GAN训练。（英语） Zbl 1492.65175号