×

生成性对抗网络损失面的自旋玻璃模型。 (英语) Zbl 07476207号

摘要:我们提出了一种新的数学模型,旨在捕获生成性对抗网络(GAN)的关键设计特征。我们的模型由两个相互作用的自旋玻璃组成,我们使用随机矩阵理论的技术对模型临界点的复杂性进行了广泛的理论分析。其结果是对大型GAN的损耗表面的深入了解,建立在先前对简单网络的深入了解基础上,但也揭示了这种设置所特有的新结构,这解释了训练GAN的更大难度。

MSC公司:

82立方厘米xx 时间相关统计力学(动态和非平衡)
82天xx 统计力学在特定类型物理系统中的应用
15亿 特殊矩阵
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Choromanska,A.、Henaff,M.、Mathieu,M.,Arous,G.B.、LeCun,Y.:多层网络的损失面,《人工智能与统计》,第192-204页(2015)
[2] Auffinger,A。;Arous,GB;Cerny,J.,《自旋玻璃的随机矩阵和复杂性》,Commun。纯应用程序。数学。,66, 2, 165 (2013) ·Zbl 1269.82066号 ·doi:10.1002/cpa.21422
[3] Choromanska,A.,LeCun,Y.,Arous,G.B.:开放问题:多层网络损耗表面的景观。摘自:学习理论会议,第1756-1760页(2015年)
[4] Papyan,V.:《深海黑森人的全谱规模:SGD训练和样本量的动力学》,arXiv预印本arXiv:1811.07062(2018)
[5] Granziol,D.、Garipov,T.、Vetrov,D.、Zohren,S.、Roberts,S.和Wilson,A.G.:使用随机矩阵理论和迭代谱方法理解深层神经网络的真实损失面。https://openreview.net/forum?id=H1gza2NtwH。访问时间:2021-06-15(2019)
[6] Granziol,D.:深度网络的超越随机矩阵理论,arXiv预印本arXiv:2006.07721(2020)
[7] Baity-Jesi,M。;萨贡,L。;盖革,M。;Spigler,S。;Arous,GB;卡马罗塔,C。;LeCun,Y。;Wyart,M。;Biroli,G.,《比较动力学:深度神经网络与玻璃系统》,J.Stat.Mech。理论实验,2019,12,124013(2019)·Zbl 1459.82317号 ·doi:10.1088/1742-5468/ab3281
[8] Mannelli,S.S.,Krzakala,F.,Urbani,P.,Zdeborova,L.:通过与虚假:尖峰矩阵张量模型中的下降算法和局部极小值,arXiv预印本arXiv:1902.00139(2019)
[9] Folena,G.,Franz,S.,Ricci-Tersenghi,F.:重新思考平均场玻璃动力学及其与能量景观的关系:球形混合p自旋模型的尴尬案例,arXiv预印本arXiv:1903.01421(2019)
[10] 罗斯,V。;Ben Arous,G。;比罗利,G。;Cammarota,C.,《尖峰传感器和简单玻璃模型中的复杂能量景观:坚固性、局部极小值的安排和相变》,Phys。第X版(2019年)·doi:10.1103/PhysRevX.9.011003
[11] Maillard,A.,Arous,G.B.,Biroli,G.:广义线性模型经验风险的景观复杂性,arXiv预印本arXiv:1912.02143(2019)
[12] Mannelli,S.S.、Biroli,G.、Cammarota,C.、Krzakala,F.:L.Zdeborová,《谁害怕大坏迷你们》?尖峰矩阵张量模型中的梯度流分析。摘自:神经信息处理系统进展,第8676-8686页(2019年)
[13] 新南威尔士州巴斯克维尔;基廷,JP;夹层,F。;Najnudel,J.,《具有一般激活函数的神经网络的损失面》,J.Stat.Mech:理论实验,2021,6,064001(2021)·Zbl 07398345号 ·doi:10.1088/1742-5468/abfa1e
[14] 坎特,I。;Sompolinsky,H.,《没有错误的联想记忆回忆》,Phys。A版,35、1、380(1987年)·doi:10.1103/PhysRevA.35.380
[15] Gardner,E.,《神经网络模型中的交互空间》,J.Phys。A、 21,1257(1988)·Zbl 1128.82302号 ·doi:10.1088/0305-4470/21/030
[16] 恩格尔。;Van den Broeck,C.,《学习的统计力学》(2001),剑桥:剑桥大学出版社,剑桥·Zbl 0984.82034号 ·文件编号:10.1017/CBO9781139164542
[17] Nishimori,H.,《自旋玻璃统计物理与信息处理:导论》(2001),牛津:克拉伦登出版社,牛津·Zbl 1103.82002号 ·doi:10.1093/acprof:oso/9780198509417.001.0001
[18] 古德费罗,我。;Y.本吉奥。;科尔维尔,A。;Bengio,Y.,深度学习(2016),剑桥:麻省理工学院出版社,剑桥·Zbl 1373.68009号
[19] Conneau,A.,Schwenk,H.,Barrault,L.,Lecun,Y.:文本分类的非常深卷积网络,In:计算语言学协会欧洲分会第十五届会议论文集:第1卷,长篇论文(计算语言学协会,西班牙巴伦西亚),第1107-1116页(2017)。https://www.aclweb.org/antology/E17-1104
[20] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735 (1997) ·doi:10.1162/neco.1997.9.8.1735
[21] Devlin,J.,Chang,M.W.,Lee,K.,Toutanova,K.:BERT:语言理解深度双向变形金刚的预训练,In:2019年计算语言学协会北美分会会议记录:人类语言技术,第1卷(长篇和短篇论文)(计算语言学协会,明尼苏达州明尼阿波利斯),第4171-4186页(2019年)。doi:10.18653/v1/N19-1423。https://www.aclweb.org/antology/N19-1423
[22] Radford,A.,Narasimhan,K.,Salimans,T.,Sutskever,I.:通过生成性预训练提高语言理解能力(2018)
[23] He,K.,Zhang,X.,Ren,S.,Sun,J.:图像识别的深度剩余学习,In:IEEE计算机视觉和模式识别会议记录,第770-778页(2016)
[24] Pennington,J.,Worah,P.:深度学习的非线性随机矩阵理论,In:神经信息处理系统的进展,第2637-2646页(2017)·Zbl 1459.60012号
[25] Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.,Bengio,Y.:Generative Adversarial Nets,In:Advances In Neural Information Processing Systems 27,ed.by Z.Ghahramani,M.Welling,C.Cortes,N.D.Lawrence,K.Q.Weinberger Curran Associates,Inc.,pp.2672-2680(2014)。http://papers.nips.cc/paper/5423-generative-adversarial-nets.pdf
[26] Radford,A.,Metz,L.,Chintala,S.:深度卷积生成对抗网络的无监督表征学习,arXiv预印本arXiv:1511.06434(2015)
[27] Zhang,H.,Goodfellow,I.J.,Metaxas,D.N.,Odena,A.:自我关注生成性对抗网络。摘自:机器学习国际会议,第7354-7363页(2018年)
[28] Liu,M.Y.,Tuzel,O.:耦合生成对抗网络,In:第30届神经信息处理系统国际会议论文集29,pp.469-477(2016)
[29] Karras,T.、Laine,S.、Aila,T.:生成性对抗网络的基于样式的生成器架构。收录于:IEEE模式分析和机器智能汇刊,第1-1页(2020年)
[30] Mirza,M.,Osindero,S.:条件生成对抗网,arXiv预印本arXiv:1411.1784(2014)
[31] Arjovsky,M.,Chintala,S.,Bottou,L.:Wasserstein生成性对抗网络,In:机器学习国际会议(PMLR),第214-223页(2017)
[32] Zhu,J.Y.,Park,T.,Isola,P.,Efros,A.A.:使用循环一致的对抗网络进行无准备的图像到图像转换。2017年IEEE国际计算机视觉会议(ICCV),第2242-2251页(2017)
[33] 罗斯,V。;Arous,GB;比罗利,G。;Cammarota,C.,《尖峰传感器和简单玻璃模型中的复杂能量景观:坚固性、局部极小值的安排和相变》,Phys。第X版,第9版,第1版(2019年)
[34] Arous,GB;梅,S。;Montanari,A。;Nica,M.,尖峰张量模型的前景,Commun。纯应用程序。数学。,72282282(2019)·Zbl 1434.62078号 ·doi:10.1002/第21861页
[35] Fyodorov,YV,随机能量景观的复杂性,玻璃化转变,随机矩阵谱行列式的绝对值,物理学。修订稿。,92, 24 (2004) ·Zbl 1267.82055号 ·doi:10.1103/PhysRevLett.92.240601
[36] 费奥多罗夫,YV;Williams,I.,通过景观复杂性的随机矩阵计算暴露的复制对称破缺条件,J.Stat.Phys。,129, 5-6, 1081 (2007) ·Zbl 1156.82355号 ·doi:10.1007/s10955-007-9386-x
[37] Verbaarschot,J.,《随机矩阵理论中的超对称方法及其在QCD中的应用》,AIP Conf.Proc。(2004) ·数字对象标识代码:10.1063/1.1853204
[38] Guhr,T。;魏登米勒,同位旋混合和光谱涨落性质,《物理学年鉴》。,199, 2, 412 (1990) ·doi:10.1016/0003-4916(90)90383-Y
[39] Guhr,T.,Dyson的相关函数和分级对称,J.Math。物理。,32, 2, 336 (1991) ·Zbl 0727.60123号 ·数字对象标识代码:10.1063/1.529419
[40] Arous,G.B.,Bourgade,P.,McKenna,B.:超越不变性的随机行列式的指数增长,arXiv预印本arXiv:2105.05000(2021)
[41] 阿德勒,RJ;JE泰勒,《随机场与几何》(2009),纽约:施普林格出版社,纽约·Zbl 1149.60003号
[42] Efetov,K.:超数学。剑桥大学出版社,剑桥,第8-28页(1996年)。doi:10.1017/CBO9780511573057.003
[43] Nock,A.:随机矩阵的特征多项式和量子混沌散射。伦敦玛丽女王大学博士论文(2017)
[44] 吉奥内特,A。;Zeitouni,O.,大矩阵光谱测量的浓度,电子。Commun公司。概率。,5, 119 (2000) ·兹比尔0969.15010 ·doi:10.1214/ECP.v5-1026
[45] Arous,GB;Dembo,A。;Guionnet,A.,《球形自旋玻璃的老化》,Probab。理论相关性。菲尔德,120,1,1(2001)·Zbl 0993.60055号 ·doi:10.1007/PL00008774
[46] A.克里斯蒂安。;Sommers,HJ,Thouless-Anderson-Palmer球形p自旋玻璃模型方法,J.Phys。一、 5、7、805(1995)
[47] Kurchan,J。;帕里西,G。;马萨诸塞州Virasoro,《屏障和亚稳态作为复制方法中的鞍点》,J.Phys。一、 1819年8月3日(1993年)
[48] Hochreiter,S。;Schmidhuber,J.,平面极小值,神经计算。,9, 1, 1 (1997) ·Zbl 0872.68150号 ·doi:10.1162/neco.1997.9.1.1
[49] Chaudhari,P。;Choromanska,A。;索托,S。;LeCun,Y。;巴尔达西,C。;博格,C。;Chayes,J。;萨贡,L。;Zecchina,R.,Entropy-SGD:偏向梯度下降到宽山谷,J.Stat.Mech。理论实验(2019)·Zbl 1459.65091号 ·doi:10.1088/1742-5468/ab39d9
[50] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.、Tang,P.T.P.:关于深度学习的大范围训练:泛化差距和显著极小值。参加:2017年4月24日至26日在法国土伦举行的第五届国际学习代表大会,会议记录(OpenReview.net)(2017)。https://openreview.net/forum?id=H1oyRlYgg
[51] Kleinberg,B.,Li,Y.,Yuan,Y.:另一种观点:SGD何时摆脱局部极小?,摘自:机器学习国际会议(PMLR),第2698-2707页(2018)
[52] Baldassi,C.,Lauditi,C.,Malatesta,E.M.,Perugini,G.,Zecchina,R.:揭示神经网络中宽平坦极小值的结构,arXiv预印本arXiv:2107.01163(2021)
[53] 巴尔达西,C。;Pittorino,F。;Zecchina,R.,围绕宽平面极小值塑造神经网络中的学习景观,Proc。国家。阿卡德。科学。美国,117,161(2020)·Zbl 1456.92009号 ·doi:10.1073/美国国家统计局198636117
[54] Dinh,L.,Pascanu,R.,Bengio,S.,Bengino,Y.:尖锐极小值可以推广到深网。在:《第34届机器学习国际会议论文集》,《机器学习研究论文集》,第70卷,D.Precup编辑,Y.W.Teh(PMLR),《机器学习研究论文集》,第70卷,第1019-1028页(2017)。https://proceedings.mlr.press/v70/dinh17b.html
[55] Hoffer,E.,Hubara,I.,Soudry,D.:训练时间越长,泛化效果越好:缩小神经网络大批量训练中的泛化差距,in:Advances in neural Information Processing Systems,vol.30,ed.by I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan,R.Garnett(Curran Associates,Inc.),vol 30(2017)。https://proceedings.neurips.cc/paper/2017/file/a5e0ff62be0b08456fc7f1e88812af3d-paper.pdf
[56] Kawaguchi,K.,Kaelbling,L.P.,Bengio,Y.:深度学习中的泛化(2020)
[57] He,H.,Huang,G.,Yuan,Y.:不对称山谷:超越尖锐和平坦的局部极小值,arXiv预印本arXiv:1902.00744(2019)
[58] Granziol,D.:平坦是一个虚假的朋友,arXiv预印本arXiv:2006.09091(2020)
[59] Dcgan面教程。https://github.com/pytorch/tutorials/blob/master/boorner_source/dcgan_faces_tutorial.py (2018). 2020年9月30日访问
[60] Krizhevsky,A.,Hinton,G.:从微小图像中学习多层特征。安大略省多伦多市多伦多大学技术代表0(2009)
[61] Subag,E.,球面自旋模型的复杂性——二阶矩方法。,Ann.Probab。,45, 5, 3385 (2017) ·Zbl 1417.60029号 ·doi:10.1214/16-AOP1139
[62] Auffinger,A.,Gold,J.:球形(p)自旋模型的鞍座数,arXiv预印本arXiv:2007.09269v1.q(2020)
[63] Arous,GB;Subag,E。;Zeitouni,O.,《低温下混合球形自旋玻璃中的几何和温度混沌:微扰状态》,Comm.Pure Appl。数学。,73, 8, 1732 (2020) ·Zbl 1453.82089号 ·doi:10.1002/cpa.21875
[64] McKenna,B.:二分球自旋玻璃的复杂性,arXiv预印本arXiv:2105.05043(2021)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。