×

机器学习中的黑洞和损失景观。 (英语) Zbl 07774712号

总结:了解损失情况是机器学习中的一个重要问题。损失函数的一个关键特征是存在指数级多个低层局部极小值,这是许多神经网络结构所共有的。具有类似能源景观的物理系统可能提供有用的见解。在这项工作中,我们指出,由于黑洞熵的存在,黑洞自然会产生这种景观。为了明确起见,我们考虑了(mathcal{N}=8)弦理论中的1/8 BPS黑洞。这些提供了对应黑洞微观描述中产生的无限系列潜在景观。极小值的计数相当于黑洞微观状态的计数。此外,这些景观的极小值的确切数量是从弦论中的对偶性中先验已知的。一些最小值通过低损耗值的路径连接,类似于模式连接。我们估计了找到所有解决方案所需的运行次数。初步探索表明,随机梯度下降可以找到极小值的重要部分。

MSC公司:

81至XX 量子理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] A.Krizhevsky、I.Sutskever和G.E.Hinton,深度卷积神经网络的Imagenet分类,《神经信息处理系统进展》25,F.Pereira、C.Burges、L.Bottou和K.Weinberger编辑,Curran Associates Inc.(2012)。
[2] Dahl,通用电气;Yu,D。;邓,L。;Acero,A.,用于大空间语音识别的上下文相关预训练深度神经网络,IEEE音频、语音和语言处理汇刊,20,30(2012)·doi:10.10109/TALS.2011.2134090
[3] Manning,CD,计算语言学和深度学习,计算语言学,41,701(2015)·doi:10.1162/COLI_a_00239
[4] Y.-H.He,《深入了解风景》,arXiv:1706.02714【灵感】。
[5] 他,Y-H,机器学习弦乐风景,Phys。莱特。B、 774564(2017)·doi:10.1016/j.physletb.2017.0.024
[6] Ruehle,F.,《用遗传算法进化神经网络研究字符串景观》,JHEP,08038(2017)·Zbl 1381.83128号 ·doi:10.1007/JHEP08(2017)038
[7] Carifio,J。;Halverson,J。;克里奥科夫,D。;Nelson,BD,《字符串环境中的机器学习》,JHEP,09157(2017)·Zbl 1382.81155号 ·doi:10.1007/JHEP09(2017)157
[8] 穆特,A。;帕尔,E。;Vaudrevange,PKS,异质性球形景观的深度学习,Nucl。物理学。B、 940113(2019年)·兹比尔1409.81099 ·doi:10.1016/j.nuclphysb.2019.013
[9] Y.-H.He,S.Lal和M.Z.Zaz,《沙粒中的世界:弦真空简并的凝聚》,arXiv:2111.04761[启示]。
[10] 布尔,K。;He,Y-H;杰贾拉,V。;Mishra,C.,机器学习CICY Threefolds,Phys。莱特。B、 785、65(2018)·doi:10.1016/j.physlet.2018.08.008
[11] 布尔,K。;他,Y-H;杰贾拉,V。;Mishra,C.,《让CICY兴奋》,Phys。莱特。B、 795700(2019)·Zbl 1420.14002号 ·doi:10.1016/j.physletb.2019.06.067
[12] 杰贾拉,V。;丹麦Mayorga Peña;Mishra,C.,Calabi-Yau指标的神经网络近似值,JHEP,08,105(2022)·Zbl 1522.83001号 ·doi:10.1007/JHEP08(2022)105
[13] P.Berglund等人,机器学习Calabi-Yau度量和曲率,arXiv:2211.09801[灵感]。
[14] H.Erbin和R.Finotello,完全交叉口Calabi-Yau 3倍的初始神经网络,马赫。学习。科学。技术2(2021)02LT03[arXiv:2007.13379][灵感]。
[15] H.Erbin和R.Finotello,完全交集Calabi-Yau流形的机器学习:方法学研究,Phys。版次D103(2021)126014[arXiv:2007.15706]【灵感】。
[16] Y.-H.He和A.Lukas,机器学习Calabi-Yau Four-folds,Phys。莱特。B815(2021)136139[arXiv:2009.02544]【灵感】·Zbl 1509.81274号
[17] Anderson,LB,基于模的Calabi-Yau和SU(3)-机器学习的结构度量,JHEP,05,013(2021)·兹比尔1466.83111 ·doi:10.1007/JHEP05(2021)013
[18] D.S.Berman,Y.-H.He和E.Hirst,机器学习Calabi-Yau超曲面,物理学。版次D105(2022)066002[arXiv:2112.06350]【灵感】。
[19] H.Erbin、R.Finotello、R.Schneider和M.Tamaazousti,《Calabi-Yau四倍深部多任务采矿》,马赫。学习。科学。技术3(2022)015006[arXiv:2108.02221][灵感]。
[20] 克雷文,J。;杰贾拉,V。;Kar,A.,Disentingling A deep learned volume formula,JHEP,06,040(2021)·doi:10.1007/JHEP06(2021)040
[21] 克雷文,J。;休斯,M。;杰贾拉,V。;Kar,A.,《跨维度学习纽结不变量》,《SciPost Phys.》。,14, 021 (2023) ·doi:10.21468/SciPostPhys14.2.021
[22] J.Craven、M.Hughes、V.Jejjala和A.Kar,《揭示纽结不变量之间的新的和已知的关系》,arXiv:2211.01404[灵感]。
[23] S.Gukov、J.Halverson、F.Ruehle和P.Sułkowski,《学习解开结》,马赫。学习。科学。技术2(2021)025035[arXiv:2010.16263][灵感]。
[24] K.Hashimoto、S.Sugishita、A.Tanaka和A.Tomiya,《深度学习和广告S/CFT通信》,Phys。版本D98(2018)046019[arXiv:1802.08313]【灵感】。
[25] K.Hashimoto、S.Sugishita、A.Tanaka和A.Tomiya,深度学习和全息QCD,物理。修订版D98(2018)106014[arXiv:1809.10536][灵感]。
[26] Tan,J。;Chen,C-B,《带电荷深度学习全息黑洞》,国际期刊Mod。物理学。D、 2015年5月28日(2019年)·Zbl 1432.83010号 ·doi:10.1142/S0218271819501530
[27] T.Akutagawa、K.Hashimoto和T.Sumimoto,深度学习和广告S/QCD,物理。版次D102(2020)026020[arXiv:2005.02636]【灵感】。
[28] 严永康,吴世芳,葛晓红,田永康,从剪切粘度深度学习黑洞度量,物理学。版次D102(2020)101902[arXiv:2004.12112][灵感]。
[29] H.Y.Chen、Y.-H.He、S.Lal和M.Z.Zaz,共形场理论机器学习练习曲,arXiv:2006.16114[灵感]。
[30] P.Basu等人,伊辛临界性的机器学习与自旋模糊,arXiv:2203.04012[INSPIRE]。
[31] E.-J.Kuo等人,《解码共形场理论:从有监督学习到无监督学习》,《物理学》。修订稿4(2022)043031[arXiv:2106.13485]【灵感】。
[32] G.Kántor、V.Niarcos和C.Papageorgakis,用人工智能解决共形场理论,物理学。修订稿128(2022)041601[arXiv:2108.08859][灵感]。
[33] G.Kántor、V.Niarcos和C.Papageorgakis,《强化学习的保形引导》,Phys。版次D105(2022)025018[arXiv:2108.09330]【灵感】。
[34] G.Kántor,V.Niarcos,C.Papageorgakis和P.Richmond,6D(2,0)bootstrap with the soft-actor-critic algorithm,Phys。版次D107(2023)025005[arXiv:2209.02801]【灵感】。
[35] 陈华友、何华友、拉尔和马久德,《机器学习谎言结构及其在物理中的应用》,物理。莱特。B817(2021)136297【arXiv:2011.00871】【灵感】·Zbl 07408522号
[36] S.Lal,机器学习对称性,《南开数学对话研讨会:庆祝S.S.Chern诞辰110周年》,在线中国,2021年8月2日至13日[arXiv:2201.09345][INSPIRE]。
[37] E.M.Koch、R.de Mello Koch和L.Cheng,深度学习是一种重新规范化的团队流程吗?,arXiv:1906.05212[doi:10.1109/ACCESS.2020.3000901][灵感]。
[38] J.Halverson、A.Maiti和K.Stoner,《神经网络和量子场论》,马赫。学习。科学。技术2(2021)035002[arXiv:2008.08601][灵感]。
[39] A.Maiti,K.Stoner和J.Halverson,《对称-过孔-二重性:来自参数-空间相关器的不变神经网络密度》,arXiv:2106.00694[灵感]。
[40] J.Halverson,《从神经元构建量子场论》,arXiv:2112.04527[INSPIRE]。
[41] H.Erbin、V.Lahoche和D.O.Samary,神经网络QFT对应的非微扰重整化,马赫。学习。科学。技术3(2022)015027[arXiv:2108.01403][灵感]。
[42] 格罗夫纳,KT;Jefferson,R.,《混沌的边缘:量子场论和深层神经网络》,《科学邮政物理学》。,12, 081 (2022) ·doi:10.21468/SciPostPhys.12.3.081
[43] H.Erbin,V.Lahoche和D.O.Samary,神经网络与量子场论对应中的重正化,arXiv:2212.11811[INSPIRE]。
[44] I.Banta,T.Cai,N.Craig和Z.Zhang,神经网络有效理论的结构,arXiv:2305.02334[启示]。
[45] N.Cabo Bizet等人,《用机器学习测试沼泽地猜想》,欧洲物理学。J.C80(2020)766[arXiv:2006.07290]【灵感】。
[46] K.Hashimoto,AdS/CFT通信作为深度Boltzmann机器,Phys。修订版D99(2019)106017[arXiv:1903.04951][灵感]。
[47] Betzler,P。;Krippendorf,S.,《连接二重性和机器学习》,Fortsch。物理。,68, 2000022 (2020) ·Zbl 07763961号 ·doi:10.1002/prop.202000022
[48] S.Krippendorf和M.Syvaeri,用神经网络检测对称性,arXiv:2003.13679[灵感]。
[49] J.Bao等人,Quiver Mutations,Seiberg Duality and Machine Learning,Phys。版次D102(2020)086013[arXiv:2006.10783]【灵感】。
[50] F.Ruehle,《数据科学在弦理论中的应用》,物理学。报告839(2020)1【灵感】·兹比尔1452.81004
[51] Y.-H.He、E.Heyes和E.Hirst,《物理和几何中的机器学习》,arXiv:2303.12626[灵感]。
[52] E.A.Bedolla-Montiel、L.C.Padierna和R.Castañeda-Priego,《凝聚态物理的机器学习》,J.Phys。康登斯。Matter33(2021)053001[arXiv:2005.14228][灵感]。
[53] A.M.Samarakon和D.A.Tennant,磁性相图和逆散射问题的机器学习,J.Phys。康登斯。马特34(2021)044002。
[54] 卡拉斯基拉,J。;梅尔科,RG,《物质的机器学习阶段》,《自然物理学》。,13, 431 (2017) ·doi:10.1038/nphys4035
[55] A.Decelle,机器学习导论:统计物理学的视角,Physica A(2022)128154。
[56] G.Carleo等人,《机器学习与物理科学》,修订版。《物理学》91(2019)045002[arXiv:1903.10563]【灵感】。
[57] L.E.Bottou,在线学习和随机近似,(1998年)·Zbl 0968.68127号
[58] 吉西玛(JiříŠma),《训练单个乙状结肠神经元很难》,《神经计算》14(2002)2709·Zbl 1060.68099号
[59] R.Livni、S.Shalev-Shwartz和O.Shamir,《训练神经网络的计算效率》,arXiv:1410.1141。
[60] S.Shalev-Shwartz、O.Shamir和S.Shammah,《基于梯度的深度学习的失败》,arXiv:1703.07950。
[61] Murty,千克;卡巴迪,SN,二次和非线性规划中的一些np-完全问题,数学。编程,39,117(1987)·兹比尔0637.90078 ·doi:10.1007/BF02592948
[62] A.Blum和R.L.Rivest,《训练三节点神经网络是np-complete》,载于《第一届神经信息处理系统国际会议论文集》,NIPS’88,麻省理工学院出版社,美国剑桥(1988),第494-501页。
[63] C.D.Freeman和J.Bruna,《半校正网络优化的拓扑和几何》,arXiv:1611.01540。
[64] E.Hoffer、I.Hubara和D.Soudry,《训练更长,概括更好:缩小神经网络大批量训练中的概括差距》,arXiv:1705.08741。
[65] D.Soudry和Y.Carmon,无不良局部极小值:多层神经网络的数据独立训练误差保证,arXiv:1605.08361。
[66] 巴尔迪,P。;Hornik,K.,神经网络和主成分分析:从没有局部极小值的例子中学习,神经网络,2,53(1989)·doi:10.1016/0893-6080(89)90014-2
[67] K.Kawaguchi,《无不良局部极小值的深度学习》,arXiv:1605.07110。
[68] Q.Nguyen和M.Hein,深度和广度神经网络的损失面,arXiv:1704.08045。
[69] 戈里,M。;Tesi,A.,关于反向传播中的局部极小问题,IEEE Trans。模式分析。机器智能。,14, 76 (1992) ·doi:10.1109/34.107014
[70] P.Frasconi、M.Gori和A.Tesi,《反向传播的成功与失败:理论研究》。
[71] Yu,X-H;Chen,G-A,关于反向传播学习的无局部极小条件,IEEE Trans。神经网络,61300(1995)·数字对象标识代码:10.1109/72.410380
[72] A.M.Saxe、J.L.McClelland和S.Ganguli,深度线性神经网络学习非线性动力学的精确解,arXiv:1312.6120·Zbl 1416.92018号
[73] I.Safran和O.Shamir,二层ReLU神经网络中常见的伪局部极小值,arXiv:1712.08968。
[74] C.Yun,S.Sra和A.Jadbabaie,激活函数中的小非线性会在神经网络中产生坏的局部极小值,arXiv:1802.03487。
[75] D.Zou,Y.Cao,D.Zhou和Q.Gu,随机梯度下降优化超参数深层ReLU网络,arXiv:1811.08888·兹比尔1494.68245
[76] G.Swirszcz、W.M.Czarnecki和R.Pascanu,神经网络训练中的局部极小值,arXiv:1611.06310。
[77] B.Liu,伪局部极小值在具有分段线性激活的深度神经网络中很常见,arXiv:2102.13233。
[78] P.Auer、M.Herbster和M.K.K.Warmuth,单个神经元的指数多局部极小值,摘自《神经信息处理系统进展》8,D.Touretzky、M.Mozer和M.Hasselmo主编,麻省理工学院出版社(1995)。
[79] F.Coetzee和V.Stonick,488个异或问题的解决方案,收录于《神经信息处理系统进展》9,M.Mozer、M.Jordan和T.Petsche主编,麻省理工学院出版社(1996)。
[80] A.Choromanska等人,《多层网络的损耗表面》,arXiv:1412.0233。
[81] A.Choromanska、M.Henaff、M.Mathieu、G.Ben Arous和Y.LeCun,《多层网络的损失面》,载于《第十八届人工智能与统计国际会议论文集》,美国圣地亚哥PMLR,2015年5月9日,G.Lebanon和S.V.N.Vishwanathan编辑【Proc.Mach.Learn.Res38(2015)192】【arXiv:1412.0233】。
[82] C.K.I.W.Carl Edward Rasmussen,机器学习的高斯过程(自适应计算和机器学习,麻省理工学院出版社(2005)[doi:10.7551/mitpress/3206.001.0001]。
[83] A.J.Bray和D.S.Dean,大维空间上高斯场临界点的统计,Phys。修订稿98(2007)150201【第二部分/0611023】【灵感】。
[84] Y.V.Fyodorov和I.Williams,景观复杂性随机矩阵计算揭示的副本对称破缺条件,第二卷/0702601·Zbl 1156.82355号
[85] Y.Dauphin等人,识别和解决高维非凸优化中的鞍点问题,arXiv:1406.2572。
[86] R.Pascanu,Y.N.Dauphin,S.Ganguli和Y.Bengio,关于非凸优化的鞍点问题,arXiv:1405.4604。
[87] I.Goodfellow、Y.Bengio和A.Courville,《深度学习》,麻省理工学院出版社(2016)·Zbl 1373.68009号
[88] 阿米特,DJ;Gutfreund,H。;Sompolinsky,H.,神经网络的自旋类模型,物理学。修订版A,321007(1985)·doi:10.1103/PhysRevA.32.1007
[89] Nakanishi,K。;Takayama,H.,神经网络自旋类模型的Mean场理论:TAP自由能和顺磁性到自旋类跃迁,J.Phys。A、 308085(1997)·Zbl 0932.82031号 ·doi:10.1088/0305-4470/30/23/009
[90] A.Choromanska、Y.LeCun和G.Ben Arous,《开放问题:多层网络损失表面的景观》,《第28届学习理论会议论文集巴黎-法国PMLR》,2015年7月3日,P.Grünwald、E.Hazan和S.Kale编辑【Proc.Mach.Learn.Res40(2015)1756】。
[91] A.Auffinger、G.B.Arous和J.Cerny,《自旋玻璃的随机矩阵和复杂性》,arXiv:1003.1129·Zbl 1269.82066号
[92] Auffinger,A。;Arous,GB,高维球体上随机光滑函数的复杂性,年鉴概率。,41, 4214 (2013) ·兹比尔1288.15045 ·doi:10.1214/13-AOP862
[93] M.Baity-Jesi等人,《比较动力学:深层神经网络与玻璃系统》,《机械学报》2019(2019)124013·Zbl 1459.82317号
[94] J.-P.Bouchaud、L.F.Cugliandolo、J.Kurchan和M.Mezard,自旋玻璃和其他玻璃体系的失平衡动力学,cond-mat/9702070[灵感]。
[95] L.F.Cugliandolo,《玻璃体系动力学》,第二卷,第0210312页·Zbl 07382779号
[96] Berthier,L。;Biroli,G.,《玻璃转变和非晶材料的理论观点》,修订版。物理。,83, 587 (2011) ·doi:10.1103/RevModPhys.83.587
[97] D.Mehta,T.Chen,T.Tang和J.D.Hauenstein,通过代数几何透镜观察深线性网络的损失面,arXiv:1810.07716。
[98] AJ巴拉德(Ballard),《透视:机器学习的能源景观》(Perspective:Energy Landscapes for Machine Learning),物理学。化学。化学。物理。,19, 2585 (2017) ·doi:10.1039/C7CP01108C
[99] D.J.Wales,《能源景观:集群、生物分子和玻璃的应用》,剑桥大学出版社(2003)[doi:10.1017/cbo9780511721724]。
[100] Nalisnick,E。;Smyth,P。;Tran,D.,《从统计角度对深度学习的简要考察》,年。修订状态申请。,10, 219 (2023) ·doi:10.1146/annrev-statistics-032921-013738(doi:10.1146/annrev-statistics-032921-013738)
[101] Bahri,Y.,《深度学习的统计力学》,《凝聚态物理年鉴》。,11, 501 (2020) ·doi:10.1146/annurev-conmatphys-031119-050745
[102] J.D.Bekenstein,黑洞与熵,物理学。修订版D7(1973)2333【灵感】·Zbl 1369.83037号
[103] J.D.Bekenstein,黑洞物理学中的广义热力学第二定律,物理学。修订版D9(1974)3292[灵感]。
[104] JM巴丁;卡特,B。;霍金,SW,黑洞力学四定律,Commun。数学。物理。,31, 161 (1973) ·Zbl 1125.83309号 ·doi:10.1007/BF01645742
[105] S.W.霍金,《黑洞的粒子创造》,Commun。数学。《物理学》第43卷(1975年)第199页【勘误表第46卷(1976年)第206页】【灵感】·Zbl 1378.83040号
[106] Strominger,A。;Vafa,C.,Bekenstein-Hawking熵的微观起源,物理学。莱特。B、 379、99(1996)·Zbl 1376.83026号 ·doi:10.1016/0370-2693(96)00345-0
[107] 马尔达塞纳,JM;Strominger,A。;Witten,E.,M理论中的黑洞熵,JHEP,12002(1997)·Zbl 0951.83034号 ·doi:10.1088/1126-6708/1997/12/002
[108] Shih,D。;Strominger,A。;尹,X.,N=8弦理论中的双子计数,JHEP,06037(2006)·doi:10.1088/1126-6708/2006/06/037
[109] 乔杜里,A。;加拉武索,RS;蒙达尔,S。;Sen,A.,纯D膜构型N=8超对称弦理论中的BPS状态计数,JHEP,10,186(2014)·Zbl 1333.83177号 ·doi:10.1007/JHEP10(2014)186
[110] 乔杜里,A。;RS加拉武索;蒙达尔,S。;Sen,A.,所有BPS黑洞微态都携带零角动量吗?,JHEP,04082(2016)
[111] Sen,A.,《N=8黑洞的算术》,JHEP,02,090(2010)·Zbl 1270.81190号 ·doi:10.1007/JHEP02(2010)090
[112] S.W.霍金,碰撞黑洞的引力辐射,物理学。Rev.Lett.26(1971)1344【灵感】。
[113] E.Witten,超对称和莫尔斯理论,J.Diff.Geom.17(1982)661[灵感]·Zbl 0499.53056号
[114] Schellekens,澳大利亚;沃纳,NP,弦理论中的异常和模不变性,物理学。莱特。B、 177317(1986年)·doi:10.1016/0370-2693(86)90760-4
[115] Witten,E.,《椭圆泛函与量子场论》,Commun。数学。物理。,109, 525 (1987) ·Zbl 0625.57008号 ·doi:10.1007/BF01208956
[116] Denef,F.,《量子颤动和霍尔/空穴晕》,JHEP,1023(2002)·doi:10.1088/1126-6708/202/1023
[117] Bena,I.,《规模化BPS解决方案和纯Higgs States》,JHEP,11,171(2012)·Zbl 1397.81337号 ·doi:10.1007/JHEP11(2012)171
[118] Dabholkar,A。;戈麦斯,J。;Murthy,S。;Sen,A.,黑洞熵的超对称指数,JHEP,04034(2011)·Zbl 1250.81105号 ·doi:10.1007/JHEP04(2011)034
[119] Sen,A.,黑洞如何预测Siegel模形式的傅里叶系数的符号?,发电机相对重力。,43, 2171 (2011) ·Zbl 1222.83114号 ·doi:10.1007/s10714-011-1175-9
[120] 布林曼,K。;Murthy,S.,《论弦论中黑洞简并的积极性》,Commun。数量Theor Phys。,07, 15 (2013) ·Zbl 1279.83019号 ·doi:10.4310/CNTP.2013.v7.n1.a2
[121] Chattopadhyaya,A。;曼肖特,J。;Mondal,S.,《缩放黑洞与模块化》,JHEP,03,001(2022)·Zbl 1522.83144号 ·doi:10.1007/JHEP03(2022)001
[122] 博贾德,G。;蒙达尔,S。;Pioline,B.,《多中心黑洞、定标溶液和定位的纯Higgs指数》,《SciPost Phys.》。,11, 023 (2021) ·doi:10.21468/SciPostPhys.11.2.023
[123] T.Garipov等人,《损耗表面、模式连通性和DNN的快速集成》,arXiv:1802.10026。
[124] G.Raghavan和M.Thomson,《通过穿越测地线实现网络稀疏化》,arXiv:2012.09605。
[125] S.Hochreiter和J.Schmidhuber,《通过发现平面极小值简化神经网络》,载于《神经信息处理系统进展》7,G.Tesauro、D.Touretzky和T.Leen主编,麻省理工学院出版社(1994年)。
[126] P.Chaudhari等人,《熵SGD:向宽山谷倾斜的梯度下降》,arXiv:1611.01838·Zbl 1459.65091号
[127] N.S.Keskar等人,《深度学习的大批量培训:泛化差距和极大极小值》,arXiv:1609.04836。
[128] W.R.Inc.,Mathematica,12.0版。
[129] M.Abadi等人,《TensorFlow:异构分布式系统上的大规模机器学习》,arXiv:1603.04467。
[130] 巴哈斯,C。;Kiritsis,E.,F^4项,N=4弦真空,Nucl。物理学。B程序。补遗,55,194(1997)·兹比尔0957.81623 ·doi:10.1016/S0920-5632(97)00079-0
[131] Gregori,A.,N=4弦基态的R^2修正和非微扰二重性,Nucl。物理学。B、 510、423(1998)·兹比尔0953.81080 ·doi:10.1016/S0550-3213(98)81020-1
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。