×

深度网络回归中的全局优化问题:概述。 (英文) Zbl 1421.90154号

摘要:本文概述了在回归环境下训练前馈神经网络(FNN)的优化方法中的全局问题。我们首先回顾了FNN的学习优化范式,并简要讨论了网络拓扑和网络参数联合选择的全局方案。本文的主要部分集中于核心子问题,即连续无约束(正则)权重优化问题,目的是回顾多层感知器/深度网络和径向基网络中专门出现的全局方法。我们回顾了关于无约束非线性问题的非全局平稳点的存在性以及在监督学习范式中确定全局解的作用的一些最新结果。针对广泛用于解决连续无约束问题的局部算法,重点讨论了利用全局特性的可能改进。文中还讨论了为嵌入局部算法的FNN训练优化问题设计的混合全局方法。

MSC公司:

90立方厘米 涉及图形或网络的编程
90立方厘米26 非凸规划,全局优化
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abraham,A.:元学习进化人工神经网络。神经计算56,1-38(2004)
[2] Adam,S.,Magoulas,G.,Karras,D.,Vrahatis,M.:限制神经网络学习误差全局优化的搜索空间:区间分析方法。J.马赫。学习。第17号决议,1-40(2016年)·Zbl 1392.68335号
[3] Adamu,A.,Maul,T.,Bargiela,A.:关于训练具有传递函数多样性的神经网络。In:计算智能与信息技术国际会议(CIIT 2013),Elsevier(2013)
[4] Amato,S.、Apolloni,B.、Caporali,G.、Madesani,U.、Zanaboni,A.:反向传播中的模拟退火方法。神经计算3(5),207-220(1991)
[5] An,G.:在反向传播训练期间添加噪声对泛化性能的影响。神经计算。8(3), 643-674 (1996)
[6] Bagirov,A.,Rubinov,A.,Soukhoroukova,N.,Yearwood,J.:通过非光滑和全局优化进行无监督和监督数据分类。前11(1),1-75(2003)·Zbl 1048.65059号
[7] Baldi,P.,Hornik,K.:神经网络和主成分分析:从没有局部极小值的示例中学习。神经网络。2(1), 53-58 (1989)
[8] Baldi,P.,Lu,Z.:复杂值自动编码器。神经网络。33, 136-147 (2012) ·Zbl 1258.68111号
[9] Baldi,P.,Sadowski,P.:辍学学习算法。Artif公司。智力。210, 78-122 (2014) ·Zbl 1333.68225号
[10] Barhen,J.,Protopopescu,V.,Reister,D.:TRUST:全局优化的确定性算法。《科学》276(5315),1094-1097(1997)·Zbl 1226.90073号
[11] Bates,D.M.,Watts,D.G.:非线性回归分析及其应用。概率统计威利级数。霍博肯·威利(2007)
[12] Bengio,Y.、Louradour,J.、Collobert,R.、Weston,J.:课程学习。摘自:第26届机器学习国际年会论文集,第41-48页。ACM(2009)
[13] Bergstra,J.,Bengio,Y.:超参数优化的随机搜索。J.马赫。学习。第13号决议,281-305(2012年)·兹比尔1283.68282
[14] Bertsekas,D.P.:非线性规划。雅典娜科学,贝尔蒙特(1999)·Zbl 1015.90077号
[15] Bertsekas,D.P.:凸优化的增量梯度、次梯度和近似方法:一项调查。最佳方案。机器。学习。2010(1-38), 3 (2011)
[16] Bertsekas,D.P.,Tsitsiklis,J.N.:并行和分布式计算:数值方法。普伦蒂斯·霍尔,恩格尔伍德悬崖(1989)·Zbl 0743.65107号
[17] Bertsekas,D.P.,Tsitsiklis,J.N.:有误差梯度方法中的梯度收敛。SIAM J.Optim公司。10(3), 627-642 (2000) ·Zbl 1049.90130号
[18] Bertsimas,D.,Dunn,J.:最佳分类树。机器。学习。106(7), 1039-1082 (2017). https://doi.org/10.1007/s10994-017-5633-9 ·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[19] Bertsimas,D.,Shioda,R.:通过整数优化进行分类和回归。操作。第55(2)号决议,252-271(2007)·Zbl 1167.90593号
[20] Bianchini,M.,Frasconi,P.,Gori,M.:径向基函数网络中无局部极小值的学习。IEEE传输。神经网络。6(3), 749-756 (1995)
[21] Bishop,C.:改进径向基函数神经网络的泛化特性。神经计算。3(4), 579-588 (1991)
[22] Bishop,C.:模式识别和机器学习(信息科学和统计),第1版。2006年。更正第2版印刷版(2007年)
[23] Blum,A.,Rivest,R.L.:训练三节点神经网络是NP完成的。摘自:《第一届神经信息处理系统国际会议论文集》,第494-501页。麻省理工学院出版社(1988)
[24] Blundell,C.、Cornebise,J.、Kavukcuoglu,K.、Wierstra,D.:神经网络中的权重不确定性(2015)。arXiv预打印arXiv:1505.05424
[25] Bottou,L.,Bousquet,O.:大规模学习的权衡。摘自:《第20届神经信息处理系统国际会议论文集》,NIPS'07,第161-168页。Curran Associates Inc.,美国(2007年)。http://dl.acm.org/citation.cfm?id=2981562.2981583
[26] Bottou,L.,Curtis,F.E.,Nocedal,J.:大规模机器学习的优化方法。SIAM版本60(2),223-311(2018)·兹比尔1397.65085
[27] Boubezoul,A.,Paris,S.:全局优化方法在模型和特征选择中的应用。模式识别。45(10), 3676-3686 (2012) ·Zbl 1242.68207号
[28] Branke,J.:神经网络设计和训练的进化算法。摘自:第一届北欧遗传算法及其应用研讨会论文集,第145-163页(1995年)
[29] Bravi,L.,Piccialli,V.,Sciandrone,M.:非线性回归问题中基于优化的特征排序方法。IEEE传输。神经网络。学习。系统。28(4), 1005-1010 (2017)
[30] Bray,A.J.,Dean,D.S.:大维空间上高斯场临界点的统计。物理学。修订稿。98(15)、150 201(2007)
[31] Breuel,T.M.:关于神经网络SGD训练的收敛性(2015)。arXiv预打印arXiv:1508.02790
[32] Buchtala,O.,Klimek,M.,Sick,B.:用于数据挖掘应用的径向基函数分类器的进化优化。IEEE传输。系统。人类网络。B部分(Cybern.)35(5),928-947(2005)
[33] Burges,C.J.:模式识别支持向量机教程。数据最小知识。发现。2(2), 121-167 (1998)
[34] Buzzi,C.,Grippo,L.,Sciandone,M.:训练RBF神经网络的收敛分解技术。神经计算。13(8), 1891-1920 (2001) ·Zbl 0986.68109号
[35] Carrizosa,E.,Martín-Barragán,B.,Morales,D.R.:支持向量机参数调整的嵌套启发式算法。计算。操作。第43、328-334号决议(2014年)·Zbl 1349.62260号
[36] Carrizosa,E.,Morales,D.R.:监督分类和数学优化。计算。操作。第40(1)号决议,第150-165号决议(2013年)·Zbl 1349.68135号
[37] Cetin,B.,Barhen,J.,Burdick,J.:用于快速全局优化的终端排斥器无约束子能量隧道(信任)。J.优化。理论应用。77(1), 97-126 (1993) ·Zbl 0801.49001号
[38] Cetin,B.C.,Burdick,J.W.,Barhen,J.:全局下降代替梯度下降,以避免人工神经网络学习中的局部极小问题。摘自:IEEE神经网络国际会议,1993年,第836-842页。IEEE(1993)
[39] Chandrashekar,G.,Sahin,F.:特征选择方法综述。计算。选举人。工程40(1),16-28(2014)
[40] Chao,J.、Hoshino,M.、Kitamura,T.、Masuda,T.:多层RBF网络及其监督学习。摘自:2001年国际神经网络联合会议(IJCNN'01),《会议记录》,第3卷,第1995-2000页。IEEE(2001)
[41] Chapelle,O.,Sindhwani,V.,Keerthi,S.S.:半监督支持向量机的优化技术。J.马赫。学习。第9号决议,203-233(2008年)·Zbl 1225.68158号
[42] Chen,S.,Wu,Y.,Luk,B.:径向基函数网络的组合遗传算法优化和正则化正交最小二乘学习。IEEE传输。神经网络。10(5), 1239-1243 (1999)
[43] Chiang,H.D.,Reddy,C.K.:基于TRUST-TECH的神经网络训练。摘自:2007年国际神经网络联合会议。(IJCNN 2007),第90-95页。IEEE(2007)
[44] Cho,Sy,Chow,T.W.:使用快速全局学习算法-最小二乘法和惩罚优化方法训练多层神经网络。神经计算25(1),115-131(1999)·兹伯利0941.68110
[45] Choromanska,A.,Henaff,M.,Mathieu,M.、Arous,G.B.、LeCun,Y.:多层网络的损耗面。In:AISTATS(2015)
[46] Choromanska,A.,LeCun,Y.,Arous,G.B.:开放问题:多层网络损耗面的景观。收录于:COLT,第1756-1760页(2015年)
[47] Cohen,S.,Intrator,N.:RBF网络的全局优化(2000)。http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.5955
[48] Cohen,S.,Intrator,N.:基于投影和径向基函数的混合体系结构:初始值和全局优化。模式分析。申请。5(2), 113-120 (2002) ·Zbl 1024.68091号
[49] Dai,Q.,Ma,Z.,Xie,Q.:一种集成了反向传播算法的两阶段集成方案。申请。软计算。24, 1124-1135 (2014)
[50] Dauphin,Y.N.,Pascanu,R.,Gulcehre,C.,Cho,K.,Ganguli,S.,Bengio,Y.:识别和解决高维非凸优化中的鞍点问题。摘自:《神经信息处理系统的进展》,第2933-2941页(2014年)
[51] David,O.E.,Greental,I.:进化深层神经网络的遗传算法。摘自:《2014年遗传和进化计算年度会议相关出版物汇编》,第1451-1452页。ACM(2014)
[52] Dietterich,T.G.:机器学习中的集成方法。摘自:多分类器系统国际研讨会,第1-15页。斯普林格(2000)
[53] Duarte Silva,A.P.:监督分类的优化方法。欧洲药典。第261(2)号决议,772-788(2017)·Zbl 1403.62114号
[54] Duch,W.,Jankowski,N.:新的神经传递函数。申请。数学。计算。科学。7, 639-658 (1997) ·Zbl 0902.68168号
[55] Duch,W.,Jankowski,N.:神经传递函数综述。神经计算。Surv公司。2(1), 163-212 (1999)
[56] Duch,W.,Korczak,J.:适用于神经网络的优化和全局最小化方法。神经计算。Surv公司。2, 163-212 (1998)
[57] Feng-wen,H.,Ai-ping,J.:基于填充函数法的小波神经网络优化改进方法。参见:2009年第16届国际工业工程和工程管理会议(IE&EM'09),第1694-1697页。IEEE(2009)
[58] Fischetti,M.:高斯核支持向量机的快速训练。离散优化。22, 183-194 (2016) ·Zbl 1387.68197号
[59] Floudas,C.A.:《确定性全局优化:理论、方法和应用》,第37卷。柏林施普林格出版社(2013)
[60] Fukumizu,K.,Amari,Si:多层感知器层次结构中的局部极小值和平台。神经网络。13(3), 317-327 (2000)
[61] Ge,R.:一种求多变量函数全局极小值的填充函数方法。数学。程序。46(1-3), 191-204 (1990) ·兹伯利0694.90083
[62] González,J.、Rojas,I.、Ortega,J.,Pomares,H.、Fernandez,F.J.、Díaz,A.F.:函数逼近径向基函数网络的大小、形状和位置参数的多目标进化优化。IEEE传输。神经网络。14(6), 1478-1495 (2003)
[63] Goodfellow,I.,Bengio,Y.,Courville,A.:深度学习。麻省理工学院出版社,剑桥(2016)·Zbl 1373.68009号
[64] Goodfellow,I.J.,Vinyals,O.:定性描述神经网络优化问题。CoRR(2014)。http://arxiv.org/abs/1412.6544
[65] Gori,M.,Tesi,A.:关于反向传播中的局部极小问题。IEEE传输。模式分析。机器。智力。14(1), 76-86 (1992)
[66] Gorse,D.,Shepherd,A.J.,Taylor,J.G.:通过经典范围扩展算法避免局部极小值。收录于:ICANN94,第525-528页。施普林格,伦敦(1994)
[67] Gorse,D.,Shepherd,A.J.,Taylor,J.G.:避免局部极小值的经典算法。摘自:《世界神经网络大会论文集》,第364-369页。Citeser(1994)
[68] Gorse,D.,Shepherd,A.J.,Taylor,J.G.:监督学习中的新ERA。神经网络。10(2), 343-352 (1997)
[69] Graves,A.:神经网络的实用变分推理。摘自:神经信息处理系统进展,第2348-2356页(2011年)
[70] Grippo,L.:神经网络中监督学习的收敛在线算法。IEEE传输。神经网络。11(6), 1284-1299 (2000)
[71] Grippo,L.,Manno,A.,Sciandone,M.:多层感知器训练的分解技术。IEEE传输。神经网络。学习。系统。27(11), 2146-2159 (2016)
[72] Grippo,L.,Sciandone,M.:无约束优化的全局收敛块协调技术。最佳方案。方法软件。10(4), 587-637 (1999) ·Zbl 0940.65070号
[73] Grippo,L.,Sciandone,M.:Barzilai-Borwein梯度法的非单调全球化技术。计算。最佳方案。申请。23(2), 143-169 (2002) ·Zbl 1028.90061号
[74] Györfi,L.,Kohler,M.,Krzyzak,A.,Walk,H.:非参数回归的无分布理论。柏林施普林格出版社(2006)·Zbl 1021.62024号
[75] Hamey,L.G.:XOR没有局部极小值:神经网络误差曲面分析的一个案例研究。神经网络。11(4), 669-681 (1998)
[76] Hamm,L.,Brorsen,B.W.,Hagan,M.T.:估计神经网络权重的随机全局优化方法的比较。神经过程。莱特。26(3), 145-158 (2007)
[77] Haykin,S.:《神经网络和学习机器》,第3卷。皮尔逊,上鞍河(2009)
[78] Hochreiter,S.,Schmidhuber,J.:平面极小值。神经计算。9(1),1-42(1997)·Zbl 0872.68150号
[79] Horst,R.,Tuy,H.:全局优化:确定性方法。柏林施普林格出版社(2013)·Zbl 0704.90057号
[80] 黄,G.,黄,G.B.,宋,S.,You,K.:极限学习机器的趋势:综述。神经网络。61, 32-48 (2015) ·兹比尔1325.68190
[81] Huang,G.B.,Zhu,Q.Y.,Siew,C.K.:极限学习机:前馈神经网络的一种新的学习方案。2004年IEEE国际神经网络联合会议,2004年。《议事录》,第2卷,第985-990页。IEEE(2004)
[82] Hui,L.C.K.,Lam,K.Y.,Chea,C.W.:神经网络训练中的全局优化。神经计算。申请。5(1), 58-64 (1997)
[83] Jin,Y.,Sendhoff,B.:基于Pareto的多目标机器学习:概述和案例研究。IEEE传输。系统。人类网络。C部分(申请版本)38(3),397-415(2008)
[84] Kawaguchi,K.:深度学习,没有糟糕的局部最低要求。摘自:《神经信息处理系统进展》,第586-594页(2016年)
[85] Keskar,N.S.、Mudigere,D.、Nocedal,J.、Smelyanskiy,M.、Tang,P.T.P.:关于深度学习的大范围训练:泛化差距和显著极小值。致:2017(2016)年ICLR
[86] Lang,K.:学会区分两个螺旋。摘自:《1988年康涅狄格州模范暑期学校学报》,第52-59页(1989年)
[87] Laurent,T.,von Brecht,J.:ReLU网络的多线性结构(2017)。arXiv预打印arXiv:1712.10132
[88] LeCun,Y.、Bengio,Y.和Hinton,G.:深度学习。《自然》521(7553),436-444(2015)
[89] LeCun,Y.A.,Bottou,L.,Orr,G.B.,Müller,K.R.:高效支撑。摘自:《神经网络:贸易的诡计》,第9-48页。施普林格(2012)
[90] Lee,J.D.,Simchowitz,M.,Jordan,M.I.,Recht,B.:梯度下降仅收敛于极小值。摘自:学习理论会议,第1246-1257页(2016)
[91] Lee,J.S.,Park,C.H.:通过混合模拟退火对径向基函数网络进行全局优化。神经网络。世界20(4),519(2010)
[92] 李,H.R.,李,H.L.:一种基于填充函数的神经网络全局优化算法。J.东北。自然科学大学。28(9), 1247 (2007) ·Zbl 1150.68413号
[93] Lin,S.W.,Tseng,T.Y.,Chou,S.Y.,Chen,S.C.:一种基于模拟退火的方法,用于反向传播网络的同时参数优化和特征选择。专家系统。申请。34(2), 1491-1499 (2008)
[94] Lisboa,P.,Perantonis,S.:XOR问题中局部极小值的完全解。网络:计算。神经系统。2(1), 119-124 (1991) ·兹比尔0719.94512
[95] Liu,H.,Wang,Y.,Guan,S.,Liu,X.:无约束全局优化的新填充函数方法。国际期刊计算。数学。94(12), 2283-2296 (2017) ·Zbl 1398.65125号
[96] Locatelli,M.,Schoen,F.:全局优化:理论、算法和应用。工业和应用数学学会,宾夕法尼亚州费城(2013)。https://doi.org/10.1137/1.9781611972672 ·Zbl 1286.90003号
[97] Magoulas,G.,Plagianakos,V.,Vrahatis,M.:使用进化算法进行在线训练的混合方法。摘自:神经网络国际联合会议,2001年(IJCNN'01)会议记录,第3卷,第2218-2223页。IEEE(2001)
[98] Martin-Guerreo,J.、Gómez-Chova,L.、Calpe-Maravillia,J.,Camps-Valls,G.、Soria-Olivas,E.、Moreno,J.:用于高光谱图像分类的ERA算法的软方法。参见:2003年第三届图像和信号处理与分析国际研讨会论文集(ISPA 2003),第2卷,第761-765页。IEEE(2003)
[99] Neelakantan,A.、Vilnis,L.、Le,Q.V.、Sutskever,I.、Kaiser,L.,Kurach,K.、Martens,J.:添加梯度噪声可以改善深层网络的学习(2015)。arXiv预打印arXiv:1511.06807
[100] Nesterov,Y.:一种求解具有收敛速度\[o(1/k^2)\]o(1/k2)的凸规划问题的方法。Sov公司。数学。Doklady 27(2),372-376(1983)·Zbl 0535.90071号
[101] Nguyen,Q.,Hein,M.:深度卷积神经网络的损失面和表达性(2017)。arXiv预打印arXiv:1710.10928
[102] Nguyen,Q.,Hein,M.:深度和广度神经网络的损失面(2017)。arXiv预打印arXiv:1704.08045
[103] Ojha,V.K.,Abraham,A.,Snášel,V.:前馈神经网络的元启发式设计:二十年研究回顾。工程应用。Artif公司。智力。60, 97-116 (2017)
[104] Palmes,P.P.,Hayasaka,T.,Usui,S.:基于突变的遗传神经网络。IEEE Trans。神经网络。16(3), 587-600 (2005)
[105] Peng,C.C.,Magoulas,G.D.:递归神经网络的自适应非单调共轭梯度训练算法。参见:第19届IEEE人工智能工具国际会议,2007年(ICTAI 2007),第2卷,第374-381页。IEEE(2007)
[106] Peng,C.C.,Magoulas,G.D.:用于处理符号序列的递归神经结构的非单调Levenberg-Marquardt训练。神经计算。申请。20(6), 897-908 (2011)
[107] Piccialli,V.,Sciandone,M.:非线性优化和支持向量机。4OR 16(2),111-149(2018)·Zbl 1398.65126号
[108] Pintér,J.D.:通过全局优化校准人工神经网络。专家系统。申请。39(1), 25-32 (2012)
[109] Plagianakos,V.,Magoulas,G.,Vrahatis,M.:使用全局优化策略在多层感知器中学习。非线性分析。理论方法应用。47(5), 3431-3436 (2001) ·Zbl 1042.90653号
[110] Plagianakos,V.,Magoulas,G.,Vrahatis,M.:通过全局搜索改进神经网络的学习。摘自:《全局优化》,第361-388页。斯普林格(2006)·兹比尔1123.92002
[111] Plagianakos,V.P.,Magoulas,G.D.,Vrahatis,M.N.:有效训练多层感知器的决定论非单调策略。IEEE神经网络汇刊13(6),1268-1284(2002)
[112] Poggio,T.,Girosi,F.:用于近似和学习的网络。程序。IEEE 78(9),1481-1497(1990)·Zbl 1226.92005号
[113] Polyak,B.T.:加速迭代方法收敛的一些方法。苏联计算。数学。数学。物理学。4(5), 1-17 (1964) ·Zbl 0147.35301号
[114] Prieto,A.、Prieto、B.、Ortigosa,E.M.、Ros,E.、Pelayo,F.、Ortega,J.、Rojas,I.:神经网络:早期研究概述、当前框架和新挑战。神经计算214,242-268(2016)
[115] Rere,L.R.,Fanny,M.I.,Arymurthy,A.M.:用于深度学习的模拟退火算法。程序。计算。科学。72, 137-144 (2015)
[116] Robbins,H.,Monro,S.:一种随机近似方法。安。数学。《美国联邦法律大全》第22(3)卷,第400-407页(1951年)·Zbl 0054.05901号
[117] RoyChowdhury,P.,Singh,Y.P.,Chansarkar,R.:多层感知器有效训练的动态隧道技术。IEEE传输。神经网络。10(1), 48-55 (1999)
[118] Ruppert,D.,Wand,M.P.,Carroll,R.J.:半参数回归。收录于:剑桥统计与概率数学系列,第12卷。数学评论(MathSciNet):MR1998720。剑桥大学出版社,剑桥(2003)·Zbl 1038.62042号
[119] Ruppert,D.、Wand,M.P.、Carroll,R.J.:2003-2007年期间的半参数回归。电子。《J Stat.31193》(2009年)·Zbl 1326.62094号
[120] Saad,D.:神经网络在线学习,第17卷。剑桥大学出版社,剑桥(2009)·Zbl 1185.68566号
[121] Scardapane,S.,Wang,D.:神经网络中的随机性:概述。威利公司(Wiley Interdiscip)。版本数据最小知识。发现。7(2), 1200 (2017)
[122] Schaffer,J.D.,Whitley,D.,Eshelman,L.J.:遗传算法和神经网络的组合:最新技术综述。摘自:1992年遗传算法与神经网络组合国际研讨会(COGANN-92),第1-37页。IEEE(1992)
[123] Schmidhuber,J.:神经网络的深度学习:概述。神经网络。61, 85-117 (2015)
[124] Schwenker,F.,Kestler,H.A.,Palm,G.:径向基函数网络的三个学习阶段。神经网络。14(4), 439-458 (2001) ·Zbl 0991.68061号
[125] Sexton,R.S.、Dorsey,R.E.、Johnson,J.D.:神经网络的全局优化:遗传算法和反向传播的比较。Decis公司。支持系统。22(2), 171-185 (1998)
[126] Sexton,R.S.、Dorsey,R.E.、Johnson,J.D.:神经网络优化:遗传算法和模拟退火的比较分析。欧洲药典。第114(3)号决议,589-601(1999)·兹比尔0938.90069
[127] Shang,Y.,Wah,B.W.:神经网络训练的全局优化。计算机29(3),45-54(1996)
[128] Šíma,J.:训练单个乙状神经元是很困难的。神经计算。14(11), 2709-2728 (2002) ·Zbl 1060.68099号
[129] Soudry,D.,Carmon,Y.:没有坏的局部极小值:多层神经网络的数据独立训练误差保证(2016)。arXiv预打印arXiv:1605.08361
[130] Sprinkhuizen-Kuyper,I.G.,Boers,E.J.:2-2-1异或网络的误差面:有限驻点。神经网络。11(4), 683-690 (1998)
[131] Srivastava,N.,Hinton,G.E.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.:退出:防止神经网络过度拟合的简单方法。J.马赫。学习。1929-1958年第15(1)号决议(2014年)·Zbl 1318.68153号
[132] Steijvers,M.,Grünwald,P.:执行上下文敏感预测任务的递归网络。摘自:《认知科学学会第18届年会论文集》,第335-339页(1996)
[133] Sutskever,I.、Martens,J.、Dahl,G.E.、Hinton,G.E.:关于深度学习中初始化和动力的重要性。ICML 3(28),1139-1147(2013)
[134] Swirszcz,G.、Czarnecki,W.M.、Pascanu,R.:深层网络训练中的局部极小值。CoRR(2016)。arXiv:1611.06310v1
[135] Teboulle,M.:基于中心的聚类方法的统一连续优化框架。J.马赫。学习。第8号决议,65-102(2007年)·Zbl 1222.68318号
[136] Teo,C.H.,Smola,A.,Vishwanathan,S.,Le,Q.V.:用于正则化风险最小化的可缩放模块凸解算器。摘自:第13届ACM SIGKDD知识发现和数据挖掘国际会议记录,第727-736页。ACM(2007)
[137] Tirumala,S.S.、Ali,S.、Ramesh,C.P.:进化深层神经网络:一个新的前景。摘自:第十二届自然计算、模糊系统和知识发现国际会议(ICNC-FSKD),2016年,第69-74页。IEEE(2016)
[138] Toh,K.A.:FNN训练的确定性全局优化。IEEE传输。系统。人类网络。B部分(Cybern.)33(6),977-983(2003)
[139] Vapnik,V.:统计学习理论的本质。柏林施普林格出版社(2013)·Zbl 0934.62009号
[140] Voglis,C.,Lagaris,I.:神经网络训练的全局优化方法。神经平行科学。计算。14(2), 231 (2006) ·Zbl 1152.90673号
[141] Voglis,C.,Lagaris,I.E.:走向理想多段:在有界区域内定位连续函数最小值的随机方法。申请。数学。计算。213(1), 216-229 (2009) ·Zbl 1167.65377号
[142] Wang,D.:编辑:训练神经网络的随机算法。信息科学。364-365, 126-128 (2016) ·Zbl 1427.68017号
[143] 韦伯斯,P.J.:监督学习:它能摆脱当地的最低水平吗?《神经计算与学习的理论进展》,第449-461页。斯普林格(1994)·Zbl 0825.68543号
[144] Yeung,D.S.,Li,J.C.,Ng,W.W.Y.,Chan,P.P.K.:通过训练误差和随机敏感性的多目标优化进行Mlpnn训练。IEEE传输。神经网络。学习。系统。27(5), 978-992 (2016). https://doi.org/10.109/TNNLS.2015.2431251 ·doi:10.10109/TNNLS.2015.2431251
[145] Yu,W.,Zhuang,F.,He,Q.,Shi,Z.:通过极端学习机器学习深度表征。神经计算149,308-315(2015)
[146] 张,J.R.,张,J.,洛克,T.M.,Lyu,M.R.:一种用于前馈神经网络训练的混合粒子群优化支持传播算法。申请。数学。计算。185(2), 1026-1037 (2007) ·Zbl 1112.65059号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。