×

一个分布式优化框架,将自然梯度与无Hessian相结合,用于区分序列训练。 (英语) 兹比尔1521.68122

摘要:本文提出了一种新的自然梯度和无Hessian(NGHF)优化神经网络训练框架,该框架可以以分布式方式高效运行。它依赖于线性共轭梯度(CG)算法,将自然梯度(NG)方法与Hessian-free(HF)的局部曲率信息相结合。CG中数值问题的解决方案允许以比通常使用的更少的CG迭代次数生成有效的参数更新(例如,5-8而不是200)。这项工作还提出了一种新的预处理方法,以改进具有共享参数的模型的单个CG迭代所取得的进展。虽然NGHF适用于其他训练损失和模型结构,但本文研究了NGHF用于混合隐马尔可夫模型声学模型的基于格的区分序列训练,使用标准递归神经网络、长短期记忆和时滞神经网络模型计算输出概率。针对一系列不同的声学模型类型,在多类型广播数据集上进行了自动语音识别实验。这些实验表明,NGHF比标准随机梯度下降或Adam实现了更大的字错误率降低,同时需要更少数量级的参数更新。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amari,S.,结构参数空间中的神经学习-自然黎曼梯度,(神经信息处理系统进展9(1997)),127-133
[2] Amari,S.,《信息几何及其应用》(2016),施普林格出版社·Zbl 1350.94001号
[3] 安德里科维奇,M。;丹尼尔,M。;Colmenarejo,S。;霍夫曼,M。;Pfau,D。;Schaul,T。;希林福德,B。;de Freitas,N.,通过梯度下降学习梯度下降,(神经信息处理系统进展29(2016)),3988-3996
[4] Bahl,L.、Brown,P.、de Souza,P.和Mercer,R.(1986年)。语音识别中隐马尔可夫模型参数的最大互信息估计。第11届IEEE声学、语音和信号处理国际会议论文集(第231-234页)。
[5] 鲍姆,L。;《一个不等式及其在马尔可夫过程概率函数统计估计和生态学模型中的应用》,美国数学学会。公报,73(3),360-363(1967)·Zbl 0157.11101号
[6] 贝克尔,S。;LeCun,Y.,用二阶方法改进反向传播学习的收敛性技术报告CRG-TR-88-5,1-9(1988),多伦多大学计算机科学系
[7] Bell,P.、Gales,M.、Hain,T.、Kilgour,J.、Lanchantin,P.,Liu,X.、McParland,A.、Renals,S.、Saz,O.、Wester,M.和Woodland,P..(2015)。MGB的挑战:评估多类型广播媒体的认可度。第十届IEEE自动语音识别与理解研讨会论文集(第687-693页)。
[8] Bernacchia,A。;Lengyel,M。;Hennequin,G.,深度线性网络中的精确自然梯度及其在非线性情况下的应用,(神经信息处理系统进展31(2018)),5945-5954
[9] Bishop,C.,模式识别和机器学习(2006),Springer·Zbl 1107.68072号
[10] Bottou,L.(2010)。具有随机梯度下降的大规模机器学习。第19届国际计算统计会议论文集(第177-187页)·Zbl 1436.68293号
[11] 博图,L。;柯蒂斯,F.E。;Nocedal,J.,《大规模机器学习的优化方法》,工业和应用数学学会(SIAM)评论,60,2,223-311(2018)·Zbl 1397.65085号
[12] Chen,K.和Huo,Q.(2016)。通过带块内并行优化和块式模型更新滤波的增量块训练实现深度学习机器的可扩展训练。第41届IEEE声学、语音和信号处理国际会议论文集(第5880-5884页)。
[13] Chiu,C.-C.,Sainath,T.N.,Wu,Y.,Prabhavalkar,R.,Nguyen,P.,Chen,Z.,Kannan,A.,Weiss,R.J.,Rao,K.,Gonina,E.,Jaitly,N.,Li,B.,Chorowski,J.,&Bacchiani,M.(2018)。采用序列到序列模型的最先进语音识别。第43届IEEE声学、语音和信号处理国际会议论文集(第4774-4778页)。
[14] 迪安·J。;科拉多,G。;蒙加,R。;Chen,K。;德文,M。;Le,问:。;毛,M。;兰扎托,M。;高级,A。;塔克,P。;Yang,K。;Ng,A.,《大规模分布式深层网络》,(神经信息处理系统进展25(2012)),1223-1231
[15] Desjardins,G。;Simonyan,K。;帕斯卡努,R。;Kavukcuoglu,K.,《自然神经网络》,(神经信息处理系统进展28(2015)),2071-2079
[16] Dognin,P.和Goel,V.(2013)。将随机平均梯度和无Hessian优化相结合用于深度神经网络的序列训练。程序中。IEEE自动语音识别和理解研讨会(第303-308页)。
[17] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,机器学习研究杂志,2121-2159(2011)·Zbl 1280.68164号
[18] Elman,J.,《发现时间结构》,认知科学,14(2),179-211(1990)
[19] de Felice,F。;Clarke,C.,弯曲流形上的相对论(1992),剑桥大学出版社·Zbl 0754.53001号
[20] 乔治·T。;Laurent,C。;Bouthillier,X。;巴拉斯,N。;Vincent,P.,kronecker因子本征基中的快速近似自然梯度下降,(神经信息处理系统进展31(2018)),9550-9560
[21] Gibson,M.和Hain,T.(2006年)。大词汇语音识别中最小贝叶斯风险训练的假设空间。国际言语交际协会第七届会议记录。
[22] Gloot,X.和Bengio,Y.(2010年)。了解训练深度前馈神经网络的困难。第13届人工智能和统计国际会议记录(第249-256页)。
[23] 戈尔,V。;Byrne,W.,最小贝叶斯风险自动语音识别,计算机语音和语言,14(2),115-135(2000)
[24] Graves,A.、Fernández,S.、Gomez,F.和Schmidhuber,J.(2006)。连接时间分类:用递归神经网络标记未分段序列数据。第23届机器学习国际会议论文集(第369-376页)。
[25] Graves,A.和Jaitly,N.(2014年)。利用递归神经网络实现端到端语音识别。第31届机器学习国际会议论文集(第1764-1772页)。
[26] Graves,A.、Mohamed,A.r.和Hinton,G.(2013)。基于深度递归神经网络的语音识别。第38届IEEE声学、语音和信号处理国际会议论文集(第6645-6649页)。
[27] Grosse,R.和Salakhudinov,R.(2015)。通过稀疏分解逆Fisher矩阵来放大自然梯度。第32届机器学习国际会议论文集(第2304-2313页)。
[28] Haider,A.,《使用流形理论进行自然梯度和基于泰勒的优化的通用框架》(2018),arXiv预印本arXiv:1803.09791
[29] Haider,A.,语音识别中训练深层神经网络的优化方法(2019),剑桥大学(博士论文)
[30] Haider,A.和Woodland,P.(2017年)。自然梯度DNN声学模型的序列训练。第11届IEEE自动语音识别和理解研讨会论文集(第178-184页)。
[31] Haider,A.和Woodland,P.(2018年)。结合自然梯度和无Hessian方法进行序列训练。国际言语交际协会第19届会议记录(第2918-2922页)。
[32] Heigold,G.、McDermott,E.、Vanhoucke,V.、Senior,A.和Bacchiani,M.(2014)。深度神经网络序列训练的异步随机优化。第39届IEEE声学、语音和信号处理国际会议论文集(第5624-5628页)。
[33] 辛顿,G。;邓,L。;Yu,D。;Dahl,G.E。;穆罕默德,A.-r。;北卡罗来纳州贾特利。;高级,A。;Vanhoucke,V。;Nguyen,P。;Sainath,T。;Brian,K.,语音识别中声学建模的深度神经网络:四个研究小组的共同观点,IEEE信号处理杂志,29,6,82-97(2012)
[34] 辛顿,G。;Osindero,S。;Teh,Y.,深度信念网络的快速学习算法,神经计算,18527-1554(2006)·Zbl 1106.68094号
[35] 辛顿,G。;Salakhutdinov,R.,《用神经网络降低数据的维数》,《科学》,3135786504-507(2006)·Zbl 1226.68083号
[36] Hochreiter,S。;Schmidhuber,J.,《长短期记忆,神经计算》,9(8),1735-1780(1997)
[37] Kaiser,J.、Horvat,B.和Kacic,Z.(2000年)。HMM模型基于整体风险准则的判别训练的一种新损失函数。国际言语交际协会第一届会议记录(第887-890页)。
[38] Kingma,D.P.和Ba,J.L.(2015年)。亚当:一种随机优化方法。第三届学习表现国际会议论文集(第1-13页)。
[39] Kingsbury,B.(2009)。神经网络声学建模中基于格点的序列分类准则优化。第34届IEEE声学、语音和信号处理国际会议论文集(第3761-3764页)。
[40] Kingsbury,B.、Sainath,T.和Soltau,H.(2012)。使用分布式Hessian-Free优化的深度神经网络声学模型的可扩展最小贝叶斯风险训练。国际言语交际协会第13届会议记录(第10-13页)。
[41] Kreyssig,F.、Zhang,C.和Woodland,P.(2018年)。使用深核和频率相关网格RNN改进TDNN。2018年IEEE声学、语音和信号处理国际会议(第4864-4868页)。
[42] Ladkat,P.、Rybakov,O.、Arava,R.、Hari,S.、Parthasarathi,K.、Chen,I.F.和Ström,N.(2019年)。声学建模的两层分布式训练算法。国际言语交际协会第20届会议记录(第1626-1630页)。
[43] Lüscher,C.、Beck,E.、Irie,K.、Kitza,M.、Michel,W.、Zeyer,A.、Schlüter,R.和Ney,H.(2019年)。自由演讲的RWTH ASR系统:混合与注意力。国际言语交际协会第20届会议记录(第231-235页)。
[44] Martens,J.(2010)。通过无Hessian优化进行深度学习。第27届机器学习国际会议论文集(第735-742页)。
[45] Martens,J.,《自然梯度法的新见解和观点》,《机器学习研究杂志》,1-76(2020)·Zbl 07306852号
[46] Martens,J.和Grosse,R.(2015)。用kronecker因子近似曲率优化神经网络。第32届机器学习国际会议论文集(第2408-2417页)。
[47] Martens,J.和Sutskever,I.(2011年)。用无hessian优化学习递归神经网络。第28届机器学习国际会议论文集(第1033-1040页)。
[48] Nocedal,J。;Wright,S.,《数值优化》(2016),施普林格出版社
[49] 帕斯卡努,R。;Bengio,Y.,《重新审视深层网络的自然梯度》(2013),arXiv预印本arXiv:1301.3584
[50] Pascanu,R.、Mikolov,T.和Bengio,Y.(2013)。关于训练递归神经网络的困难。第30届机器学习国际会议论文集(第1310-1318页)。
[51] Pearlmutter,B.,Hessian的快速精确乘法,神经计算,6,1,147-160(1994)
[52] Peddenti,V.、Povey,D.和Khudanpur,S.(2015)。一种用于长时间上下文高效建模的时滞神经网络体系结构。国际言语交际协会第16届会议记录(第3214-3218页)。
[53] Povey,D.,《大词汇语音识别的判别训练》(2005年),剑桥大学,(博士论文)
[54] Povey,D.,Peddenti,V.,Galvez,D.,Ghahremani,P.,Manohar,V..,Na,X.,Wang,Y.,&Khudanpur,S.(2016)。基于无网格MMI的ASR纯序列训练神经网络。国际言语交际协会第17届会议记录。
[55] Povey,D.和Woodland,P.(2002年)。最小的电话错误和I-平滑,以改进辨别训练。第27届IEEE声学、语音和信号处理国际会议论文集(第105-108页)。
[56] Povey,D.、Zhang,X.和Khudanpur,S.(2015)。具有自然梯度和参数平均的深度神经网络的并行训练。第三届学习表现国际会议论文集(第1-13页)。
[57] Renals,S.、Morgan,N.、Cohen,M.和Franco,H.(1992年)。DECIPHER语音识别系统中的连接论概率估计。第17届IEEE声学、语音和信号处理国际会议论文集(第601-604页)。
[58] 罗宾逊,A。;Fallside,F.,公用事业驱动的动态误差传播网络技术报告CUED/F-INFENG/TR.1,1-27(1987),剑桥大学工程系
[59] Roux,N。;Manzagol,P.A。;Bengio,Y.,Topmoumoute在线自然梯度算法,(神经信息处理系统进展20(2008)),849-856
[60] Rumelhart,D。;辛顿,G。;Williams,R.,《通过反向传播错误学习表征》,《自然》,3236088533-536(1986)·Zbl 1369.68284号
[61] Sainath,T.、Horesh,L.、Kingsbury,B.、Aravkin,A.和Ramabhadran,B.(2013)。通过隐式预处理和采样加速深度神经网络的无Hessian优化。第九届IEEE自动语音识别和理解研讨会论文集(第303-308页)。
[62] Sainath,T。;金斯伯里,B。;索尔陶,H。;Ramabhadran,B.,《提高大型语音任务深层神经网络训练速度的优化技术》,IEEE音频、语音和语言处理汇刊,21,11,2267-2276(2013)
[63] Sak,H.、Senior,A.和Beaufays,F.(2014)。用于大规模声学建模的长短记忆递归神经网络结构。国际言语交际协会第十五届会议记录(第338-342页)。
[64] Saon,G.、Sercu,T.、Rennie,S.和Kuo,H.K.(2016年)。IBM 2016英语会话电话语音识别系统。在《国际言语交际协会第17届会议论文集》(第7-11页)。
[65] Schraudolph,N.,二阶梯度下降的快速曲率矩阵向量积,神经计算,14(7),1723-1738(2002)·Zbl 1037.68119号
[66] Schulman,J.、Levine,S.、Moritz,P.、Jordan,M.和Abbeel,P.(2015)。信托区域政策优化。第31届机器学习国际会议论文集(第889-1897页)。
[67] Seide,F.、Fu,H.、Droppo,J.、Li,G.和Yu,D.(2014)。1位随机梯度下降及其在语音DNN数据并行分布式训练中的应用。国际言语交际协会第十五届会议记录(第1058-1062页)。
[68] Senior,A.、Heigold,G.、Ranzato,M.和Yang,K.(2013年)。语音识别深层神经网络学习率的实证研究。第38届IEEE声学、语音和信号处理国际会议论文集(第6724-6728页)。
[69] Shannon,M.通过语音识别采样优化预期单词错误率。国际言语交际协会第18届会议记录。
[70] Shewchuk,J.,《无痛苦共轭梯度法简介》,技术报告CMU-CS-94-125,1-64(1994),卡内基梅隆大学计算机科学系
[71] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。第三届学习表现国际会议论文集(第1-14页)。
[72] Ström,N.(2015年)。使用商品GPU云计算的可扩展分布式DNN培训。国际言语交际协会第16届会议记录(第1488-1492页)。
[73] Su,H.,Li,G.,Yu,D.,&Seide,F.(2013)。会话语音转录中上下文相关深度神经网络序列训练的误差反向传播。第38届IEEE声学、语音和信号处理国际会议论文集(第6664-6668页)。
[74] Tieleman,T。;Hinton,G.,第6.5讲-RMSprop:将梯度除以最近量级的运行平均值(2012年),课程:机器学习的神经网络
[75] Tikhonov,A。;Leonov,A。;Yagola,A.,非线性不适定问题(1998),Springer·Zbl 0920.65038号
[76] Valtchev,V.,基于HMM的语音识别中的判别方法(1995),剑桥大学(博士论文)
[77] 瓦尔切夫。;奥德尔,J。;伍德兰,P。;Young,S.,大型词汇识别系统的MMIE培训,语音通信,22,4,303-314(1997)
[78] 瓦斯瓦尼,A。;北沙泽尔。;北卡罗来纳州帕尔马。;Uszkoreit,J。;Jones,L。;A.戈麦斯。;凯撒,L。;I.,P.,注意力就是你所需要的,(神经信息处理系统进展30(2017)),6000-6010
[79] Vesel公司ỳ, K.、Ghoshal,A.、Burget,L.和Povey,D.(2013年)。深度神经网络的序列判别训练。国际言语交际协会第14届会议记录。
[80] Vinyals,O.和Povey,D.(2012年)。用于深度学习的Krylov子空间下降。第15届国际人工智能与统计会议记录(第1261-1268页)。
[81] Waibel,A。;Hanazawa,T。;辛顿,G。;Shikano,K。;Lang,J.,使用延时神经网络进行音素识别,IEEE声学、语音和信号处理汇刊,37(3),328-339(1989)
[82] Werbos,P.,应用于循环天然气市场模型的反向传播推广,神经计算,1(4),339-356(1988)
[83] Wiesler,S.、Golik,P.、Schlüter,R.和Ney,H.(2015)。神经网络序列训练研究。第40届IEEE声学、语音和信号处理国际会议论文集(第4565-4569页)。
[84] Wiesler,S.、Li,J.和Xue,J.(2013)。深度神经网络交叉熵训练的无Hessian优化研究。国际言语交际协会第14届会议记录(第3317-3321页)。
[85] Woodland,P.,Liu,X.,Qian,Y.,Zhang,C.,Gales,M.,Karanasou,P..,Lanchantin,P.&Wang,L.(2015)。剑桥大学多体裁广播挑战转录系统。在第10届IEEE自动语音识别与理解研讨会论文集(第639-646页)。
[86] 伍德兰,P。;Povey,D.,语音识别隐马尔可夫模型的大规模鉴别训练,计算机语音与语言,16(1),25-47(2002)
[87] Xiong,W.,Droppo,J.,Huang,X.,Seide,F.,Seltzer,M.,Stolcke,A.,Yu,D.,&Zweig,G.(2016)。Microsoft 2016对话语音识别系统。第41届IEEE声学、语音和信号处理国际会议论文集(第5255-5259页)。
[88] Xu,P.、Roosta,F.和Mahoney,M.(2020年)。非凸机器学习的二阶优化:一项实证研究。《2020年SIAM数据挖掘国际会议论文集》(第199-207页)。
[89] Young,S。;埃弗曼,G。;盖尔斯,M。;Hain,T。;科尔肖,D。;刘,X。;摩尔,G。;奥德尔,J。;Ollason,D。;波维,D。;Ragni,A。;瓦尔切夫。;伍德兰,P。;Zhang,C.,《HTK图书(HTK 3.5版)》(2015),剑桥大学工程系
[90] Zeiler,M.,ADADELTA:自适应学习率方法(2012),arXiv预印本arXiv:1212.5701
[91] Zhang,C.,使用深度神经网络的串联和混合语音识别系统的联合训练方法(2017),剑桥大学,(博士论文)
[92] Zhang,W.,Cui,X.,Finkler,U.,Kingsbury,B.,Saon,G.,Kung,D.,&Picheny,M.(2019年)。用于自动语音识别的分布式深度学习策略。第44届IEEE声学、语音和信号处理国际会议论文集(第5706-5710页)。
[93] Zhang,W.,Cui,X.,Finkler,U.,Saon,G.,Kayi,A.,Buyuktosunoglu,A.,Kingsbury,B.,Kung,D.,&Picheny,M.(2019年)。用于自动语音识别的高效分布式深度学习系统。国际言语交际协会第20届会议记录(第2628-2632页)。
[94] Zhang,C.、Kreyssig,F.、Li,Q.和Woodland,P.(2019)。PyHTK:用于HTK的Python库和ASR管道。程序中。ICASSP(第6470-6474页)。
[95] Zhang,C.和Woodland,P.(2015)。HTK的通用人工神经网络扩展。国际言语交际协会第16届会议记录(第3581-3585页)。
[96] Zhang,C.和Woodland,P.(2017)。基于高斯混合密度神经网络判别序列训练的串联系统联合优化。第42届IEEE声学、语音和信号处理国际会议论文集(第5015-5019页)。
[97] Zinkevich,M。;Weimer,M。;李,L。;Smola,A.,并行随机梯度下降,(神经信息处理系统进展23(2010)),2595-2603
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。