×

语音识别的核近似方法。 (英语) Zbl 1489.68244号

摘要:我们研究了核方法在自动语音识别声学建模任务中的性能,并将其与深度神经网络(DNN)的性能进行了比较。为了将核方法扩展到大数据集,我们使用A.拉希米B.Recht公司[“大型内核机器的随机特征”,载于:J.Platt(ed.)等人,《神经信息处理系统的进展》20。纽约州Red Hook:Curran Associates,Inc.8 p.(2007)]。我们提出了两种新的技术来提高内核声学模型的性能。首先,我们提出了一种简单但有效的特征选择方法,它减少了达到固定性能水平所需的随机特征数量。其次,我们提出了一些与在heldout集上计算时的语音识别性能密切相关的指标;我们通过使用这些指标来决定何时停止培训,从而提高了性能。此外,我们还证明了T.N.塞纳等【“高维输出目标深层神经网络训练的低秩矩阵分解”,摘自:2013年IEEE声学、语音和信号处理国际会议论文集,ICASSP’13。加利福尼亚州洛斯·阿拉米托斯:IEEE计算机协会。6655–6659 (2013;doi:10.1109/ICASSP.2013.6638949)] 除了加快训练速度和使模型更加紧凑外,还显著提高了内核模型的性能。利用这三种方法,内核这些方法在四个语音识别数据集(包括TIMIT和广播新闻基准测试任务)中获得了比完全连接的DNN好0.5%到差0.1%的令牌错误率。

理学硕士:

68吨10 模式识别、语音识别
62J12型 广义线性模型(逻辑模型)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Naman Agarwal、Zeyuan Allen Zhu、Brian Bullins、Elad Hazan和Tengyu Ma。找到近似局部极小值比梯度下降更快。InSTOC,2017年·Zbl 1369.68290号
[2] Dario Amodei、Sundaram Ananthananarayanan、Rishita Anubhai、Jingliang Bai、Eric Battenberg、Carl Case、Jared Casper、Bryan Catanzaro、Jingdong Chen、Mike Chrzanowski、Adam Coates、Greg Diamos、Erich Elsen、Jesse Engel、Linxi Fan、Christopher Fougner、Awni Y.Hannun、Billy Jun、Tony Han、Patrick LeGresley、Xiang Li、Libby Lin、Sharan Narang、,Andrew Y.Ng、Sherjil Ozair、Ryan Prenger、Sheng Qian、Jonathan Raiman、Sanjeev Satheesh、David Seetapun、Shubho Sengupta、Chong Wang、Yi Wang、Zhiqian、Bo Xiao、Yan Xie、Dani Yogatama、Jun Zhan和Zhu Zhu。深度演讲2:英语和普通话的端到端语音识别。InICML,2016年。
[3] Animashree Anandkumar和Rong Ge。在非凸优化中逃离高阶鞍点的有效方法。InCOLT,2016年。
[4] Daniel Andor、Chris Alberti、David Weiss、Aliaksei Severyn、Alessandro Presta、Kuzman Ganchev、Slav Petrov和Michael Collins。基于全局归一化转换的神经网络。InACL,2016年。
[5] Devansh Arpit、Stanislaw K.Jastrzebski、Nicolas Ballas、David Krueger、Emmanuel Bengio、Maxinder S.Kanwal、Tegan Maharaj、Asja Fischer、Aaron C.Courville、Yoshua Bengio和Simon Lacoste Julien。深入了解深层网络中的记忆。InICML,2017年。
[6] Jimmy Ba和Rich Caruana。深网真的需要深吗?InNIPS,2014年。
[7] Lalit R Bahl、Peter F Brown、Peter V De Souza和Robert L Mercer。语音识别中隐马尔可夫模型参数的最大互信息估计。ICASSP,1986年。
[8] 彼得·巴特利特(Peter L.Bartlett)。为了有效推广,权重的大小比网络的大小更重要。InNIPS,1996。
[9] Yoshua Bengio,Yann LeCun等。面向人工智能的缩放学习算法。大规模内核机器,34(5):1-412007。
[10] 莫妮卡·比安奇尼和弗兰科·斯卡塞利。神经网络分类器的复杂性:浅层和深层结构的比较。IEEE传输。神经网络。学习系统。,25(8):1553-1565, 2014.
[11] L´eon Bottou、Olivier Chapelle、Dennis DeCoster和Jason Weston。大型内核机。麻省理工学院出版社,2007年。
[12] William Chan、Navdeep Jaitly、Quoc V.Le和Oriol Vinyals。听、听、拼:一种用于大词汇量对话语音识别的神经网络。InICASSP,第4960-4964页。IEEE,2016年。
[13] 陈杰(Jie Chen)、吴凌飞(Lingfei Wu)、卡提克·奥德哈西(Kartik Audhkhasi)、布莱恩·金斯伯里(Brian Kingsbury)和布瓦纳·拉马巴德兰(Bhuvana Ramabhadran)。语音识别中高效的一对一核岭回归。InICASSP,2016年。
[14] Chung-Cheng Chiu、Tara N.Sainath、Yonghui Wu、Rohit Prabhavalkar、Patrick Nguyen、Zhifeng Chen、Anjuli Kannan、Ron J.Weiss、Kanishka Rao、Ekaterina Gonina、Navdeep Jaitly、Bo Li、Jan Chorowski和Michiani。采用序列到序列模型的最先进语音识别。InICASSP,2018年。
[15] 安娜·乔洛曼斯卡(Anna Choromanska)、米凯尔·赫纳夫(Mikael Henaff)、米查·马修(Micha¨el Mathieu)、格拉德·本·阿鲁斯(G´erard Ben Arous)和亚恩·勒村(Yann LeCun)。多层网络的损耗面。InAISTATS,2015年。
[16] 肯尼思·克拉克森。核心集、稀疏贪婪近似和Frank-Wolfe算法。ACM事务处理。算法,6(4):63:1-63:30,2010年·Zbl 1300.90026号
[17] 乔治·西本科(George Cybenko)。通过sigmoid函数的叠加进行逼近。MCSS,2(4):303-3141989年·兹伯利0679.94019
[18] 乔治·E·达尔(George E.Dahl)、董瑜(Dong Yu)、李登(Li Deng)和亚历克斯·亚塞罗(Alex Acero)。用于大词汇语音识别的上下文相关预训练深度神经网络。IEEE传输。《音频、语音和语言处理》,20(1):30-422012年。
[19] Bo Dai、Bo Xie、Niao He、Yingyu Liang、Anant Raj、Maria-Florina Balcan和Le Song。通过双重随机梯度的可伸缩核方法。InNIPS,2014年。
[20] Yann N.Dauphin、Razvan Pascanu、C aglar Güul cehre、KyungHyun Cho、Surya Ganguli和Yoshua Bengio。识别和攻击高维非凸优化中的鞍点问题。InNIPS,2014年。
[21] Dennis DeCoster和Bernhard Sch¨olkopf。训练不变支持向量机。机器学习,46(1-3):161-1902002·兹比尔0998.68102
[22] 纳吉姆·德哈克(Najim Dehak)、帕特里克·肯尼(Patrick Kenny)、雷达·德哈克。用于说话人验证的前端因素分析。IEEE传输。音频、语音和语言处理,19(4):788-7982011。
[23] 约翰·杜奇和约拉姆·辛格。使用正向-反向分裂实现高效的在线和批量学习。机器学习研究杂志,10:2899-29342009·Zbl 1235.62151号
[24] 乔纳森·菲斯科斯(Jonathan Fiscus)、乔治·多丁顿(George Doddington)、奥黛丽·勒(Audrey Le)、格雷格·桑德斯(Greg Sanders)、马克·普尔兹博基(Mark Przybocki)和大卫·帕莱特(David Pallett)。2003年NIST Rich Transcription评估数据。语言数据联合会,2003年。统一资源定位地址https://catalog.ldc.upenn.edu/LDC2007S10。
[25] 马克·盖尔斯(Mark J.F.Gales)。基于HMM的语音识别的最大似然线性变换。计算机语音与语言,12(2):75-981998。
[26] Mark J.F.Gales和Steve J.Young。隐马尔可夫模型在语音识别中的应用。信号处理基础与趋势,1(3):195-3042007·Zbl 1145.68045号
[27] John S.Garofolo、Lori F.Lamel、William M.Fisher、Jonathan G.Fiscus、David S.Pallett、Nancy L.Dahlgren和Victor Zue。TIMIT声学语音连续语音语料库。语言数据联合会,1993年。统一资源定位地址https://catalog.ldc.upenn.edu/LDC93S1。
[28] May、Bagheri Garakani、Lu、Guo、Liu、Bellet、Fan、Collins、Hsu、Kingsbury、Picheny和Sha
[29] 马修·吉布森和托马斯·海恩。大词汇量语音识别中最小贝叶斯风险训练的假设空间。国际演讲协会,2006年。
[30] 泽维尔·格洛洛特和约舒亚·本吉奥。了解训练深度前馈神经网络的困难。印度统计局,2010年。
[31] 伊恩·古德费罗(Ian J.Goodfellow)、约舒亚·本吉奥(Yoshua Bengio)和亚伦·库维尔(Aaron C.Courville)。深度学习。自适应计算和机器学习。麻省理工学院出版社,2016年·Zbl 1373.68009号
[32] Alex Graves、Santiago Fern´andez、Faustino J.Gomez和J¨urgen Schmidhuber。连接主义时间分类:用递归神经网络标记未分段的序列数据。InICML,2006年。
[33] 拉斐·哈米德(Raffay Hamid)、英晓(Ying Xiao)、亚历克斯·吉登斯(Alex Gittens)和丹尼斯·德科斯特(Dennis DeCoster)。压缩随机特征映射。InICML,2014年。
[34] 宋汉(Song Han)、杰夫·普尔(Jeff Pool)、约翰·特兰(John Tran)和威廉·戴利(William J.Dally)。学习有效神经网络的权重和连接。InNIPS,2015年。
[35] 沃尔夫冈·卡尔·哈德勒(Wolfgang Karl H¨ardle)、马琳·穆勒(Marlene M¨uller)、斯特凡·斯珀里奇(Stefan Sperlich)和阿克塞尔·沃沃茨(Axel Werwatz)。非参数和半参数模型。Springer科学与商业媒体,2004年·Zbl 1059.62032号
[36] 何开明、张湘玉、任少清、孙建军。用于图像识别的深度残差学习。InCVPR,2016年。
[37] 杰弗里·辛顿(Geoffrey Hinton)、李登(Li Deng)、董瑜(Dong Yu)、乔治·达尔(George Dahl)、阿卜杜勒·拉赫曼·穆罕默德(Abdel-rahman Mohamed)、纳夫迪普·贾特利(Navdeep Jaitly)、安德鲁Senior、文森特·范胡克(Vincent Vanh。语音识别中声学建模的深度神经网络:四个研究小组的共同观点。IEEE信号处理杂志,2012年29月。
[38] Kurt Hornik、Maxwell B.Stinchcombe和Halbert White。多层前馈网络是通用逼近器。神经网络,2(5):359-3661989·Zbl 1383.92015年
[39] Po-Sen Huang、Haim Avron、Tara N.Sainath、Vikas Sindhwani和Bhuvana Ramabhadran。内核方法匹配TIMIT上的深层神经网络。InICASSP,2014年。
[40] G.J.O.詹姆逊。伽马函数斯特林公式的简单证明。《数学公报》,99(544):68-742015·Zbl 1384.33004号
[41] Janez Kaiser、Bogomir Horvat和Zdravko Kacic。一种新的损失函数,用于HMM模型基于整体风险准则的区分训练。InINTERSPEECH,2000年·Zbl 1005.68819号
[42] Purushottam Kar和Harish Karnick。点积核的随机特征映射。AISTATS,2012年。
[43] 布莱恩·金斯伯里。神经网络声学建模中基于格点的序列分类准则优化。InICASSP,2009年。
[44] Brian Kingsbury、Jia Cui、Xiaodong Cui、Mark J.F.Gales、Kate Knill、Jonathan Mamou、Lidia Mangu、David Nolden、Michael Picheny、Bhuvana Ramabhadran、Ralf Schl¨uter、Abhinav Sethy和Philip C.Woodland。一个高性能的粤语关键字搜索系统。InICASSP,2013年。
[45] 亚历克斯·克利舍夫斯基(Alex Krizhevsky)、伊利亚·萨茨克弗(Ilya Sutskever)和杰弗里·欣顿(Geoffrey E.Hinton)。基于深度卷积神经网络的Imagenet分类。InNIPS,2012年·Zbl 1318.68153号
[46] Quoc V.Le、Tam´as Sarl´os和Alexander J.Smola。Fastfood-计算希尔伯特空间在对数线性时间内展开。InICML,2013年。
[47] 卢志云、郭栋、阿里丽莎·巴赫里·加拉卡尼、刘宽、阿夫纳·梅、奥勒林·贝莱特、范林西、迈克尔·柯林斯、布莱恩·金斯伯里、迈克尔·皮奇尼和费沙。语音识别中深层神经网络和核声学模型的比较。InICASSP,2016年·Zbl 1489.68244号
[48] Avner May、Michael Collins、Daniel J.Hsu和Brian Kingsbury。通过随机特征选择进行声学建模的紧凑内核模型。InICASSP,2016年。
[49] 查尔斯·米切利(Charles A.Michelli)、徐月生(Yuesheng Xu)和张海章(Haizhang Zhang)。通用内核。《机器学习研究杂志》,7:2651-26672006·Zbl 1222.68266号
[50] 托马斯·米科洛夫(Tomas Mikolov)、马丁·卡拉菲(Martin Karafi’at)、卢克(Luk’as Burget)、扬·塞诺克(Jan Cernock’y)和桑吉夫·库丹布尔(Sanjeev Khudanpur)。基于递归神经网络的语言模型。国际演讲,2010年。
[51] 托马斯·米科洛夫(Tomas Mikolov)、陈凯(Kai Chen)、格雷格·科拉多(Greg Corrado)和杰弗里·迪恩(Jeffrey Dean)。向量空间中单词表示的有效估计。InICLR研讨会,2013年。
[52] Abdel-rahman Mohamed、George E.Dahl和Geoffrey E.Hinton。使用深信度网络进行声学建模。IEEE传输。音频、语音和语言处理,20(1):14-222012。
[53] Guido F.Mont´ufar、Razvan Pascanu、KyungHyun Cho和Yoshua Bengio。关于深度神经网络的线性区域数。InNIPS,2014年。
[54] N.Morgan和H.Bourard。前馈网络中的泛化和参数估计:一些实验。InNIPS,1990年。
[55] Behnam Neyshabur、Ryota Tomioka和Nathan Srebro。寻找真正的归纳偏差:关于内隐正则化在深度学习中的作用。InICLR(研讨会),2015年。
[56] Jeffrey Pennington和Yasaman Bahri。通过随机矩阵理论的神经网络损失曲面的几何。InICML,2017年。
[57] Jeffrey Pennington、Felix X.Yu和Sanjiv Kumar。多项式核的球面随机特征。InNIPS,2015年。
[58] 约翰·普拉特。基于序列最小优化的支持向量机快速训练。核方法进展-支持向量学习。麻省理工学院出版社,1998年。
[59] 丹尼尔·波维和布莱恩·金斯伯里。针对大规模歧视性培训对MPE的拟议修改进行评估。InICASSP,2007年。
[60] 丹尼尔·波维和菲利普·伍德兰。最小的电话错误和I-平滑,以改进辨别训练。InICASSP,2002年。
[61] May、Bagheri Garakani、Lu、Guo、Liu、Bellet、Fan、Collins、Hsu、Kingsbury、Picheny和Sha
[62] 丹尼尔·波维(Daniel Povey)、迪米特里·卡内夫斯基(Dimitri Kanevsky)、布赖恩·金斯伯里(Brian Kingsbury)、布瓦纳·拉马巴德兰(Bhuvana Ramabhadran)、乔治·萨恩(George Saon)和卡西克·维斯。增强了模型和特征空间区分训练的MMI。InICASSP,2008年。
[63] Daniel Povey、Vijayaditya Peddenti、Daniel Galvez、Pegah Ghahremani、Vimal Manohar、Xingyu Na、Yiming Wang和Sanjeev Khudanpur。基于无网格MMI的ASR纯序列训练神经网络。2016年国际演讲。
[64] Ali Rahimi和Benjamin Recht。大型内核机的随机特性。InNIPS,2007年。
[65] 塔拉·N·赛纳(Tara N.Sainath)、布莱恩·金斯伯里(Brian Kingsbury)、布瓦娜·拉马巴德兰(Bhuvana Ramabhadran)、彼得·福塞克(Petr Fousek)、彼得·诺瓦克(Petr-Nov´ak)和阿卜杜勒·拉赫。使深度信念网络对大词汇量连续语音识别有效。InASRU,2011年。
[66] 塔拉·N·赛纳(Tara N.Sainath)、布莱恩·金斯伯里(Brian Kingsbury)、维卡斯·辛德瓦尼(Vikas Sindhwani)、埃布鲁·阿里索伊(Ebru Arisoy)和布瓦纳·拉马巴德兰(Bhuvana Ramabhadran)。具有高维输出目标的深度神经网络训练的低秩矩阵分解。InICASSP,2013年a。
[67] 塔拉·N·赛纳(Tara N.Sainath)、布莱恩·金斯伯里(Brian Kingsbury)、黑根·索尔陶(Hagen Soltau)和布瓦娜·拉马巴德兰(Bhuvana Ramabhadran)。用于提高大型语音任务的深度神经网络训练速度的优化技术。IEEE传输。音频、语音和语言处理,21(11):2267-22762013b。
[68] 塔拉·N·赛纳(Tara N.Sainath)、阿卜杜勒·拉赫曼·穆罕默德(Abdel-rahman Mohamed)、布莱恩·金斯伯里(Brian Kingsbury)和布瓦纳·拉马巴德兰(Bhuvana Ramabhadran)。用于LVCSR的深度卷积神经网络。InICASSP,2013年c。
[69] Hasim Sak、Andrew W.Senior和Franócoise Beaufays。用于大规模声学建模的长短记忆递归神经网络结构。INTERSPEECH,2014年。
[70] George Saon、Tom Sercu、Steven J.Rennie和Hong Kwang Jeff Kuo。IBM 2016英语会话电话语音识别系统。2016年国际演讲。
[71] 乔治·萨翁(George Saon)、加库托·库拉塔(Gakuto Kurata)、汤姆·塞尔库(Tom Sercu)、卡尔蒂克·奥德哈西(Kartik Audhkhasi)、塞缪尔·托马斯(Samuel Thomas)、迪米特里亚迪斯(Dimitrios Dimitriadis)、崔晓东(Xiaoding Cui)、布瓦纳·拉马哈德兰(Bhuvana。人和机器的英语会话电话语音识别。国际演讲,2017年。
[72] B.Sch¨olkopf和A.Smola。用内核学习。麻省理工学院出版社,2002年。
[73] Frank Seide、Gang Li、Xie Chen和Dong Yu。用于会话语音转录的上下文相关深度神经网络中的特征工程。InASRU,2011年a。
[74] Frank Seide、Gang Li和Dong Yu。使用上下文相关的深层神经网络进行会话语音转录。国际刑警组织,2011年b。
[75] Tom Sercu和Vaibhava Goel。用于LVCSR的非常深度卷积神经网络的进展。2016年国际演讲。
[76] 凯伦·西蒙扬和安德鲁·齐瑟曼。用于大规模图像识别的深度卷积网络。InICLR,2015年。
[77] 哈根·索尔陶、乔治·索恩和布莱恩·金斯伯里。IBM Attila语音识别工具包。InSLT,2010年。
[78] 哈根·索尔陶(Hagen Soltau)、乔治·桑恩(George Saon)和塔拉·塞纳(Tara N.Sainath)。卷积和非卷积神经网络的联合训练。InICASSP,2014年。
[79] S¨oren Sonnenburg和Vojtech Franc。COFFIN:线性SVM的计算框架。InICML,2010年。
[80] 英戈·斯坦瓦特(Ingo Steinwart)。支持向量机的稀疏性——一些渐近锐界。InNIPS,2003年·兹比尔1094.68082
[81] Nikko Str–om公司。大型动态人工神经网络中的稀疏连接和剪枝。在EUROSPEECH,1997年。
[82] 马丁·桑德梅尔(Martin Sundermeer)、拉尔夫·施勒特(Ralf Schl¨uter)和赫尔曼·内伊(Hermann Ney)。语言建模的LSTM神经网络。2012年国际演讲。
[83] 伊利亚·萨茨克弗(Ilya Sutskever)、Oriol Vinyals和Quoc V.Le。用神经网络进行序列到序列的学习。InNIPS,2014年。
[84] Ivor W.Tsang、James T.Kwok和Pak-Ming Cheung。核心向量机:在超大数据集上进行快速SVM训练。机器学习研究杂志,6:363-3922005·Zbl 1222.68320号
[85] V.Valtchev、J.J.Odell、Philip C.Woodland和Steve J.Young。大型词汇识别系统的MMIE培训。言语交际,22(4):303-3141997。
[86] Ewout van den Berg、Bhuvana Ramabhadran和Michael Picheny。语音中神经网络的训练方差和性能评估。InICASSP,2017年。
[87] 安德烈·维达尔迪(Andrea Vedaldi)和安德鲁·齐瑟曼(Andrew Zisserman)。通过显式特征映射实现高效的加性核。IEEE传输。模式分析。机器。智力。,34(3):480-492, 2012.
[88] Karel Vesel´y、Arnab Ghoshal、Luk´as Burget和Daniel Povey。深度神经网络的序列鉴别训练。国际演讲协会,2013年。
[89] 克里斯托弗·威廉姆斯(Christopher K.I.Williams)和马蒂亚斯·西格(Matthias W.Seeger)。使用Nystr–om方法加速内核机器。InNIPS,2000年。
[90] 谢波(Bo Xie)、梁英玉(Yingyu Liang)和乐松(Le Song)。多样性神经网络学习真实的目标函数。InAISTATS,2017年。
[91] 熊维恩(Wayne Xiong)、杰沙·德罗波(Jasha Droppo)、黄学东(Xuedong Huang)、弗兰克·塞德(Frank Seide)、迈克尔·萨尔茨(Michael L.Seltzer)、安德烈亚斯·斯托尔克(Andreas Stolcke)、董瑜(Dong Yu)和杰弗里·茨威格(Geoffrey Zweig)。会话语音识别中的人类对等。IEEE/ACM传输。音频、语音和语言处理,25(12):2410-24232017。
[92] 薛健、李金玉、龚一凡。利用奇异值分解重构深度神经网络声学模型。国际演讲协会,2013年。
[93] May、Bagheri Garakani、Lu、Guo、Liu、Bellet、Fan、Collins、Hsu、Kingsbury、Picheny和Sha
[94] 杨子超、Marcin Moczulski、Misha Denil、Nando de Freitas、Alexander J.Smola、Le Song和Ziyu Wang。油炸卷心菜。InICCV,2015年。
[95] Ian En-Hsu Yen、Ting Wei Lin、Shou De Lin、Pradeep Ravikumar和Inderjit S.Dhillon。稀疏随机特征算法作为希尔伯特空间中的坐标下降。InNIPS,2014年。
[96] Felix X.Yu、Sanjiv Kumar、Henry A.Rowley和Shih-Fu Chang。紧凑非线性映射和循环扩展。arXiv预印本arXiv:153.038932015。
[97] 张志远(Chiyuan Zhang)、萨米·本吉奥(Samy Bengio)、莫里茨·哈德(Moritz Hardt)、本杰明·雷希特(Benjamin Recht)和奥里奥·维尼亚尔(Oriol Vinyals)。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。