×

使用预测回波状态网络分类器的自动语音识别。 (英语) Zbl 1132.68663号

摘要:我们将回声状态网络(Echo State Network,ESN)与竞争状态机框架相结合,创建了一个称为预测ESN分类器的分类引擎。我们推导了用于训练预测ESN分类器的表达式,并表明在噪声语音分类实验中,与隐马尔可夫模型相比,该模型具有更高的噪声鲁棒性,信噪比为8pm 1 dB。预测ESN分类器的简单训练算法和噪声鲁棒性使其成为自动语音识别的一个很有吸引力的分类引擎。

MSC公司:

68吨10 模式识别、语音识别
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Atal,B.S.,语音波线性预测特征在自动说话人识别和验证中的有效性,美国声学学会杂志,55,6,1304-1312(1974)
[2] Atiya,A.F。;Parlos,A.G.,《递归网络训练的新结果:统一算法和加速收敛》,电气与电子工程师学会神经网络学报,11,3,697-709(2000)
[3] Y.本吉奥。;De Mori,R。;Gori,M.,《利用序列反向传播学习语音的动态特性》,《模式识别字母》,13,5,375-385(1992)
[4] Bishop,C.M.,《模式识别的神经网络》(1995),牛津大学出版社:牛津大学出版社,纽约
[5] Bourard,H.A。;Morgan,N.,《康涅狄格州语音识别:混合方法》(1993),Kluwer学术出版社:Kluwer学术出版社,马萨诸塞州诺威尔
[6] Cover,T.M.,线性不等式组的几何和统计性质及其在模式识别中的应用,电气和电子工程师学会电子计算机学报,EC-14,3,326-334(1965)·Zbl 0152.18206号
[7] 邓,L。;Droppo,J。;Acero,A.,使用从语音失真的参数模型计算的特征增强不确定性对hmm方差进行动态补偿,电气和电子工程师学会语音和音频处理汇刊,13,34112-421(2005)
[8] 多丁顿,G.R。;Schalk,T.B.,《语音识别:将理论转化为实践》,电气与电子工程师学会频谱,26-32(1981)
[9] Elman,J.L。;Zipser,D.,《学习言语的隐藏结构》,《美国声学学会杂志》,83,4,1615-1626(1988)
[10] 以法莲,Y。;Van Trees,H.L.,语音增强的信号子空间方法,电气和电子工程师学会语音和音频处理汇刊,3,4,251-266(1995)
[11] Franzini,M。;Lee,K.-F。;Waibel,A.,(连接主义维特比训练:连续语音识别的新混合方法。连接主义维特比训练:持续语音识别的新型混合方法,声学、语音和信号处理国际会议,第1卷(1990年),电气和电子工程师协会:电气和电子工程协会(新墨西哥州阿尔伯克基),425-428
[12] Furui,S.,用于自动扬声器验证的倒谱分析技术,电气和电子工程师学会声学、语音和信号处理学报,29,2,254-272(1981)
[13] Gish,H.,(神经网络分类器理解和训练的概率方法。神经网络分类器的理解和训练概率方法,声学、语音和信号处理国际会议,第1卷(1990年),电气和电子工程师协会:电气和电子工程协会(新墨西哥州阿尔伯克基),1361-1364
[14] 龚瑜,《噪声环境中的语音识别:一项调查》,《语音通信》,第16期,第261-291页(1995年)
[15] 格雷夫斯,A。;Schmidhuber,J.,具有双向LSTM和其他神经网络架构的成帧音素分类,神经网络,18,5-6,602-610(2005)
[16] Haykin,S.,《神经网络:综合基金会》(1999),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河·Zbl 0934.68076号
[17] Haykin,S.,自适应滤波器理论(2001),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河
[18] Haykin,S.,《非线性、非高斯和非平稳世界中的信号处理》,(Cholet,G.;Esposito,a.;Faundez-Zanuy,M.;Marinaro,M.,非线性语音建模和应用(2005),Springer-Verlag:Springer-Verlag Berlin),43-53
[19] Hirsch,H.G.和Pearce,D.(2000年)。噪声条件下语音识别系统性能评估的Aurora实验框架。国际语音通信协会辅导和研究研讨会会议记录; Hirsch,H.G.和Pearce,D.(2000年)。用于噪声条件下语音识别系统性能评估的Aurora实验框架。国际语音通信协会辅导和研究研讨会会议记录
[20] 霍普金斯,W.G.(2007)。统计的新视角http://www.sportsci.org/resource/stats/; 霍普金斯,W.G.(2007)。统计的新视角http://www.sportsci.org/resource/stats/
[21] Iso,K。;Watanabe,T.(使用神经预测模型的非特定人单词识别。使用神经预测模式的非特定于特定人的单词识别,声学、语音和信号处理国际会议,第1卷(1990年),电气和电子工程师协会:电气和电子工程协会(新墨西哥州阿尔伯克基),441-444
[22] Iso,K。;Watanabe,T.,(使用神经预测模型的大词汇量语音识别。使用神经预测模式的大词汇量语音识别,声学、语音和信号处理国际会议,第1卷(1991),电气和电子工程师学会:加利福尼亚州多伦多市电气和电子工程学会), 57-60
[23] 雅各布斯,R.A。;M.I.乔丹。;诺兰,S.J。;Hinton,G.E.,本地专家的自适应混合,神经计算,3,1,79-87(1991)
[24] Jaeger,H.(2001)。分析和训练递归神经网络的“回声状态”方法。技术代表。; Jaeger,H.(2001)。分析和训练递归神经网络的“回声状态”方法。技术代表。
[25] Jaeger,H.,用回声状态网络进行自适应非线性系统识别,(Becker,S.T.S.;Obermayer,K.,《神经信息处理系统的进展》(2002),麻省理工学院出版社:麻省理学院出版社剑桥,马萨诸塞州),593-600
[26] Jaeger,H.(2005)。水库之谜:对回波状态网络研究的建议。国际神经网络联合会议记录; Jaeger,H.(2005)。水库之谜:对回波状态网络研究的建议。国际神经网络联合会议记录
[27] Jaeger,H。;Haas,H.,《利用非线性:预测混沌系统和无线通信节能》,《科学》,304,5667,78-80(2004)
[28] Juang,B.-H。;Rabiner,L.R.,用于估计隐马尔可夫模型参数的分段K-means算法,电气和电子工程师学会声学、语音和信号处理汇刊,38,91639-1641(1990)·Zbl 0708.62076号
[29] Levin,E.,(使用隐藏控制神经体系结构的单词识别。使用隐藏控制神经元体系结构的词汇识别,声学、语音和信号处理国际会议,第1卷(1990年),电气和电子工程师协会:电气和电子工程师协会,新墨西哥州阿尔伯克基),433-436
[30] Murphy,K.(2007)。Matlab的隐马尔可夫模型工具箱。网址:网址:http://www.cs.ubc.ca/murphyk/Software/HMM/HMM.html;Murphy,K.(2007)。Matlab的隐马尔可夫模型工具箱。网址:网址:http://www.cs.ubc.ca/murphyk/软件/HMM/HMM.html
[31] Ozturk,M.C.和Principie,J.C.(2005)。使用瞬态稳定状态进行计算。国际神经网络联合会议记录; Ozturk,M.C.和Principie,J.C.(2005)。使用瞬态稳定状态进行计算。国际神经网络联合会议记录
[32] Petek,B.,(关于自动语音识别的预测连接主义模型。关于自动语音辨识的预测连接论模型,声学、语音和信号处理国际会议,第1卷(2000),电气和电子工程师协会:土耳其伊斯坦布尔电气和电子工程协会),3442-3445
[33] Prokhorov,D.(2005)。回声国家网络:吸引力和挑战。国际神经网络联合会议记录; Prokhorov,D.(2005)。回声国家网络:吸引力和挑战。国际神经网络联合会议记录
[34] Rabiner,L.R.,关于隐马尔可夫模型和语音识别中的选定应用的教程,(Waibel,A.;Lee,K.-F.,语音识别阅读(1990),考夫曼:加利福尼亚州考夫曼圣马特奥),267-296
[35] 拉宾纳,L.R。;Juang,B.H.,《语音识别基础》(1993),新泽西州普伦蒂斯·霍尔:普伦蒂斯霍尔·恩格尔伍德克利夫斯·Zbl 0762.62036号
[36] Robinson,A.J.,《递归网络在电话概率估计中的应用》,电气与电子工程师学会神经网络学报,5,2,298-305(1994)
[37] 医学博士斯科夫朗斯基。;Harris,J.G.,在自动语音识别中利用人为因素倒谱系数的独立滤波器带宽,美国声学学会杂志,116,3,1774-1780(2004)
[38] 医学博士斯科夫朗斯基。;Harris,J.G.,使用回波状态网络预测模型进行最小均方误差时间序列分类,(电路和系统国际研讨会(2006年),电气和电子工程师学会:希腊科斯电气和电子工程学会),3153-3156
[39] Skowronski,M.D.和Harris,J.G.(2007年)。使用区分回声状态网络的噪声-全息自动语音识别电路和系统国际专题讨论会; Skowronski,M.D.和Harris,J.G.(2007年)。使用区分回声状态网络的噪声-全息自动语音识别电路和系统国际专题讨论会·Zbl 1132.68663号
[40] 斯特罗普,B。;Alwan,A.,动态听觉感知模型及其在鲁棒单词识别中的应用,电气和电子工程师学会语音和音频处理汇刊,5,5,451-464(1997)
[41] Tebelskis,J.(1995年)。使用神经网络的语音识别。未发表的博士论文; Tebelskis,J.(1995)。使用神经网络的语音识别。未发表的博士论文
[42] Tebelskis,J。;Waibel,A.,(使用链接预测神经网络进行大词汇识别。使用链接预测神经元网络进行大词汇量识别,声学、语音和信号处理国际会议,第1卷(1990年),电气和电子工程师协会:电气和电子工程协会(新墨西哥州阿尔伯克基),437-440
[43] Wolf,A。;斯威夫特,J.B。;Swinney,H.L。;Vastano,J.A.,《从时间序列中确定Lyapunov指数》,《物理学D》,第16期,第285-317页(1985年)·Zbl 0585.58037号
[44] Young,S.、Jansen,J.、Odell,J.,Ollasen,D.和Woodland,P.(1995)。HTK手册(2.0版); Young,S.、Jansen,J.、Odell,J.,Ollasen,D.和Woodland,P.(1995)。HTK图书(2.0版)
[45] Zhu,Q.,Stolcke,A.,Chen,B.Y.,&Morgan,N.(2004)。将串联/HATs MLP功能并入SRI的对话语音识别系统。有效且经济实惠的可重复使用语音到文本的丰富转录2004年秋季研讨会; Zhu,Q.,Stolcke,A.,Chen,B.Y.,&Morgan,N.(2004)。将串联/HATs MLP功能并入SRI的对话语音识别系统。有效且经济实惠的可重复使用语音到文本的丰富转录2004年秋季研讨会
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。