×

基于多核特征的优化深度卷积网络,用于从非可听杂音中生成正常语音。 (英语) Zbl 07579727号

摘要:自动语音识别方案是个人与各种移动应用程序相互关联的交替模式。用户的交互性需求是庞大的词汇识别系统、高精度、节能的解决方案和时间。尽管自动语音识别系统需要功率预算和巨大的内存带宽,但它不适用于许多小型电池控制设备。因此,使用所提出的基于多核感知线性预测和随机生物地理的鲸鱼优化算法优化,开发了一种有效的方法,以将非可听的杂音自适应为规则语音。首先,将输入的语音信号最初提供给预处理模块。然后,提取光谱质心、基音色度、泰勒调幅谱图(AMS)、光谱偏斜度和开发的多核感知线性预测等特征,以确定合适的特征。在提取特征后,基于深度卷积神经网络进行语音识别,该网络由所提出的随机生物地理鲸鱼优化算法训练。随机生物地理鲸鱼优化算法结合了随机梯度下降法、鲸鱼优化算法和基于生物地理学的优化。所开发的模型显示出改进的结果,最大准确度分别为0.985,最小FPR为0.001,最大TPR为1。

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Zoughi,T.、Homayounpour,M.M.和Deypir,M.,语音识别的自适应窗口多深度残余网络,实验系统。申请139(2020)112840。
[2] Su,R.,Liu,X.,Wang,L.和Yang,J.,用于汉语视听语音识别的跨域深层视觉特征生成,IEEE/ACM Trans。《语音语言程序》28(2019)185-197。
[3] Agrawal,P.和Ganapathy,S.,《使用深度变分网络进行调制滤波器学习以实现鲁棒语音识别》,IEEE J.Select。顶部。信号处理.13(2)(2019)244-253。
[4] Yazdani,R.、Arnau,J.-M.和Gonzalez,A.,《法律:自动语音识别的本地-AWare方案》,IEEE Trans。计算69(8)(2020)1197-1208·Zbl 07254793号
[5] Hueber,T.和Bailly,G.,使用全协方差HMM将无声发音转换为可听语音的统计转换,计算。演讲语言36(2016)274-293。
[6] Grozdića,D.D.T.、Jovića、S.T.和Subotićb,M.,使用深度去噪自动编码器的耳语语音识别,工程应用。Artif公司。Intel.59(2017)15-22。
[7] Ghaffarzadegan,S.、Bořil,H.和Hansen,J.H.L.,《使用小型数据库和生成模型采样进行耳语语音识别的深层神经网络训练》,《国际语音技术杂志》20(4)(2017)1063-1075。
[8] Grozdic,D.T.和Jovicic,S.T.,使用深度去噪自动编码器和逆滤波的耳语语音识别,IEEE/ACM Trans。《语音语言过程》25(12)(2017)2313-2322。
[9] Jovicic’,S.T.和Saric,Z.,《耳语中辅音的声学分析》,J.Voice22(3)(2008)263-274。
[10] Ito,T.、Takeda,K.和Itakura,F.,《耳语的分析与识别》,《语音委员会》45(2005)139-152。
[11] B.P.Lim,《耳语和非耳语之间的计算差异》,伊利诺伊大学香槟分校博士论文(2011年)。
[12] Yang,C.-Y.,Brown,G.,Lu,L.,Yamagishi,J.和King,S.,在2012年第八届国际交响乐团中,使用带vts补偿的非听音杂音话筒进行的噪音-背景低语语音识别。下巴。《口语处理》(2012年),第220-223页。
[13] Mathur,A.、Reddy,S.M.和Hegde,R.M.,参数谱比方法在耳语检测和识别中的重要性,EURASIP J.Adv.Signal Process。1(2012)157。
[14] Jarzadegan,S.G.、Bohl,H.和Hansen,J.H.L.,耳语语音识别伪目标域自适应样本的生成建模,收录于Proc。2015 IEEE国际协调声学语音信号处理。(ICASSP)(IEEE,2015),第5024-5028页。
[15] Jou,S.-C.,Schultz,T.和Waibel,A.,《使用喉咙麦克风进行柔和耳语识别的适应性》,Proc。第八届国际会议口语处理(2004)。
[16] Tao,F.和Busso,C.,在第十五年发表的《在耳语和中性语音下识别孤立数字的唇读方法》。国际演讲委员会。协会(2014)。
[17] Healy,E.W.、Yoho,S.E.、Wang,Y.和Wang,D.,《改善听力受损听众在噪声中语音识别的算法》,J.Acoust。《美国法典》第134卷第4期(2013年)第3029-3038页。
[18] Hermansky,H.,语音感知线性预测(PLP)分析,J.Acoust。《美国判例汇编》第87卷(1738年)(1990年)。
[19] Tu,F.、Yin,S.、Ouyang,P.、Tang,S.,Liu,L.和Wei,S.《具有可重构计算模式的深度卷积神经网络体系结构》,IEEE Trans。超大规模集成。(VLSI)系统25(8)(2017)2220-2233。
[20] Sweke,R.,Wilde,F.,Meyer,J.J.,Schuld,M.,Fahrmann,P.K.,Meynard-Piganeau,B.和Eisert,J.,混合量子经典优化的随机梯度下降,混合量子古典优化的随机渐变下降。Quantum4(2020)314。
[21] Mirjalili,S.和Lewis,A.,鲸鱼优化算法,高级工程师软件95(2016)51-67。
[22] Simon,D.,基于生物地理的优化,IEEE Trans。进化。计算12(6)(2008年)。
[23] TIMIT声学-语音连续语音语料库,https://catalog.ldc.upenn.edu/ldc93s1, (2018).
[24] Prasanalakshmi,B.、Kannamal,A.和Sridevi,R.,用于在空间指定令牌中保存数据的频域组合,具有高安全性,Int.Conf.Inform。工程师通知。科学.251(2011)319-330。
[25] Ravuri,V.和Vasundra,S.,《Moth-frame优化库优化:使用Moth-flame优化和稀疏模糊C均值进行大数据聚类的地图还原框架》,大数据8(3)(2020)203-217。
[26] Manvith,V.S.、Saraswati,R.V.和Vasavi,R.,《入侵检测数据集上机器学习方法的性能比较》,2021年第三届国际会议,英特尔。Commun公司。技术与虚拟移动网络(ICICV)(2021)782-788。
[27] Nikhah,A.K.、Sailaja,N.V.、Vasavi,R.和Saraswati,R.V.,《使用视频处理的道路交通统计和分析》,英特尔。系统。《设计》(2021年),第645-651页。
[28] Guariglia,E.,《熵与分形天线》,熵18(3)(2016)。
[29] Hutchinson,J.E.,分形与自相似,印度。大学数学。J.30(5)(1981)713-747·Zbl 0598.28011号
[30] Guido,R.C.、Pedroso,F.、Contreras,R.C、Rodrigues,L.C.、Guariglia,E.和Neto,J.S.,《介绍离散路径变换(DPT)及其在信号分析、伪影消除和语音识别中的应用》,Dig。信号处理117(2021)。
[31] E.Guariglia和S.Silvestrov,D'(C)上正定分布和小波的分数小波分析,工程数学II,Silvestorv,Rancic(编辑),(Springer,2016)337-353·Zbl 1365.65294号
[32] Yang,L.,Su,H.,Zhong,C.,Meng,Z.,Luo,H,Li,X.,Tang,Y.Y.和Lu,Y.,使用基于小波变换的平滑排序的高光谱图像分类,国际小波多分辨率信息。流程17(6)(2019)·兹比尔1434.62140
[33] Guariglia,E.,Harmonic Sierpinski垫圈及其应用,Entropy20(9)(2018)。
[34] Zheng,X.,Tang,Y.Y.和Zhou,J.,无向图上信号的自适应多尺度小波分解框架,IEEE Trans。信号处理67(2019)1696-1711·Zbl 1458.94160号
[35] Guariglia,E.,《Primality,fractality and image analysis》,Entropy21(3)(2019年)·Zbl 1459.26011号
[36] Berry,M.V.、Lewis,Z.V.和Nye,J.F.,《关于Weierstrass-Mandelbrot分形函数》,Proc。伦敦皇家学会,A370系列(1743年)(1980年)459-484·Zbl 0435.28008号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。