×

基于神经网络和剩余激励声道模型的高质量阿拉伯语语音合成系统。 (英语) Zbl 1140.68506号

摘要:传统上,文本到语音转换是通过连接简短的语音样本或使用基于规则的系统将语音的语音表示转换为声音表示,然后再将其转换为语音。本文介绍了一种基于人工神经网络和剩余激励LPC编码器的现代标准阿拉伯语文语合成系统。网络提供了一种存储效率高的合成方法,无需显式规则枚举。这些神经网络在训练阶段需要大量的韵律标记连续语音数据库。由于这些数据库不适用于阿拉伯语,我们为此开发了一个数据库。因此,我们讨论了这一开发过程的各个阶段。除了神经网络的插值功能外,还对编码器参数进行线性插值,以在段边界处创建平滑过渡。本文还介绍了残差激励全极点声道模型和基于神经网络的韵律信息合成器。

MSC公司:

68T50型 自然语言处理
90 C59 数学规划中的近似方法和启发式
91层20 语言学

软件:

TTSBOX公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Dixon N.R.和Maxey H.D.(1976年)。使用段组装的双音法进行连续语音的终端模拟合成。IEEE传输。音频电声。AU-16:40–50
[2] 霍姆斯J.N.等人(1964年)。按规则进行语音合成。语言演讲7:127-143
[3] Guerti,M.:《阿拉贝标准的假释综合贡献》。第十六届帕罗尔河畔练习会(JEP),法国声学学会,突尼斯哈马马特,1987年10月5日至9日,第290–293页(1987)
[4] Hunt,A.J.,Black,A.W.:使用大型语音数据库的级联语音合成系统中的单元选择。摘自:ICASSP’96年会议记录,第373–376页(1996)
[5] Guerti,M.:按规则进行语音合成。参加:第八届国际计算机理论与应用会议ICCTA’98,IEEE(Alexandra Chapter),Alexandria-EGYPT,1998年9月15日至17日,III.12–III.15(1998)
[6] Tuerk,C.,Robinson,T.:使用基于倒谱系数训练的神经网络进行语音合成。摘自:《93年欧洲演讲会议录》,柏林,第1713-1716页(1993年)
[7] Weijters,T.,Thole,J.:人工神经网络语音合成。收录于:《1993年ICNN会议录》,旧金山,第1764-1769页(1993)
[8] Karaali,O.,Corrigan,G.,Gerson,I.,Massey,N.:神经网络的文本到语音转换:循环TDNN方法。摘自:《1997年欧洲演讲会议录》,希腊罗德斯,第561-564页(1997)
[9] Xiang,Z.,BI,G.:汉语语音合成的神经网络模型。摘自:IEEE电路与系统国际研讨会论文集,第3卷,第1859–1862页(1990)
[10] 考利,G.C.:神经网络在语音建模中的应用。埃塞克斯大学博士论文(1996年)
[11] Tao,J.,Cai,L.,Tropf,H.:基于优化神经网络的汉语语音合成系统韵律模型。收录于:《IEEE TENCON’02会议录》,第477–480页(2002年)
[12] Farrokhi,A.,Ghammaghami,S.:使用递归神经网络预测波斯文语转换系统中的韵律数据。收录:《电子通讯》IEE 2003,第39卷,第25期(2003)
[13] Teixera,J.P.,Freitas,D.:用神经网络预测分段持续时间。《欧洲演讲2003-日内瓦》,第169-172页(2003)
[14] Vainio,M.:芬兰文语合成中基于人工神经网络的韵律模型。芬兰赫尔辛基大学语音系(2001年)
[15] Chen S.H.、Hwang S.H.和Wang Y.R.(1998)。基于RNN的汉语文语转换韵律信息合成器。IEEE传输。语音音频处理。6: 226–239 ·数字对象标识代码:10.1109/89.668817
[16] Erdem,C.,Zimmermman,H.G.:神经韵律生成中输入特征选择的数据驱动方法。In:ICASSP 2002年会议记录,第1卷,第477–480页
[17] Baloul,S.:《阿拉伯文本标准呼声部分假释综合自动化系统开发》。法国勒芒缅因大学博士学位(2003年)
[18] Malfrère,F.,Deroo,O.,Dutoit,T.:语音对齐:基于语音合成与混合HMM/ANN的比较。收录:ICSLP 98会议记录,澳大利亚悉尼,第1571–1574页
[19] Malfrère,F.,Dutoit,T.:用于文本到语音对齐和韵律特征提取的语音合成。摘自:《国际会计准则委员会1997年会议记录》,香港,第2637-2640页(1997年)
[20] Nouza J.(1997)。谱变异函数应用于语音信号的声学-语音分割。收录:Wodarz,H.-W.(编辑)语音处理。,第43-58页。论坛电话,63,法兰克福amndt Hand
[21] Dutoit T.(1997)。文本到语音合成简介。荷兰Kluwer
[22] Chappell,D.T.,Hansen,J.H.L.:基于分段级联的语音合成的频谱平滑方法比较。In:言语交际,36。第343–374页,爱思唯尔,阿姆斯特丹(2002)·Zbl 0987.68809号
[23] Itakura,F.(1975)语音信号线性预测系数的线谱表示。J.声学。Soc.Am.57:535(摘要)·doi:10.1121/1.1995189
[24] Kleijn W.B.,Paliwal K.K.(编辑)。(1995). 语音编码与合成。阿姆斯特丹爱思唯尔
[25] Sejnowski T.J.和Rosenberg C.R.(1987年)。学习英语文本发音的平行网络。复杂系统。1: 145–168 ·Zbl 0655.68107号
[26] Vepa J.和King S.(2006年)。单元选择语音合成中连接代价和平滑方法的主观评估。IEEE传输。语音音频处理。14(5): 1763–1771 ·doi:10.1109/TSA.2005.858548
[27] Daniel H.、Di Christo A.和Espesser R.(2000年)。语调的表征层次和分析层次。摘自:Horne,M.(主编)《韵律:理论与经验》。,第51–87页。多德雷赫特·克鲁沃
[28] Fant G.,Kruckenberg A.:参考瑞典语进行语调分析和合成。在:《语言音调方面的国际Somposium:强调音调语言》,中国北京,28-31(2004)
[29] Moulines E.和Charpentier F.(1990年)。用于使用双音的文本到语音合成的俯仰同步波形处理技术。语音通信。9: 453–467 ·doi:10.1016/0167-6393(90)90021-Z
[30] Chouireb,F.,Guerti,M.:练习曲和技术应用LPC和TD-PSOLA pour l’analyse/modification/synthèse de la parole。2004年4月24日至26日,阿尔盖里阿马尔·特利德吉·拉古哈特大学,国际电工电子工程会议,IASN 1112–4652特刊,第244–250页(2004)
[31] Edgington,M.,Lowry,A.:用于文本到语音合成的基于残差的语音修改算法。收录于:ICLSP'96,费城,宾夕法尼亚州,美国,10月3-6日,第1425-1428页(1996)
[32] Giménez de los Galanes,F.M.,Savoji,M.H.,Pardo,J.M.:LP-PSOLA合成光谱平滑和包络修改的新算法。摘自:ICASSP会议记录,第1卷,第573–576页(1994年)
[33] Hart J.、Collier R.和Cohen A.(1990年)。语调的感性研究。剑桥大学出版社
[34] Conkie A.和Isard S.(1997年)。双酮的最佳耦合。发表于:Van Santen,J.、Sproat,R.、Olive,J.和Hirschberg,J.(编辑)《语音合成进展》。,第293–304页。纽约施普林格-弗拉格
[35] Black,A.,Campbell,N.:优化从语音数据库中选择单元以进行级联合成。收录于:EUROSPEECH’95,西班牙马德里,第581-584页(1995)
[36] Hansen J.H.L.和Chappell D.T.(1998年)。基于听觉的失真度量及其在级联语音合成中的应用。IEEE传输。语音音频处理。6(5): 489–495 ·数字对象标识代码:10.1109/89.709674
[37] Dutoit,T.,Cernak,M.:TTSBOX:一个用于教授文本到语音合成的MATLAB工具箱。收录于:ICASSP’05,费城,2005年3月18日至23日,第5卷,pp:v/537–v/540(2005)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。