国际标准协会 档案文件 2022年Interspeech
国际标准协会 档案文件 2022年Interspeech

JETS:联合培训FastSpeech2和HiFi-GAN以实现端到端的文本到语音转换

Dan Lim、Sunghee Jung、Eesung Kim

在神经文语转换(TTS)中,两阶段系统或级联的单独学习模型显示出接近人类语音的合成质量。例如,FastSpeech2将输入文本转换为mel-spectrogram,然后HiFi-GAN从mel-spectram生成原始波形,分别称为声学特征生成器和神经声码器。然而,他们的培训管道有点麻烦,因为它需要微调和准确的演讲文本对齐以获得最佳性能。在这项工作中,我们提出了端到端的文本到语音(E2E-TTS)模型,该模型具有简化的训练管道,性能优于级联的单独学习模型。具体来说,我们提出的模型是通过校准模块联合训练FastSpeech2和HiFi-GAN。由于训练和推理之间没有声学特征不匹配,因此不需要微调。此外,通过在我们的联合训练框架中采用对齐学习目标,我们消除了对外部语音-文本对齐工具的依赖性。在LJSpeech语料库上的实验表明,该模型在主观评估(MOS)方面优于公开可用的最新ESPNet2-TTS实现以及一些客观的评价。


doi:10.21437/Interspeech.2022-10294

引用:Lim,D.,Jung,S.,Kim,E.(2022)JETS:Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech。程序。Interspeech 2022,21-25,doi:10.21437/Interspeech.2022-10294

@正在进行{lim22_interspeech,author={Dan Lim和Sunghee Jung以及Eesung Kim},title={{JETS:联合训练FastSpeech2和HiFi-GAN以实现端到端的文本到语音}},年=2022年,booktitle={Proc.Interspeech 2022},页数={21--25},doi={10.21437/Interspeech.2022-10294},issn={2958-1796}}