Bi-Level Speaker Supervision for One-Shot Speech Synthesis

Wang, Tao; Tao, Jianhua; Fu, Ruibo; Yi, Jiangyan; Wen, Zhengqi; Qiang, Chunyu

doi:10.21437/Interspeech.2020-1737

单镜头语音合成中的双电平说话人监控

王涛、陶建华、傅瑞波、易建言、文正琪、强春雨

参考语音的说话人特征与合成语音的差距语音一直是单步语音合成中的一个挑战性问题。在本文中，我们提出了一个双级说话人监督框架通过监控合成信号来缩小扬声器特性差距在说话人特征级别和说话人身份级别的演讲。演讲者融合了特征提取和说话人身份重建在端到端语音合成网络中，一对一扬声器关闭扬声器特性的功能级别，另一个打开用于保存身份信息的说话者身份级别。这个框架保证合成语音具有相似的说话人特征对原始语音，它还确保了不同的演讲者。此外，为了解决语音的影响在说话人特征提取任务中，我们提出了一个文本相关的用于提取扬声器的参考编码器（ti-reference encoder）模块功能。在LibriTTS数据集上的实验表明，我们的模型能够以生成与目标说话者相似的语音。此外，我们证明该模型可以通过bilevel学习有意义的说话人表示扬声器监控和参考编码器模块。

doi:10.21437/Interspeech.2020-1737

引用：Wang，T.，Tao，J.，Fu，R.，Yi，J.、Wen，Z.、Qiang，C.（2020）《单镜头语音合成的双层说话人监督》。程序。Interspeech 2020，3989-3993，doi:10.21437/Interspeech.2020-1737

@正在进行中{wang20ea_interspeech，author={王涛、陶建华、傅瑞波、易建言、文正琪、强春雨}，title={{单镜头语音合成的双层说话人监督}}，年=2020年，booktitle={Proc.Interspeech 2020}，页数={3989--3993}，doi＝{10.21437/Interspeech.2020-1737}，issn={2958-1796}}