UnifySpeech: A Unified Framework for Zero-shot Text-to-Speech and Voice Conversion

Liu, Haogeng; Wang, Tao; Fu, Ruibo; Yi, Jiangyan; Wen, Zhengqi; Tao, Jianhua

计算机科学>声音

arXiv:2301.03801（cs）

【于2023年1月10日提交】

标题：UnifySpeech：一个用于零镜头文本到语音和语音转换的统一框架

作者：刘浩庚,王涛（音译）,傅瑞波,姜堰易,郑琪文,陶建华

查看PDF

摘要：文本到语音（TTS）和语音转换（VC）是两个不同的任务，都是为了根据不同的输入方式生成高质量的说话声音。由于两者的相似性，本文提出了UnifySpeech，首次将TTS和VC纳入了一个统一的框架。该模型基于以下假设：语音可以解耦为三个独立的分量：内容信息、说话人信息和韵律信息。TTS和VC都可以看作是从输入中挖掘这三部分信息，完成语音的重构。对于TTS，语音内容信息来自文本，而在VC中，它来自源语音，因此除了两个任务中的语音内容提取模块外，其余所有单元都是共享的。我们应用矢量量化和域约束来弥合TTS和VC内容域之间的差距。客观和主观评估表明，通过将这两个任务结合起来，TTS获得了更好的说话人建模能力，而VC获得了令人印象深刻的语音内容解耦能力。

学科：	声音（cs.SD）; 计算与语言（cs.CL）；机器学习（cs.LG）；音频和语音处理（eess.AS）
引用为：	arXiv:2301.03801[cs.SD]
	（或 arXiv:2301.03801v1[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2301.03801

提交历史记录

发件人：Haogeng Liu[查看电子邮件]
[第1版]2023年1月10日星期二06:06:57 UTC（475 KB）

计算机科学>声音

标题：UnifySpeech：一个用于零镜头文本到语音和语音转换的统一框架

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

标题：UnifySpeech：一个用于零镜头文本到语音和语音转换的统一框架

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目