ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models

Zhu, Pengfei; Pang, Chao; Chai, Yekun; Li, Lei; Wang, Shuohuan; Sun, Yu; Tian, Hao; Wu, Hua

计算机科学>声音

arXiv:2302.04456（cs）

【于2023年2月9日提交(第1版)，上次修订日期：2023年9月21日（本版本，v2）]

标题：ERNIE-Music：基于扩散模型的文本到波形音乐生成

作者：朱鹏飞,赵鹏,叶坤柴,李雷（Lei Li）,王朔欢,于孙,郝天,华武

查看PDF

摘要：近年来，人们对扩散模型的兴趣日益浓厚，这导致图像和语音生成技术取得了重大进展。然而，从无限制的文本提示直接合成音乐波形仍然是一个相对未被探索的领域。针对这一缺陷，本文介绍了一种基于扩散模型的文本到波形音乐生成模型的开创性贡献。我们的方法论依赖于创新性地将自由形式的文本提示作为条件因素纳入，以指导扩散模型框架内的波形生成过程。为了应对有限的文本-音乐并行数据的挑战，我们利用网络资源创建数据集，由薄弱的监督技术推动的任务。此外，还进行了一项严格的实证调查，以对比两种不同的提示格式对文本条件化的效果，即音乐标签和无约束文本描述。对比分析的结果证实了我们提出的模型在增强文本-音乐相关性方面的优越性能。最后，我们的工作以展示我们的模型在文本到音乐生成方面的卓越能力而告终。我们进一步证明，我们在波形域中生成的音乐在多样性、质量和文本音乐相关性方面大大优于以前的作品。

评论：	AACL演示2023接受
学科：	声音（cs.SD）; 人工智能；计算与语言（cs.CL）；多媒体（cs.MM）；音频和语音处理（eess.AS）
引用为：	arXiv:2302.04456[cs.SD]
	（或 arXiv:2302.04456v2[cs.SD]对于此版本）
	https://doi.org/10.48550/arXiv.2302.04456

提交历史记录

发件人：朱鹏飞[查看电子邮件]
[第1版]2023年2月9日星期四06:27:09 UTC（1443 KB）
[版本2]2023年9月21日星期四09:30:00 UTC（1650 KB）

计算机科学>声音

标题：ERNIE-Music：基于扩散模型的文本到波形音乐生成

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>声音

标题：ERNIE-Music：基于扩散模型的文本到波形音乐生成

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目