计算机科学>声音
标题: ERNIE-Music:基于扩散模型的文本到波形音乐生成
摘要: 近年来,人们对扩散模型的兴趣日益浓厚,这导致图像和语音生成技术取得了重大进展。 然而,从无限制的文本提示直接合成音乐波形仍然是一个相对未被探索的领域。 针对这一缺陷,本文介绍了一种基于扩散模型的文本到波形音乐生成模型的开创性贡献。 我们的方法论依赖于创新性地将自由形式的文本提示作为条件因素纳入,以指导扩散模型框架内的波形生成过程。为了应对有限的文本-音乐并行数据的挑战,我们利用网络资源创建数据集, 由薄弱的监督技术推动的任务。 此外,还进行了一项严格的实证调查,以对比两种不同的提示格式对文本条件化的效果,即音乐标签和无约束文本描述。 对比分析的结果证实了我们提出的模型在增强文本-音乐相关性方面的优越性能。 最后,我们的工作以展示我们的模型在文本到音乐生成方面的卓越能力而告终。 我们进一步证明,我们在波形域中生成的音乐在多样性、质量和文本音乐相关性方面大大优于以前的作品。