Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

Yang, Sicheng; Xu, Zunnan; Xue, Haiwei; Cheng, Yongkang; Huang, Shaoli; Gong, Mingming; Wu, Zhiyong

计算机科学>多媒体

arXiv公司：2401.03476（cs）

【提交日期：2024年1月7日】

标题：自由说话者：基于扩散模型的可控语音和文本驱动手势生成，以增强说话人的自然度

作者：四川杨,徐遵南,薛海伟（Haiwei Xue）,永康城,黄少丽（Shaoli Huang）,龚明明,吴志勇

查看PDF HTML（实验性）

摘要：当前的说话化身大多基于说话的音频和文本生成共同说话手势，而不考虑说话者的非说话动作。此外，先前关于共语手势生成的工作已经设计了基于单个手势数据集的网络结构，这导致数据量有限、通用性较差和说话人移动受限。为了解决这些问题，我们引入了FreeTalker，据我们所知，它是生成自发（例如，共同讲话手势）和非自发（例如在讲台上移动）演讲者动作的第一个框架。具体来说，我们为说话人运动生成训练了一个基于扩散的模型，该模型利用来自各种运动数据集的异构数据，统一表示言语驱动的手势和文本驱动的运动。在推理过程中，我们利用无分类器指导来高度控制剪辑中的风格。此外，为了在剪辑之间创建平滑过渡，我们使用了DoubleTake，这是一种利用生成性先验并确保无缝运动混合的方法。大量实验表明，我们的方法可以生成自然可控的说话人运动。我们的代码、模型和演示可在\url上找到{此https URL}.

评论：	6页，3图，ICASSP 2024
学科：	多媒体（cs.MM）; 人工智能；人机交互（cs.HC）；声音（cs.SD）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2401.03476[cs.MM]
	（或 arXiv:2401.03476v1[cs.MM]对于此版本）
	https://doi.org/10.48550/arXiv.2401.03476

提交历史记录

发件人：杨思成[查看电子邮件]
[第1版]2024年1月7日，星期日13:01:29 UTC（1326 KB）

计算机科学>多媒体

标题：自由说话者：基于扩散模型的可控语音和文本驱动手势生成，以增强说话人的自然度

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>多媒体

标题：自由说话者：基于扩散模型的可控语音和文本驱动手势生成，以增强说话人的自然度

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目