计算机科学>多媒体
标题: 自由说话者:基于扩散模型的可控语音和文本驱动手势生成,以增强说话人的自然度
摘要: 当前的说话化身大多基于说话的音频和文本生成共同说话手势,而不考虑说话者的非说话动作。 此外,先前关于共语手势生成的工作已经设计了基于单个手势数据集的网络结构,这导致数据量有限、通用性较差和说话人移动受限。 为了解决这些问题,我们引入了FreeTalker,据我们所知,它是生成自发(例如,共同讲话手势)和非自发(例如在讲台上移动)演讲者动作的第一个框架。 具体来说,我们为说话人运动生成训练了一个基于扩散的模型,该模型利用来自各种运动数据集的异构数据,统一表示言语驱动的手势和文本驱动的运动。 在推理过程中,我们利用无分类器指导来高度控制剪辑中的风格。 此外,为了在剪辑之间创建平滑过渡,我们使用了DoubleTake,这是一种利用生成性先验并确保无缝运动混合的方法。 大量实验表明,我们的方法可以生成自然可控的说话人运动。 我们的代码、模型和演示可在\url上找到{ 此https URL }.