On the quality of an expressive audiovisual corpus: a case study of acted speech

Ouni, Slim; Dahmani, Sara; Colotte, Vincent

doi:10.21437/AVSP.2017-11

论表达性视听语料库的质量——以表演言语为例

斯利姆·乌尼（Slim Ouni）、萨拉·达赫马尼（Sara Dahmani）、文森特·科洛特（Vincent Colotte）

在开发表达型视听语音合成系统的背景下，从中提取三维视觉数据的视听语料库的质量非常重要。在本文中，我们对一名半职业演员所表现的一系列情绪的表达质量进行了一项感知案例研究。我们分析了这个演员在人类情绪再认知任务中用动作情感发音一组句子的结果。我们观察到了不同的模式：音频、真实视频、3D提取数据、单模演示和双模演示（带音频）。本研究的结果表明，在进一步开发合成系统的数据之前，有必要进行此类感知评估。形式的比较清楚地表明了情感是什么，在制作过程中需要改进，以及音频和视频组件如何对情感感知产生强大的相互影响。

doi:10.21437/AVSP.2017-11

引自：Ouni，S.、Dahmani，S.和Colotte，V.（2017）《关于表达性视听语料库的质量：行为言语的案例研究》。程序。第14届视听语音处理国际会议，53-57，doi:10.21437/AVSP.2017-11

@正在进行{ouni17_avsp，author={斯利姆·奥尼（Slim Ouni）、萨拉·达赫马尼（Sara Dahmani）和文森特·科洛特（Vincent Colotte）}，title={{论表达性视听语料库的质量：行为言语的个案研究}}，年份=2017年，booktitle={Proc.第14届国际视听语音处理会议}，页数={53--57}，doi={10.21437/AVSP.2017-11}}