电气工程与系统科学>音频和语音处理
标题: ICML2022表达性发声研讨会和比赛:识别、生成和个性化发声爆发
摘要: ICML Expressive Vocalization(ExVo)竞赛专注于理解和产生声音爆发:笑、喘息、哭和其他非语言发声,这些都是情感表达和交流的核心。 ExVo 2022包括三个比赛曲目,使用了1702名扬声器59201个发声的大规模数据集。 第一个是ExVo-MultiTask,要求参与者训练一个多任务模型,以识别发声中表达的情绪和人口特征。 第二种是ExVo-Generate,要求参与者训练一种生成模型,产生能传递十种不同情绪的声音爆发。 第三种是ExVo-FewShot,要求参与者利用结合说话人身份的少量快照学习来训练识别声音爆发所传达的10种情绪的模型。 本文描述了这三个轨迹,并使用最先进的机器学习策略提供了基线模型的性能度量。 每个轨迹的基线如下所示,对于ExVo-MultiTask,计算一致性相关系数(CCC)、未加权平均召回(UAR)和反向平均绝对误差(MAE)($S_{MTL}$)的调和平均值的组合分数最多为0.335$S_{MTL}$; 对于ExVo-Generate,我们报告了训练集和生成样本之间的Fréchet初始距离(FID)分数,范围为4.81到8.27(取决于情绪)。 然后,我们将反向FID与生成样本($S_{Gen}$)的感知评级相结合,得到0.174$S_{Gener}$; 对于ExVo-FewShot,平均CCC为0.444。