The ICML 2022 Expressive Vocalizations Workshop and Competition: Recognizing, Generating, and Personalizing Vocal Bursts

Baird, Alice; Tzirakis, Panagiotis; Gidel, Gauthier; Jiralerspong, Marco; Muller, Eilif B.; Mathewson, Kory; Schuller, Björn; Cambria, Erik; Keltner, Dacher; Cowen, Alan

电气工程与系统科学>音频和语音处理

arXiv:2205.01780（个）

【2022年5月3日提交(第1版)，最新修订日期：2022年7月12日（本版本，第3版）]

标题：ICML2022表达性发声研讨会和比赛：识别、生成和个性化发声爆发

作者：爱丽丝·贝尔德,Panagiotis Tzirakis公司,加泰尔·吉德尔,马可·吉拉尔斯彭,埃利夫·B·穆勒,科里·马修森,比约恩·舒勒,埃里克·坎布里亚,达契尔·克特纳,艾伦·考恩

查看PDF

摘要：ICML Expressive Vocalization（ExVo）竞赛专注于理解和产生声音爆发：笑、喘息、哭和其他非语言发声，这些都是情感表达和交流的核心。ExVo 2022包括三个比赛曲目，使用了1702名扬声器59201个发声的大规模数据集。第一个是ExVo-MultiTask，要求参与者训练一个多任务模型，以识别发声中表达的情绪和人口特征。第二种是ExVo-Generate，要求参与者训练一种生成模型，产生能传递十种不同情绪的声音爆发。第三种是ExVo-FewShot，要求参与者利用结合说话人身份的少量快照学习来训练识别声音爆发所传达的10种情绪的模型。本文描述了这三个轨迹，并使用最先进的机器学习策略提供了基线模型的性能度量。每个轨迹的基线如下所示，对于ExVo-MultiTask，计算一致性相关系数（CCC）、未加权平均召回（UAR）和反向平均绝对误差（MAE）（$S_{MTL}$）的调和平均值的组合分数最多为0.335$S_{MTL}$；对于ExVo-Generate，我们报告了训练集和生成样本之间的Fréchet初始距离（FID）分数，范围为4.81到8.27（取决于情绪）。然后，我们将反向FID与生成样本（$S_{Gen}$）的感知评级相结合，得到0.174$S_{Gener}$；对于ExVo-FewShot，平均CCC为0.444。

学科：	音频和语音处理（eess.AS）; 机器学习（cs.LG）；声音（cs.SD）
引用为：	arXiv:2205.01780【eess.AS】
	（或 arXiv:2205.01780v3【eess.AS】对于此版本）
	https://doi.org/10.48550/arXiv.2205.01780

提交历史记录

发件人：Alice Baird[查看电子邮件]
[第1版]2022年5月3日星期二21:06:44 UTC（687 KB）
[版本2]2022年6月23日星期四17:53:50 UTC（566 KB）
[第3版]2022年7月12日星期二16:32:32 UTC（566 KB）

电气工程与系统科学>音频和语音处理

标题：ICML2022表达性发声研讨会和比赛：识别、生成和个性化发声爆发

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

电气工程与系统科学>音频和语音处理

标题：ICML2022表达性发声研讨会和比赛：识别、生成和个性化发声爆发

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目