音频波形

2020年VoxSRC研讨会

欢迎参加2020年VoxSRC研讨会!。研讨会包括从最令人兴奋和新颖的提交到VoxCeleb扬声器识别挑战(VoxSRC)以及宣布挑战优胜者。

研讨会与2020年国际演讲.会议于2020年10月30日举行,预计将完全在线举行。

您可以看到本研讨会所有系列的信息网站.

地铁列车时刻表

研讨会于上海时间下午7点至10点举行。

晚上7:00简介:“VoxCeleb、VoxConverse和VoxSRC”、阿尔沙·纳格拉尼、朱松忠和安德鲁·齐瑟曼[幻灯片]
下午7:25主旨演讲:Daniel Garcia-Romero,“X向量:用于说话人识别的神经语音嵌入” [视频]
晚上8:00公告:第1、2和3轨道的排行榜和优胜者 [幻灯片]
晚上8:05来自轨道1、2和3的参与者演讲
JTBD团队[幻灯片] [视频]
xx205队[幻灯片] [视频]
DKU-DukeECE团队[幻灯片] [视频]
晚上8:50咖啡休息时间
晚上9:10主题演讲:渡边信治,“基于说话人区分和多说话人语音识别的多说话者对话处理” [视频]
晚上9:40公告:第4轨道的排行榜和优胜者 [幻灯片]
晚上9点42分来自轨道4的参与者演讲
曼达洛团队[幻灯片] [视频]
兰迪尼团队[幻灯片] [视频]
晚上10:00总结讨论和结束

参与者会谈


轨道1、2和3

JTBD团队 xx205队 DKU-DukeECE团队

轨道4

曼达洛团队 兰迪尼团队

技术报告


团队   轨道   文件  
JTBD公司 1,2,3 arXiv公司
DKU-DukeECE公司   1,3,4 arXiv公司
Veridas公司 1,2 PDF格式
xx205号 1,2 arXiv公司
BUT-米利亚   1,2 PDF格式
数字信号处理器 1 PDF格式
电子病历 1 arXiv公司
ID研发 1 PDF格式
NSYSU+CHT 1 PDF格式
北师大 1 PDF格式
ShaneRun公司 1 PDF格式
扬声器输入 1 PDF格式
TalTech公司 1 PDF格式
克洛瓦艾 1 arXiv公司
同济大学 1 arXiv公司
Tongji-UG公司 1 arXiv公司
章鱼烧 2 PDF格式
通用产品代码 arXiv公司
搜狗 4 PDF格式
但是 4 arXiv公司
微软 4 arXiv公司
华为 4 PDF格式

研讨会注册

可以通过以下方式注册车间Eventbrite公司. 由于名额有限,请尽早注册!每位参与者只能注册一次。研讨会的缩放链接将仅发送给注册的参与者。

如果您想注册实际挑战,请参阅我们的VoxCeleb说话人识别挑战(VoxSRC)第页。

主讲人



丹尼尔·加西亚-罗梅罗

标题

X向量:用于说话人识别的神经语音嵌入

摘要

文本相关说话人识别的最先进技术由DNN嵌入(x向量)表示,它总结了整个录制过程中的说话人特征,并远远超出了训练集中的说话者。在本次演讲中,我将介绍从我们首次尝试端到端说话人识别到我们最新的x向量系统的后场景描述,该系统在最近的NIST SRE19说话人辨识评估中取得了最佳性能。我将讨论决策过程背后的挑战、经验教训和动机。此外,我将展示DNN体系结构和培训方法的演变。将为对话式电话讲话、视频音频和自然对话的远场多扬声器录音提供性能结果。

传记

Daniel Garcia-Romero是约翰·霍普金斯大学人类语言技术卓越中心的高级研究科学家。他的研究兴趣是语音处理、深度学习和多模态人物识别等广泛领域。在过去的几年里,他一直在研究用于说话人、语言识别和日记化的深度神经网络。他是x向量嵌入技术的共同发明者,该技术在这些领域创造了最先进的技术。他以前的工作包括对说话人表示的概率建模的重要贡献,以实现域自适应和噪声鲁棒性。在加入JHU之前,他在马里兰大学帕克分校完成了电气工程博士学位。

视频





渡边信治

标题

基于说话人区分和多人语音识别的多人会话处理

摘要

最近,语音识别和理解研究的重点已经从控制场景中的单说话人自动语音识别(ASR)转移到基于ASR和说话人日记化的更具挑战性和现实性的多说话人会话分析。CHiME语音分离和识别挑战是解决这些新范式的尝试之一。本次演讲首先介绍了CHiME-6最新挑战的介绍和结果,重点是在晚宴场景中识别多人对话。本次演讲的第二部分是基于端到端神经架构的紧急技术来处理多人对话分析。我们介绍了我们最近基于端到端方法的说话人日记化尝试,包括基本概念、在线扩展和处理未知数量的说话者。

传记

渡边信治(Shinji Watanabe)是马里兰州巴尔的摩约翰霍普金斯大学(Johns Hopkins University,Baltimore,MD)的副研究教授。他在日本东京早稻田大学(Waseda University)获得了学士、硕士和博士(工程博士)学位。2001年至2011年,他在日本京都NTT通信科学实验室担任研究员,2009年在佐治亚州亚特兰大乔治亚理工学院担任访问学者,2012年至2017年在美国马萨诸塞州剑桥市三菱电机研究实验室(MERL)任高级首席研究员。他的研究兴趣包括自动语音识别、语音增强、口语理解以及语音和语言处理的机器学习。他在同行评审期刊和会议上发表了200多篇论文,并获得了多项奖项,包括2019年IEEE ASRU颁发的最佳论文奖。他曾担任IEEE语音和语言处理汇刊的副主编,并曾是多个技术委员会的成员,包括IEEE信号处理学会语音和语言技术委员会(SLTC)和信号处理技术委员会(MLSP)的机器学习。

视频

组织者

阿尔沙·纳格拉尼,VGG,牛津大学,
Joon Son Chung(钟俊善),Naver,韩国,
安德鲁·齐瑟曼(Andrew Zisserman),牛津大学VGG,
Jaesung Huh公司,VGG,牛津大学,
Ernesto Coto,牛津大学VGG,
安德鲁·布朗,VGG,牛津大学,
谢伟迪,VGG,牛津大学,
米切尔·迈凯轮加州SRI国际语音技术与研究实验室,
道格拉斯·A·雷诺兹,麻省理工学院林肯实验室。

请联系arsha[at]机器人[dot]ox[dot]ac[dot4]uk如果你有任何疑问,或者你有兴趣赞助这个挑战。

赞助商

VoxCeleb演讲者验证挑战和研讨会由以下机构赞助:

致谢

这项工作得到了EPSRC项目拨款的支持参见bibyte EP/M013774/1:大数据时代的可视化搜索。