主讲人
丹尼尔·加西亚-罗梅罗
标题
X向量:用于说话人识别的神经语音嵌入
摘要
文本相关说话人识别的最先进技术由DNN嵌入(x向量)表示,它总结了整个录制过程中的说话人特征,并远远超出了训练集中的说话者。 在本次演讲中,我将介绍从我们首次尝试端到端说话人识别到我们最新的x向量系统的后场景描述,该系统在最近的NIST SRE19说话人辨识评估中取得了最佳性能。 我将讨论决策过程背后的挑战、经验教训和动机。 此外,我将展示DNN体系结构和培训方法的演变。 将为对话式电话讲话、视频音频和自然对话的远场多扬声器录音提供性能结果。
传记
Daniel Garcia-Romero是约翰·霍普金斯大学人类语言技术卓越中心的高级研究科学家。 他的研究兴趣是语音处理、深度学习和多模态人物识别等广泛领域。 在过去的几年里,他一直在研究用于说话人、语言识别和日记化的深度神经网络。 他是x向量嵌入技术的共同发明者,该技术在这些领域创造了最先进的技术。 他以前的工作包括对说话人表示的概率建模的重要贡献,以实现域自适应和噪声鲁棒性。 在加入JHU之前,他在马里兰大学帕克分校完成了电气工程博士学位。
视频
您的浏览器不支持视频标记。
渡边信治
标题
基于说话人区分和多人语音识别的多人会话处理
摘要
最近,语音识别和理解研究的重点已经从控制场景中的单说话人自动语音识别(ASR)转移到基于ASR和说话人日记化的更具挑战性和现实性的多说话人会话分析。 CHiME语音分离和识别挑战是解决这些新范式的尝试之一。 本次演讲首先介绍了CHiME-6最新挑战的介绍和结果,重点是在晚宴场景中识别多人对话。本次演讲的第二部分是基于端到端神经架构的紧急技术来处理多人对话分析。 我们介绍了我们最近基于端到端方法的说话人日记化尝试,包括基本概念、在线扩展和处理未知数量的说话者。
传记
渡边信治(Shinji Watanabe)是马里兰州巴尔的摩约翰霍普金斯大学(Johns Hopkins University,Baltimore,MD)的副研究教授。他在日本东京早稻田大学(Waseda University)获得了学士、硕士和博士(工程博士)学位。 2001年至2011年,他在日本京都NTT通信科学实验室担任研究员,2009年在佐治亚州亚特兰大乔治亚理工学院担任访问学者,2012年至2017年在美国马萨诸塞州剑桥市三菱电机研究实验室(MERL)任高级首席研究员。 他的研究兴趣包括自动语音识别、语音增强、口语理解以及语音和语言处理的机器学习。 他在同行评审期刊和会议上发表了200多篇论文,并获得了多项奖项,包括2019年IEEE ASRU颁发的最佳论文奖。 他曾担任IEEE语音和语言处理汇刊的副主编,并曾是多个技术委员会的成员,包括IEEE信号处理学会语音和语言技术委员会(SLTC)和信号处理技术委员会(MLSP)的机器学习。
视频
您的浏览器不支持视频标记。