自由词组 swMATH ID: 42476 软件作者: Hyeo-Kyeong Shin、Hyewon Han、Doyeon Kim、Soo-Whan Chung、Hong Goo Kang 描述: 学习开放式词汇识别的音频文本协议。在本文中,我们提出了一种新的端到端用户定义关键字检测方法,该方法利用语音和文本序列之间的语言对应模式。与以前需要语音关键字注册的方法不同,我们的方法将输入查询与注册的文本关键字序列进行比较。为了将音频和文本表示置于一个公共的潜在空间中,我们采用了一种基于注意力的跨模式匹配方法,该方法以端到端的方式进行训练,具有单调匹配损失和关键字分类损失。我们还利用声学嵌入网络的去噪损失来提高噪声环境中的鲁棒性。此外,我们还引入了LibriPhrase数据集,这是一个基于LibriSpeech的新的短句数据集,用于有效地训练关键词识别模型。与其他单模态和跨模态基线相比,我们提出的方法在各种评估集上取得了具有竞争力的结果。 主页: https://arxiv.org/abs/2206.15400 源代码: https://github.com/gusrud1103/LibriPhrase网站 依赖项: 蟒蛇 关键词: LibriPhrase数据集;音频;语音处理;arXiv_eess(_E)。AS公司;人工智能;arXiv_cs。人工智能;机器学习;arXiv_cs。LG公司;用户定义的关键字识别;开放式词汇;音频文本对应检测 相关软件: 甜甜圈;g2pE公司;自由演讲;蟒蛇 引用于: 0个文档 标准条款 1出版物描述软件 年份 学习开放式词汇识别的音频文本协议arXiv公司Hyeo-Kyeong Shin、Hyewon Han、Doyeon Kim、Soo-Whan Chung、Hong Goo Kang 2022