×

自由词组

swMATH ID: 42476
软件作者: Hyeo-Kyeong Shin、Hyewon Han、Doyeon Kim、Soo-Whan Chung、Hong Goo Kang
描述: 学习开放式词汇识别的音频文本协议。在本文中,我们提出了一种新的端到端用户定义关键字检测方法,该方法利用语音和文本序列之间的语言对应模式。与以前需要语音关键字注册的方法不同,我们的方法将输入查询与注册的文本关键字序列进行比较。为了将音频和文本表示置于一个公共的潜在空间中,我们采用了一种基于注意力的跨模式匹配方法,该方法以端到端的方式进行训练,具有单调匹配损失和关键字分类损失。我们还利用声学嵌入网络的去噪损失来提高噪声环境中的鲁棒性。此外,我们还引入了LibriPhrase数据集,这是一个基于LibriSpeech的新的短句数据集,用于有效地训练关键词识别模型。与其他单模态和跨模态基线相比,我们提出的方法在各种评估集上取得了具有竞争力的结果。
主页: https://arxiv.org/abs/2206.15400
源代码:  https://github.com/gusrud1103/LibriPhrase网站
依赖项: 蟒蛇
关键词: LibriPhrase数据集;音频;语音处理;arXiv_eess(_E)。AS公司;人工智能;arXiv_cs。人工智能;机器学习;arXiv_cs。LG公司;用户定义的关键字识别;开放式词汇;音频文本对应检测
相关软件: 甜甜圈;g2pE公司;自由演讲;蟒蛇
引用于: 0个文档

标准条款

1出版物描述软件 年份
学习开放式词汇识别的音频文本协议arXiv公司
Hyeo-Kyeong Shin、Hyewon Han、Doyeon Kim、Soo-Whan Chung、Hong Goo Kang
2022