检索和复制:缩放语音识别大型目录的个性化

赛·穆拉利达尔·贾扬蒂,德旺·库尔什塔(Devang Kulshreshtha),萨基特·丁利瓦尔,斯里坎思·罗南基,斯拉文·博达帕蒂


摘要
自动语音识别(ASR)模型的个性化是一个广泛研究的课题,因为它有许多实际应用。最近,基于注意的上下文偏向技术被用于提高对罕见单词和/或特定领域实体的识别。然而,由于性能限制,偏差通常仅限于几千个实体,限制了真实世界的可用性。为了解决这个问题,我们首先提出了一种“检索和复制”机制,以改进延迟,同时即使在扩展到大型目录时也能保持准确性。我们还提出了一种培训策略,以克服由于混淆实体数量增加而导致的大规模召回退化。总的来说,与强大的基线相比,我们的方法在F1中实现了高达6%的字错误率减少(WERR)和3.6%的绝对改进。我们的方法还允许大的目录大小达到20K,而不会显著影响WER和F1核,同时每个声帧至少实现20%的推理加速。
选集ID:
2023.emnlp-行业60
体积:
2023年自然语言处理实证方法会议记录:行业跟踪
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
王明轩,伊梅德·齐图尼
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
631–639
语言:
网址:
https://aclantology.org/2023.emnlp-industry.60
内政部:
10.18653/v1/2023.emnlp-行业60
比比键:
引用(ACL):
Sai Muralidhar Jayanthi、Devang Kulshreshtha、Saket Dingliwal、Srikanth Ronanki和Sravan Bodapati。2023检索和复制:将ASR个性化扩展到大型目录.英寸2023年自然语言处理实证方法会议记录:行业跟踪,第631-639页,新加坡。计算语言学协会。
引用(非正式):
检索和复制:将ASR个性化扩展到大型目录(Jayanthi等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-industry.60.pdf
视频:
 https://aclantology.org/2023.emnlp-industry.60mp4