Retrieve and Copy: Scaling ASR Personalization to Large Catalogs

Sai Muralidhar Jayanthi; Devang Kulshreshtha; Saket Dingliwal; Srikanth Ronanki; Sravan Bodapati

doi:10.18653/v1/2023.emnlp-industry.60

检索和复制：缩放语音识别大型目录的个性化

赛·穆拉利达尔·贾扬蒂,德旺·库尔什塔（Devang Kulshreshtha）,萨基特·丁利瓦尔,斯里坎思·罗南基,斯拉文·博达帕蒂

摘要

自动语音识别（ASR）模型的个性化是一个广泛研究的课题，因为它有许多实际应用。最近，基于注意的上下文偏向技术被用于提高对罕见单词和/或特定领域实体的识别。然而，由于性能限制，偏差通常仅限于几千个实体，限制了真实世界的可用性。为了解决这个问题，我们首先提出了一种“检索和复制”机制，以改进延迟，同时即使在扩展到大型目录时也能保持准确性。我们还提出了一种培训策略，以克服由于混淆实体数量增加而导致的大规模召回退化。总的来说，与强大的基线相比，我们的方法在F1中实现了高达6%的字错误率减少（WERR）和3.6%的绝对改进。我们的方法还允许大的目录大小达到20K，而不会显著影响WER和F1核，同时每个声帧至少实现20%的推理加速。

选集ID：: 2023.emnlp-行业60
体积：: 2023年自然语言处理实证方法会议记录：行业跟踪
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: 王明轩,伊梅德·齐图尼
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 631–639
语言：
网址：: https://aclantology.org/2023.emnlp-industry.60
内政部：: 10.18653/v1/2023.emnlp-行业60
比比键：
引用（ACL）：: Sai Muralidhar Jayanthi、Devang Kulshreshtha、Saket Dingliwal、Srikanth Ronanki和Sravan Bodapati。2023检索和复制：将ASR个性化扩展到大型目录.英寸2023年自然语言处理实证方法会议记录：行业跟踪，第631-639页，新加坡。计算语言学协会。
引用（非正式）：: 检索和复制：将ASR个性化扩展到大型目录（Jayanthi等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-industry.60.pdf
视频：: https://aclantology.org/2023.emnlp-industry.60mp4

PDF格式引用搜索视频