计算机科学>计算与语言
标题: 基于粗标签的高效CTC正则化在端到端语音翻译中的应用
摘要: 对于端到端语音翻译,使用源文本或目标翻译作为标签,使用连接时态分类(CTC)目标规范编码器可以大大提高质量指标。 然而,CTC要求在词汇空间上增加一个预测层,带来了不可忽略的模型参数和计算开销,尽管该层通常不用于推理。 在本文中,我们重新审视了CTC对真正的词汇标签进行规范化的必要性,并探索了减少CTC标签空间的策略,以期在不降低质量的情况下提高效率。 我们提出了粗标注CTC(CoLaCTC),它通过简单的启发式规则合并词汇标签,例如使用截断、除法或模(MOD)操作。 尽管它很简单,但我们在4种源语言和8种目标语言上的实验表明,使用MOD的CoLaCTC可以将标签空间大幅压缩到256甚至更大,从而提高了训练效率(根据原始词汇量的大小,速度提高了1.18x1.77倍) 但仍能提供与CTC基准相当或更好的性能。 我们还表明,CoLaCTC成功地推广到CTC正则化,而不考虑使用转录或翻译进行标记。