计算机科学>计算与语言
标题: 从头开始重新审视端到端演讲到文本的翻译
摘要: 端到端(E2E)语音到文本翻译(ST)通常依赖于通过语音识别或文本翻译任务使用源文本对编码器和/或解码器进行预处理,否则翻译性能会大幅下降。 然而,转录本并不总是可用的,文献中很少研究这种预训练对E2E ST的重要性。 在本文中,我们重新探讨了这个问题,并探讨了仅通过言语翻译对训练的E2E ST的质量可以在多大程度上得到提高。 我们重新检查了以前被证明对ST有益的几种技术,并提供了一组最佳实践,这些实践将基于Transformer的E2E ST系统偏向于从头开始的培训。 此外,我们提出了参数化距离惩罚,以便于在语音自关注模型中进行局部性建模。 在涵盖23种语言的四个基准测试中,我们的实验表明,在不使用任何笔录或预训练的情况下,该系统达到甚至优于以前采用预训练的研究,尽管在(极)低资源环境中仍存在差距。 最后,我们讨论了神经声学特征建模,其中设计了一个神经模型来直接从原始语音信号中提取声学特征,目的是简化归纳偏差,并在描述语音时为模型增加自由度。 我们首次证明了它的可行性,并在ST任务上显示了令人鼓舞的结果。