Revisiting End-to-End Speech-to-Text Translation From Scratch

Zhang, Biao; Haddow, Barry; Sennrich, Rico

计算机科学>计算与语言

arXiv公司：2206.04571（cs）

【于2022年6月9日提交】

标题：从头开始重新审视端到端演讲到文本的翻译

作者：张彪,巴里·哈多,里科·森里奇

查看PDF

摘要：端到端（E2E）语音到文本翻译（ST）通常依赖于通过语音识别或文本翻译任务使用源文本对编码器和/或解码器进行预处理，否则翻译性能会大幅下降。然而，转录本并不总是可用的，文献中很少研究这种预训练对E2E ST的重要性。在本文中，我们重新探讨了这个问题，并探讨了仅通过言语翻译对训练的E2E ST的质量可以在多大程度上得到提高。我们重新检查了以前被证明对ST有益的几种技术，并提供了一组最佳实践，这些实践将基于Transformer的E2E ST系统偏向于从头开始的培训。此外，我们提出了参数化距离惩罚，以便于在语音自关注模型中进行局部性建模。在涵盖23种语言的四个基准测试中，我们的实验表明，在不使用任何笔录或预训练的情况下，该系统达到甚至优于以前采用预训练的研究，尽管在（极）低资源环境中仍存在差距。最后，我们讨论了神经声学特征建模，其中设计了一个神经模型来直接从原始语音信号中提取声学特征，目的是简化归纳偏差，并在描述语音时为模型增加自由度。我们首次证明了它的可行性，并在ST任务上显示了令人鼓舞的结果。

评论：	ICML公司
学科：	计算与语言（cs.CL）; 机器学习（cs.LG）；声音（cs.SD）；音频和语音处理（eess.AS）
引用为：	arXiv公司：2206.04571【cs.CL】
	（或 arXiv:2206.04571v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2206.04571

提交历史记录

发件人：张彪[查看电子邮件]
[第1版]2022年6月9日星期四15:39:19 UTC（597 KB）

计算机科学>计算与语言

标题：从头开始重新审视端到端演讲到文本的翻译

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：从头开始重新审视端到端演讲到文本的翻译

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目