Towards Red Teaming in Multimodal and Multilingual Translation

Ropers, Christophe; Dale, David; Hansanti, Prangthip; Gonzalez, Gabriel Mejia; Evtimov, Ivan; Wong, Corinne; Touret, Christophe; Pereyra, Kristina; Kim, Seohyun Sonia; Ferrer, Cristian Canton; Andrews, Pierre; Costa-jussà, Marta R.

计算机科学>计算与语言

arXiv公司：2401.16247（cs）

【于2024年1月29日提交】

职务：多模式多语言翻译中的红色团队

作者：克里斯托夫·罗珀斯,大卫·戴尔,Prangship Hansanti公司,加布里埃尔·梅贾·冈萨雷斯,伊万·埃夫蒂莫夫,科琳·黄,克里斯托夫·图雷特,克里斯蒂娜·佩雷拉,Seohyun Sonia Kim先生,克里斯蒂安·坎通·费勒,皮埃尔·安德鲁斯,Marta R.Costa-jussá

查看PDF

摘要：评估自然语言处理的表现越来越复杂。一个特殊的挑战是，评估数据集可能直接或间接与训练数据重叠，这可能导致结果偏斜和模型性能过高估计。因此，人的评价作为评估模型性能和可靠性的一种手段，越来越受到人们的关注。其中一种方法是红队方法，旨在生成模型将产生关键错误的边缘情况。虽然这种方法正在成为生成性人工智能的标准实践，但其在条件人工智能领域的应用在很大程度上仍未探索。本文首次对机器翻译中基于人的红队技术进行了研究，这标志着理解和改进翻译模型的性能迈出了重要一步。我们深入研究了基于人的红色团队和自动化研究，报告吸取的经验教训，并为翻译模型和红色团队训练提供建议。这项开创性的工作为MT领域的研究和开发开辟了新的途径。

评论：	arXiv管理说明：大量文本与arXiv:2312.05187号
学科：	计算与语言（cs.CL）; 计算机与社会（cs.CY）
ACM公司类：	I.2.7条
引用为：	arXiv公司：2401.16247【cs.CL】
	（或 arXiv:2401.16247v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2401.16247

提交历史记录

发件人：Marta R.Costa-Jussá[查看电子邮件]
[第1版]2024年1月29日星期一15:49:40 UTC（75 KB）

计算机科学>计算与语言

职务：多模式多语言翻译中的红色团队

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：多模式多语言翻译中的红色团队

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目