计算机科学>计算与语言
职务: 多模式多语言翻译中的红色团队
摘要: 评估自然语言处理的表现越来越复杂。 一个特殊的挑战是,评估数据集可能直接或间接与训练数据重叠,这可能导致结果偏斜和模型性能过高估计。 因此,人的评价作为评估模型性能和可靠性的一种手段,越来越受到人们的关注。 其中一种方法是红队方法,旨在生成模型将产生关键错误的边缘情况。 虽然这种方法正在成为生成性人工智能的标准实践,但其在条件人工智能领域的应用在很大程度上仍未探索。 本文首次对机器翻译中基于人的红队技术进行了研究,这标志着理解和改进翻译模型的性能迈出了重要一步。 我们深入研究了基于人的红色团队和自动化研究,报告吸取的经验教训,并为翻译模型和红色团队训练提供建议。 这项开创性的工作为MT领域的研究和开发开辟了新的途径。