Evaluating Large Language Models at Evaluating Instruction Following

Zeng, Zhiyuan; Yu, Jiatong; Gao, Tianyu; Meng, Yu; Goyal, Tanya; Chen, Danqi

计算机科学>计算与语言

arXiv:2310.07641（cs）

【提交日期：2023年10月11日(第1版)，上次修订日期：2024年4月16日（本版本，v2）]

标题：在评估指令遵循时评估大型语言模型

作者：曾志远（Zhiyuan Zeng）,嘉通于,天宇高,于萌,坦尼亚·戈亚尔,陈丹琪

查看PDF HTML（实验性）

摘要：随着大型语言模型（LLM）研究的不断加快，基于LLM的评估已成为一种可扩展且具有成本效益的替代人工评估方法，用于比较不断增加的模型列表。本文研究了这些“LLM评估者”的效能，尤其是在使用它们评估指令遵循情况时，这是一种衡量生成的文本与给定指令的紧密程度的指标。我们引入了一个具有挑战性的元评估基准LLMBar，旨在测试LLM评估师辨别指令和允许输出的能力。作者手动整理了419对输出，其中一对遵循指示，另一对偏离，但可能具有误导LLM评估师的欺骗性特征，例如更吸引人的语气。与现有的元评估相反，我们发现不同的评估者（即LLM和提示的组合）在LLMBar上表现出不同的表现，即使是最核心的评估者也有很大的改进空间。我们还提出了一套新的激励策略，进一步缩小了LLM和人类评估者之间的差距。通过LLMBar，我们希望对LLM评估人员提供更多见解，并促进未来研究，以开发更好的教学许可模型。

评论：	ICLR 2024年
学科：	计算与语言（cs.CL）; 机器学习（cs.LG）
引用为：	arXiv:2310.07641【cs.CL】
	（或 arXiv：2310.07641v2【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2310.07641

提交历史记录

发件人：曾志远[查看电子邮件]
[第1版]2023年10月11日星期三16:38:11 UTC（251 KB）
[版本2]2024年4月16日星期二04:50:08 UTC（243 KB）

计算机科学>计算与语言

标题：在评估指令遵循时评估大型语言模型

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：在评估指令遵循时评估大型语言模型

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目