计算机科学>计算与语言
标题: 在评估指令遵循时评估大型语言模型
摘要: 随着大型语言模型(LLM)研究的不断加快,基于LLM的评估已成为一种可扩展且具有成本效益的替代人工评估方法,用于比较不断增加的模型列表。 本文研究了这些“LLM评估者”的效能,尤其是在使用它们评估指令遵循情况时,这是一种衡量生成的文本与给定指令的紧密程度的指标。 我们引入了一个具有挑战性的元评估基准LLMBar,旨在测试LLM评估师辨别指令和允许输出的能力。 作者手动整理了419对输出,其中一对遵循指示,另一对偏离,但可能具有误导LLM评估师的欺骗性特征,例如更吸引人的语气。 与现有的元评估相反,我们发现不同的评估者(即LLM和提示的组合)在LLMBar上表现出不同的表现,即使是最核心的评估者也有很大的改进空间。 我们还提出了一套新的激励策略,进一步缩小了LLM和人类评估者之间的差距。 通过LLMBar,我们希望对LLM评估人员提供更多见解,并促进未来研究,以开发更好的教学许可模型。