计算机科学>计算与语言
标题: 量化语言模型对提示设计中虚假特征的敏感性或:我是如何学会开始担心提示格式的
摘要: 由于大型语言模型(LLM)被用作语言技术的基本组件,因此准确描述其性能至关重要。 由于即时设计中的选择会强烈影响模型行为,因此该设计过程对于有效使用任何现代预处理生成语言模型至关重要。 在这项工作中,我们关注LLM对一类典型的保留意义的设计选择的敏感性:提示格式。 我们发现,一些广泛使用的开放源代码LLM对少量快照设置中提示格式的细微变化极为敏感,使用LLaMA-2-13B评估时,性能差异高达76个精度点。 即使在增加模型大小、少量示例的数量或执行指令调整时,灵敏度也会保持不变。 我们的分析表明,使用基于提示的方法评估LLM的工作将受益于跨看似合理的提示格式报告一系列性能,而不是采用单一格式报告性能的当前标准做法。 我们还表明,模型之间的格式性能相关性很弱,这就对将模型与任意选择的固定提示格式进行比较的方法学有效性提出了质疑。 为了便于系统分析,我们提出了FormatSpread,这是一种快速评估给定任务的一组合理提示格式样本的算法,并在不访问模型权重的情况下报告预期性能的时间间隔。 此外,我们还提供了一系列分析来表征这种敏感性的性质,包括探索特定原子扰动的影响和特定格式的内部表示。