推理-时间干预:从语言模型中引出真实答案

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Biptex公司 纸类 补充的

作者

Kenneth Li、Oam Patel、Fernanda Viégas、Hanspeter Pfister、Martin Wattenberg

摘要

我们引入了推断时间干预(ITI),这是一种旨在增强大型语言模型(LLM)“真实性”的技术。ITI的运作方式是在推理过程中改变模型激活,在有限数量的注意力上遵循一组习得的方向。这种干预显著提高了LLaMA模型在TruthfulQA基准上的性能。在名为Alpaca的指令调整LLaMA上,ITI将其真实性从32.5%美元提高到65.1%美元。我们确定了真实性和帮助性之间的权衡,并演示了如何通过调整干预力度来平衡它。ITI具有微创性和计算成本低廉的特点。此外,该技术具有数据效率:虽然像RLHF这样的方法需要大量注释,但ITI仅使用几百个示例来定位真实的方向。我们的研究结果表明,即使LLM在表面上制造虚假,它们也可能对某些事情真实的可能性具有内在表征。