Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

Li, Kenneth; Patel, Oam; Viégas, Fernanda; Pfister, Hanspeter; Wattenberg, Martin

推理-时间干预：从语言模型中引出真实答案

的一部分神经信息处理系统进展36（NeurIPS 2023）主要会议轨道

Biptex公司纸类补充的

作者

Kenneth Li、Oam Patel、Fernanda Viégas、Hanspeter Pfister、Martin Wattenberg

摘要

我们引入了推断时间干预（ITI），这是一种旨在增强大型语言模型（LLM）“真实性”的技术。ITI的运作方式是在推理过程中改变模型激活，在有限数量的注意力上遵循一组习得的方向。这种干预显著提高了LLaMA模型在TruthfulQA基准上的性能。在名为Alpaca的指令调整LLaMA上，ITI将其真实性从32.5%美元提高到65.1%美元。我们确定了真实性和帮助性之间的权衡，并演示了如何通过调整干预力度来平衡它。ITI具有微创性和计算成本低廉的特点。此外，该技术具有数据效率：虽然像RLHF这样的方法需要大量注释，但ITI仅使用几百个示例来定位真实的方向。我们的研究结果表明，即使LLM在表面上制造虚假，它们也可能对某些事情真实的可能性具有内在表征。

推理-时间干预：从语言模型中引出真实答案

作者

摘要

名称更改策略