的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道
Kenneth Li、Oam Patel、Fernanda Viégas、Hanspeter Pfister、Martin Wattenberg
我们引入了推断时间干预(ITI),这是一种旨在增强大型语言模型(LLM)“真实性”的技术。ITI的运作方式是在推理过程中改变模型激活,在有限数量的注意力上遵循一组习得的方向。这种干预显著提高了LLaMA模型在TruthfulQA基准上的性能。在名为Alpaca的指令调整LLaMA上,ITI将其真实性从32.5%美元提高到65.1%美元。我们确定了真实性和帮助性之间的权衡,并演示了如何通过调整干预力度来平衡它。ITI具有微创性和计算成本低廉的特点。此外,该技术具有数据效率:虽然像RLHF这样的方法需要大量注释,但ITI仅使用几百个示例来定位真实的方向。我们的研究结果表明,即使LLM在表面上制造虚假,它们也可能对某些事情真实的可能性具有内在表征。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。