本地化是否通知编辑?语言模型中基于因果关系的本地化与知识编辑的惊人差异

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Bibtex公司 纸类 补充的

作者

彼得·哈斯(Peter Hase)、莫希特·班萨尔(Mohit Bansal)、比恩·金(Been Kim)、阿斯玛·甘德哈里昂(Asma Ghandharioun)

摘要

语言模型在预训练期间学习大量的事实信息,最近的工作将这些信息本地化为特定的模型权重,如中间层MLP权重。在本文中,我们发现可以通过编辑权重来改变事实在模型中的存储方式,这些权重与现有方法建议的事实存储位置不同。这是令人惊讶的,因为我们预计将事实本地化到特定的模型参数将告诉我们在何处操作模型中的知识,而这种假设激发了过去关于模型编辑方法的工作。具体来说,我们表明,表示去噪(也称为因果跟踪)的本地化结论并不能提供任何关于哪一个模型MLP层最好编辑以用新的事实覆盖现有存储事实的见解。这一发现提出了一个问题,即过去的工作是如何依赖因果跟踪来选择要编辑的模型层的。接下来,我们考虑编辑问题的几种变体,包括删除和放大事实。对于我们的一个编辑问题,编辑性能确实与表示去噪的本地化结果有关,但我们发现我们编辑的层对性能的预测要好得多。我们的结果与直觉相反,对预处理语言模型如何工作的更好的机械理解可能并不总是能转化为对如何最好地改变其行为的见解。