计算机科学>计算与语言
标题: 基于并行上下文编码的长上下文语言建模
摘要: 扩展大型语言模型(LLM)以处理更长的输入对于许多应用程序来说至关重要。 然而,转换器的巨大计算成本,再加上位置编码的有限通用性,限制了其上下文窗口的大小。 我们引入了并行编码上下文扩展(CEPE)框架,该框架可以应用于任何现有的仅限解码器的LLM,以扩展其上下文窗口。 CEPE采用一个小编码器逐块处理长输入,并使冻结的解码器能够通过交叉注意利用额外的上下文。 CEPE是高效、通用和通用的:经过8K令牌文档的训练,CEPE将LLAMA-2的上下文窗口扩展到128K令牌,仅用1/6的内存即可提供10倍的吞吐量。 CEPE在语言建模和上下文学习方面表现出色。 CEPE还擅长于检索增强的应用程序,而现有的长上下文模型会随着检索的上下文而退化。 我们进一步引入了一种CEPE变体,它可以扩展仅包含未标记数据的指令调整模型的上下文窗口,并在LLAMA-2-CHAT上展示其有效性,从而形成一种强大的指令允许模型,可以在下游任务上利用非常长的上下文。