Long-Context Language Modeling with Parallel Context Encoding

Yen, Howard; Gao, Tianyu; Chen, Danqi

计算机科学>计算与语言

arXiv公司：2402.16617（cs）

【于2024年2月26日提交】

标题：基于并行上下文编码的长上下文语言建模

作者：霍华德·甄子丹,天宇高,陈丹琪

查看PDF HTML（实验性）

摘要：扩展大型语言模型（LLM）以处理更长的输入对于许多应用程序来说至关重要。然而，转换器的巨大计算成本，再加上位置编码的有限通用性，限制了其上下文窗口的大小。我们引入了并行编码上下文扩展（CEPE）框架，该框架可以应用于任何现有的仅限解码器的LLM，以扩展其上下文窗口。CEPE采用一个小编码器逐块处理长输入，并使冻结的解码器能够通过交叉注意利用额外的上下文。CEPE是高效、通用和通用的：经过8K令牌文档的训练，CEPE将LLAMA-2的上下文窗口扩展到128K令牌，仅用1/6的内存即可提供10倍的吞吐量。CEPE在语言建模和上下文学习方面表现出色。CEPE还擅长于检索增强的应用程序，而现有的长上下文模型会随着检索的上下文而退化。我们进一步引入了一种CEPE变体，它可以扩展仅包含未标记数据的指令调整模型的上下文窗口，并在LLAMA-2-CHAT上展示其有效性，从而形成一种强大的指令允许模型，可以在下游任务上利用非常长的上下文。

评论：	代码和数据可在此https URL
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2402.16617【cs.CL】
	（或 arXiv：2402.16617v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2402.16617

提交历史记录

发件人：Howard Yen[查看电子邮件]
[第1版]2024年2月26日星期一14:47:35 UTC（246 KB）

计算机科学>计算与语言

标题：基于并行上下文编码的长上下文语言建模

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：基于并行上下文编码的长上下文语言建模

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目