MUX-PLMs: Data Multiplexing for High-throughput Language Models

Murahari, Vishvak; Deshpande, Ameet; Jimenez, Carlos E.; Shafran, Izhak; Wang, Mingqiu; Cao, Yuan; Narasimhan, Karthik

计算机科学>机器学习

arXiv:2302.12441（cs）

【于2023年2月24日提交(第1版)，上次修订日期：2023年5月22日（本版本，v2）]

标题：MUX-PLMs：高通量语言模型的数据多路复用

作者：维什瓦克·穆拉哈里,阿梅特·德斯潘德,卡洛斯·希梅内兹,伊扎克·沙夫兰,王明秋,袁操,Karthik Narasimhan公司

查看PDF

摘要：ChatGPT和Bard等大型语言模型的广泛采用导致了对这些技术的前所未有的需求。不断增加的模型尺寸导致的推理成本急剧上升，再加上硬件短缺，限制了可负担的访问，并迫切需要面向高吞吐量和性能的高效方法。数据多路复用等多输入多输出（MIMO）算法提供了一种很有前景的解决方案，通过以单个输入为代价对多个输入进行推理，吞吐量提高了五倍。然而，这些方法目前的性能还不足以部署在现代系统中。我们通过开发MUX-PLM来改变这种情况，这是一类经过数据多路复用训练的高通量预训练语言模型（PLM），可以针对任何下游任务进行微调，以产生高通量高性能。我们的新型多路复用和解多路复用模块能够熟练地对输入进行纠缠和解纠缠，并实现与普通PLM竞争的高性能高吞吐量\muxplms{}，同时在一系列广泛的任务上仅需花费1-4\%$即可实现2x/5倍的推理加速。

学科：	机器学习（cs.LG）; 计算与语言（cs.CL）
引用为：	arXiv:2302.12441【cs.LG】
	（或 arXiv:2302.12441v2【cs.LG】对于此版本）
	https://doi.org/10.44850/arXiv.2302.12441

提交历史记录

发件人：Vishvak Murahari[查看电子邮件]
[第1版]2023年2月24日星期五04:03:15 UTC（1311 KB）
[版本2]2023年5月22日星期一20:29:28 UTC（2154 KB）

计算机科学>机器学习

标题：MUX-PLMs：高通量语言模型的数据多路复用

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：MUX-PLMs：高通量语言模型的数据多路复用

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目