计算机科学>机器学习
标题: MUX-PLMs:高通量语言模型的数据多路复用
摘要: ChatGPT和Bard等大型语言模型的广泛采用导致了对这些技术的前所未有的需求。 不断增加的模型尺寸导致的推理成本急剧上升,再加上硬件短缺,限制了可负担的访问,并迫切需要面向高吞吐量和性能的高效方法。 数据多路复用等多输入多输出(MIMO)算法提供了一种很有前景的解决方案,通过以单个输入为代价对多个输入进行推理,吞吐量提高了五倍。 然而,这些方法目前的性能还不足以部署在现代系统中。 我们通过开发MUX-PLM来改变这种情况,这是一类经过数据多路复用训练的高通量预训练语言模型(PLM),可以针对任何下游任务进行微调,以产生高通量高性能。 我们的新型多路复用和解多路复用模块能够熟练地对输入进行纠缠和解纠缠,并实现与普通PLM竞争的高性能高吞吐量\muxplms{},同时在一系列广泛的任务上仅需花费1-4\%$即可实现2x/5倍的推理加速。