研究论文

在大型语言模型部署中应对挑战和技术债务

作者：
艾哈迈德·门沙维

AI Engineering，万事达卡，爱尔兰都柏林

AI Engineering，万事达卡，爱尔兰都柏林

0000-0002-0307-8722
查看个人资料

,
泽珊·纳瓦兹

AI Engineering，万事达卡，爱尔兰都柏林

AI Engineering，万事达卡，爱尔兰都柏林

0000-0002-8107-337X号
查看个人资料

,
马哈茂德·法赫米

AI Engineering，万事达卡，爱尔兰都柏林

AI Engineering，万事达卡，爱尔兰都柏林

0009-0006-6533-4599
查看个人资料

作者信息和声明

EuroMLSys’24：第四届机器学习和系统研讨会论文集2024年4月第192–199页https://doi.org/10.1145/3642970.3655840

出版：2024年4月22日出版历史

EuroMLSys’24：第四届机器学习和系统研讨会论文集

第192–199页

摘要

大型语言模型（LLM）已经成为推进人工智能和机器学习的重要工具，能够在自然语言处理和理解方面实现卓越的能力。然而，LLM在生产环境中的高效部署揭示了挑战和技术债务的复杂局面。

在本文中，我们旨在强调与LLM部署相关的独特形式的挑战和技术债务，包括与内存管理、并行策略、模型压缩和注意力优化相关的挑战和债务。这些挑战强调了部署LLM的定制方法的必要性，要求定制和复杂的工程解决方案，而这些解决方案在广泛使用的机器学习库或推理引擎中并不容易获得。

工具书类

D.Sculley、Gary Holt、Daniel Golovin、Eugene Davydov、Todd Phillips、Dietmar Ebner、Vinay Chaudhary、Michael Young、Jean-Francois Crespo和Dan Dennison。2015.机器学习系统中的隐性技术债务。第28届神经信息处理系统国际会议论文集第2卷（NIPS’15）。麻省理工学院出版社，美国马萨诸塞州剑桥，2503-2511。会议名称：ACM Woodstock会议谷歌学者数字图书馆
Woosuk Kwon、Zhoohan Li、Siyuan Zhung、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph Gonzalez、Hao Zhang和Ion Stoica。2023.使用PagedAttention服务的大型语言模型的高效内存管理。第29届操作系统原理研讨会（SOSP’23）会议记录。计算机械协会，美国纽约州纽约市，611-626。https://doi.org/10.1145/3600006.3613165谷歌学者数字图书馆
Clusmann，J.，Kolbinger，F.R.，Muti，H.S.等人。医学中大型语言模型的未来前景。Commun Med 3，141（2023年）。https://doi.org/10.1038/s43856-023-00370-1谷歌学者交叉引用
Jiang，A.Q.、Sablayrolles，A.、Roux，A.、Mensch，A.和Savary，B.、Bamford，C.Mixtral专家。arXiv:2401.04088[cs.LG]。会议简称：WOODSTOCK’18谷歌学者
https://ai.google.dev/gemma会议地点：美国德克萨斯州埃尔帕索谷歌学者
姚哲伟、吴晓霞、程莉、Youn和何玉雄。2023.ZeroQuant-V2：探索LLM从综合研究到低级别薪酬的培训后量化。在ACM伍德斯托克会议（Woodstock’23）的会议记录中。ACM，美国纽约州纽约市，25页。https://doi.org/10.48550/arXiv.2303.08302谷歌学者交叉引用
Tri Dao、Daniel Y.Fu、Stefano Ermon、Atri Rudra和Christopher Ré。2022.FlashAttention：快速高效的精确注意力，IO-Awarness。在ACM伍德斯托克会议（Woodstock’22）的会议记录中。ACM，美国纽约州纽约市。https://doi.org/10.48550/arXiv.2205.14135谷歌学者交叉引用
库尔特·舒斯特（Kurt Shuster）、斯宾塞·波夫（Spencer Poff）、莫亚·陈（Moya Chen）、杜维·基拉（Douwe Kiela）和杰森·韦斯顿（Jason Weston）。2021.增强检索减少对话中的幻觉。计算语言学协会的研究结果：EMNLP 2021，第3784-3803页，多米尼加共和国卡纳角。计算语言学协会。谷歌学者交叉引用
劳拉·魏丁格、约翰·梅勒、玛丽贝斯·劳赫、科诺·格里芬、乔纳森·尤萨托、波森·黄、迈拉·程、米娅·格莱斯、博尔贾·巴利、阿图萨·卡西尔扎德、扎克·肯顿、萨沙·布朗、威尔·霍金斯、汤姆·斯特普顿、考特妮·比尔斯、阿贝巴·比哈内、朱莉娅·哈斯、劳拉·里梅尔、丽莎·安妮·亨德里克斯、威廉·艾萨克、肖恩·莱加西克、杰弗里·欧文和伊森·加布里埃尔。语言模式带来的道德和社会危害风险。arXiv:2112.043592021。谷歌学者
R.Bommasani、D.A.Hudson、E.Adeli、R.Altman、S.Arora、S.von Arx、M.S.Bernstein、J.Bohg、A.Bosselut、E.Brunskill等人，“关于基础模型的机遇和风险”，arXiv预印本arXiv:2108.072582021。谷歌学者
A.Borzunov，M.Ryabinin，A.Chumachenko，D.Baranchuk，T.Dettmers，Y.Belkada，P.Samygin，C.A.Raffel，《互联网上大型语言模型的分布式推理和微调》，《神经信息处理系统进展》36（2024）。谷歌学者
姚彦、段建安、徐克强、蔡永才、孙振中、张勇，《大型语言模型（llm）安全与隐私调查：好、坏、丑》，高可信计算（2024）100211。谷歌学者
Z.Ji，N.Lee，R.Frieske，T.Yu，D.Su，Y.Xu，E.Ishii，Y.J.Bang，A.Madotto，P.Fung，自然语言生成中的幻觉调查，ACM计算调查55（12）（2023）1-38。谷歌学者数字图书馆
D.Myers，R.Mohawesh，V.I.Chellaboina，A.L.Sathvik，P.Venkatesh，Y.-H.Ho，H.Henshaw，M.Alhawawreh，D.Berdik，Y.Jararweh，《基础和大型语言模型：基础、挑战、机遇和社会影响》，集群计算（2023）1-26。谷歌学者
Y.Chang，X.Wang，J.Wang，Y.Wu，L.Yang，K.Zhu，H.Chen，X.Yi，C.Wang，Ye.Wang等，大型语言模型评估调查，ACM智能系统与技术汇刊（2023）。谷歌学者
L.Yang，H.Chen，Z.Li，X.Ding，X.Wu，给我们事实：用知识图增强大型语言模型，用于事实软件语言建模，IEEE知识与数据工程学报（2024）。谷歌学者交叉引用
Y.Chen，Q.Fu，Y.Yuan，Z.Wen，G.Fan，D.Liu，D.Zhang，Z.Li，Y.Xiao，幻觉检测：大型语言模型中的可靠答案，载于：第32届美国计算机学会信息与知识管理国际会议论文集，2023，第245-255页。谷歌学者数字图书馆
Aminabadi，R.Y.，Rajbhandari，S.，Zhang，M.，Awan，A.A.，Li，C.，Li。arXiv预打印arXiv:2207.000322022。谷歌学者
Dettmers，T.、Lewis，M.、Belkada，Y.和Zettlemoyer，L.LLM.int8（）：变压器的8位矩阵乘法。ArXiv，abs/2208.073392022a。谷歌学者
Dettmers，T.、Lewis，M.、Shleifer，S.和Zettlemoyer，L.通过分块量化实现8位优化器。2022b年国际学习代表大会。谷歌学者
Dettmers，T.、Pagnoni，A.、Holtzman，A.和Zettlemoyer，L.Qlora：量子化llms的有效微调。arXiv预印arXiv:2305.14312023。谷歌学者
Du，N.，Huang，Y.，Dai，A.M.，Tong，S.，Lepikhin。Glam：使用混合专家对语言模型进行有效缩放。CoRR，abs/2112.069052021。统一资源定位地址https://arxiv.org/abs/2112.06905。谷歌学者
Houlsby，N.、Giurgiu，A.、Jastrzebski，S.、Morrone，B.、De Laroussilhe，Q.、Gesmundo，A.、Attariyan，M.和Gelly，S.nlp的参数有效迁移学习。在机器学习国际会议上，第2790-2799页。PMLR，2019年。谷歌学者
Hu，E.、Shen，Y.、Wallis，P.、Allen-Zhu，Z.、Li，Y.，Wang，L.和Chen，W.Lora：大型语言模型的低库适应，2021年。谷歌学者
Huang，Y.、Cheng，Y.，Bapna，A.，Firat，O.、Chen，D.，Chen，M.、Lee，H.、Ngiam，J.、Le，Q.V.、Wu，Y.等。Gpipe:使用流水线并行性高效训练巨型神经网络。《神经信息处理系统的进展》，2019年第103-112页。谷歌学者
Jia，Z.、Zaharia，M.和Aiken，A.深度神经网络的超越数据和模型并行性。Talwalkar，A.、Smith，V.和Zaharia，M.（编辑），《机器学习与系统学报》，第1卷，第1-13页，2019年。谷歌学者
Lester，B.、Al-Rfou，R.和Constant，N.参数高效快速调整的尺度功率。《2021年自然语言处理实证方法会议记录》，第3045-3059页，在线和多米尼加共和国卡纳角，2021年11月。计算语言学协会。doi:10.18653/v1/2021.emnlp-main.243。统一资源定位地址https://aclantology.org/2021.emnlp-main.243。谷歌学者交叉引用
Rajbhandari，S.、Rasley，J.、Ruwase，O.和He，Y.Zero：面向训练万亿参数模型的内存优化。2020年，南卡罗来纳州。谷歌学者交叉引用
Rajbhandari，S.、Ruwase，O.、Rasley，J.、Smith，S.和He，Y.零无限：打破gpu记忆墙，实现极端规模的深度学习。arXiv预打印arXiv:2104.078572021。谷歌学者
Touvron，H.、Lavril，T.、Izacard，G.、Martinet，X.、Lachaux，M.-A.、Lacroix，T.，Rozière，B.、Goyal，N.、Hambro，E.、Azhar，F.等。Llama：开放高效的基础语言模型。arXiv预印arXiv:2302.139712023a。谷歌学者
Touvron，H.、Martin，L.、Stone，K.、Albert，P.、Almahairi，A.、Babaei，Y.、Bashlykov，N.、Batra，S.、Bhargava，P.和Bhosale，S.等人。Llama 2：开放基础和微调聊天模型。arXiv预印arXiv:2307.092882023b。谷歌学者
维杰伊·科尔蒂坎蒂（Vijay Korthikanti）、贾里德·卡斯珀（Jared Casper）、桑库格·莱姆（Sangkug Lym）、劳伦斯·麦克菲（Lawrence McAfee）、迈克尔·安德斯（Michael Andersch）、穆罕默德·肖比（Mohammad Shoeybi）和布莱恩·卡坦扎罗（Bryan Catanzaro）。减少大型变压器模型中的激活重新计算。arXiv预打印arXiv:2205.051982022。谷歌学者
潘多尼和拉文德·库马尔。2023.“协同生成人工智能和网络安全：生成人工智能实体、公司、机构和政府在增强网络安全中的作用”。TechRxiv。2023年8月18日出版。DOI:10.36227/techrxiv.23968809.v1谷歌学者交叉引用
Wang，J.、Yuan，B.、Rimanic，L.、He，Y.、Dao，T.、Chen，B.，Re，C.和Zhang，C.使用有保证的激活压缩在慢速网络上微调语言模型，2022年。统一资源定位地址https://arxiv.org/abs/2206.01299。谷歌学者
Wang，L.，Ma，C.，Feng，X.等人，2024年。“基于大型语言模型的自治代理调查”，《计算机科学前沿》18:186345。DOI（操作界面）：https://doi.org/10.1007/s11704-024-40231-1谷歌学者数字图书馆
埃贝萨姆·阿尔马兹鲁伊（Ebtesam Almazrouei）、哈姆扎·阿洛比迪利（Hamza Alobeidli）、阿卜杜勒·阿齐兹·阿尔沙姆西（Abdulaziz Alshamsi）、亚历山德罗·卡佩利（Alessandro Cappelli）、鲁珊德拉·科约卡鲁（Ruxandra Cojocaru）、梅罗安·德巴赫（Merouane Debbah）、艾蒂安·戈芬特（Etiene Goffinet）、。Falcon-40B：一种具有最先进性能的开放式大型语言模型。2023谷歌学者
Liu，Z.、Oguz，B.、Zhao，C.、Chang，E.、Stock，P.、Mehdad，Y.、Shi，Y.，Krishnamoorthi，R.和Chandra，V.2023。《LLM-QAT：大型语言模型的无数据量化感知训练》，arXiv预印本arXiv:2305.17888。谷歌学者
Mark Chen、Jerry Tworek、Heewoo Jun、Qiming Yuan、Henrique Ponde de Oliveira Pinto、Jared Kaplan、Harri Edwards、Yuri Burda、Nicholas Joseph、Greg Brockman、Alex Ray、Raul Puri、Gretchen Krueger、Michael Petrov、Heidy Khlaaf、Girish Sastry、Pamela Mishkin、Brooke Chan、Scott Gray、Nick Ryder、Mikhail Pavlov、Alethea Power、Lukasz Kaiser、，Mohammad Bavarian、Clemens Winter、Philippe Tillet、Felipe Petroski Soch、Dave Cummings、Matthias Plappert、Fotios Chantzis、Elizabeth Barnes、Ariel Herbert Voss、William Hebgen Guss、Alex Nichol、Alex Paino、Nikolas Tezak、Jie Tang、Igor Babuschkin、Suchir Balaji、Shantanu Jain、William Saunders、Christopher Hesse、Andrew N.Carr、Jan Leike，乔什·阿齐姆（Josh Achiam）、维丹特·米斯拉（Vedant Misra）、埃文·莫里卡瓦（Evan Morikawa）、亚历克·拉德福德（Alec Radford）、马修·奈特（Matthew Knight）、迈尔斯·布伦达奇（Miles Brundage）、米拉·穆拉蒂（Mira Murati）、凯蒂·梅耶（Katie Mayer）、彼得·韦林德（Peter Welinder）、鲍勃·麦克。2021年，评估经过代码培训的大型语言模型。谷歌学者
Zhao，Y.，Lin，C.-Y.，Zhu，K.，Ye，Z.，Chen，L.，Zheng，S.，Ceze，L.、Krishnamurthy，A.、Chen，T.和Kasikci，B.2023。“原子：高效准确LLM服务的低比特量化”，arXiv预印本arXiv:2310.19102。谷歌学者
Liu，Z.、O'uz，B.、Zhao，C.、Chang，E.、Stock，P.、Mehdad，Y.、Shi，Y.，Krishnamoorthi，R.和Chandra，V.2023。“LLM-QAT：大型语言模型的无数据量化感知训练”，ArXiv，vol.abs/2305.17888，https://api.semanticscholar.org/CorpusID:258959117。谷歌学者
Li，L.，Li，Q.，Zhang，B.，&Chu，X.2023。“规范调整：大型语言模型的高性能低比特量化”，ArXiv，vol.abs/2309.02784，https://api语义scholar.org/语料库ID:261557634。谷歌学者
Hooper，C.、Kim，S.、Mohammadzadeh，H.、Mahoney，M.W.、Shao，Y.S.、Keutzer，K.和Ghoma，A.2024。“KVQuant:Towards 1000万Context Length LLM Inference with KV Cache Quantization”，ArXiv，vol.abs/2401.18079，https://api.semanticscholar.org/CorpusID:267335271。谷歌学者
刘R.、白H.、林H.、李Y.、高H.、徐Z.-J.、侯L.、姚J.和袁C.2024。“完整KV：通过保持枢轴标记完整来改进大型语言模型量化”，发表于[会议名称]，https://api.semanticscholar.org/CorpusID:268230707。谷歌学者
Frantar，E.、Ashkboos，S.、Hoefler，T.和Alistarh，D.2023。“OPTQ：生成预训练变压器的精确量化”，《学习表征国际会议论文集》，https://api.semanticscholar.org/CorpusID:259298689。谷歌学者
Brakel、Felix、Uraz Odyurt和Ana-Lucia Varbanescu。“分布式基础设施上的模型并行：从理论到LLM案例研究的文献综述”，arXiv预印本arXiv:2403.03699（2024）。谷歌学者
潘一康、潘良明、陈文虎、纳科夫总统、菅直人和王威廉。2023.关于使用大型语言模型的错误信息污染风险。计算语言学协会的研究结果：EMNLP 2023，第1389-1403页，新加坡。计算语言学协会。谷歌学者
傅邦。2023.GPTCache:LLM应用程序的开源语义缓存，实现更快的答案和成本节约。《自然语言处理开放源码软件第三次研讨会论文集》（NLP-OSS 2023），第212-218页，新加坡。计算语言学协会。谷歌学者交叉引用
X.Ma、G.Fang和X.Wang。Llm-pruner：关于大型语言模型的结构剪枝。arXiv预印arXiv:2305.11627。谷歌学者
L.翁。2023.大型变压器模型推理优化。Lil'Log公司。谷歌学者
夏浩钧、郑震、吴晓霞、陈世扬、姚哲伟、Youn、Arash Bakhtiari、Michael Wyatt、庄东林、周忠珠、Olatunji Ruwase、何玉雄、宋帅文。2024.FP6-LLM：通过FP6-Centric Algorithm-System Co-Design高效服务大型语言模型。arXiv预打印arXiv:2401.14112谷歌学者
Shoeybi，M.、Patwarve，M.，Puri，R.、LeGresley，P.、Casper，J.和Catanzaro，B.（2019年）。Megatronlm：使用模型并行性训练数十亿参数的语言模型。arXiv预打印arXiv:1909.08053。谷歌学者
https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/谷歌学者

建议

数学教育中的大型语言模型和语言链分析
ICAAI’23：2023年第7届国际人工智能进展会议记录

大型语言模型（LLM）的发展导致了对新方法的考虑，尤其是在教育方面。单词问题，尤其是数学等学科的问题，以及通过集体解决特定问题来解决这些问题的需要。。。
阅读更多信息
大型语言模型在医疗保健中的研究与应用当前大型语言模型在医疗保健领域的发展大型语言模型在医疗保健中的应用框架和大型语言模型的机遇与挑战大型语言模型在医疗保健中的应用框架和大型语言模型的机遇与挑战医疗保健中的语言模型
ISAIMS第23届：2023年第四届医学人工智能国际研讨会论文集

医学研究领域中新兴的大型语言模型（LLM）领域受到了极大的关注。然而，关于有限责任公司在解决。。。
阅读更多信息
在边缘设备上部署大型语言模型的实证分析和资源占用研究
ACM SE’24：2024年ACM东南会议记录

ChatGPT的成功正在重塑整个IT行业的格局。支持ChatGPT的大型语言模型（LLM）正在经历快速发展，其特点是功能增强、准确性提高和延迟减少。由于执行。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于

EuroMLSys’24：第四届机器学习和系统研讨会论文集
2024年4月
218页
国际标准图书编号：9798400705410
DOI（操作界面）：10.1145/3642970

版权所有©2024 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2024年4月22日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
高吞吐量LLM处理
LLM部署挑战
LLM模型压缩和修剪
LLM部署
大型语言模型（LLM）
LLM部署中的可扩展性挑战
人工智能中的技术债务
限定符
- 研究论文
- 研究
- 推荐有限公司
会议

接受率
总体验收率18属于26提交，69%
即将召开的会议
25年欧洲系统

赞助商：

小丑

第二十届欧洲计算机系统会议

2025年3月30日-4月3日

鹿特丹，荷兰
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 226
  总下载次数
- 下载次数（过去12个月）226
- 下载次数（最近6周）108
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

在大型语言模型部署中应对挑战和技术债务

EuroMLSys’24：第四届机器学习和系统研讨会论文集

摘要

工具书类

引用人

建议

数学教育中的大型语言模型和语言链分析

在边缘设备上部署大型语言模型的实证分析和资源占用研究

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

在大型语言模型部署中应对挑战和技术债务

EuroMLSys’24：第四届机器学习和系统研讨会论文集

摘要

工具书类

引用人

建议

数学教育中的大型语言模型和语言链分析

在边缘设备上部署大型语言模型的实证分析和资源占用研究

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

接受率

即将召开的会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享