跳到主要内容
10.1145/3642970.3655840高级会议文章/章节视图摘要出版物页面欧罗西斯会议记录会议集合
研究论文

在大型语言模型部署中应对挑战和技术债务

出版:2024年4月22日出版历史

摘要

大型语言模型(LLM)已经成为推进人工智能和机器学习的重要工具,能够在自然语言处理和理解方面实现卓越的能力。然而,LLM在生产环境中的高效部署揭示了挑战和技术债务的复杂局面。

在本文中,我们旨在强调与LLM部署相关的独特形式的挑战和技术债务,包括与内存管理、并行策略、模型压缩和注意力优化相关的挑战和债务。这些挑战强调了部署LLM的定制方法的必要性,要求定制和复杂的工程解决方案,而这些解决方案在广泛使用的机器学习库或推理引擎中并不容易获得。

工具书类

  1. D.Sculley、Gary Holt、Daniel Golovin、Eugene Davydov、Todd Phillips、Dietmar Ebner、Vinay Chaudhary、Michael Young、Jean-Francois Crespo和Dan Dennison。2015.机器学习系统中的隐性技术债务。第28届神经信息处理系统国际会议论文集第2卷(NIPS’15)。麻省理工学院出版社,美国马萨诸塞州剑桥,2503-2511。会议名称:ACM Woodstock会议谷歌学者谷歌学者数字图书馆数字图书馆
  2. Woosuk Kwon、Zhoohan Li、Siyuan Zhung、Ying Sheng、Lianmin Zheng、Cody Hao Yu、Joseph Gonzalez、Hao Zhang和Ion Stoica。2023.使用PagedAttention服务的大型语言模型的高效内存管理。第29届操作系统原理研讨会(SOSP’23)会议记录。计算机械协会,美国纽约州纽约市,611-626。https://doi.org/10.1145/3600006.3613165谷歌学者谷歌学者数字图书馆数字图书馆
  3. Clusmann,J.,Kolbinger,F.R.,Muti,H.S.等人。医学中大型语言模型的未来前景。Commun Med 3,141(2023年)。https://doi.org/10.1038/s43856-023-00370-1谷歌学者谷歌学者交叉引用交叉引用
  4. Jiang,A.Q.、Sablayrolles,A.、Roux,A.、Mensch,A.和Savary,B.、Bamford,C.Mixtral专家。arXiv:2401.04088[cs.LG]。会议简称:WOODSTOCK’18谷歌学者谷歌学者
  5. https://ai.google.dev/gemma会议地点:美国德克萨斯州埃尔帕索谷歌学者谷歌学者
  6. 姚哲伟、吴晓霞、程莉、Youn和何玉雄。2023.ZeroQuant-V2:探索LLM从综合研究到低级别薪酬的培训后量化。在ACM伍德斯托克会议(Woodstock’23)的会议记录中。ACM,美国纽约州纽约市,25页。https://doi.org/10.48550/arXiv.2303.08302谷歌学者谷歌学者交叉引用交叉引用
  7. Tri Dao、Daniel Y.Fu、Stefano Ermon、Atri Rudra和Christopher Ré。2022.FlashAttention:快速高效的精确注意力,IO-Awarness。在ACM伍德斯托克会议(Woodstock’22)的会议记录中。ACM,美国纽约州纽约市。https://doi.org/10.48550/arXiv.2205.14135谷歌学者谷歌学者交叉引用交叉引用
  8. 库尔特·舒斯特(Kurt Shuster)、斯宾塞·波夫(Spencer Poff)、莫亚·陈(Moya Chen)、杜维·基拉(Douwe Kiela)和杰森·韦斯顿(Jason Weston)。2021.增强检索减少对话中的幻觉。计算语言学协会的研究结果:EMNLP 2021,第3784-3803页,多米尼加共和国卡纳角。计算语言学协会。谷歌学者谷歌学者交叉引用交叉引用
  9. 劳拉·魏丁格、约翰·梅勒、玛丽贝斯·劳赫、科诺·格里芬、乔纳森·尤萨托、波森·黄、迈拉·程、米娅·格莱斯、博尔贾·巴利、阿图萨·卡西尔扎德、扎克·肯顿、萨沙·布朗、威尔·霍金斯、汤姆·斯特普顿、考特妮·比尔斯、阿贝巴·比哈内、朱莉娅·哈斯、劳拉·里梅尔、丽莎·安妮·亨德里克斯、威廉·艾萨克、肖恩·莱加西克、杰弗里·欧文和伊森·加布里埃尔。语言模式带来的道德和社会危害风险。arXiv:2112.043592021。谷歌学者谷歌学者
  10. R.Bommasani、D.A.Hudson、E.Adeli、R.Altman、S.Arora、S.von Arx、M.S.Bernstein、J.Bohg、A.Bosselut、E.Brunskill等人,“关于基础模型的机遇和风险”,arXiv预印本arXiv:2108.072582021。谷歌学者谷歌学者
  11. A.Borzunov,M.Ryabinin,A.Chumachenko,D.Baranchuk,T.Dettmers,Y.Belkada,P.Samygin,C.A.Raffel,《互联网上大型语言模型的分布式推理和微调》,《神经信息处理系统进展》36(2024)。谷歌学者谷歌学者
  12. 姚彦、段建安、徐克强、蔡永才、孙振中、张勇,《大型语言模型(llm)安全与隐私调查:好、坏、丑》,高可信计算(2024)100211。谷歌学者谷歌学者
  13. Z.Ji,N.Lee,R.Frieske,T.Yu,D.Su,Y.Xu,E.Ishii,Y.J.Bang,A.Madotto,P.Fung,自然语言生成中的幻觉调查,ACM计算调查55(12)(2023)1-38。谷歌学者谷歌学者数字图书馆数字图书馆
  14. D.Myers,R.Mohawesh,V.I.Chellaboina,A.L.Sathvik,P.Venkatesh,Y.-H.Ho,H.Henshaw,M.Alhawawreh,D.Berdik,Y.Jararweh,《基础和大型语言模型:基础、挑战、机遇和社会影响》,集群计算(2023)1-26。谷歌学者谷歌学者
  15. Y.Chang,X.Wang,J.Wang,Y.Wu,L.Yang,K.Zhu,H.Chen,X.Yi,C.Wang,Ye.Wang等,大型语言模型评估调查,ACM智能系统与技术汇刊(2023)。谷歌学者谷歌学者
  16. L.Yang,H.Chen,Z.Li,X.Ding,X.Wu,给我们事实:用知识图增强大型语言模型,用于事实软件语言建模,IEEE知识与数据工程学报(2024)。谷歌学者谷歌学者交叉引用交叉引用
  17. Y.Chen,Q.Fu,Y.Yuan,Z.Wen,G.Fan,D.Liu,D.Zhang,Z.Li,Y.Xiao,幻觉检测:大型语言模型中的可靠答案,载于:第32届美国计算机学会信息与知识管理国际会议论文集,2023,第245-255页。谷歌学者谷歌学者数字图书馆数字图书馆
  18. Aminabadi,R.Y.,Rajbhandari,S.,Zhang,M.,Awan,A.A.,Li,C.,Li。arXiv预打印arXiv:2207.000322022。谷歌学者谷歌学者
  19. Dettmers,T.、Lewis,M.、Belkada,Y.和Zettlemoyer,L.LLM.int8():变压器的8位矩阵乘法。ArXiv,abs/2208.073392022a。谷歌学者谷歌学者
  20. Dettmers,T.、Lewis,M.、Shleifer,S.和Zettlemoyer,L.通过分块量化实现8位优化器。2022b年国际学习代表大会。谷歌学者谷歌学者
  21. Dettmers,T.、Pagnoni,A.、Holtzman,A.和Zettlemoyer,L.Qlora:量子化llms的有效微调。arXiv预印arXiv:2305.14312023。谷歌学者谷歌学者
  22. Du,N.,Huang,Y.,Dai,A.M.,Tong,S.,Lepikhin。Glam:使用混合专家对语言模型进行有效缩放。CoRR,abs/2112.069052021。统一资源定位地址https://arxiv.org/abs/2112.06905。谷歌学者谷歌学者
  23. Houlsby,N.、Giurgiu,A.、Jastrzebski,S.、Morrone,B.、De Laroussilhe,Q.、Gesmundo,A.、Attariyan,M.和Gelly,S.nlp的参数有效迁移学习。在机器学习国际会议上,第2790-2799页。PMLR,2019年。谷歌学者谷歌学者
  24. Hu,E.、Shen,Y.、Wallis,P.、Allen-Zhu,Z.、Li,Y.,Wang,L.和Chen,W.Lora:大型语言模型的低库适应,2021年。谷歌学者谷歌学者
  25. Huang,Y.、Cheng,Y.,Bapna,A.,Firat,O.、Chen,D.,Chen,M.、Lee,H.、Ngiam,J.、Le,Q.V.、Wu,Y.等。Gpipe:使用流水线并行性高效训练巨型神经网络。《神经信息处理系统的进展》,2019年第103-112页。谷歌学者谷歌学者
  26. Jia,Z.、Zaharia,M.和Aiken,A.深度神经网络的超越数据和模型并行性。Talwalkar,A.、Smith,V.和Zaharia,M.(编辑),《机器学习与系统学报》,第1卷,第1-13页,2019年。谷歌学者谷歌学者
  27. Lester,B.、Al-Rfou,R.和Constant,N.参数高效快速调整的尺度功率。《2021年自然语言处理实证方法会议记录》,第3045-3059页,在线和多米尼加共和国卡纳角,2021年11月。计算语言学协会。doi:10.18653/v1/2021.emnlp-main.243。统一资源定位地址https://aclantology.org/2021.emnlp-main.243。谷歌学者谷歌学者交叉引用交叉引用
  28. Rajbhandari,S.、Rasley,J.、Ruwase,O.和He,Y.Zero:面向训练万亿参数模型的内存优化。2020年,南卡罗来纳州。谷歌学者谷歌学者交叉引用交叉引用
  29. Rajbhandari,S.、Ruwase,O.、Rasley,J.、Smith,S.和He,Y.零无限:打破gpu记忆墙,实现极端规模的深度学习。arXiv预打印arXiv:2104.078572021。谷歌学者谷歌学者
  30. Touvron,H.、Lavril,T.、Izacard,G.、Martinet,X.、Lachaux,M.-A.、Lacroix,T.,Rozière,B.、Goyal,N.、Hambro,E.、Azhar,F.等。Llama:开放高效的基础语言模型。arXiv预印arXiv:2302.139712023a。谷歌学者谷歌学者
  31. Touvron,H.、Martin,L.、Stone,K.、Albert,P.、Almahairi,A.、Babaei,Y.、Bashlykov,N.、Batra,S.、Bhargava,P.和Bhosale,S.等人。Llama 2:开放基础和微调聊天模型。arXiv预印arXiv:2307.092882023b。谷歌学者谷歌学者
  32. 维杰伊·科尔蒂坎蒂(Vijay Korthikanti)、贾里德·卡斯珀(Jared Casper)、桑库格·莱姆(Sangkug Lym)、劳伦斯·麦克菲(Lawrence McAfee)、迈克尔·安德斯(Michael Andersch)、穆罕默德·肖比(Mohammad Shoeybi)和布莱恩·卡坦扎罗(Bryan Catanzaro)。减少大型变压器模型中的激活重新计算。arXiv预打印arXiv:2205.051982022。谷歌学者谷歌学者
  33. 潘多尼和拉文德·库马尔。2023.“协同生成人工智能和网络安全:生成人工智能实体、公司、机构和政府在增强网络安全中的作用”。TechRxiv。2023年8月18日出版。DOI:10.36227/techrxiv.23968809.v1谷歌学者谷歌学者交叉引用交叉引用
  34. Wang,J.、Yuan,B.、Rimanic,L.、He,Y.、Dao,T.、Chen,B.,Re,C.和Zhang,C.使用有保证的激活压缩在慢速网络上微调语言模型,2022年。统一资源定位地址https://arxiv.org/abs/2206.01299。谷歌学者谷歌学者
  35. Wang,L.,Ma,C.,Feng,X.等人,2024年。“基于大型语言模型的自治代理调查”,《计算机科学前沿》18:186345。DOI(操作界面):https://doi.org/10.1007/s11704-024-40231-1谷歌学者谷歌学者数字图书馆数字图书馆
  36. 埃贝萨姆·阿尔马兹鲁伊(Ebtesam Almazrouei)、哈姆扎·阿洛比迪利(Hamza Alobeidli)、阿卜杜勒·阿齐兹·阿尔沙姆西(Abdulaziz Alshamsi)、亚历山德罗·卡佩利(Alessandro Cappelli)、鲁珊德拉·科约卡鲁(Ruxandra Cojocaru)、梅罗安·德巴赫(Merouane Debbah)、艾蒂安·戈芬特(Etiene Goffinet)、。Falcon-40B:一种具有最先进性能的开放式大型语言模型。2023谷歌学者谷歌学者
  37. Liu,Z.、Oguz,B.、Zhao,C.、Chang,E.、Stock,P.、Mehdad,Y.、Shi,Y.,Krishnamoorthi,R.和Chandra,V.2023。《LLM-QAT:大型语言模型的无数据量化感知训练》,arXiv预印本arXiv:2305.17888。谷歌学者谷歌学者
  38. Mark Chen、Jerry Tworek、Heewoo Jun、Qiming Yuan、Henrique Ponde de Oliveira Pinto、Jared Kaplan、Harri Edwards、Yuri Burda、Nicholas Joseph、Greg Brockman、Alex Ray、Raul Puri、Gretchen Krueger、Michael Petrov、Heidy Khlaaf、Girish Sastry、Pamela Mishkin、Brooke Chan、Scott Gray、Nick Ryder、Mikhail Pavlov、Alethea Power、Lukasz Kaiser、,Mohammad Bavarian、Clemens Winter、Philippe Tillet、Felipe Petroski Soch、Dave Cummings、Matthias Plappert、Fotios Chantzis、Elizabeth Barnes、Ariel Herbert Voss、William Hebgen Guss、Alex Nichol、Alex Paino、Nikolas Tezak、Jie Tang、Igor Babuschkin、Suchir Balaji、Shantanu Jain、William Saunders、Christopher Hesse、Andrew N.Carr、Jan Leike,乔什·阿齐姆(Josh Achiam)、维丹特·米斯拉(Vedant Misra)、埃文·莫里卡瓦(Evan Morikawa)、亚历克·拉德福德(Alec Radford)、马修·奈特(Matthew Knight)、迈尔斯·布伦达奇(Miles Brundage)、米拉·穆拉蒂(Mira Murati)、凯蒂·梅耶(Katie Mayer)、彼得·韦林德(Peter Welinder)、鲍勃·麦克。2021年,评估经过代码培训的大型语言模型。谷歌学者谷歌学者
  39. Zhao,Y.,Lin,C.-Y.,Zhu,K.,Ye,Z.,Chen,L.,Zheng,S.,Ceze,L.、Krishnamurthy,A.、Chen,T.和Kasikci,B.2023。“原子:高效准确LLM服务的低比特量化”,arXiv预印本arXiv:2310.19102。谷歌学者谷歌学者
  40. Liu,Z.、O'uz,B.、Zhao,C.、Chang,E.、Stock,P.、Mehdad,Y.、Shi,Y.,Krishnamoorthi,R.和Chandra,V.2023。“LLM-QAT:大型语言模型的无数据量化感知训练”,ArXiv,vol.abs/2305.17888,https://api.semanticscholar.org/CorpusID:258959117。谷歌学者谷歌学者
  41. Li,L.,Li,Q.,Zhang,B.,&Chu,X.2023。“规范调整:大型语言模型的高性能低比特量化”,ArXiv,vol.abs/2309.02784,https://api语义scholar.org/语料库ID:261557634。谷歌学者谷歌学者
  42. Hooper,C.、Kim,S.、Mohammadzadeh,H.、Mahoney,M.W.、Shao,Y.S.、Keutzer,K.和Ghoma,A.2024。“KVQuant:Towards 1000万Context Length LLM Inference with KV Cache Quantization”,ArXiv,vol.abs/2401.18079,https://api.semanticscholar.org/CorpusID:267335271。谷歌学者谷歌学者
  43. 刘R.、白H.、林H.、李Y.、高H.、徐Z.-J.、侯L.、姚J.和袁C.2024。“完整KV:通过保持枢轴标记完整来改进大型语言模型量化”,发表于[会议名称],https://api.semanticscholar.org/CorpusID:268230707。谷歌学者谷歌学者
  44. Frantar,E.、Ashkboos,S.、Hoefler,T.和Alistarh,D.2023。“OPTQ:生成预训练变压器的精确量化”,《学习表征国际会议论文集》,https://api.semanticscholar.org/CorpusID:259298689。谷歌学者谷歌学者
  45. Brakel、Felix、Uraz Odyurt和Ana-Lucia Varbanescu。“分布式基础设施上的模型并行:从理论到LLM案例研究的文献综述”,arXiv预印本arXiv:2403.03699(2024)。谷歌学者谷歌学者
  46. 潘一康、潘良明、陈文虎、纳科夫总统、菅直人和王威廉。2023.关于使用大型语言模型的错误信息污染风险。计算语言学协会的研究结果:EMNLP 2023,第1389-1403页,新加坡。计算语言学协会。谷歌学者谷歌学者
  47. 傅邦。2023.GPTCache:LLM应用程序的开源语义缓存,实现更快的答案和成本节约。《自然语言处理开放源码软件第三次研讨会论文集》(NLP-OSS 2023),第212-218页,新加坡。计算语言学协会。谷歌学者谷歌学者交叉引用交叉引用
  48. X.Ma、G.Fang和X.Wang。Llm-pruner:关于大型语言模型的结构剪枝。arXiv预印arXiv:2305.11627。谷歌学者谷歌学者
  49. L.翁。2023.大型变压器模型推理优化。Lil'Log公司。谷歌学者谷歌学者
  50. 夏浩钧、郑震、吴晓霞、陈世扬、姚哲伟、Youn、Arash Bakhtiari、Michael Wyatt、庄东林、周忠珠、Olatunji Ruwase、何玉雄、宋帅文。2024.FP6-LLM:通过FP6-Centric Algorithm-System Co-Design高效服务大型语言模型。arXiv预打印arXiv:2401.14112谷歌学者谷歌学者
  51. Shoeybi,M.、Patwarve,M.,Puri,R.、LeGresley,P.、Casper,J.和Catanzaro,B.(2019年)。Megatronlm:使用模型并行性训练数十亿参数的语言模型。arXiv预打印arXiv:1909.08053。谷歌学者谷歌学者
  52. https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/谷歌学者谷歌学者

建议

评论

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

登录

完全访问权限

  • 发布于

    封面图片ACM会议
    EuroMLSys’24:第四届机器学习和系统研讨会论文集
    2024年4月
    218页
    国际标准图书编号:9798400705410
    DOI(操作界面):10.1145/3642970

    版权所有©2024 ACM

    如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

    出版商

    计算机协会

    美国纽约州纽约市

    出版历史

    • 出版:2024年4月22日

    权限

    请求有关此文章的权限。

    请求权限

    检查更新

    限定符

    • 研究论文
    • 研究
    • 推荐有限公司

    接受率

    总体验收率18属于26提交,69%

    即将召开的会议

    25年欧洲系统
    第二十届欧洲计算机系统会议
    2025年3月30日-4月3日
    鹿特丹,荷兰
  • 文章指标

    • 下载次数(过去12个月)226
    • 下载次数(最近6周)108

    其他指标

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器