神经语言模型的参数效率

作者：

梁，陈[声称]

描述：

近年来，预训练神经语言模型在各种自然语言理解和生成任务中取得了显著的性能。然而，扩展这些模型以包含数十亿个参数，同时增强适应性和应急能力的趋势，由于其规模巨大，带来了重大的部署挑战。这些挑战包括现实世界部署的模型存储和推理延迟的限制，任务自适应的密集时间和计算成本，以及影响任务适应性的大量冗余参数的存在。基于这些挑战，本文旨在提高这些模型的参数效率，寻求最小化存储需求，加速推理和自适应，并增强泛化能力。\noindent{\it——提高神经语言模型中的参数利用率}\\虽然最近的研究已经确定了预训练神经语言模型的显著冗余，但参数冗余对模型泛化性的影响在很大程度上还没有得到充分研究。我们首先检查参数冗余和模型泛化性之间的关系。鉴于删除冗余参数可以提高泛化能力，我们提出了一种自适应优化算法进行微调，以提高冗余参数的利用率。实验结果验证了在各种下游任务中增强的泛化能力。\noindent{\it——神经语言模型中的模型压缩}\\我们探索了模型压缩方法，包括权重修剪和知识提取，以减少模型存储并加速推理。我们首先开发了一种可靠的迭代剪枝方法，该方法考虑了训练动力学中的不确定性。然后，我们深入到知识提炼的领域，解决师生之间经常阻碍学生表现的巨大“知识差距”。为了解决这个问题，我们提供了两种解决方案，通过选择性地提炼，培养学生完成特定任务。。。

出版商：

乔治亚理工学院

贡献者：

赵拓；张超；阿迪蒂亚·普拉卡什；Lin，Yingyan；杨迪；工业和系统工程

出版年份：

2024-01-10T18:53:54 Z

文件类型：

文本；论文；【博士和博士后论文】

学科：

自然语言处理；机器学习；模型效率；神经语言模型

DDC（尽职调查委员会）：

006特殊计算机方法 （计算）

关系：

https://hdl.handle.net/1853/73222

网址：

https://hdl.handle.net/1853/73222

内容提供商：

佐治亚理工学院：SMARTech-佐治亚工学院学术材料与研究美利坚合众国国旗

网址：https://smartech.gatech.edu/
欧洲大陆：北美
国家：美国
文件数量：124073
开放存取：3999（4%）
类型：学术出版物
系统：DSpace
在BASE中索引内容提供程序的时间：2005-03-05
基本URL：https://www.base-search.net/search/Results？q=coll:ftgeorgiatech