@正在进行{wang-etal-2022-finding-skill,title=“在预先训练的基于变换器的语言模型中查找技能神经元”,author=“王晓志和文、凯悦和张正燕和侯、雷和刘志远和李娟子“,editor=“Goldberg、Yoav和科扎列娃、佐尔尼察和张岳”,booktitle=“2022年自然语言处理实证方法会议记录”,月=12月,年=“2022”,address=“阿拉伯联合酋长国阿布扎比”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.emnlp-main.765”,doi=“10.18653/v1/2022.emnlp-main.765”,pages=“11132--11152”,抽象=“基于变换器的预训练语言模型在各种自然语言处理任务中表现出了优异的性能。然而,处理这些任务所需的技能如何在模型参数之间分布尚不清楚。本文发现,在对特定任务进行提示调整后,p重新训练的变形金刚对任务标签具有高度预测性。我们将这些神经元命名为技能神经元,并通过发现(1)技能神经元对处理任务至关重要来确认它们编码任务特定技能。当相应的技能神经元受到干扰时,经过预训练的变形金刚在任务中的表现显著下降。(2) 技能神经元是特定于任务的。类似的任务往往具有相似的技能神经元分布。此外,我们还证明了技能神经元最有可能是在预训练中生成的,而不是在微调中生成的。我们还表明,通过快速微调发现的技能神经元对于其他微调方法(如基于适配器的微调和BitFit)也至关重要。我们还探索了技能神经元的应用,包括通过网络修剪加速变形金刚,以及构建更好的可转移性指标。这些发现可能会促进对变形金刚的进一步研究。源代码可从https://github.com/THU-KEG/Skill-Neuron获得。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“wang-etal-2022-finding-skill”><标题信息>在预先训练的基于变换器的语言模型中寻找技能神经元</titleInfo><name type=“personal”><namePart type=“given”>小智<namePart type=“family”>王</namePart><角色>作者</角色></name><name type=“personal”>凯悦<namePart type=“given”>文<namePart type=“family”><角色>作者</角色></name><name type=“personal”>郑彦<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>雷<namePart type=“given”>侯<角色>作者</角色></name><name type=“personal”><namePart type=“given”>致远</namePart>刘<角色>作者</角色></name><name type=“personal”>娟子李<namePart type=“family”><角色>作者</角色></name><originInfo>2022-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2022年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>Yoav戈德堡<角色>编辑器</角色></name><name type=“personal”>佐尔尼察科扎列娃<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>岳<namePart type=“family”>张<角色>编辑器</角色></name><originInfo>计算语言学协会<位置><placeTerm type=“text”>阿拉伯联合酋长国阿布扎比</placeTerm></place></originInfo>会议出版物</relatedItem>基于Transformer的预训练语言模型在各种自然语言处理任务中表现出了优异的性能。然而,尚不清楚处理这些任务所需的技能如何在模型参数之间分配。在本文中,我们发现在针对特定任务进行快速调整后,预训练变形金刚中的一些神经元的激活可以高度预测任务标签。我们将这些神经元命名为技能神经元,并通过发现(1)技能神经元对处理任务至关重要,从而确认它们编码任务特定技能。当相应的技能神经元受到干扰时,经过预训练的变形金刚在任务中的表现显著下降。(2) 技能神经元是特定于任务的。类似的任务往往具有相似的技能神经元分布。此外,我们还证明了技能神经元最有可能是在预训练中生成的,而不是在微调中生成的。我们还表明,通过快速微调发现的技能神经元对于其他微调方法(如基于适配器的微调和BitFit)也至关重要。我们还探索了技能神经元的应用,包括通过网络修剪加速变形金刚,以及构建更好的可转移性指标。这些发现可能会促进对变形金刚的进一步研究。源代码可以从https://github.com/THU-KEG/Skill-Neuron。</摘要>wang-etal-2022-finding-skill10.18653/v1/2022.emnlp-main.765<位置><网址>https://aclantology.org/2022.emnlp-main.765</url></位置><部分>2022-12年<扩展单元=“page”><开始>11132</开始><end>11152</范围></部分></模块></modsCollection>
%0会议记录%基于预训练变换的语言模型中的T发现技能神经元%王小志%阿文、凯悦%张正艳%阿侯、雷%刘志远%A李,娟子%Y Goldberg,约夫%佐尔尼察Y Kozareva%Y Zhang,岳%2022年自然语言处理实证方法会议论文集%D 2022年%12月8日%计算语言学协会%C阿拉伯联合酋长国阿布扎比%F wang-etal-2022-finding-skill公司%基于X Transformer的预训练语言模型在各种自然语言处理任务中表现出了优异的性能。然而,尚不清楚处理这些任务所需的技能如何在模型参数之间分配。在本文中,我们发现在针对特定任务进行快速调整后,预训练变形金刚中的一些神经元的激活可以高度预测任务标签。我们将这些神经元称为技能神经元,并通过发现:(1)技能神经元对处理任务至关重要,从而证实它们编码特定任务的技能。当相应的技能神经元受到干扰时,经过预训练的变形金刚在任务中的表现显著下降。(2) 技能神经元是特定于任务的。类似的任务往往具有相似的技能神经元分布。此外,我们还证明了技能神经元最有可能是在预训练中生成的,而不是在微调中生成的。我们还表明,通过快速微调发现的技能神经元对于其他微调方法(如基于适配器的微调和BitFit)也至关重要。我们还探索了技能神经元的应用,包括通过网络修剪加速变形金刚,以及构建更好的可转移性指标。这些发现可能会促进对变形金刚的进一步研究。源代码可以从https://github.com/THU-KEG/Skill-Neuron。%R10.18653/v1/2022.emnlp-main.765%U型https://aclantology.org/2022.emnlp-main.765%U型https://doi.org/10.18653/v1/2022.emnlp-main.765%电话:11132-11152
降价(非正式)
[在预先训练的基于变换的语言模型中发现技能神经元](https://aclantology.org/2022.emnlp-main.765)(Wang等人,EMNLP 2022)
国际计算语言学协会
- 王晓之、文开岳、张正彦、侯磊、刘志远和李娟子。2022年。在基于预训练变换的语言模型中寻找技能神经元.英寸2022年自然语言处理实证方法会议记录,第11132–11152页,阿拉伯联合酋长国阿布扎比。计算语言学协会。