@进行中{zhang-etal-2023-紧急,title=“预训练变压器中的应急模块化”,author=“张、郑彦和曾志远和Lin、Yankai和肖朝军和王晓志和韩、徐和刘、志远和谢若兵孙茂松周杰”,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎、直崎“,booktitle=“计算语言学协会的发现:ACL 2023”,月=七月,年=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.findings-acl.250”,doi=“10.18653/v1/2023.findings-acl.250”,pages=“4066--4083”,abstract=“这项工作考察了预训练变形金刚中模块化的存在,这是人脑中常见的一个特征,被认为对一般智力至关重要。与人脑类似,我们考虑了模块化的两个主要特征:(1)神经元的功能专门化:我们评估每个神经元是否主要专门化于某一功能,并发现答案是肯定的。(2) 基于功能的神经元分组:我们探索找到一种结构,将神经元按功能分组为模块,每个模块为其相应的功能工作。考虑到大量可能的结构,我们将重点放在专家混合物上,将其作为一种有前途的候选者,它将神经元划分为专家,通常会针对不同的输入激活不同的专家。实验结果表明,存在功能专家,其中聚集的是专门从事某一功能的神经元。此外,干扰功能专家的激活会显著影响相应的功能。最后,我们研究了模块化是如何在预训练中出现的,并发现模块结构在早期得到了稳定,这比神经元稳定更快。它建议Transformer首先构建模块化结构,然后学习细粒度神经元功能。我们的代码和数据可从\url{https://github.com/THUNLP/modularity-analysis}获得。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“zhang-etal-2023-紧急”><标题信息>预培训变压器中的应急模块化</titleInfo><name type=“personal”>郑彦<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>致远<namePart type=“given”>曾庆红<角色>作者</角色></name><name type=“personal”>燕凯<namePart type=“given”>林<角色>作者</角色></name><name type=“personal”>朝军<namePart type=“given”>肖(Xiao)<角色>作者</角色></name><name type=“personal”><namePart type=“given”>小智王<namePart type=“family”><角色>作者</角色></name><name type=“personal”><namePart type=“given”>徐韩寒<角色>作者</角色></name><name type=“personal”>致远<namePart type=“given”>刘<角色>作者</角色></name><name type=“personal”>若兵<namePart type=“given”>谢<namePart type=“family”><角色>作者</角色></name><name type=“personal”>毛松太阳<角色>作者</角色></name><name type=“personal”><namePart type=“given”>杰<namePart type=“family”>周</namePart><角色>作者</角色></name><originInfo>发布日期:2023-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会的发现:ACL 2023</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>Naoaki(Naoaki)冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<位置><placeTerm type=“text”>加拿大多伦多</placeTerm></place></originInfo>会议出版物</relatedItem>这项工作研究了预训练变形金刚中模块化的存在,这是人脑中常见的一个特征,被认为对一般智力至关重要。与人脑类似,我们考虑模块化的两个主要特征:(1)神经元的功能专门化:我们评估每个神经元是否主要专门化于某一功能,并发现答案是肯定的。(2) 基于功能的神经元分组:我们探索找到一种结构,将神经元按功能分组为模块,每个模块为其相应的功能工作。考虑到可能存在的结构数量巨大,我们将重点放在专家混合作为一个有希望的候选者,它将神经元划分为专家,并通常为不同的输入激活不同的专家。实验结果表明,存在功能专家,其中聚集的是专门从事某一功能的神经元。此外,干扰功能专家的激活会显著影响相应的功能。最后,我们研究了模块化是如何在预训练中出现的,并发现模块结构在早期得到了稳定,这比神经元稳定更快。它建议Transformer首先构建模块化结构,然后学习细粒度神经元功能。我们的代码和数据可在https://github.com/THUNLP/模块分析。</摘要><identifier type=“citekey”>zhang-etal-2023-紧急10.18653/v1/2023.findings-acl.250<位置><网址>https://aclantology.org/2023.findings-acl.250</url></位置><部分>2023-07年<扩展单元=“page”><开始>4066</开始>4083</范围></部分></mods></modsCollection>
%0会议记录%预应变变压器中的T应急模块%A Zhang,郑艳%阿曾、致远%严凯阿林%阿晓、朝军%王小志%阿汉、徐%刘志远%阿谢、若宾%孙茂松%阿周,杰%Y Rogers,安娜%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会的研究结果:ACL 2023%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F zhang-etal-2023-紧急%X这项工作检查了预训练变形金刚中模块化的存在,这是一种常见于人脑中的特征,被认为对一般智能至关重要。与人脑类似,我们考虑模块化的两个主要特征:(1)神经元的功能专门化:我们评估每个神经元是否主要专门化于某一功能,并发现答案是肯定的。(2) 基于功能的神经元分组:我们探索找到一种结构,将神经元按功能分组为模块,每个模块为其相应的功能工作。考虑到可能存在的结构数量巨大,我们将重点放在专家混合作为一个有希望的候选者,它将神经元划分为专家,并通常为不同的输入激活不同的专家。实验结果表明,存在功能专家,其中聚集的是专门从事某一功能的神经元。此外,干扰功能专家的激活会显著影响相应的功能。最后,我们研究了模块化是如何在预训练中出现的,并发现模块结构在早期得到了稳定,这比神经元稳定更快。这表明Transformer首先构建模块化结构,然后学习细粒度的神经元功能。我们的代码和数据可在https://github.com/THUNLP/模块分析。%R 10.18653/v1/2023.查找-acl.250%U型https://aclantology.org/2023.findings-acl.250%U型https://doi.org/10.18653/v1/2023.findings-acl.250%电话:4066-4083
降价(非正式)
[预培训变压器中的应急模块化](https://aclantology.org/2023.findings-acl.250)(Zhang等人,《2023年调查结果》)
国际计算语言学协会
- 张正艳、曾志远、林燕凯、肖超军、王晓志、徐涵、刘志远、谢若冰、孙茂松和周杰。2023预应变变压器的应急模块化.英寸计算语言学协会的研究结果:ACL 2023,第4066–4083页,加拿大多伦多。计算语言学协会。