预应变变压器的应急模块化

张正燕,曾志远(Zhiyuan Zeng),林燕凯,肖朝军,王晓之,徐涵,刘志远,谢若兵,孙茂松,周杰(音译)


摘要
这项工作检查了预训练变形金刚中模块化的存在,这是一种常见于人脑中的特征,被认为对一般智能至关重要。与人脑类似,我们考虑模块化的两个主要特征:(1)神经元的功能专门化:我们评估每个神经元是否主要专门化于某一功能,并发现答案是肯定的。(2) 基于功能的神经元分组:我们探索找到一种结构,将神经元按功能分组为模块,每个模块为其相应的功能工作。考虑到可能存在的结构数量巨大,我们将重点放在专家混合作为一个有希望的候选者,它将神经元划分为专家,并通常为不同的输入激活不同的专家。实验结果表明,存在功能专家,其中聚集的是专门从事某一功能的神经元。此外,干扰功能专家的激活会显著影响相应的功能。最后,我们研究了模块化是如何在预训练过程中出现的,并发现模块化结构在早期阶段是稳定的,这比神经元稳定更快。它建议Transformer首先构建模块化结构,然后学习细粒度神经元功能。我们的代码和数据可在https://github.com/THUNLP/模块分析.
选集ID:
2023.结果-acl.250
音量:
计算语言学协会的研究结果:ACL 2023
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
调查结果
SIG公司:
发布者:
计算语言学协会
注:
页:
4066–4083
语言:
网址:
https://aclantology.org/2023.findings-acl.250
内政部:
10.18653/v1/2023.查找-acl.250
比比键:
引用(ACL):
张正彦、曾志远、林彦凯、肖朝军、王晓志、徐寒、刘志远、谢若兵、孙茂松、周杰。2023预应变变压器的应急模块化.英寸计算语言学协会的研究结果:ACL 2023,第4066–4083页,加拿大多伦多。计算语言学协会。
引用(非正式):
预应变变压器的应急模块化(Zhang等人,《2023年调查结果》)
复制引文:
PDF格式:
https://aclantology.org/2023.findings-acl.250.pdf