你应该在屏蔽语言建模中屏蔽15%吗?

亚历山大·威蒂格,天宇高,钟泽轩,陈丹琪


摘要
掩蔽语言模型(MLM)传统上掩蔽15%的标记,因为人们相信更多的掩蔽会留下足够的上下文来学习好的表示;无论模型大小或掩蔽策略如何,这种掩蔽率都得到了广泛的应用。在这项工作中,我们重新审视了MLM预培训的这一重要选择。我们首先确定15%并非普遍最优,较大的模型应采用较高的掩蔽率。具体来说,我们发现在GLUE和SQuAD上,BERT大型模型的掩蔽率为40%,优于15%。有趣的是,80%的极高掩蔽率仍然可以保持95%的微调性能和语言探测中的大部分准确性,这对掩蔽率作用的传统观点提出了挑战。然后我们研究了掩蔽率和掩蔽策略之间的相互作用,发现与复杂的掩蔽策略(如跨度或PMI掩蔽)相比,均匀掩蔽需要更高的掩蔽率。最后,我们认为,提高掩蔽率有两个明显的影响:它会导致更多的腐败,使预测任务更加困难;它还支持更多预测,这有利于优化。利用这一框架,我们重新审视了BERT的80-10-10腐败战略。总之,我们的结果有助于更好地理解MLM预培训。
选集ID:
2023.每年217
体积:
计算语言学协会欧洲分会第17届会议记录
月份:
五月
年份:
2023
地址:
克罗地亚杜布罗夫尼克
编辑:
安德烈亚斯·弗拉科斯,伊莎贝尔·奥根斯坦
地点:
EACL公司
SIG公司:
发布者:
计算语言学协会
注:
页:
2985–3000
语言:
网址:
https://aclantology.org/2023.eacl-main.217
DOI(操作界面):
10.18653/v1/2023.eacl-main.217
比比键:
引用(ACL):
Alexander Wettig、Tianyu Gao、Zexuan Zhong和Danqi Chen。2023你应该在屏蔽语言建模中屏蔽15%吗?.英寸计算语言学协会欧洲分会第17届会议记录,第2985–3000页,克罗地亚杜布罗夫尼克。计算语言学协会。
引用(非正式):
你应该在屏蔽语言建模中屏蔽15%吗?(Wettig等人,EACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.eacl-main.217.pdf
视频:
 https://aclantology.org/2023.eacl-main.217.mp4网址