Should You Mask 15% in Masked Language Modeling?

Alexander Wettig; Tianyu Gao; Zexuan Zhong; Danqi Chen

doi:10.18653/v1/2023.eacl-main.217

你应该在屏蔽语言建模中屏蔽15%吗？

摘要

掩蔽语言模型（MLM）传统上掩蔽15%的标记，因为人们相信更多的掩蔽会留下足够的上下文来学习好的表示；无论模型大小或掩蔽策略如何，这种掩蔽率都得到了广泛的应用。在这项工作中，我们重新审视了MLM预培训的这一重要选择。我们首先确定15%并非普遍最优，较大的模型应采用较高的掩蔽率。具体来说，我们发现在GLUE和SQuAD上，BERT大型模型的掩蔽率为40%，优于15%。有趣的是，80%的极高掩蔽率仍然可以保持95%的微调性能和语言探测中的大部分准确性，这对掩蔽率作用的传统观点提出了挑战。然后我们研究了掩蔽率和掩蔽策略之间的相互作用，发现与复杂的掩蔽策略（如跨度或PMI掩蔽）相比，均匀掩蔽需要更高的掩蔽率。最后，我们认为，提高掩蔽率有两个明显的影响：它会导致更多的腐败，使预测任务更加困难；它还支持更多预测，这有利于优化。利用这一框架，我们重新审视了BERT的80-10-10腐败战略。总之，我们的结果有助于更好地理解MLM预培训。

选集ID：: 2023.每年217
体积：: 计算语言学协会欧洲分会第17届会议记录
月份：: 五月
年份：: 2023
地址：: 克罗地亚杜布罗夫尼克
编辑：: 安德烈亚斯·弗拉科斯,伊莎贝尔·奥根斯坦
地点：: EACL公司
SIG公司：
发布者：: 计算语言学协会
注：
页：: 2985–3000
语言：
网址：: https://aclantology.org/2023.eacl-main.217
DOI（操作界面）：: 10.18653/v1/2023.eacl-main.217
比比键：
引用（ACL）：: Alexander Wettig、Tianyu Gao、Zexuan Zhong和Danqi Chen。2023你应该在屏蔽语言建模中屏蔽15%吗？.英寸计算语言学协会欧洲分会第17届会议记录，第2985–3000页，克罗地亚杜布罗夫尼克。计算语言学协会。
引用（非正式）：: 你应该在屏蔽语言建模中屏蔽15%吗？（Wettig等人，EACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.eacl-main.217.pdf
视频：: https://aclantology.org/2023.eacl-main.217.mp4网址

PDF格式引用搜索视频