@进料{wettig-etal-2023面罩,title=“您应该在屏蔽语言建模中屏蔽15{\%}吗?”,author=“Wettig、Alexander和高、天宇和钟、泽宣和陈丹奇”,editor=“弗拉科斯、安德烈亚斯和伊莎贝尔·奥根斯坦“,booktitle=“计算语言学协会欧洲分会第17届会议记录”,月=5月,年=“2023”,address=“克罗地亚杜布罗夫尼克”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.eacl-main.217”,doi=“10.18653/v1/2023.eacl-main.217”,pages=“2985--3000”,abstract=“蒙蔽语言模型(MLM)通常会屏蔽15个标记,因为人们相信更多的蒙蔽会留下不足以学习良好表示的上下文;这种掩蔽率已经被广泛使用,无论模型大小或掩蔽策略如何。在这项工作中,我们重新审视了MLM预培训的这一重要选择。我们首先确定15{\%}不是普遍最优的,较大的模型应采用较高的掩蔽率。具体来说,我们发现在GLUE和SQuAD上,对于BERT大尺寸模型,掩蔽40{\%}优于15{\%neneneep。有趣的是,80{\%}的极高掩蔽率仍然可以保持95{\%{微调性能和语言探测中的大部分准确性,这挑战了关于掩蔽率作用的传统观点。然后我们研究了掩蔽率和掩蔽策略之间的相互作用,发现与复杂的掩蔽策略(如跨度或PMI掩蔽)相比,均匀掩蔽需要更高的掩蔽率。最后,我们认为增加掩蔽率有两个明显的效果:它导致更多的腐败,这使得预测任务更加困难;它还可以实现更多的预测,这有利于优化。使用这个框架,我们重新审视了BERT{'}的80-10-10腐败策略。总之,我们的结果有助于更好地理解MLM预培训。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“wettig-etal-2023-mask”><标题信息><title>你应该在屏蔽语言建模中屏蔽15%吗</标题></titleInfo><name type=“personal”>亚历山大湿部<角色>作者</角色></name><name type=“personal”>天宇<namePart type=“given”>高<namePart type=“family”><角色>作者</角色></name><name type=“personal”>泽轩钟<namePart type=“family”><角色>作者</角色></name><name type=“personal”>丹琦<namePart type=“family”>陈</namePart><角色>作者</角色></name><originInfo>发布日期:2023-05发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会欧洲分会第17届会议记录</titleInfo><name type=“personal”>安德烈亚斯Vlachos公司<角色>编辑器</角色></name><name type=“personal”>伊莎贝尔奥根斯坦<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>克罗地亚杜布罗夫尼克</地点></originInfo>会议出版物</relatedItem>屏蔽语言模型(MLM)传统上屏蔽了15%的标记,因为人们认为更多的屏蔽会导致语境不足以学习好的表征;无论模型大小或掩蔽策略如何,这种掩蔽率都得到了广泛的应用。在这项工作中,我们重新审视了MLM预培训的这一重要选择。我们首先确定15%并非普遍最优,较大的模型应采用较高的掩蔽率。具体来说,我们发现在GLUE和SQuAD上,BERT大型模型的掩蔽率为40%,优于15%。有趣的是,80%的极高掩蔽率仍然可以保持95%的微调性能和语言探测中的大部分准确性,这对掩蔽率作用的传统观点提出了挑战。然后我们研究了掩蔽率和掩蔽策略之间的相互作用,发现与复杂的掩蔽策略(如跨度或PMI掩蔽)相比,均匀掩蔽需要更高的掩蔽率。最后,我们认为增加掩蔽率有两个明显的效果:它导致更多的腐败,这使得预测任务更加困难;它还支持更多预测,这有利于优化。利用这一框架,我们重新审视了BERT的80-10-10腐败战略。总之,我们的结果有助于更好地理解MLM预培训</摘要><identifier type=“citekey”>wettig-tal-2023-口罩</identifier>10.18653/v1/2023.eacl-main.217<位置><网址>https://aclantology.org/2023.eacl-main.217</url></位置><部分>2023-05年<扩展单元=“page”><开始>2985</开始><end>3000</范围></部分></mods></modsCollection>
%0会议记录%在屏蔽语言建模中你应该屏蔽15%吗?%亚历山大·韦蒂格%天宇阿高%阿忠、泽轩%A Chen、Danqi%安德烈亚斯·瓦拉科斯%伊莎贝尔·奥格斯坦%计算语言学协会欧洲分会第17届会议记录%D 2023年%5月8日%计算语言学协会%C杜布罗夫尼克,克罗地亚%F wettig-etal-2023面罩%X屏蔽语言模型(MLM)通常屏蔽15%的标记,因为相信更多的屏蔽会导致学习良好表征的上下文不足;无论模型大小或掩蔽策略如何,这种掩蔽率都得到了广泛的应用。在这项工作中,我们重新审视了传销预培训的这一重要选择。我们首先确定15%并非普遍最优,较大的模型应采用较高的掩蔽率。具体来说,我们发现在GLUE和SQuAD上,BERT大型模型的掩蔽率为40%,优于15%。有趣的是,80%的极高掩蔽率仍然可以保持95%的微调性能和语言探测中的大部分准确性,这对掩蔽率作用的传统观点提出了挑战。然后我们研究了掩蔽率和掩蔽策略之间的相互作用,发现与复杂的掩蔽策略(如跨度或PMI掩蔽)相比,均匀掩蔽需要更高的掩蔽率。最后,我们认为增加掩蔽率有两个明显的效果:它导致更多的腐败,这使得预测任务更加困难;它还支持更多预测,这有利于优化。利用这一框架,我们重新审视了BERT的80-10-10腐败战略。总之,我们的结果有助于更好地理解MLM预培训。%R10.18653/v1/2023.eacl-main.217%U型https://aclantology.org/2023.eacl-main.217%U型https://doi.org/10.18653/v1/2023.eacl-main.217%电话2985-3000
降价(非正式)
[你应该在屏蔽语言建模中屏蔽15%吗?](https://aclantology.org/2023.eacl-main.217)(Wettig等人,EACL 2023)
国际计算语言学协会
- Alexander Wettig、Tianyu Gao、Zexuan Zhong和Danqi Chen。2023你应该在屏蔽语言建模中屏蔽15%吗?.英寸计算语言学协会欧洲分会第17届会议记录,第2985–3000页,克罗地亚杜布罗夫尼克。计算语言学协会。