屏蔽作为预训练语言模型微调的有效替代方案

赵梦洁,陶林,费米,马丁·贾吉,Hinrich Schütze公司


摘要
我们提出了一种利用预处理语言模型的有效方法,其中我们学习预处理权重的选择性二进制掩码,而不是通过微调对其进行修改。对11个不同NLP任务的掩蔽BERT、RoBERTa和DistilBERT的广泛评估表明,我们的掩蔽方案产生的性能与微调相当,但当需要推断多个任务时,内存占用要小得多。内在评估表明,由二进制屏蔽语言模型计算的表示编码了解决下游任务所需的信息。通过对损失情况的分析,我们发现掩蔽和微调产生的模型位于最小值,可以通过具有几乎恒定测试精度的线段连接。这证实了掩蔽可以作为微调的有效替代方案。
选集ID:
2020.emnlp-main.174年
体积:
2020年自然语言处理实证方法会议记录
月份:
十一月
年份:
2020
地址:
在线的
编辑:
邦妮·韦伯,特雷弗·科恩,何玉兰,杨柳
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
2226–2241
语言:
网址:
https://aclantology.org/2020.emnlp-main.174
内政部:
10.18653/v1/2020.emnlp-main.174
比比键:
引用(ACL):
赵梦洁、陶琳、费米、马丁·贾吉和辛里希·舒茨。2020屏蔽作为预训练语言模型微调的有效替代方案.英寸2020年自然语言处理实证方法会议记录,第2226–2241页,在线。计算语言学协会。
引用(非正式):
掩蔽作为预训练语言模型微调的一种有效替代方法(Zhao等人,EMNLP 2020)
复制引文:
PDF格式:
https://aclcollectory.org/2020.emnlp-main.174.pdf
视频:
 https://slideslive.com/38938867
数据
可乐胶水MRPC公司QNLI公司不锈钢不锈钢-2SWAG公司