Masking as an Efficient Alternative to Finetuning for Pretrained Language Models

Mengjie Zhao; Tao Lin; Fei Mi; Martin Jaggi; Hinrich Schütze

doi:10.18653/v1/2020.emnlp-main.174

屏蔽作为预训练语言模型微调的有效替代方案

摘要

我们提出了一种利用预处理语言模型的有效方法，其中我们学习预处理权重的选择性二进制掩码，而不是通过微调对其进行修改。对11个不同NLP任务的掩蔽BERT、RoBERTa和DistilBERT的广泛评估表明，我们的掩蔽方案产生的性能与微调相当，但当需要推断多个任务时，内存占用要小得多。内在评估表明，由二进制屏蔽语言模型计算的表示编码了解决下游任务所需的信息。通过对损失情况的分析，我们发现掩蔽和微调产生的模型位于最小值，可以通过具有几乎恒定测试精度的线段连接。这证实了掩蔽可以作为微调的有效替代方案。

选集ID：: 2020.emnlp-main.174年
体积：: 2020年自然语言处理实证方法会议记录
月份：: 十一月
年份：: 2020
地址：: 在线的
编辑：: 邦妮·韦伯,特雷弗·科恩,何玉兰,杨柳
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 2226–2241
语言：
网址：: https://aclantology.org/2020.emnlp-main.174
内政部：: 10.18653/v1/2020.emnlp-main.174
比比键：
引用（ACL）：: 赵梦洁、陶琳、费米、马丁·贾吉和辛里希·舒茨。2020屏蔽作为预训练语言模型微调的有效替代方案.英寸2020年自然语言处理实证方法会议记录，第2226–2241页，在线。计算语言学协会。
引用（非正式）：: 掩蔽作为预训练语言模型微调的一种有效替代方法（Zhao等人，EMNLP 2020）
复制引文：
PDF格式：: https://aclcollectory.org/2020.emnlp-main.174.pdf
视频：: https://slideslive.com/38938867
数据: 可乐, 胶水, MRPC公司, QNLI公司, 不锈钢, 不锈钢-2, SWAG公司

PDF格式引用搜索视频