×

小MBERT

swMATH ID: 32542
软件作者: 艾哈迈德·阿瓦达拉·苏巴巴拉特·穆克吉
描述: TinyMBERT:大规模多语言净入学率的多阶段蒸馏框架。深度和大型预训练语言模型是各种自然语言处理任务的最先进技术。然而,这些模型的巨大规模可能会阻碍它们在实践中的使用。一些近期和并发的工作使用知识蒸馏将这些大型模型压缩为浅层模型。在这项工作中,我们研究了知识提取,重点是多语言命名实体识别(NER)。特别地,我们研究了几种提取策略,并提出了一种利用教师内部表示的阶段性优化方案,该方案不受教师架构的限制,并且表明它优于先前工作中使用的策略。此外,我们还研究了几个因素的作用,如未标记数据的数量、注释资源、模型体系结构和推理延迟等。我们表明,我们的方法可以将类似MBERT的教师模型的参数压缩到35倍,将批推理的延迟压缩到51倍,同时保留95
主页: https://arxiv.org/abs/2004.05686
关键词: arXiv_cs。;机器学习;arXiv_cs。LG公司;多语言净入学率;命名实体识别;净入学率;MBERT公司
相关软件: TinyBERT公司;BERT(误码率);手套
引用于: 0个文档

标准条款

1出版物描述软件 年份
TinyMBERT:大规模多语言净入学率的多阶段蒸馏框架arXiv公司
艾哈迈德·阿瓦达拉·苏巴巴拉特·穆克吉
2020