×

轻轨列车控制中心

swMATH ID: 39611
软件作者: Liat Ein-Dor、Alon Halfon、Ariel Gera、Eyal Shnarch、Lena Dankin、Leshem Choshen、Marina Danilevsky、Ranit Aharonov、Yoav Katz、Noam Slonim
说明: BERT的主动学习:一项实证研究。现实世界中的场景对文本分类提出了挑战,因为标签通常很昂贵,并且数据的特征通常是类别不平衡。主动学习(AL)是一种应对数据稀缺的普遍范式。最近,预训练NLP模型,尤其是BERT,由于其在各种NLP任务中的出色性能,受到了广泛关注。然而,到目前为止,很少考虑将AL用于深度预处理模型。在这里,我们对基于BERT的分类的主动学习技术进行了大规模的实证研究,研究了一组不同的AL策略和数据集。我们将重点放在二进制文本分类的实际场景中,其中注释预算非常小,并且数据通常是倾斜的。我们的结果表明,AL可以提高BERT性能,特别是在最现实的场景中,使用基于关键字的查询创建初始标记示例集,从而产生少数类的有偏样本。我们发布了我们的研究框架,旨在促进沿着此处探索的路线进行未来研究
主页: https://paperswithcode.com/paper/active-learning-for-bert-an-empirical-search
源代码:  https://github.com/IBM/low-resource-text-classification-framework
依赖项: 蟒蛇
相关软件: BERT(误码率);ALiPy公司;情态动词;诽谤罪;JCLAL公司;变压器;Scikit公司;PyTorch公司;蟒蛇;小文本
引用于: 0个文档