BERT-Sort:一种基于AutoML顺序特征的零击MLM语义编码器
Mehdi Bahrami、Wei-Peng Chen、Lei Liu、Mukul Prasad
第一届自动机器学习国际会议记录,PMLR 188:11/1-262022年。
摘要
数据预处理是为表格数据创建机器学习管道的关键步骤之一。AutoML系统中实现的常见数据预处理操作之一是将类别特征编码为数字特征。通常,这是通过使用OrdinalEncoder、Scikit Learn中的LabelEncoder和H2O等函数对分类值进行简单的字母排序来实现的。然而,分类值之间通常存在语义顺序关系,例如:质量级别(即[“非常好”$\suck$“好”$\suck$“正常”$\suck$“差”])或月份(即['Jan'$\prec$“Feb”$\prec$“Mar”])。以前的AutoML方法没有利用这种语义关系。本文介绍了BERT-Sort,这是一种通过零快照屏蔽语言模型(MLM)对有序类别值进行语义编码的新方法,并将其应用于表格数据的AutoML。我们首次从10个公共数据集创建了42个特征的新基准,用于分类序数值排序,其中BERT-Sort显著改进了序数值的语义编码,与现有方法相比,改进了27%。我们对不同的公共MLM(如RoBERTa、XLM和DistilBERT)进行了BERT-Sort综合评估。我们还比较了不同AutoML平台(包括AutoGlion、FLAML、H2O和MLJAR)中通过BERT-Sort的原始数据集与编码数据集的性能,以在端到端场景中评估所提出的方法,其中BERT-Sert的性能接近硬编码特征。BERT-Sort的工件可在https://github.com/marscod/BERT-Sort。
引用本文
相关材料