BERT-Sort:一种基于AutoML顺序特征的零击MLM语义编码器

Mehdi Bahrami、Wei-Peng Chen、Lei Liu、Mukul Prasad
第一届自动机器学习国际会议记录,PMLR 188:11/1-262022年。

摘要

数据预处理是为表格数据创建机器学习管道的关键步骤之一。AutoML系统中实现的常见数据预处理操作之一是将类别特征编码为数字特征。通常,这是通过使用OrdinalEncoder、Scikit Learn中的LabelEncoder和H2O等函数对分类值进行简单的字母排序来实现的。然而,分类值之间通常存在语义顺序关系,例如:质量级别(即[“非常好”$\suck$“好”$\suck$“正常”$\suck$“差”])或月份(即['Jan'$\prec$“Feb”$\prec$“Mar”])。以前的AutoML方法没有利用这种语义关系。本文介绍了BERT-Sort,这是一种通过零快照屏蔽语言模型(MLM)对有序类别值进行语义编码的新方法,并将其应用于表格数据的AutoML。我们首次从10个公共数据集创建了42个特征的新基准,用于分类序数值排序,其中BERT-Sort显著改进了序数值的语义编码,与现有方法相比,改进了27%。我们对不同的公共MLM(如RoBERTa、XLM和DistilBERT)进行了BERT-Sort综合评估。我们还比较了不同AutoML平台(包括AutoGlion、FLAML、H2O和MLJAR)中通过BERT-Sort的原始数据集与编码数据集的性能,以在端到端场景中评估所提出的方法,其中BERT-Sert的性能接近硬编码特征。BERT-Sort的工件可在https://github.com/marscod/BERT-Sort。

引用本文


BibTeX公司
@会议记录{pmlr-v188-bahrami22a,title={BERT排序:AutoML有序特征上的零镜头MLM语义编码器},author={巴赫拉米、梅迪和陈、魏鹏和刘、雷和普拉萨德、穆库尔},booktitle={第一届自动机器学习国际会议论文集},页数={11/1--26},年份={2022},editor={Guyon、Isabelle和Lindauer、Marius和van der Schaar、Mihaela和Hutter、Frank和Garnett、Roman},体积={188},series={机器学习研究论文集},月={7月25日--27日},publisher={PMLR},pdf={https://proceedings.mlr.press/v188/bahrami22a/bahrami22a.pdf},url={https://proceedings.mlr.press/v188/bahrami22a.html},抽象={数据预处理是为表格数据创建机器学习管道的关键步骤之一。AutoML系统中实现的常见数据预处理操作之一是将分类特征编码为数字特征。通常,这是使用分类值的简单字母排序,使用以下函数实现的如OrdinalEncoder、Scikit-Lean和H2O中的LabelEncoder。然而,分类值之间通常存在语义顺序关系,例如:质量级别(即[“非常好”$\suck$“好”$\suck$“正常”$\suck$“差”])或月份(即['Jan'$\prec$“Feb”$\prec$“Mar”])。以前的AutoML方法没有利用这种语义关系。本文介绍了BERT-Sort,这是一种通过零快照屏蔽语言模型(MLM)对有序类别值进行语义编码的新方法,并将其应用于表格数据的AutoML。我们首次从10个公共数据集创建了42个特征的新基准,用于分类序数值排序,其中BERT-Sort显著改进了序数值的语义编码,与现有方法相比,改进了27%。我们对不同的公共MLM(如RoBERTa、XLM和DistilBERT)进行了BERT-Sort综合评估。我们还比较了不同AutoML平台(包括AutoGlion、FLAML、H2O和MLJAR)中通过BERT-Sort的原始数据集与编码数据集的性能,以在端到端场景中评估所提出的方法,其中BERT-Sert的性能接近硬编码特征。BERT-Sort的工件可在https://github.com/marscod/BERT-Sort。}}
尾注
%0会议论文%T BERT排序:一种基于AutoML有序特征的零镜头MLM语义编码器%迈赫迪·巴赫拉米%陈伟鹏%A Lei Liu(刘磊)%穆库尔·普拉萨德%第一届自动机器学习国际会议论文集%C机器学习研究进展%D 2022年%E伊莎贝拉·盖恩%E马吕斯·林道尔%E米哈拉·范德沙尔%E弗兰克·赫特%E罗曼·加内特%F pmlr-v188-巴赫拉米22a%我PMLR%第11/1-26页%U型https://proceedings.mlr.press/v188/bahrami22a.html%188伏%X数据预处理是为表格数据创建机器学习管道的关键步骤之一。AutoML系统中实现的常见数据预处理操作之一是将类别特征编码为数字特征。通常,这是通过使用OrdinalEncoder、Scikit Learn中的LabelEncoder和H2O等函数对分类值进行简单的字母排序来实现的。然而,分类值之间通常存在语义顺序关系,例如:质量级别(即[“非常好”$\suck$“好”$\suck$“正常”$\suck$“差”])或月份(即['Jan'$\prec$“Feb”$\prec$“Mar”])。以前的AutoML方法没有利用这种语义关系。本文介绍了BERT-Sort,这是一种通过零快照屏蔽语言模型(MLM)对有序类别值进行语义编码的新方法,并将其应用于表格数据的AutoML。我们首次从10个公共数据集创建了42个特征的新基准,用于分类序数值排序,其中BERT-Sort显著改进了序数值的语义编码,与现有方法相比,改进了27%。我们对不同的公共MLM,如RoBERTa、XLM和DistilBERT,进行了BERT排序的综合评估。我们还比较了不同AutoML平台(包括AutoGlion、FLAML、H2O和MLJAR)中通过BERT-Sort的原始数据集与编码数据集的性能,以在端到端场景中评估所提出的方法,其中BERT-Sert的性能接近硬编码特征。BERT-Sort的工件可在https://github.com/marscod/BERT-Sort。
亚太地区
Bahrami,M.、Chen,W.、Liu,L.和Prasad,M.(2022)。BERT-Sort:基于AutoML顺序特征的零快照MLM语义编码器。第一届自动机器学习国际会议记录,英寸机器学习研究进展188:11/1-26可从https://proceedings.mlr.press/v188/bahrami22a.html。

相关材料