跳到主要内容

使用离散化扩展预测特征集

摘要

迄今为止,属性离散化通常是通过将原始的连续特征集替换为转置的离散特征集来执行的。本文支持一种新观点,即离散化特征应经常与现有特征一起使用,因此,数据集应通过离散化进行扩展,而不是替换。我们还主张,开发离散化算法的明确目的是用离散化值丰富非离散化数据集。我们提出了这样一种算法,D-MIAT,一种基于少数有趣属性阈值离散化数据的监督算法。D-MIAT仅在需要学习的一个目标值存在强烈指示时生成新特征,因此打算与原始数据一起使用。我们提供了大量的实证结果,证明了在28个基准数据集上使用D-MIAT的成功。我们还证明,当与原始非离散化数据组合使用时,10种其他离散化算法也可以用于生成性能提高的特征。我们的结果表明,将原始数据集与“标准”监督离散化算法和D-MIAT添加的特征相结合,可以获得最佳的预测性能。

1介绍

离散化是一种将连续属性转换为离散属性的数据预处理技术。这是通过划分每个数字属性来实现的A类进入之内离散区间,其中D类={[d日0,d日1],(d日1,d日2],…,(d日−1,d日 ]}其中d日0是最小值,d日 是最大值d日 <d日+1对于= 0,1,...,–1.内的结果值D类建立属性的离散化方案A类={d日1,d日2,...,d日−1}是A类的切点集。传统上,离散化被用来代替原始值,这样在预处理数据后,D类使用而不是A类[1].

存在两种基本的离散化类型,有监督的和无监督的。无监督离散化将每个离散化A类D类通常通过等宽度(EW)或等频率(EF)启发式[2]. 监督离散化进一步考虑目标类,C类,在创建中D类一种流行的监督离散化算法是基于信息熵最大化(IEM)的,即创建一组切点以最小化D类[]. IEM和其他监督离散化方法的一个有趣的副产品是,如果根据选择标准找不到切点,那么只为该变量创建一个bin,有效地消除了A类从数据集作为D类为空集。通过这种方式,监督离散化也可以作为一种特征选择[4]. 除了IEM之外,还开发了大量监督离散化算法,包括Ameva、CAIM、CACC、Modified-Chi2、HDD、IDD和ur-CAIM[511]. 我们请读者参阅最近的一项调查[1]以详细比较这些算法和其他算法。

而离散化最初是作为某些需要离散特征空间的监督机器学习算法的必要预处理步骤执行的[]之后,人们注意到了几个额外的优势。首先,离散化有时可以提高某些不需要离散化的分类算法的性能。因此,多项研究使用了D类而不是A类以提高预测性能[,1214]. 最近,这一现象在医学和生物信息数据集中特别被注意到[1215]. 已经假设,这种改进的来源是由于监督离散化算法中明显的属性选择组件[13]. 离散化的第二个优点是它有助于机器学习结果的可解释性,因为人们可以更好地理解不同范围的值之间的联系及其对学习目标的影响[,13].

本文的第一个主张是,离散化不一定用于替换数据集的原始值,而是用于生成可以增加现有数据集的新特征。因此,每个离散化特征D类应在中使用附加到原始特征A类。据我们所知,以这种方式使用离散化是一个全新的想法。我们声称将数据集与A类D类通常可以提高给定数据集的分类算法的性能。

这种说法有些令人惊讶,可能看起来不太直观。人们普遍认为,通过特征选择减少特征数量,并通过扩展使用离散化进行特征选择,有助于提高预测性能[16]. 这一主张的核心是,可以通过减少候选预测属性的数量来克服维度灾难。与这一说法相反,我们认为问题不在于属性的数量,而在于这些属性缺乏附加值。有时,从离散化属性中获得的信息非常重要,因此将其添加到原始属性中可以提高预测精度。

本文还包含第二个主张,即为了增加原始数据,应明确开发离散化算法。为了支持这一点,我们提出了D-MIAT算法,该算法基于少数人感兴趣的属性阈值离散化数字数据。据我们所知,D-MIAT是唯一的,它是第一个通过离散化显式扩展一组特征的离散化算法。D-MIAT生成只有少数属性值强烈指向目标类的功能。我们声称,有时创建具有此类指示的离散化特征非常重要。然而,迄今为止的属性选择方法通常会平等地对待给定属性中的所有值,从而关注给定属性中所有值的一般重要性,或不同属性值的完整集合的组合[17,18]. 因此,这些方法通常不会将重点放在基于仅在一小部分值内的强指示的切点上。再一次,D-MIAT的潜在成功可能会违反直觉,因为它除了生成原始数据集之外还生成功能,而这些功能通常被认为会降低性能[16].

为了支持这些说法,我们研究了先前离散化研究中28个数据集的预测准确性[11]. 我们考虑了七种不同分类算法的性能:Naive Bayes、SVM、K-nn、AdaBoost、C4.5、Random Forest和Logistic回归,在五种不同类型的数据集上。首先,我们考虑了原始数据集的准确性(A类)没有任何离散化。其次,我们用原始数据和D-MIAT生成的特征创建了一个数据集,并研究了这种组合在哪里更成功。第三,我们比较了基线数据集的准确性(A类)到离散化数据集(D类)从之前考虑的10种算法中[11],使用该论文中的训练和测试数据。令人惊讶的是,我们发现平均预测精度降低当只考虑离散化数据时。基于对离散化特征可以提高性能的理解,我们创建了第四个数据集,将原始数据附加到10个规范离散化算法生成的特征中,创建了10个基于A类D类我们再次注意到,将离散化特征与原始数据相结合可以提高预测性能。第五,我们研究了如何创建不同离散化算法的特征组合。具体来说,我们创建了一个数据集,该数据集结合了D-MIAT的离散化值和三种具有最佳预测性能的离散化算法。原始数据、“标准”离散化算法和D-MIAT这三种特征的组合表现最佳。

2D-MIAT算法

与其他离散化算法相反,D-MIAT是显式开发的,用于使用离散化特征增加原始数据。只有当其中一个目标类存在强指示时,即使在相对较小的值子集内,它才会生成此类特征A类我们的工作假设是,这些生成的特征通过封装分类算法可能在原始数据中遗漏的特征或使用“标准”离散化方法来提高预测精度。

最近的研究发现,重要属性子集的值有时可以作为生物过程的“触发器”或“指示器”,这一假设由此得到了启发。最近的基因组(DNA)和经颅多普勒(RNA)研究表明,一些人可能对某些疾病具有天然的倾向性或免疫力[19]. 类似地,我们假设,即使是指向某个目标类的较小值子集也可能是重要的,即使在非医疗数据集中也是如此。D-MIAT的成功之处在于找到这些子集,因此我们将重点从研究所有属性值转移到寻找给定属性范围内的重要值子集,就像迄今为止其他离散化算法所做的那样。

为了使这个总体概念更清楚,请考虑以下示例。假设该属性A类是一个数字值,表示一个人在给定的一天中抽多少支烟。该数据集包含1000名总人口,其中只有10%的人每天吸烟三支以上。这些重度吸烟者中的大多数都会患上癌症(比如说100人中的95人),而其余90%(900人)的癌症发病率并没有升高。传统的离散化将平等地分析属性中的所有值,因此可能会忽略这个相对较小但显然重要的数据集子集。基于离散化标准的整体有效性进行离散化的方法,如IEM;这里,熵约简不会发现这个属性有趣,因为这个子集不一定大到足以在属性中进行显著的熵约简。因此,它不会将此属性离散化,从而有效地将其从数据集中删除。类似地,即使具有不基于信息增益的选择度量的离散化算法,由于其大小,通常也会忽略此少数属性值子集的重要性,这是D-MIAT明确设计的。

具体来说,我们将D-MIAT算法定义如下。我们假设n个数据集中存在数字属性,这些属性表示为A类1A类 n个 每个给定的属性,A类 j个 ,具有一组连续的值,这些值可以进行排序,然后表示为1 b条 。有c(c)目标变量中的目标值(类标签)C类具有c(c)>=2. 如果最小尺寸的子集支持存在强烈的迹象,conf公司,对于C内的一个目标值。根据D-MIAT的假设,我们只尝试在A类 j个 在最小值之间1d日1和最大值之间 b条 d日2。在这两种情况下,每个子集的大小至少需要包含支持记录。

我们考虑了两种类型的“强”指示作为支持,一种基于熵,另一种基于升力。与IEM最相似的是,我们考虑了基于熵的置信阈值。熵可以定义为\(\sum\limits_{i=1}^{C}-p_{i}{日志}_{2} p_{i}\)哪里第页 这是的相对大小C类 在内部C类。此值可以用作阈值,将支持量化为指向给定目标的给定属性中值的百分比C类 例如,如果A类1指向第一个目标值C类1,则该子集内的熵为0,因此构成一个强指示。第二种信心是基于升力,通常定义为\(\压裂{p(x|c)}{p(x)}\)哪里第页(x个|c(c))是的条件概率x个鉴于c(c)除以一般概率x个在本内容中,我们使用升力作为目标值子集相对强度的支持度量,给定其一般概率。例如,让我们再次考虑一个子集,其值在A类1关于C类1子集的相对强度在这里可以定义为P的概率([1d日1])|C类1/P(P)([1d日1]). 假设C类1为0.05,因为它在1000条记录中出现了50次,其中40次出现在A类1在其他900个值范围内,仅增加10次,则其升力将为(40/100)/(50/1000)或8。假设D-MIAT的值会议参数小于8,则该子集将被视为重要,D-MIAT将使用该子集创建离散化切割。

值得注意的是,D-MIAT中的两个参数,支持conf公司,受到关联规则学习的激励[20]. 然而,在这两种情况下,我们都试图找到即使是相对较小的值子集,也要高于最小支持量支持类似地,在这两种情况下,我们都指的是置信阈值,它可以定义为与目标值对应的子集内实例的绝对数量和相对数量。据我们所知,D-MIAT是第一个使用支持和置信度来找到这些重要属性值子集的离散化算法。

基于这些定义,算法1提出了D-MIAT。第1行首先创建一组空的离散化特征D类将从全套属性中提取,A类第2-4行循环遍历数据集中的所有属性(A类),对每个属性中的连续值进行排序A类 j个 ,并考虑每个目标变量C类 。然后我们考虑两个离散化范围,一个以最小值A类 j个 一个以中的最大值结尾A类 j个 (第6行和第11行)。该算法使用二进制搜索(BinarySearch)根据选择标准查找潜在的切点,conf公司。通常,此步骤可以以bound1等于中的最小值结束A类 j个 和bound2存在A类 j个 的最大值。通常,子集将超出这两点。无论如何,第7行和第12行检查此间隔内的记录数是否大于预定义的支持阈值,支持。如果是,将创建一个新的离散化变量。在我们的实现中,新的离散化变量中的所有原始值都将为1[A类1,A类b条o个u个n个d日1]0表示(A类b条o个u个n个d日1,b]或值1[A类b条o个u个n个d日2,A类 b条 ]0表示[A类1,A类b条o个u个n个d日2). 在第9行和第14行中,我们将这些新的切割添加到D类因此,此算法可以为的每个值创建两个切割A类 j个 ,但根据通常分配给支持会议通过关联规则算法。第18行返回新数据集,其中包含A类采用D-MIAT的新离散化特征。

D-MIAT试图在极端情况下创建两个切割,而不是根据关联规则理论在任何子集中搜索支持,其动机基于医学研究。D-MIAT的动机之一是观察到与任何医学分类问题相关的特征的概率分布不一定是单峰的。事实上,如前一个吸烟者示例中所讨论的,特征可能是多模态的,某些模式在采样数据集中的代表性很低,但在这些模式中,一个类别的流行率可能与其余样本的流行率显著不同。此外,我们预计会发现A类 j个 将具有最高的可解释性——离散化背后的主要一般动机之一[,13].

1给出了我们实验中使用的28个数据集之一glass的一小部分。在此数据集中,目标是确定目标值为1-7的玻璃类型。我们在此数据集中提供了三个属性:A类1=Ba,A类2=钙和A类=Fe,由于空间和数据集大小有限,仅显示了这三个属性值的子集。使用最小支持参数10%运行D-MIAT(支持=0.1),提升值为1.5,作为最小置信度(c(c)o个n个(f)>=提升(1.5))。请注意,Ba的值是按表的第一列中突出显示的非零值排序的1算法发现,对于训练集的33条记录A类1>0.09,23条记录属于第7类(见第4列)。第7类在训练集中发生的概率约为0.1,切割概率约为0.7A类1>0.09. D-MIAT然后计算出升力(P(7)|A类1>0.09)=P(7|A类1>0.09)/P(7))=7,远大于1.5。因此,D-MIAT根据算法1的第11行为较高的Ba值创建了一个切割,D类1如表第4列所示1请注意,离散化切割适用于此范围内的所有值,包括具有其他目标值的值,例如类1。没有基于以下较低值创建切割A类1(算法1的第6行),因为结果切割的大小(第7行)不大于所需的支持。相反,对于A类2=Ca,基于算法1第6行中的边界1的值创建一个切割。在这里,D-MIAT发现其中一个目标值有很强的指示,这里的目标值是2,因为它发现在训练集中80个值小于8.4的实例中,43个对应于这个目标(见第5列)。该概率(0.53)明显高于数据集内目标2的一般概率(0.35),因此升力大于1.5(1.51)。

表1应用D-MIAT的样本数据集

为了进行比较,我们在第6-8列中列出了IEM算法对这三个属性的离散化切割。IEM算法基于使用熵最小化启发式将连续值离散化为0、2或更多区间。对于Ba属性,它将总熵最小化,一次切割为0.4158,因此创建了两个间隔,即小于或大于该值。对于Ca属性,创建了四个间隔,而对于Fe,没有创建任何间隔(在该实现中由统一的“All”值表示)。这个例子突出了D-MIAT和其他离散化算法之间的相似性和差异性。首先,D-MIAT是一种二进制离散化方法——D-MIAT创建的每个切割都只有两个间隔,其中一个间隔是支持会议遇见了,却没有遇见。相反,IEM和其他经典离散化算法最大化了所有属性值的得分(例如IEM的熵减少)。因此,这些算法通常选择不同的切割次数(例如为Ca的四个不同间隔切割创建IEM)和这些切割的阈值(Ba内的D-MIAT为0.09,IEM为0.4158)。

这些不同的切割值会影响结果的可解释性。由于D-MIAT侧重于子集,它将重点分析低于给定阈值(如果子集范围从最小值开始)或高于给定阈值(若子集范围以最大值结束)的值范围。在表中1,我们看到了这两个示例。请注意,第一次D-MIAT切割将人们的注意力集中在更高的值范围(Ba>0.09),其中目标值为7有很强的指示。第二次切割将人们的注意力集中在较小的值范围(Ca<8.4)上,其中目标值2有很强的指示。通常,这些算法是一致的,并且都不会发现任何有趣的东西。注意,Fe没有由D-MIAT或IEM形成的离散化切割,因为这两种算法创建切割的条件都不存在于该属性中。正如我们在下面解释的那样,所有实验都是通过仅在训练数据上生成离散化切割来生成的,然后应用于测试数据。

实验结果

在最近的离散化研究中,我们使用了相同的28个数据集[11]. 这些数据集来自KEEL[21]和UCI[22]机器学习知识库代表了各种复杂度、类数、属性数、实例数和不平衡率(多数类与少数类的大小之比)。有关数据集的详细信息可以在线找到脚注1。我们下载了这些数据集的离散化版本,用于他们考虑的离散化算法。这包括等宽(EW)和等频(EF)的无监督算法[2]以及信息熵最大化(IEM)的监督算法[]类属性相互依赖最大化(CAIM)[5]、阿梅瓦[6],修改Chi2[7]、基于超立方体分区的离散化(HDD)[8],类别属性应急系数(CACC)[9],基于区间距离的离散化方法(IDD)[10]和ur-CAIM[11]. 这些数据集都包含100个不同的折叠,其中离散化的间隔由文件的前90%中的训练部分确定,然后将这些间隔应用于用于测试的剩余10%的数据。因此,28个数据集包含10个独立构建的训练和测试组件,以有效地为总共280个训练和测试对创建10倍交叉验证。

这项工作的总主题是,只要这些功能有一些附加值,添加功能就不会有本质上的危害。相反,我们声称,如果删除原始连续值而丢失重要信息,则传统的离散化使用(连续值被离散值取代)可能是有害的。我们预期会发现,使用D-MIAT丰富的数据集比没有D-MIAT的数据集提供更准确的结果,而且更普遍地说,删除原始特征而只使用离散化特征的效果不如在一个扩展集中使用特征组合的效果好。我们检查了几个研究问题来研究这些问题:

  1. 1

    当将D-MIAT生成的特征添加到原始数据中时,这些特征是否会提高预测性能?

  2. 2

    删除连续值的离散化的经典用法是否有助于提高性能?

  3. 三。

    使用离散化特征是否有利此外到原来的?

  4. 4

    D-MIAT生成的特征是否应与其他离散化算法结合使用?

为了检查这些问题,我们接着创建了五组不同的数据。第一组数据由28个基本数据集组成,未对其训练和测试组件进行任何修改(A类)并使用了之前研究的数据[11]. 第二组数据是除了离散化切割之外的原始数据(D类)来自D-MIAT。第三组数据由28个具有上述10种算法的数据集的离散版本组成(D类)也是根据之前的研究生成的[11]. 第四组数据附加了原始数据集(A类)使用每个离散化数据集(D类). 最后,我们创建了第五组数据,方法是将原始数据附加到D-MIAT和其他几个性能最佳的离散化算法创建的特征中。为了便于将来复制这些实验,我们制作了D-MIAT的Matlab版本,网址为:http://homedir.jct.ac.il/~rosenfa/D-MIAT.zip脚注2。我们在带有Intel i7处理器和32 GB内存的个人计算机上运行了D-MIAT。用D-MIAT处理全部280个文件总共花费了大约15分钟。

然后,我们测量了7种不同分类算法的预测准确性:朴素贝叶斯、使用RBF核的SVM、使用k个=3、AdaBoost、C4.5、Random Forest和Logistic回归。前6个算法在Weka实现[23]使用之前工作中使用的相同参数[11]. 添加了最后一个算法,因为它是一个广为接受的确定性分类算法,而在之前的研究中没有出现。默认参数在Weka的Simple Logistic算法实现中使用。

如下所示,我们发现离散化的经典用法通常不能提高这些数据集的平均性能。相反,通过在原始数据之外使用D-MIAT或在原始数据以外使用规范算法的离散化特征,在原始特征之外使用离散化特征通常可以获得更好的性能。最佳性能通常是由原始数据的组合数据集实现的,该数据集富含D-MIAT和研究问题#4提出的其他离散化算法。因此,我们证明了最有效的流水线是使用D-MIAT和离散化特征来扩展给定的特征集。

3.1D-MIAT结果

D-MIAT算法的目标是补充而不是取代原始数据。是否生成其他功能的决定取决于支持conf公司算法1中的参数,并将其应用于每个数字属性A类 j个 在数据集中。因此,D-MIAT可以根据算法1的第7行和第12行为每个属性生成两个特征。在我们的实验中,我们定义了支持等于培训数据的10%。三个置信值,conf公司,已检查。第一个值是conf公司=熵(0),这意味着切割对其中一个目标类产生了完全决定性的指示,因此根据上述第一种置信度,熵为零。我们还考虑了两种类型的升力置信度:conf公司=提升(1.5)和conf公司=提升(2.0)。根据这些置信水平,我们检查了根据升力值测量的某个目标类的降幅是否产生了更强烈的指示。有可能满足这两个升力阈值。例如,假设一次切割产生了3的提升,那么两个置信阈值都会认为这次切割很重要,并相应地生成一个新特征。我们还考虑了削减可以累加的可能性,因此可以根据这三个不同阈值的组合添加重叠削减。相反,如果未满足所有使用的阈值,则不会为给定属性创建切割。

为了说明这一点,表2显示28个数据集中每个数据集中连续属性的数量,以及每个数据集中生成的属性D-MIAT的总数,并结合以下三个阈值conf公司我们考虑过。由于D-MIAT仅基于训练集中的10个不同迭代生成其切割,因此D-MIAT生成的特征数量可能会在28个数据集中的这些迭代中发生变化。例如,请注意,前两个数据集鲍鱼和心律失常没有D-MIAT在任何迭代中生成的特征conf公司支持这表明,与之前研究的所有10种规范离散化算法相比,D-MIAT可以具有更严格的生成切割的条件,这些算法在所有这些数据集中生成特征。还要注意,D-MIAT在玻璃数据集中平均生成了12.9个特征。根据训练数据,D-MIAT生成了12到15个特征,导致平均值只有一小部分。与这里的情况一样,大多数情况下,D-MIAT生成的离散化特征的数量小于原始特征的数量。然而,在仅包含四个连续属性的虹膜数据集中发现了一个显著的例子,但平均而言,D-MIAT生成了20个特征。在这种情况下,为每个A类 j个 根据以下各项conf公司算法1中的条件。

表2 28个数据集中每个数据集中由三个D-MIAT阈值生成的新特征总数

然后,我们检查D-MIAT生成的特征是否提高了预测性能。显示了D-MIAT生成切割的15个文件中每个文件的基线数据的平均精度,如表所示2请注意,每个D-MIAT支持阈值(第2行的0熵、第3行的1.5升力和第4行的2升力)通常提高了所有分类算法的预测性能。这表明,在该阈值内选择的值并不十分敏感,因为所有选择的值通常都会提高预测精度。请注意,表中突出显示了所有性能提升。一个显著的例外是AdaBoost算法,其中没有发现性能提高(也没有任何降低)。此外,我们还注意到,某些算法(如朴素贝叶斯、SVM和逻辑回归)始终受益,而其他算法则没有。我们还发现所有三个D-MIAT阈值的切割所产生的特征组合,其结果见表的第五行,产生了最佳性能。由于D-MIAT生成的每个切割都很重要,因此除了原始数据之外,添加所有切割通常是有利的。在本文的其余部分,我们将使用D-MIAT的结果,使用所有切割,因为我们发现这产生了最高的性能。因此,我们总体上支持了本文的论点,即添加特征不一定会有问题,除非这些属性中缺乏附加值,即使离散化切割中的阈值不一定是最优的。

表3比较无D-MIAT数据集和D-MIAT有4个变量的数据集的精度,参数值为零熵(MIAT 0)、升力为1.5(MIAT 1.5)、升程为2(MIAT 2)和所有三个离散值(MIAT 01.5 2)

3.2除了使用原始数据外,还使用离散化

然后我们检查了研究问题2和3。我们假设研究问题#2也会被发现是正确的,并且像之前发现的那样,单独使用离散化特征通常是有用的[,1214]. 令我们惊讶的是,在我们考虑的28个数据集中,我们并没有发现这种情况经常发生。4,显示了此实验的平均精度结果。这里的基准是没有离散化的平均性能(A类)与之相比,我们比较了7种分类算法中的10种典型离散化算法。再一次,每个彩色单元格都代表了给定离散化算法相对于基线的改进,并注意到表中大部分内容缺乏颜色2虽然一些算法,尤其是Naive Bayes和SVM,与非离散化数据相比通常表现出了较大的改进,但大多数分类算法(K-nn、AdaBoost、C4.5、Random Forest和Logistic Regression)通常在这些数据集中的离散化算法中没有表现出任何改进。此表的最后一列说明了这一点,它表明对于大多数离散化算法减少平均来说,通过专门使用离散化特征可以获得较高的精确度。因此,我们确实发现,对于我们考虑的数据集中的大多数分类算法,仅使用离散化是较少的比使用原始功能更有效。

表4比较原始基线数据中七种不同分类算法的准确性结果(A类)以及离散化的数据(D类)由Ameva、CACC、CAIM、Chi2、EF、EW、HDD、IDD、IEM和ur-CAIM算法组成

对于本文的第三个研究问题,我们发现了更多的实证支持,即结合原始特征使用离散化比单独使用原始集或离散化生成的集更有效。实验结果见表5其中,我们比较了原始数据集的结果以及原始数据与离散化算法的特征的组合。我们再次发现,朴素贝叶斯和SVM算法从这个组合数据集中受益最多。当考虑这两种学习算法时,现在通过合并所有离散化算法来注意到改进。我们注意到表中的结果有了很大改进5与表中的内容相比4在AdaBoost和Logistical Regression算法中。与表中的结果相比4,所有算法的平均性能(在表的最后一列中找到)现在都显示出了改进。还要注意,几乎毫无例外,组合特征的性能优于相应的离散化集。例如,使用C4.5的Ameva算法的平均精度为70.46,但结合原始数据,Ameva的平均精度跳至78.39。即使没有注意到改进,我们也发现,由于维度灾难,添加这些功能通常不会对性能产生负面影响。

表5比较原始数据中七种不同分类算法的准确度结果(A类)并将离散化数据附加到原始数据(A类+D类)

尽管对研究问题#3的普遍支持是,使用离散化来增加原始数据比单独使用离散化数据要好,但我们仍然注意到一些算法,尤其是K-nn、C4.5和Random Forest学习算法,通常没有从任何形式的离散化中受益。我们在第节中进一步探讨了这些结果差异,以及离散化对所有算法的影响3.4.

3.3使用D-MIAT和其他离散化算法作为附加功能

鉴于发现从D-MIAT和规范离散化算法中添加特征有助于提高性能,我们假设这些特征的组合将有效地实现研究问题#4中的最佳性能。为了评估这个问题,我们将D-MIAT特性与这些数据集中性能最佳的离散化算法(CAIM、IEM和urCAIM)相结合。然后,我们在15个数据集中考虑了这种组合的性能,其中D-MIAT生成了一些特征,并且平均在所有28个数据集内。实验结果见表6.

表6当考虑到D-MIAT添加了特征的15个数据集时,将D-MIAT与离散化特征相结合会产生最高的性能,平均而言,在所有28个数据集中

从15个数据集的结果中可以看出(表的顶部6),离散化算法的组合几乎总是优于原始数据,Naive Bayes、SVM、K-nn、AdaBoost、C4.5和logistic回归算法中的所有三种组合的预测精度都有所提高。唯一的例外似乎是Random Forest算法,该算法没有显著的性能改进。为了进行比较,我们还在表的底部列出了所有28个数据集的改进6,其中包括13个数据集,其中没有D-MIAT生成的功能。正如预期的那样,D-MIAT的组合没有那么重要,再次证明了添加D-MIAT功能的好处。总的来说,在我们考虑的所有算法中,我们发现这种组合是最成功的,预测精度通常提高了1%以上。因此,我们发现论文#4通常是正确的,建议将D-MIAT与现有离散化算法结合使用,以丰富要考虑的特征集。

3.4讨论和未来工作

我们感到有些惊讶的是,单独使用离散化并不像以前使用随机森林和C4.5等分类算法时那样成功[,1214]. 我们认为,正在分析的数据集的差异可能是造成这些差距的原因。因此,我们认为,考虑到机器学习算法和用于输入的数据集,一个重要的开放问题是预测离散化何时会成功。相比之下,我们发现D-MIAT产生了更稳定的结果,因为它通常只提高了性能,而其他离散化算法没有做到这一点,特别是对于这两种学习算法。我们现在正在探索如何使其他离散化算法同样更加稳定。

我们注意到,本文中描述的除原始数据外使用D-MIAT和离散化特征的流水线对于无离散化的算法最为有效,即Naive Bayes、SVM和Logistic Regression分类算法。相反,对于具有离散化组件的方法,尤其是C4.5、Random Forests和AdaBoost算法,这种方法的效果较差。之前已经注意到,C4.5有一个局部离散化组件(重新应用于决策树的每个内部节点),因此添加全局离散化特征可能会获得较少的收益,这些特征在所有决策树节点上被分割为相同的间隔[]. 类似地,AdaBoost中用作弱分类器的决策树桩基本上执行全局离散化,因此可能不太可能从D-MIAT添加的全局离散化特征中获益,这从表中可以看出如表所示6Random Forest算法从本文描述的流水线中获益最少,也可能是因为它的离散化组件。我们希望进一步研究具有固有离散化组件的算法何时以及为什么仍然受益于额外的离散化。此外,尽管K-nn算法没有离散化组件,但与其他算法相比,该算法从所提出的流水线中获益较少。这似乎是合理的,因为众所周知,该算法对维数诅咒特别敏感[24,25]因此,这种特定的算法没有从所提出的方法中受益,而其他分类算法对它的敏感度较低。我们计划在未来的研究中研究这个复杂的问题。

我们认为,未来的工作还应遵循几个其他方向。首先,本研究没有考虑从神经网络学习和深度学习,因为这些算法以前没有考虑过[11]. 这是因为本研究中几个数据集的规模相对较小,因此不可能使用这种方法获得准确的深度学习模型。我们目前正在考虑其他数据集,尤其是那些具有大量训练数据的数据集,以便我们更好地理解如何通过离散化特征来增强深度学习。同样,我们认为一些生成的离散化特征之间可能存在互连。多元特征选择和/或深度学习可能被用来帮助强调这些相互联系并删除冗余特征。其次,我们建议使用元认知,即学习的过程[26]让我们了解应该向给定数据集添加哪些离散化特征。我们也在研究如何为conf公司支持D-MIAT内的阈值。虽然本文证明了多个D-MIAT阈值可以组合使用,并且每个阈值通常都能提高性能,但我们并不声称本研究中使用的阈值代表了所有数据集的最佳值或一组值。一个潜在的解决方案是开发元认知机制,用于学习给定数据集的这些阈值。类似地,正如在神经网络中普遍建议的那样,一种形式的元认知可以添加到机器学习算法中[27]帮助实现这一目标。

4结论

在本文中,我们提出了如何使用离散化的范式转变。迄今为止,离散化通常被用作预处理步骤,删除原始属性值,并用离散化间隔替换它们。相反,我们建议使用离散化生成的特征,通过使用数据的离散化版本和非离散化版本来扩展数据集。我们已经证明,离散化通常可以用于生成除数据集的非离散化特征外还应使用的新特征。本文提出的D-MIAT算法就是基于这个假设。这是因为D-MIAT只会根据高置信度离散具有特别强指示的值,而对目标类的支持度相对较低,因为它假设分类算法也将使用原始数据。我们还表明,其他规范离散化算法也可以以类似的方式使用,事实上,原始数据与D-MIAT和其他算法的离散化特征的组合产生了最佳性能。我们希望本文中提出的思想将促进离散化的使用及其在新数据集和算法中的应用。

笔记

  1. http://www.uco.es/grupos/kdis/wiki/ur-CAIM/

  2. 该zip文件中的“run_all.m”用于在指定目录中的所有文件中批量运行D-MIAT。

工具书类

  1. S Garcia,J Luengo,JA Sáez,V Lopez,F Herrera,《离散化技术的调查:监督学习中的分类学和实证分析》。IEEE传输。知识。数据工程。25(4), 734–750 (2013).

    第条 谷歌学者 

  2. MR Chmielewski,JW Grzymala-Busse,连续属性的全局离散化作为机器学习的预处理。国际期刊近似原因。15(4), 319–331 (1996).

    第条 数学 谷歌学者 

  3. J Dougherty、R Kohavi、M Sahami等人,in机器学习:第十二届国际会议记录,第12卷.连续特征的监督和非监督离散化(Morgan Kaufmann Publishers San Francisco,1995),第194-202页。

    谷歌学者 

  4. H Liu,R Setiono,通过离散化选择特征。IEEE传输。知识。数据工程。9(4), 642–645 (1997).

    第条 谷歌学者 

  5. LA Kurgan,KJ Cios,Caim离散化算法。IEEE传输。知识。数据工程。16(2), 145–153 (2004).

    第条 谷歌学者 

  6. L Gonzalez-Abril,FJ Cuberos,F Velasco,JA Ortega,Ameva:一种自主离散化算法。专家系统。申请。36(3), 5327–5332 (2009).

    第条 谷歌学者 

  7. FEH Tay,L Shen,离散化的改进chi2算法。IEEE传输。知识。数据工程。14(3), 666–670 (2002).

    第条 谷歌学者 

  8. P Yang,J-S Li,Y-X Huang,Hdd:基于超立方体划分的离散化算法。国际期刊系统。科学。42(4), 557–566 (2011).

    第条 数学科学网 数学 谷歌学者 

  9. 蔡家杰,李启一,杨伟平,基于类属性关联系数的离散化算法。信息科学。178(3), 714–731 (2008).

    第条 谷歌学者 

  10. FJ Ruiz,C Angulo,N Agell,Idd:基于监督区间距离的离散化方法。IEEE传输。知识。数据工程。20(9), 1230–1238 (2008).

    第条 谷歌学者 

  11. A Cano,DT Nguyen,S Ventura,KJ Cios,ur-caim:非平衡和平衡数据的改进caim离散化。软计算。20(1), 173–188 (2016).

    第条 谷歌学者 

  12. JL Lustgarten、V Gopalakrishnan、H Grover、S Visweswaran,年AMIA公司.通过生物医学数据集的离散化提高分类性能(美国医学信息协会(AMIA)Bethesda,2008)。

    谷歌学者 

  13. JL Lustgarten,S Visweswaran,V Gopalakrishnan,GF Cooper,高效贝叶斯离散化方法在生物医学数据中的应用。BMC生物信息学。12(1), 309 (2011).

    第条 谷歌学者 

  14. DM Maslove,T Podchiyska,HJ Lowe,临床数据集中连续特征的离散化。《美国医学杂志》。协会。20(3), 544–553 (2013).

    第条 谷歌学者 

  15. 年,A Rosenfeld、DG Graham、R Hamoudi、R Butawan、V Eneh、S Khan、H Miah、M Niranjan、LB Lovat2015 IEEE数据科学和高级分析国际会议MIAT:一种新的属性选择方法,用于更好地预测上消化道癌症(巴黎科迪利尔大学,2015年),第1-7页。

    谷歌学者 

  16. I Guyon,A Elisseeff,变量和特征选择简介。J.马赫。学习。物件。(三月),1157-1182(2003)。

    数学 谷歌学者 

  17. I Guyon,变量和特征选择简介。J.马赫。学习。物件。三:, 1157–1182 (2003).

    数学 谷歌学者 

  18. Y Saeys,I Inza,P Larrañaga,《生物信息学中特征选择技术综述》。生物信息学。23(19), 2507–2517 (2007).

    第条 谷歌学者 

  19. RA Hamoudi,A Appert,等,有和无染色体易位的麦芽淋巴瘤中nf-kappab靶基因的差异表达:分子机制的见解。白血病。24(8), 1487–1497 (2010).

    第条 谷歌学者 

  20. Z Zheng、R Kohavi、L Mason第七届ACM SIGKDD知识发现和数据挖掘国际会议记录《关联规则算法的真实性能》(ACMNew-York,2001),第401-406页。

    第章 谷歌学者 

  21. J Alcalá-Fdez、A Fernández、J Luengo、J Derrac、S GarcíA、L Sanchez、F Herrera、Keel数据挖掘软件工具:数据集存储库、算法集成和实验分析框架。J.Mult。有价值的日志。柔软。计算。17:, 255–287 (2011).

    谷歌学者 

  22. M利奇曼,UCI机器学习库(加利福尼亚大学信息与计算机科学学院,欧文,2013年)。http://archive.ics.uci.edu/ml.

    谷歌学者 

  23. IH Witten、E Frank、,数据挖掘:实用机器学习工具和技术,第二版,Morgan Kaufmann数据管理系统系列(爱思唯尔,剑桥,2005)。

    谷歌学者 

  24. JsH Friedman等人。,灵活的度量最近邻分类。技术报告、技术报告(斯坦福大学统计系,1994年)。

  25. 德国之声啊哈,编辑。Artif公司。智力。版次。11:, 7–10 (1997).

    第条 谷歌学者 

  26. C沃特金斯,学习可以提高绩效(伦敦大学教育学院,2001年)。

    谷歌学者 

  27. R Savitha,S Suresh,N Sundararajan,完全复值径向基函数神经网络中的元认知学习。神经计算。24(5), 1297–1328 (2012).

    第条 数学科学网 谷歌学者 

下载参考资料

基金

Avi Rosenfeld、Ron Illuz和Dovid Gottesman的工作部分由Charles Wolfson慈善信托基金资助。

作者信息

作者和附属机构

作者

贡献

AR、RI和DG负责数据收集和分析。AR和ML负责算法开发和论文撰写。所有作者阅读并批准了最终手稿。

通讯作者

与的通信阿维·罗森菲尔德.

道德声明

竞争性利益

作者声明,他们没有相互竞争的利益。

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Rosenfeld,A.,Illuz,R.,Gottesman,D。等。使用离散化扩展预测特征集。EURASIP J.高级信号处理。 2018, 7 (2018). https://doi.org/10.1186/s13634-018-0528-x

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s13634-018-0528-x

关键词