跳到主要内容

McTwo:一种基于最大信息系数的两步特征选择算法

摘要

背景

高通量bio-OMIC技术正在以越来越快的速度从生物样本中生成高维数据,而传统实验中的训练样本数由于各种困难仍然很小。这个“大”第页,小n个生物医学“大数据”领域的范式至少可以通过特征选择算法部分解决,这些算法只选择与表型显著相关的特征。特征选择是一个NP-hard问题。由于寻找全局最优解的时间要求呈指数级增加,所有现有的特征选择算法都采用启发式规则来寻找局部最优解,并且它们的解在不同的数据集上取得了不同的性能。

结果

这项工作描述了一种基于最近发表的相关性测量——最大信息系数(MIC)的特征选择算法。提出的算法McTwo旨在独立地选择与表型相关的特征,并实现最近邻算法的高分类性能。基于对17个数据集的比较研究,McTwo的性能与现有算法相当或更好,所选特征的数量大大减少。McTwo选择的特征似乎与文献中的表型具有特定的生物医学相关性。

结论

McTwo选择了一个分类性能非常好且特征数量较少的特征子集。因此,McTwo可能代表了一种用于高维生物医学数据集的补充特征选择算法。

背景

由于难以收集特定的样本类型和有限的可用资源,只能收集少量样本用于传统生物学研究。然而,随着现代生物技术的发展,单个样本可能会产生大量生物医学“大数据”。这导致了“大第页小的n个生物大数据的范式[1]其他大数据领域广泛使用的深度学习策略无法解决这一问题[2]. A“大型第页小的n个“数据集通常有几十个或最多几百个样本,每个样本有数百万或更多的特征[1]. 如果所有特征都用于这些样本的分类或回归建模,则会导致过度填充[]. 其中一个解决方案是特征选择或降维,它试图找到具有最佳建模性能的特征子集[].

各种特征选择算法已经发布,根据它们如何确定所选特征,它们可以大致分为三类[46]. I类包装算法通常采用现有的数据挖掘算法来评估特征子集,并对具有最佳数据挖掘性能的特征子集应用启发式特征筛选规则。找到这样的特征子集往往要花费成倍增加的时间。I类算法通常使用启发式规则来寻找局部最优解。微阵列(PAM)的预测分析[7]该算法为每个类标签计算一个质心,并选择特征将基因质心收缩到整个类质心。PAM对于异常特征是鲁棒的。规则化随机森林(RRF)[8]该算法通过评估每个随机森林节点的训练数据子集上的特征来使用贪婪规则。如果新特征的信息增益没有改善所选特征的信息增量,则选择新特征将受到惩罚。

II类过滤算法测量每个特征或特征子集与样本标签的关联,并基于此测量对所有特征或特征子集进行排序。大多数过滤算法评估单个特征。对于基于特征的过滤算法,用户可以选择决定顶级特征的数量以进行进一步的实验验证,但不会为具有最佳建模性能的特征子集提供信息。滤波算法不考虑特征间的相关性,但其线性计算时间复杂度有时使其成为大型数据集的唯一负担得起的选择[6].T型-基于测试的过滤(TRank)算法是测试两组特征差异的最常用方法。它估计了两组之间的差异和数据集中的变化,给出了统计显著性度量[9]. 基于Wilcoxon检验的特征过滤(WRank)算法计算两类样本之间特征区分程度的非参数分数,并以其对异常值的鲁棒性而闻名[10]. 基于ROC图的过滤(ROCRank)算法评估特征的ROC曲线下面积(AUC)对所研究的二进制分类性能的重要性[11]. 基于相关性的特征选择(CFS)[12]该算法是一种基于过滤器的子集评估启发式算法,它假设一个好的特征子集中的特征应该相互独立,并且与样本的类标签高度相关。

第三类混合算法旨在通过在不同的启发式特征选择步骤中集成包装器和过滤策略来自动生成最优选择的特征子集[6]. 例如,Xing等人提出了一种混合过滤和包装方法来选择高维微阵列数据集的特征子集,并以令人满意的分类错误率优于正则化策略[13].

本研究提出了一种新的基于测量最大信息系数(MIC)的包装器特征选择算法McTwo[14]在两个变量之间。McTwo的第一步是筛选所有与类别标签和其他类别标签相关的MIC关联特征,并且只保留那些具有显著辨别力的特征进行进一步筛选。然后,McTwo采用最佳优先搜索策略来找到分类性能最优的特征子集。实验数据表明,该算法在大多数情况下都优于其他算法,显著减少了特征数量。

方法

二进制分类问题及其性能度量

本文研究了二进制分类问题。二进制分类问题有两组样本(P(P))和否定(N个)套。P(P) = {P(P) 1,P(P) 2, …,P(P) n个 }和N个 = {N个 1,N个 2, …,N个 }. 阳性和阴性样品的数量也缩写为P(P) = n个N个 = 分别为。样本总数为 = n个 + .每个样品X(X)P(P)N个是一个k个-特征向量X(X) = <F类 1(X(X)),F类 2(X(X)), …F类 k个 (X(X))>. 赋值的二进制分类器X(X)至任一方P(P)N个.

灵敏度(),特异性(服务提供商)和准确性(Acc公司)被广泛用于衡量二进制分类模型的性能[1517]. TP(转移定价)FN公司是模型预测为正值和负值的正值样本数。TN公司FP公司为阴性样本数,预测分别为阴性和阳性。所以P(P) = TP(转移定价) + FN公司N个 = TN公司 + FP公司.灵敏度()定义为正确预测的阳性样本比率 = TP(转移定价)/(TP(转移定价) + FN公司) = TP(转移定价)/P(P)、和特异性(服务提供商)是校正的预测负样本的比率服务提供商 = TN公司/(TN公司 + FP公司) = TN公司/N个模型的总体精度定义为Acc公司 = (TP(转移定价) + TN公司)/(TP(转移定价) + FN公司 + TN公司 + FP公司) = (TP(转移定价) + TN公司)/(P(P) + N个) [18]. 另一个测量Avc公司定义为( + 服务提供商)/2帮助评估具有不同数量正负样本的不平衡数据集。

使用5次内部交叉验证,对所有分类算法的总体性能进行评估,使用随机数生成器的不同种子平均运行30次。一种较大的二进制分类算法Acc公司价值表现更好。如果两种模型的性能相似,则首选更简单的模型,因为它在临床部署中花费更少的资源和人力[15]. 此外,一个更简单的模型可以避免生物医学大数据领域中因“大第页小的n个“范例[19]. 还进行了外部交叉验证,以测试McTwo是否产生特征选择偏差。

提出的特征选择算法可以为任何二进制分类数据集选择特征。为了便于讨论和数据集的可用性,本研究将重点放在基于微阵列的基因表达谱数据集的分类性能比较上。

本研究中使用的生物医学数据集

本研究使用了17个二进制分类数据集进行分类性能评估,如表所示1.两个广泛调查的数据集科隆[20]和白血病[21]从R/Bioconductor包中检索到上校CAgolubE集分别为。六个公开可用的数据集,即DLBCL[22],前列腺[23],全部[24]、CNS[25]、淋巴瘤[26]和腺瘤[27],从Broad Institute Genome Data Analysis Center下载,网址为http://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi根据表中描述的不同表型注释,将数据集ALL进一步处理为四个二进制分类数据集,即ALL1、ALL2、ALL3和ALL41另五个新数据集,即骨髓瘤(加入:GDS531)[28],胃(加入:GSE37023)[29],Gastric1/Gastric2(加入:GSE29272)[30],T1D(登录号:GSE35725)[31]和中风(加入:GSE22255)[32],从NCBI基因表达综合(GEO)数据库下载。

表1本研究中使用的17个二进制分类数据集摘要

使用RMA算法的默认参数将NCBI GEO数据库中的原始数据归一化为基因表达矩阵[33],所有其他数据集作为归一化数据矩阵下载。

如前所述,本研究中使用的所有数据集均已由其他研究人员发布并公开。因此,本研究不需要伦理或知情同意书。

基于最大信息系数的特征筛选(McOne)

最大信息系数(MIC)测试两个变量之间的相关性以及它们是否具有线性或其他函数关系[14]. 测量MIC是对称的,并归一化为范围[0,1]。高MIC值表明调查变量之间存在相关性,而MIC=0表示两个独立变量之间的关系。尽管MIC对于不同的依赖类型似乎是公平的[34]与其他一些算法(如动态切片算法和t吨-测试[35],它处理数字和类别数据的能力将促进未来异构生物医学数据集的应用。MIC的计算函数由原始作者实现为R包Minerva 1.5版。MIC的统计特征以及MIC与其他统计测试(包括皮尔逊校正和互信息)的综合比较可参见[14].

基于MIC的过滤步骤,McOne公司,被提议去除那些与表型几乎没有关联或与特征子集中剩余的其他特征冗余的特征,如在上面的伪代码中所描述的。首先,定义了一些术语。对于给定的二进制分类问题,类标签C = {C 1,C 2, …,C },C {P(P),N个},并且每个样本都有k个功能<F类 1(X(X)),F类 2(X(X)), …F类 k个 (X(X))>,其中F类 j个 j个 第个功能。

定义:信息相关功能:S公司 = {F类 |麦克风(F类 ,C) > 第页},其中第页是预设的无关阈值。

定义:信息冗余功能:F类 如果存在其他功能,则为冗余F类 j个 ,标准时间。麦克风(F类 j个 ,C)>话筒(F类 ,C)和MIC(F类 j个 ,F类 )>话筒(F类 ,C).

信息主导准则:功能F类 j个 如果与目标变量的信息相关性最大,则将保留C在候选特征子集MIC中(F类 j个 ,C)并且不冗余已选择的功能。

McTwo算法

我们采用最佳优先搜索策略来进一步减少特征数量。我们的实验数据表明,McOne选择了具有满意分类性能的特征子集。然而,McOne可能会选择几十个,甚至上百个功能,这可能会导致一些大数据区域“大第页小的n个“挑战[]. 最佳优先搜索策略被广泛用于进一步减少小规模特征子集中选定特征的数量。本研究使用软件R版本3.0.2中的FSelector包版本0.19中实现的版本。

这个k个在最佳优先搜索过程中,使用最近邻(KNN)算法作为嵌入分类器。虽然KNN是一个非常简单的分类器,但其快速计算和参数无关的优点使其在包装过程中多次执行时成为理想的分类器。选择简单形式NN,即。k个 = 1

平衡精度BAcc公司 = ( + 服务提供商)/2由leave-one-out计算(LOO公司)验证策略被用作优化目标。这是因为整体准确性Acc公司并不总是反映分类器在不平衡数据集上的合理分类性能。例如,对于一个包含100个阳性样本和10000个阴性样本的数据集,如果分类器预测任何样本为“阴性”,则它具有Acc公司 = 10000/(100+10000)=99.01%,但 = 0.相比之下,BAcc公司 = (0+1)/2=0.5,这样的分类器排名很低。此外,LOO验证与参数无关,可能是评估分类器性能的客观策略。

McTwo的上述步骤2使用McOne的输出特征子集作为其输入,并返回由上述过程过滤的特征。

McTwo的时间强度估计

这里是对算法McTwo的时间复杂度的估计。McOne需要计算所有功能之间的MIC值,并根据类标签计算功能。第页n个分别是特征和样本的数量。所以McOne最多只能跑0次(第页 2 + 第页),假设两个变量之间的MIC值是在恒定时间内计算的。McTwo的第二步理论上需要筛选McOne过滤的所有剩余功能,最多为O(第页). 所以McTwo最坏的时间复杂度是O(第页 2 + 第页)+O(零)(第页)~O个(第页 2 + 2第页)~O个(第页 2),与特征选择算法FCBF相同[36]. 但是,实现过滤步骤McOne是为了评估特征和类标签之间的MIC值,这通常会排除大多数特征。这样,特征间MIC值的评估将大大加快。因此,实际计算时间不会达到上限O(第页 2)在大多数情况下。

特征选择性能的比较分析

我们与其他常用的特征选择算法进行了一系列全面的比较实验,从分类精度和选择的特征数量两个方面进行了比较。对比了两种包装算法(I类),即PAM[7]和RRF[8],以及三种广泛使用的滤波算法(II类),即TRank[9],W银行[10]和ROC银行[11]. 由于过滤算法CFS自动生成一个最佳选择的特征子集,因此在比较实验中,CFS与包装算法分组。

FCBF(基于快速相关的滤波器)[36]以与McTwo类似的方式选择要素。FCBF和McTwo之间有两个主要区别。在第一步中,McTwo使用测量MIC测试两个变量之间的关联[14],而FCBF使用基于信息增益的对称不确定性(SU)[36]. MIC被认为比其他相关测量更适合复杂数据集。在第二步中,McTwo根据嵌入式分类器NN的性能选择下一个特征,而FCBF通过评估下一个特征是否与现有特征一起构成由测量SU定义的近似马尔可夫毯来确定是否保留下一个特征。通过外部交叉验证,比较了两种算法的分类性能。

选择了一些有代表性的分类算法,基于上述特征选择算法选择的特征构建二值分类模型。支持向量机(SVM)计算高维空间中两类样本/点之间的超平面,最大化类间距离,但最小化类内距离[37]. 朴素贝叶斯(NBayes)模型假设特征相互独立,并选取后验概率最大的类标签作为预测[38]. 众所周知,在一些机器学习问题(如文本分类)中,NBayes与更先进和计算密集型的方法(如SVM)具有竞争力[39]. 决策树(DTree)由树节点上关于下一决策步骤采用哪条路线的决策规则组成[40]. 简单的最近邻(NN)算法预测查询样本在给定距离测量中与其最近邻属于同一类[41].

实验的整个过程如图所示1.

图1
图1

本研究的实验设计。有17个数据集用于评估特征选择算法的性能,如“数据输入”框中所示。所提出的McTwo算法的结构如方框“McTwe”所示。“其他方法”框中列出了其他九种具有代表性的特征选择算法。四种二进制分类算法用于评估基于所选特征的分类模型可能达到的准确度。分类性能通过灵敏度来衡量(),特异性(服务提供商),整体精度(Acc公司). 内部交叉验证的处理方案。b条外部交叉验证的工作流程

结果和讨论

McTwo显著减少了McOne选择的功能部件数量

从17个数据集中选择两个数据集Gas1和T1D,分别作为癌症和心血管疾病的代表。所有其他数据集的详细结果可以在附加文件中找到1:图S1。所有17个数据集的结果将在下文中进行总结和讨论。

McTwo使用不同的分类算法实现了与McOne相似的总体精度,如图所示2首先,对于NN分类算法,McOne仅在17个数据集中的一个数据集上优于McTwo,而平均而言,McTowo优于McOne,准确度提高了3.99%。这在我们的预期范围内,因为McTwo在第二步中尝试最小化特征数量,同时保持类似的总体分类精度。唯一的例外是数据集Adeno,其中McTwo的Acc公司(99.8%)比McOne(100%)高。但McTwo只使用了2个特征,就实现了与McOne的29个基于特征的模型几乎相似的分类性能。平均而言,McTwo(90.99%)的整体准确性优于McOne(86.99%)Acc公司在数据集Stroke上,最大提高了10.6%。McTwo的DTree模型在17个数据集中有14个数据集的表现优于McOne,但骨髓瘤、ALL2和CNS除外。McTwo比McOne的平均改善率为3.4%。但McOne在以下方面的平均改进优于McTwoA类SVM和NBayes算法的cc分别为3.00和4.86%。这可能是因为SVM[42]和NBayes[43]倾向于对特征数量敏感,而McTwo选择的特征数量明显少于McOne,这将在以下段落中讨论。

图2
图2

二值分类精度比较Acc公司在两种算法McTwo和McOne之间。性能在两个数据集上进行了说明气体1和b条T1D。其他数据集的图可以在附加文件中找到1:图S1。分类的平均值和标准偏差Acc公司在给定数据集上进行30次5倍交叉验证计算

McTwo在最佳分类模型中的表现略逊于McOne,如图所示对于给定的特征子集,研究人员总是选择总体精度最高的分类模型。所以最大的Acc公司(百万加速度)四种分类算法(SVM、NBayes、DTree和NN)中的一种被用作McTwo和McOne选择的特征子集的性能度量。显示McTwo在百万加速度但在17个数据集中,有11个数据集的性能与McOne相同或更好。最大的区别是百万加速度对于数据集Stroke,McOne的表现优于McTwo 13.4%。平均值只有0.01%的差异百万加速度在其他16个数据集的两种特征选择算法之间。

图3
图3

McTwo和McOne的最大分类精度和特征数量的比较。这两条曲线给出了最大的分类精度,嵌入的表给出了McTwo和McOne为17个数据集中的每一个选择的特征数

McTwo选择的特征数量明显少于McOne,如图所示平均而言,McTwo只选择1/33.3个特征,以达到与McOne相似的分类精度。McTwo和McOne选择的最大特征数分别为7和164。对于数据集ALL1,McTwo和McOne在百万加速度与McOne选择的156个功能相比,McTwo仅使用一个功能。

因此,这两个步骤,即McOne和包装器,在McTwo中对于找到最佳特征子集都很重要。

与包装器FS算法的比较

比较了McTwo和其他三种包装算法CFS、PAM和RRF选择的特征子集的分类性能。McTwo选择的特征的最佳分类性能通常由分类算法DTree和NN实现,如图所示4和其他文件1:图S2。

图4
图4

二值分类精度比较Acc公司在这四种算法中,McTwo、CFS、PAM和RRF。性能在两个数据集上进行了说明美食1和b条T1D和其他数据集的数字可以在附加文件中找到1:图S2。分类的平均值和标准偏差Acc公司在给定数据集上进行30次5倍交叉验证计算

McTwo的性能比算法PAM和RRF好得多,但比CFS差,如表所示2我们使用比较三元组win/tie/lose来度量该算法的数据集数量A类与算法相比,性能更好、同样好和更差B类通过测量最大精度百万加速度,这个三元组被定义为计算机断层扫描(A类,B类)=(赢/平/输)。在17个数据集中的12个和15个数据集中,McTwo的性能分别优于PAM和RRF。但McTwo并没有取得更好的成绩百万加速度在14个数据集中比CFS。因此,CFS在百万加速度与PAM和RRF相比,CT(CFS,PAM)=(16/1/0)和CT(CFS,RRF)=(17/0/0)。

表2 McTwo、CFS、PAM和RRF算法对之间的比较三元组

还研究了四种包装算法的分类精度和模型复杂度之间的平衡,如图所示5。正如我们所看到的,平均而言,McTwo在百万加速度但分别比PAM和RRF好1.9%和3.9%。但与CFS相比,McTwo平均只需要1/44.4个特征。例如,McTwo和CFS在百万加速度在数据集ALL1上,但McTwo仅使用一个特征,而CFS选择了103个特征。目前还没有可用的衡量标准来评估分类模型的预测准确性和模型复杂性。这里我们定义了一个模型复杂性和分类准确性的评估指标工程安装 = Acc公司-第页/100,其中第页是分类模型中使用的特征数。除了数据集ALL3上的PAM特征选择算法外,McTwo在所有17个数据集上的性能优于所有其他三种包装算法。McTwo在以下方面的表现不如PAMAcc公司在Colon、Mye、ALL4和Lym四个数据集上,差异分别为2.4、0.2、2.1和0.1%。McTwo和PAM为四个数据集选择的特征数的比较表明,McTwoe推荐的特征数明显较少,即分别为(6 vs 14)、(7 vs 34)、(2 vs 30)和(4 vs 109)。在两个数据集Gas1和Stroke上可以发现类似的观察结果,其中McTwo的表现比RRF差。CFS和PAM还显示,不同数据集最终选择的特征数量波动较大,如图所示5a级.

图5
图5

这是否是分类准确性和模型复杂性以及综合度量EI的图。在17个数据集上用四种包装算法绘制了分类模型的总体精度线图,以及不同特征选择算法选择的相应特征数量。b条测量EI的折线图。(请注意,由直线连接的相邻数据集之间没有关系,为了方便识别每个算法的数据点,该直线仅包含在内。这在两个算法具有相似数据的情况下尤其必要)

通常,McTwo在分类精度和模型复杂度方面都优于PAM和RRF。尽管CFS在平均测量中略优于McTwo百万加速度,McTwo使用的功能数量明显少于CFS。使用平衡模型性能度量EI,McTwo在所有17个数据集上几乎优于所有三种包装算法,如图所示5亿.

与滤波器FS算法的比较

我们进一步比较了McTwo和三种滤波算法TRank、WRank和ROCRank的分类性能。滤波器算法仅输出基于排名测量的特征的有序列表。因此,为了进行公平比较,本研究选择了顶级第页按过滤算法排序的特征有序列表中的特征,其中第页是McTwo选择的功能数量。

当使用NN分类算法时,McTwo在17个数据集中的15个数据集上几乎优于所有其他三种滤波算法。唯一的两个例外是ROCRank算法在Acc公司分别在数据集Pros和Adeno上使用NN。其他三种基于McTwo特征的分类算法与基于这三种滤波算法特征的分类性能相比,表现类似或更好。第6页表明使用NN的最佳McTwo模型具有Acc公司比数据集Gas1上使用NBayes的最佳ROCBank模型小0.3%。对于T1D数据集,基于McTwo特征的NN分类模型优于几乎所有其他分类模型。一个例外是,在数据集ALL3(0.7848)上,PAM的表现优于McTwo(0.7720),为0.0128英寸Acc公司,如图所示第6页.性能测量/服务提供商/Acc公司/Avc公司附加文件中给出了所有17个数据集的1:图S3。

图6
图6

二值分类精度比较Acc公司四种算法中,McTwo、TRank、WRank和RCORank。性能在两个数据集上进行了说明美食1和b条T1D。其他数据集的数字可以在附加文件中找到1:图S3。分类的平均值和标准偏差Acc公司在给定数据集上进行30次5倍交叉验证计算

McTwo和三种滤波算法进行了成对比较,并使用表中的比较三元组对结果进行了说明首先,McTwo在14个数据集上的性能与这三种滤波算法相当或更好。在三个不同的数据集上,这三种滤波算法的测量性能优于McTwo百万加速度在数据集上,TRank(0.759)、WRank(0.0759)和ROCRank(0.949)三种滤波算法的性能均优于McTwo(0.716)全部2,详见附加文件1:表S2。ALL2是所有四种算法和三种包装算法中最困难的数据集(图57). CFS在百万加速度(0.837),但使用了56个特征,而McTwo仅使用了0.716个特征。在所有其他情况下百万加速度与McTwo相比,过滤算法的值不超过1.1%,如附加文件中所示1:表S2。

表3 McTwo、TRank、WRank和ROCRank算法对之间的比较三元组
图7
图7

分类准确性和模型复杂性的组合图。分类模型在17个数据集上的四种包装算法的总体精度的折线图,以及不同特征选择算法选择的相应特征数量。注意,由直线连接的相邻数据集之间没有关系,这只是为了方便查找每个算法的点,特别是当两个算法具有相似数据时

上述数据表明,McTwo在17个数据集中的大多数数据集上的性能都优于这三种过滤算法,在其他数据集上也同样如此。

特征选择算法的外部交叉验证

为了将McTwo与其他特征选择算法进行比较,进行了五次外部交叉验证。由于CFS算法的计算要求过高,因此选择了三个最大的数据集ALL1、Gas1和Mye进行外部交叉验证的比较研究。建议使用外部交叉验证来评估特征选择算法是否对小数据集有选择偏差[4446]. 广泛使用的特征选择算法,即基于递归特征消除的支持向量机(SVM-RFE),可以用作过滤器或包装器模型[47]. 在本次比较中,这些分别表示为RfeRank和Rfe。

McTwo在三个调查数据集上使用外部交叉验证实现了令人满意的稳定分类性能,如图所示8与内部交叉验证的结果一样,McTwo在两个数据集ALL1(mAcc=0.969)和Gas1(mAcc=0.903)上没有达到最佳的分类性能,但其性能与其他算法相似。与数据集ALL1和Gas1上的包装器和过滤器算法相比,McTwo也显示出更小的变化。只有CFS、PAM、RRF和TRank在数据集ALL1上实现了类似的低变化。数据集Mye对所有特征选择算法都具有挑战性,其中没有一个算法的性能超过0.800。所有特征选择算法都会为数据集Mye产生类似的变化。McTwo具有与FCBF相似的特征筛选大纲,但在三个调查数据集上取得了更好的分类性能。这可能是因为McTwo将分类性能作为其优化目标。

图8
图8

与其他特征选择算法相比,McTwo外部交叉验证的箱线图。比较六种包装算法CFS、FCBF、McTwo、PAM、Rfe和RRF。b条五种滤波算法McTwo、RfeRank、ROCRank、TRank和WRank的比较

还使用成对的t吨-测试以确定McTwo的性能是否优于、类似于或低于其他每个特征选择算法[48]. 结果显示在附加文件中1:表S3。对于置信水平0.95,CFS和PAM在所有数据集上的表现在统计学上显著优于McTwo。McTwo的性能与所有其他包装算法类似或略好。除了数据集Mye之外,McTwo在所有数据集上的性能都优于所有研究过的过滤算法。当选择更严格的置信水平0.99时,除数据集Mye外,没有任何特征选择算法的性能优于McTwo。CFS和PAM算法的性能优于McTwo算法,具有统计学意义。然而,McTwo仅使用CFS和PAM的三分之一的功能来实现类似或稍差的分类性能。

最佳包装器功能并不总是按过滤算法排名靠前

如图所示6,最好的McTwo模型与三种过滤器特征选择算法的性能相似或更好,但所选特征并不总是过滤器算法评估的排名靠前的特征。4总结了McTwo选择的Gastric1的4个特征和T1D的6个特征是如何通过三种过滤算法进行排序的。

表4 McTwo从三种滤波算法中选择的特征的排名

除问题216381_x_at分别被TRank、WRank和ROCRank排名为9、9和1外,McTwo选择的所有其他特征的排名均低于25,如表所示4例如,数据集Gastric1甚至在分类模型中选择了831个排名特征,总准确率为95.35%。数据集T1D具有54675个特征,基于McTwo的NN分类模型在总体精度上优于所有其他模型,如图所示6b条但这一最佳模型使用了ROCRank 54675项功能中排名52455项的功能。基于过滤算法的一种广泛使用的特征选择策略是选择顶部-K(K)排名功能,其中K(K)通常由反复试验决定。因此,这种低级别的特征通常会被任何过滤算法删除。

我们的数据表明,最好的分类模型可能会使用一些根据过滤算法排名较低的特征。这是合理的,因为过滤算法独立地评估每个特征与类标签的关联,以及顶级特征的组合第页排名特征不一定会导致具有高整体准确性的分类模型。例如,与排名靠前的功能线性相关的功能也将排名靠前。然而,这些线性相关的高等级特征的组合并不能改进基于排名靠前的特征的分类模型。与排名靠前的特征无关的排名靠后的特征可能会导致更好的分类模型。

McTwo选择特征的生物学推断

虽然McTwo选择的大多数特征在过滤算法中排名较低,但许多特征在疾病的发生和发展中具有已知的作用。例如,已知Gastric1的两个特征216381_x_at和218595_s_at与胃癌有关,如表所示4AKR7A3基因的探针216381_x_at(醛酮还原酶家族7,成员A3)参与细胞醛代谢和氧化还原的生物过程。一项独立研究观察了胃癌和对照样本之间的差异转录水平[49]. HEATR1基因(HEAT重复序列包含1)的探针218595_s_at可能在以下情况下阻止细胞凋亡并诱导胃癌幽门螺杆菌-受感染的胃上皮细胞[18].

另外两个探针209902_at和205523_at与多种癌症类型广泛相关,但它们与胃癌的关系尚需进一步研究[5055]. ATR基因的探针209902_at(共济失调-毛细血管扩张症和Rad3相关;类似于共济失调-毛细血管扩张症和Rad3相关蛋白)是一种丝氨酸/苏氨酸蛋白激酶。ATR作为DNA损伤传感器,当暴露于有害影响,如IR(电离辐射)和UV(紫外线)时,它会激活检查点信号,如BRCA1、CHEK1、MCM2、RAD17、RPA2和p53/TP53。这些条件可导致阻止DNA复制和有丝分裂,并促进DNA修复和凋亡。ATR与各种类型的癌症有关,如食管腺癌、口咽癌、子宫内膜样子宫内膜癌、乳腺癌、卵巢癌等[5053]. HAPLN1基因的探针205523_at(透明质酸和蛋白聚糖连接蛋白1)可以保持蛋白聚糖单体和透明质酸在软骨基质中的聚合。HAPLN1参与从细胞粘附到生物粘附的生物过程。已知HAPLN1与许多癌症类型相关,如食管腺癌、乳腺癌、结直肠癌和其他癌症[54,55]. 最近的一项研究表明,HAPLN1及其SP-IgV结构域的过度表达提高了恶性胸膜间皮瘤的致瘤性。因此,HAPLN1可能与癌症治疗相关[56].

McTwo选择的六个T1D特征之一,即208031_s_at,也与糖尿病的发展密切相关。RFX2基因的探针208031_s_at(调节因子X,2(影响HLA II类表达))是一种转录因子。转录激活物rfx2型可以与IL-5受体α基因启动子中的DNA结合。RFX2参与转录、转录调节和RNA代谢调节的生物过程。DREAM(用雷米普利和罗格列酮药物进行糖尿病减轻评估)研究表明,RFX2在糖尿病的发展中起着重要作用[57].

结论

本研究描述了一种新的基于MIC的包装器特征选择算法,McTwo。与现有的特征选择算法相比,McTwo获得了更好或相似的分类性能,并且与其他包装算法相比,推荐的特征数量更少。与其他滤波算法相比,使用相同数量的特征,McTwo也能获得更好或类似的性能。McTwo选择的特征可能会为进一步的实验研究带来有趣的生物学假设。

工具书类

  1. Diao G,Vidyashankar AN。评估大p小n问题的全基因组统计意义。遗传学。2013;194(3):781–3.

    第条 公共医学 公共医学中心 谷歌学者 

  2. Philip Chen CL,Zhang C-Y.数据密集型应用、挑战、技术和技术:大数据调查。信息科学。2014;275:314–47.

    第条 谷歌学者 

  3. Sommerfield RKaD公司。使用包装方法的特征子集选择:过拟合和动态搜索空间拓扑。在:KDD-95诉讼中。1995年,第192-7页。

    谷歌学者 

  4. Dash M,Liu H.分类特征选择。智能数据分析。1997;1(1):131–56.

    第条 谷歌学者 

  5. Guyon I,Elisseeff A.变量和特征选择简介。马赫学习研究杂志2003;3:1157–82.

    谷歌学者 

  6. 刘华,于磊。面向分类和聚类的特征选择算法集成。IEEE Trans-Knowl数据工程,2005;17(4):491–502.

    第条 谷歌学者 

  7. Tibshirani R,Hastie T,Narasimhan B,Chu G.通过基因表达的收缩质心诊断多种癌症类型。美国国家科学院院刊,2002年;99(10):6567–72.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  8. 邓HT,Runger G.通过正则化树进行特征选择。伊伊克恩。2012

  9. Baldi P,Long AD。微阵列表达数据分析的贝叶斯框架:基因变化的正则化t检验和统计推断。生物信息学。2001;17(6):509–19.

    第条 中国科学院 公共医学 谷歌学者 

  10. Liu WM、Mei R、Di X、Ryder TB、Hubbell E、Dee S、Webster TA、Harrington CA、Ho MH、Baid J等。用符号秩调用算法分析高密度表达微阵列。生物信息学。2002;18(12):1593–9.

  11. 瑞典JA。心理学和诊断学中的信号检测理论和ROC分析:论文集。希尔斯代尔:劳伦斯·埃尔鲍姆联合公司;1996.

    谷歌学者 

  12. 霍尔MA。离散类和数值类机器学习的基于相关性的特征选择。收录:兰利·P等人,《第17届国际计算机会议旧金山学习程序》(Proc of the 17th Intl Conf Machine Learning San Francisco)。美国加利福尼亚州旧金山:Morgan Kaufmann Publishers;2000:359-366.

  13. Xing EP,Jordan MI,Karp RM。高维基因组微阵列数据的特征选择。位于:ICML:2001,美国加利福尼亚州旧金山。Citeser:601-608。

  14. Reshef DN、Reshef YA、Finucane HK、Grossman SR、McVean G、Turnbaugh PJ、Lander ES、Mitzenmacher M、Sabeti PC。在大数据集中检测新关联。科学。2011;334(6062):1518–24.

  15. 郭鹏,罗毅,麦庚,张敏,王庚,赵敏,高磊,李芳,周芳。基于基因表达谱的银屑病分类模型。基因组学。2014;103(1):48–55.

  16. Liu Y,Li B,Tan R,Zhu X,Wang Y.一种梯度增强方法,用于筛选亲代-后代三联体中的从头突变。生物信息学。2014;30(13):1830–6.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  17. Nguyen DH、Patrick JD。监督放射学报告分类中的机器学习和主动学习。美国医学通报协会2014年;21(5):893–901.

    第条 公共医学 公共医学中心 谷歌学者 

  18. Yu C-C、Yang J-C、Chang Y-C、Chung J-G、Lin C-W、Wu M-S、Chow L-P。VCP磷酸化依赖性相互作用伙伴可防止幽门螺杆菌感染的胃上皮细胞凋亡。普洛斯一号。2013;8(1):e55724。

  19. Liu K-H,Huang D-S。使用轮换森林进行癌症分类。计算机生物医学2008;38(5):601–10.

    第条 公共医学 谷歌学者 

  20. Alon U、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine AJ。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。美国国家科学院院刊1999;96(12):6745–50.

  21. Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR、Caligiuri MA等。癌症的分子分类:通过基因表达监测进行分类发现和分类预测。科学。1999;286(5439):531–7.

  22. Shipp MA、Ross KN、Tamayo P、Weng AP、Kutok JL、Aguiar RC、Gaasenbeek M、Angelo M、Reich M、Pinkus GS等人。通过基因表达谱和监督机器学习预测弥漫性大B细胞淋巴瘤结果。《国家医学》,2002年;8(1):68–74.

  23. Singh D、Febbo PG、Ross K、Jackson DG、Manola J、Ladd C、Tamayo P、Renshaw AA、D'Amico AV、Richie JP等。基因表达与前列腺癌临床行为的相关性。癌细胞。2002;1(2):203–9.

  24. Chiaretti S、Li X、Gentleman R、Vitale A、Vignetti M、Mandelli F、Ritz J、Foa R。成人T细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的不同患者亚群。鲜血。2004;103(7):2771–8.

  25. Pomeroy SL、Tamayo P、Gaasenbeek M、Sturla LM、Angelo M、McLaughlin ME、Kim JY、Goumnerova LC、Black PM、Lau C等。基于基因表达的中枢神经系统胚胎性肿瘤预后预测。自然。2002;415(6870):436–42.

  26. Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JG、Sabet H、Tran T、Yu X等人。通过基因表达谱确定的不同类型的弥漫性大B细胞淋巴瘤。自然。2000;403(6769):503–11.

  27. 诺特曼DA、阿隆·U、西尔克AJ、莱文AJ。寡核苷酸阵列检测大肠腺瘤、腺癌和正常组织的转录基因表达谱。癌症研究,2001年;61(7):3124–30.

    中国科学院 公共医学 谷歌学者 

  28. Tian E、Zhan F、Walker R、Rasmussen E、Ma Y、Barlogie B、Shaughnessy Jr JD。Wnt-signaling拮抗剂DKK1在多发性骨髓瘤溶骨性病变发展中的作用。《新英格兰医学杂志》,2003年;349(26):2483–94.

  29. Wu YH、Grabsch H、Ivanova T、Tan IB、Murray J、Ooi CH、Wright AI、West NP、Hutchins GGA、Wu J等。综合基因组荟萃分析确定肿瘤内基质是胃癌患者生存的预测因素。内脏。2013;62(8):1100–11.

  30. Wang GS,Hu N,Yang HH,Wang LM,Su H,Wang CY,Clifford R,Dawsey EM,Li JM,Ding T等。中国高危人群贲门癌和非贲门癌全球基因表达的比较。普洛斯一号。2013;8(5):e63826。

  31. Levy H、Wang X、Kaldunski M、Jia S、Kramer J、Paveletich SJ、Reske M、Gessel T、Yassai M、Quasney MW等。转录特征作为1型糖尿病的疾病特异性和预测性炎症生物标志物。基因免疫。2012;13(8):593–604.

  32. Krug T、Gabriel JP、Taipa R、Fonseca BV、Domingues-Montanari S、Fernandez-Cadenas I、Manso H、Gouveia LO、Sobral J、Albergaria I等。TTC7B通过几种全基因组方法的融合,成为缺血性中风的新风险因素。《Cerebr Blood F Met杂志》。2012;32(6):1061–72.

  33. Irizarry RA、Hobbs B、Collin F、Beazer-Barclay YD、Antonellis KJ、Scherf U、Speed TP。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学。2003;4(2):249–64.

  34. 王玉霞,黄宏。利用表达数据重建基因网络的统计方法综述。理论生物学杂志。2014;362:53–62.

    第条 公共医学 谷歌学者 

  35. 江B、叶C、刘JS。通过动态切片进行非参数K样本测试。美国统计协会杂志2014:00-00。

  36. Yu L,Liu H.通过相关性和冗余分析进行有效的特征选择。J Mach Learn Res.2004;5:1205–24.

    谷歌学者 

  37. 统计学习理论的本质。第二版,纽约:施普林格出版社;1999

    谷歌学者 

  38. 张海。探索朴素贝叶斯最优性的条件。国际J模式识别。2005;19(2):183–98.

    第条 谷歌学者 

  39. Jason D、Rennie LS、Jaime T、David K。处理朴素贝叶斯文本分类器的错误假设。收录:Mishra TFaN编辑。第十二届国际机器学习会议(ICML):2003年8月21日至24日;华盛顿特区。AAAI出版社;2003. 616-623.

  40. Breiman L、Friedman JH、Olshen RA、Stone CJ。分类和回归树。蒙特雷:华兹华斯和布鲁克斯/科尔高级图书与软件公司;1984

    谷歌学者 

  41. Cover TM,Hart PE。最近邻模式分类。Ieee T信息理论。1967;13(1):21. -+.

    第条 谷歌学者 

  42. Cawley GC,Talbot NL.关于模型选择中的过度拟合和性能评估中的后续选择偏差。J Mach Learn Res.2010;99:2079–107.

    谷歌学者 

  43. 基于BouléM.压缩的选择性朴素贝叶斯分类器平均。J Mach Learn Res.2007;(3):1659-1685.

  44. Braga Neto UM,Dougherty ER。交叉验证对小样本微阵列分类有效吗?生物信息学。2004;20(3):374–80.

    第条 中国科学院 公共医学 谷歌学者 

  45. Ambroise C,McLachlan GJ公司。基于微阵列基因表达数据的基因提取中的选择偏差。美国国家科学院院刊,2002年;99(10):6562–6.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  46. Varma S,Simon R.使用交叉验证进行模型选择时的误差估计偏差。BMC生物信息学。2006;7:91.

    第条 公共医学 公共医学中心 谷歌学者 

  47. Guyon I,Weston J,Barnhill S,Vapnik V.使用支持向量机进行癌症分类的基因选择。马赫学习。2002;46(1-3):389–422.

    第条 谷歌学者 

  48. Demšar J.多数据集分类器的统计比较。J Mach Learn Res.2006;7:1–30.

    谷歌学者 

  49. Oh J-H,Yang JO,Hahn Y,Kim M-R,Byun S-S,Jeon Y-J,Kim J-M,Song K-S,Noh S-M,Kim S.人类胃癌的转录组分析。哺乳动物基因组。2005;16(12):942–54.

  50. Liu C-y WMC,Chen F,Ter-Minassian M,Asoming K,Zhai R,Wang Z,Su L,Heist RS,Kulke MH.食管腺癌风险的大规模遗传关联研究。致癌。2010;31(7):1259–63.

  51. Tanaka A、Weinel S、Nagy N、O'Driscoll M、Lai-Cheong JE、Kulp-Shorten CL、Knable A、Carpenter G、Fisher SA、Hiragun M.常染色体显性口咽癌综合征中ATR基因突变。美国人类遗传学杂志。2012;90(3):511–7.

  52. Zighelboim I、Schmidt AP、Gao F、Thaker PH、Powell MA、Rader JS、Gibb RK、Mutch DG、Goodfellow PJ。子宫内膜样子宫内膜癌中ATR突变与不良临床结局相关。临床肿瘤学杂志。2009;27(19):3091–6.

  53. Heikkinen K,Mansikka V,Karppinen S-M,Rapakko K,Winqvist R.乳腺癌和卵巢癌家族中ATR基因的突变分析。2005年乳腺癌研究;7(4):R495–501。

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  54. Andersson AF,Banfield JF。天然微生物群落中的病毒种群动态和获得的病毒抗性。科学。2008;320(5879):1047–50.

    第条 中国科学院 公共医学 谷歌学者 

  55. Sjöblom T、Jones S、Wood LD、Parsons DW、Lin J、Barber TD、Mandelker D、Leary RJ、Ptak J、Silliman N。人类乳腺癌和结直肠癌的共识编码序列。科学。2006;314(5797):268–74.

  56. Ivanova AV、Goparaju CM、Ivanov SV、Nonaka D、Cruz C、Beck A、Lonardo F、Wali A、Pass HI。HAPLN1及其IgV结构域在恶性胸膜间皮瘤中的致瘤作用。2009年临床癌症研究;15(8):2602–11.

  57. Bailey SD、Xie C、Do R、Montpetit A、Diaz R、Mohan V、Keavney B、Yusuf S、Gerstein HC、Engert JC。在使用雷米普利和罗格列酮药物(DREAM)进行糖尿病减轻评估的研究中,NFATC2位点的变异增加了噻唑烷二酮诱导水肿的风险。糖尿病护理。2010;33(10):2250–3.

下载参考资料

致谢

计算资源部分由中科院曙光超级计算集群提供。四位匿名审稿人的建设性意见也值得赞赏。

基金

这项工作得到了中国科学院战略优先研究计划[XDB13040400]、中国863计划[SS2015AA020109-4]、深圳市科学技术基金[JCYJ201304011411457和JCYJ22013040117030684]、深圳孔雀计划[KQCX20130628112914301和KQCX203628112914291]的支持,中国科学院人机智能协同系统重点实验室。这也得到了教育部人文社会科学基金[13YJC790105 to Y.L.]和哈佛大学博士研究基金[BSQD13050 to Y.L]的部分支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信东丽马,王国庆周凤峰.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

FZ、DM、GW、MZ和RG构思了该项目,进行了主要分析并起草了手稿。MZ、YL和RG编写了实验代码并进行了实验。QM参与了模型优化。GM和DM通过文献挖掘本研究中检测到的生物标记物的生物学知识。所有作者阅读并批准了最终手稿。

葛瑞泉、周曼丽和罗友喜是第一作者

其他文件

附加文件1:图S1。

比较两种算法McTwo和McOne的二进制分类精度Acc。图S2。McTwo、CFS、PAM和RRF四种算法的二进制分类精度Acc的比较。图S3。比较McTwo、TRank、WRank和RCORank四种算法的二进制分类精度Acc。表S1。比较两种算法McTwo和McOne的二进制分类精度Acc。表S2。McTwo与三种独立排序算法的比较。表S3。McTwo与其他特征选择算法的比较三元组的统计显著性。(PDF 931 kb)

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您对原始作者和来源给予适当的信任,提供知识共享许可的链接,并指明是否进行了更改。知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Ge,R.,Zhou,M.,Luo,Y。等。McTwo:一种基于最大信息系数的两步特征选择算法。BMC生物信息学 17, 142 (2016). https://doi.org/10.1186/s12859-016-0990-0

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12859-016-0990-0

关键词