跳到主要内容

ILRC:一种基于改进L1正则化和微阵列数据聚类的混合生物标记发现算法

摘要

背景

从基因芯片数据中发现重要的基因或蛋白质以用于疾病诊断和药物开发是一项重要任务。然而,挑战来自数据维度的诅咒。使用机器学习方法从数据中发现重要特征并建立准确的分类模型具有重要意义。

结果

在不同的公共微阵列数据集上,该方法优于已发表的高级混合特征选择方法和传统特征选择方法。此外,使用我们的方法选择的生物标记物与合作医院提供的唇腭裂临床数据相匹配。

方法

本文提出了一种基于聚类和改进的L1正则化的特征选择算法ILRC。首先对特征进行聚类,删除子簇中的冗余特征。然后使用ILR对所有剩余特征进行迭代评估。根据累积权重重排序给出了最终结果。

结论

该方法可以有效地去除冗余特征。该算法的输出具有很高的稳定性和分类精度,可以潜在地选择潜在的生物标志物。

同行评审报告

背景

微阵列数据是分析基因表达谱的宝贵工具[1]. 这类数据通常包含少量生物或临床样本和大量与目标疾病无关的基因(特征)[2]. 此外,微阵列数据显示出高度复杂性,即基因是直接或相互关联的,这导致高度冗余。这些特征使得许多机器学习算法不能胜任鲁棒性低、分类精度差的微阵列数据[]. 因此,有必要找到一种合适的方法来减少构建模型的特征数量,以提高分类精度和鲁棒性。

大量研究表明,在挖掘高维大数据集时,特征选择对于构建统计模型至关重要,特别是对于那些由微阵列和质谱分析生成的数据集[4]. 这是在生物数据中选择生物标记物的重要一步。标准特征选择方法可以分为过滤方法、包装方法和嵌入方法[5]. 几种先进的混合特征选择方法[6,7,8,9,10,11,12]已经有报道,它可以使用公共基因数据集以较少的特征实现更高的分类精度。这些方法在相关工作部分中有详细描述。

同时,蛋白质组分析的结果与基于高级质谱的高维基因表达数据存在相同的问题。许多已鉴定的蛋白质可能与疾病无关,并且彼此之间具有高度相关性。在过去的几年里,机器学习方法在处理这些基因和临床数据方面显示出了显著的优势[13,14,15]. 最近,这些方法已被优化以处理从某些疾病的质谱测定中获得的蛋白质组/代谢数据[16,17,18].

现有的研究致力于用较少的特征来提高预测模型的准确性。然而,为了发现标记物,必须强调结果的可靠性和稳定性。如果部分数据被更新或修改,并且算法选择的标记在数据集受到干扰后发生显著变化,使得原始标记对研究人员不再可靠[19]. 虽然文学[20]强调了特征稳定性的重要性,设计了一种排序算法,该方法在特征选择过程中不同时考虑结果的稳定性。

同时,在这些文献中,很少有文献解释和验证所选基因或蛋白质的临床意义。尽管分类精度很高,但先验知识或手动验证对于评估算法识别的任何生物标志物簇的生物学合理性和特异性是必要的。以甲胎蛋白(AFP)为例,它是一种众所周知的妊娠各种问题的生物标志物,如开放性神经管缺陷、腹壁缺陷和唐氏综合症[21]. 然而,脐膨出、腹裂、骶尾部畸胎瘤等患者的AFP水平也升高[22]这使得它不足以区分实际的胎儿异常。

本文提出了一种结合改进的L1正则化和基于聚类的生物标志物选择的混合方法来解决上述问题。整体框架如图所示。1该方法首先对特征进行聚类,并过滤出与每个子簇中种子节点相关性最高的部分特征。然后使用改进的L1正则化方法对每个特征的权重进行多次迭代计算,最后根据特征子集的权重对输出特征进行排序。公共数据集和一组唇腭裂疾病蛋白质组学数据(由合作医院提供,生物标记物已被验证)的结果证明了该方法的有效性。

图1
图1

提出的方法框架。该方法首先对特征进行聚类,过滤出与每个子簇中权重最高的节点高度相关的特征,然后使用改进的L1正则化方法对每个特征的权重进行多次迭代计算。最后,根据特征权重对输出特征子集进行排序

本文的贡献体现在以下几个方面:

  1. 1

    设计了一种用于生物标志物选择的混合特征选择方法。该方法在保证高准确率的同时,注重特征选择过程中结果的稳定性和有效性。

  2. 2.

    将聚类算法与过滤方法和嵌入式方法相结合,用于生物标记物选择。

  3. 三。

    比较评估微阵列数据上各种分类器的性能。

  4. 4

    介绍可用于生物标记物验证的数据集,以证明结果的有效性。

相关工作

传统的特征选择方法可以分为过滤器、包装器和嵌入式方法。通常,过滤方法不涉及分类模型。它只使用数据的内在特征来衡量重要特征得分[23]. 与其他特征选择方法相比,它具有较低的时间复杂度,允许灵活地安排与其他特征选取算法结合,以实现数据预处理、噪声去除和降维[24,25,26]. 常用的过滤方法主要包括ReliefF[27],T测试[28],卡方检验[29],和最大信息系数(MIC)[30],基尼指数[31],Kullback–Leibler散度[32],费希尔得分[33],拉普拉斯算子得分[34].

包装器方法通常添加一个分类器,该分类器涉及评估特征子集[35]. 它将分类器作为算法的一个组成部分,并根据分类器的性能评估所选特征的重要性,这通常会产生更好的模型精度。常见的包装方法包含稳定性选择[36],递归特征消除(RFE)[37],遗传算法(GA)[38],K-最近邻(KNN)[39]和粒子群优化(PSO)[40].

嵌入式方法的思想类似于包装器方法。它们都涉及分类器。然而,在嵌入式方法中,特征子集的选择直接嵌入到分类器中。换句话说,特征选择与分类器的训练同时进行。常用的嵌入式方法包括支持向量机递归特征消除(SVM-RFE)、决策树(DT)[41],随机森林算法(RF)[42]和拉索回归(LR)[43].

然而,最近的研究表明,混合特征选择方法可以同时利用滤波方法的效率优势和翘曲方法的精度优势,以获得优异的性能[44]. 此外,一些研究还发现了微阵列数据集中普遍存在的数据不平衡问题[45,46].

对于DNA的微阵列数据,Lu等人结合互信息最大化(MIM)和自适应遗传算法(AGA)提出了一种混合特征选择算法MIMAGA-selection[6]. 该方法有效地降低了原始基因表达数据集的维数,达到了消除数据冗余的目的。它使用MIM来查找同一类别中高度依赖其他基因的基因。实验结果表明,MIMAGA-Selection方法的准确性优于所选的三种现有算法,即ReliefF、顺序前向选择(SFS)和MIM。为了验证MIMAGA-Selection方法选择的基因的有效性,MIMAGAS-election的论文包括反向传播神经网络(BP)、支持向量机(SVM)、极端学习机(ELM)和正则化极端学习机器(RELM)。

Salem等人提出了一种从基因微阵列数据中寻找生物标记物的新方法,该方法结合了信息增益(IG)和用于特征选择的标准遗传算法(SGA),称为IG/SGA[7]. 信息增益用于初始特征选择,以减少冗余特征,并用于提高遗传算法的效率。然后使用遗传算法进行进一步的特征选择,最后使用遗传规划(GP)建立最终的分类模型。在所使用的七个数据集上的实验结果表明,与其他混合特征选择方法相比,本文提出的方法总体上达到了最佳的分类精度,并且在两个数据集中达到了100%的分类精度。

Alshamlan等人提出了一种新的特征选择算法,称为最小冗余最大相关(mRMR)方法,并将其与人工蜂群算法(ABC)相结合,从基因微阵列数据中筛选生物标记[8]. mRMR被用作一种滤波方法,以减少特征数量,提高ABC算法的效率。该方法使用支持向量机(SVM)作为分类器,并在五个数据集上与mRMR结合遗传算法(mRMR-GA)和mRMR联合粒子群优化算法(mRM R-PSO)进行了比较。结果表明,当使用少量特征时,mRMR-ABC方法能够提供更高的分类精度。

Jain等人将基于相关性的特征选择(CFS)与改进的二进制粒子群优化(iBPOS)相结合,提出了一种用于微阵列数据生物标记选择的两阶段混合特征选择方法[9]. 与其他先进的混合特征选择方法一样,CFS用于提高粒子群算法的性能。该方法使用贝叶斯模型作为分类器,并在11个不同的微阵列数据集上进行了实验。将该方法与一些先进的特征选择方法进行了比较,结果表明,该方法在分类精度方面总体上优于比较算法,在7个数据集上达到了100%的分类精度。

Moradi等人提出了一种基于粒子群优化(PSO)算法的混合特征选择方法[10]. 该方法的主要思想是引入局部搜索策略来指导粒子群优化算法的搜索和选择过程。对13个数据集上的五种高级特征选择方法进行了比较。结果表明,该方法能够提高分类精度,与其他方法相比具有显著优势。

Shreem等人提出了一种两阶段特征选择混合方法,用于解决微阵列数据的生物标记识别问题[11]. 该方法结合了对称不确定性(SU)和协调搜索算法(HSA),简称SU-HAS。第一步使用SU方法去除冗余特征,第二步使用HAS选择最佳特征基因。在使用10个微阵列数据的实验中,与其他先进的特征选择方法相比,该方法在五个数据集中获得了最高的分类精度。

Djellali等人研究了两种基于快速相关滤波(FCBF)算法的混合特征选择方法[12]. 第一种方法基于遗传算法(FCBF-GA),第二种方法基于粒子群优化算法(FCBB-PSO)。该方法的第一阶段使用FCBF进行特征滤波,然后将结果反馈给遗传算法或粒子群算法。使用支持向量机作为分类器,在四个微阵列数据集上对该方法进行了评估,结果表明FCBF-PSO优于FCBF-GA。

结果

在本节中,我们根据特征工程管道的处理流程展示了实验结果。在数据预处理过程中,比较了不同采样方法对非平衡数据集的影响。在特征选择过程中,我们将我们提出的方法与典型的特征选择方法进行了比较。在建模阶段,我们比较了不同分类模型的有效性。最后,在结果评估中,将该方法与先进的特征选择方法进行了比较。此外,我们还对提出的方法在唇腭裂(CLP)数据集上进行了评估。

非平衡数据集的采样结果

1显示了使用两种不同的采样方法(过采样和组合采样)对五个不平衡数据集进行采样后的结果评估。为了确保结果的可靠性,实验选择了多个分类模型并选择了相同数量的特征。这些方法包括支持向量机(SVM)、高斯贝叶斯(GB)、决策树(DT)、神经网络(NN)和K近邻(KNN)。这些分类器通常用于生物信息学分析,并已被证明具有良好的性能[47,48,49]. 可以看出,组合采样取得了最好的结果。

表1不同抽样方法对非平衡数据集的分类精度

特征选择方法的比较结果

2显示了不同分类模型在平衡数据集上的分类精度。这些方法是随机森林(RF)、线性回归模型(linear)、岭回归模型(Ridge)、改进的基于L1正则化的线性回归模型、递归特征消除(RFE)和决策树(DT)。

图2
图2

不同分类模型的分类精度。结果是所有数据集的平均值。水平轴表示所选特征的数量,垂直轴表示平均分类精度。图中的焦点区域是研究人员关注的特征数量范围

通常,在微阵列数据分析中,研究人员关注的特征数量在5到30个之间,这也是我们关注的焦点。可以看出,ILR在这方面取得了较好的效果,ILR也是我们提出的混合算法的一部分。

显示了当特征数量限制为30个时,不同方法的平均分类精度。4显示了不同指标的变化。结果表明,在感兴趣区域,评价指标能够达到稳定状态。

图3
图3

不同特征选择方法的分类精度。方框图表示交叉验证的分类精度,横轴表示所采用的特征选择方法,纵轴表示分类精度

图4
图4

不同数量特征下每个评估指标的汇总结果。水平轴表示特征数量,垂直轴表示分类准确率。b水平轴表示特征的数量,垂直轴表示召回率。c(c)水平轴表示特征数量,垂直轴表示精度。d日横轴表示特征数量,纵轴表示不同数量特征的错误发现率(FDR)和未发现率(MDR)

不同分类模型的效果评估

5显示了不同数据集上不同分类模型的平均分类精度。SVM、GB和NN能够提供良好的分类精度,适合处理微阵列数据。在本文中,我们使用SVM作为所有实验的分类器。

图5
图5

不同分类模型的分类精度。水平轴代表分类器,垂直轴代表分类准确率,每个点代表一个数据集。图中的结果是所有数据集的平均分类精度

评估建议方法ILRC的有效性

2显示了该方法与公共微阵列数据集上的高级混合特征选择算法的比较。分别对特征数量和分类精度进行了评估。可以看出,ILRC可以用较少的特征实现较高的分类精度。

表2结肠、淋巴瘤和白血病数据集与7种高级混合特征选择算法的比较

ILRC对CLP数据集的影响评估

为了验证所提出的特征选择方法在实际数据集中的性能,我们跟踪了算法中三个已知生物标记在CLP数据集中的排名。这些生物标志物已经被标记并被证实是有效的。

为了确保结果的稳定性,我们用不同的方法重复了1042个实验(与特征数量一致),并分别以每个特征对应的平均权重排名和平均频率作为最终排名。特征权重来自分类器,并在模型构建中生成。平均频率是重复实验中特征的平均出现次数。

显示了三种生物标志物在不同方法中的排名。在实验中,如果阈值设置得太小,则无法过滤冗余特征。另一方面,如果阈值设置得太大,一些重要的特征将被过滤掉。通常30%的阈值可以达到最佳效果,20–35%是建议的阈值区间。ILR是一种改进的L1正则化方法。ILRT和ILRM表示使用T检验和互信息作为预处理方法的ILR方法,RF表示随机森林,DT表示决策树。对于ILRC,我们设置了不同的权重,权重系数对应于第页%方法中与种子节点相关性最高的节点。可以看出,三种已知的生物标志物在ILRC中的排名优于其他方法。

表3不同方法对CLP数据集上特征蛋白的排序,“/”表示相应的特征在循环数内,并且该特征没有被算法选择过一次

讨论

根据表中的结果1可以看出,在数据预处理阶段,对不平衡数据集进行采样是必要的。测试了过采样和组合采样方法对分类准确性的影响[50]. 组合抽样可以显著提高不同分类模型下的分类精度。

图中比较了不同特征选择方法对多个数据集的平均分类精度。2其中ILR是我们提议的混合方法的一部分。可以看出,ILR在研究人员感兴趣的特征数量区间内取得了较高的结果。4对我们关注的特征数量内的所有结果评估不同的度量。结果表明,分类器可以在我们关注的特性数量内实现最高的评估,而包含更多特征会降低模型性能。这是因为一些不相关和冗余的特征被输入到分类器中,我们提出的方法将侧重于删除这些特征。

在图中。5,针对微阵列数据评估不同分类模型的分类性能,并为每个分类器输入由所提方法选择的15个特征。结果表明,SVM、GB和NN更适合于微阵列数据的分类任务。然而,不同数据集的结果略有不同。为了解决这个问题,可能需要进行预实验来选择适合微阵列数据集的分类器。

在表中2将我们提出的方法与已发表的高级混合特征选择方法进行了比较。ILRC的性能非常稳定,不到十个特征的准确率达到95%以上,淋巴瘤和白血病数据集的准确率为100%。尽管一些结果稍微落后于其他方法,但这些差异并不显著。总的来说,我们有理由相信ILRC可以在大多数数据集上实现出色的性能。

评估ILRC对CLP数据集的影响,其中一部分生物标记物已被临床专家标记和验证。P31946、P35968和P62258是已被验证为临床生物标志物的蛋白质,可以看出,ILRC在发现此类蛋白质方面优于一些传统的特征选择方法和基于不同过滤方法组合的ILR算法。结果表明,ILRC结果稳定,有潜力发现具有临床意义的生物标志物。

ILRC将聚类算法与混合特征选择算法(T-Test和ILR)相结合,可以有效过滤冗余特征,选择具有诊断意义的生物标志物,并确保较高的分类精度。然而,ILRC算法不涉及集成学习。通常对于特征选择任务,特别是生物标志物的选择,使用集成模型和特征排序融合技术可以提高结果的稳健性。我们将在未来的研究中关注这个方向。

结论

微阵列数据分析组织和细胞的遗传差异。在临床医学中,有效的基因选择可以大大提高疾病预测和诊断的过程。用于预测癌症类型的基因也可能为癌症的发病机制和药理学提供支持[51]. 本文提出的ILRC方法对特征进行聚类,并根据评价规则在子簇中建立种子节点。该算法删除种子节点冗余度较高的特征,并使用改进的L1正则化方法对剩余的特征子集进行评估,最后选出最佳子集。在实际数据集上的多次比较实验和验证实验证明了ILRC的准确性和稳定性,并且它有潜力发现具有临床意义的生物标记物。

在我们的研究中,我们发现由不同模型生成的特征子集可能存在较大偏差。研究人员需要一个稳定的特征子集。假设部分数据被更新或修改,算法选择的标记在数据集受到干扰后会发生显著变化。这些标记对研究人员来说可能不可靠[19]. 接下来的研究将集中于特征的稳定性和多模型特征排序融合方法。相关方法已在文献中报道[20],取得了良好的效果。此外,在未来的工作中,我们将评估相关报告对CLP数据集的影响。

方法

数据集和评估指数

本文使用了17个不同的数据集,包括17个公开可用的遗传数据集和CLP蛋白质数据集,如表所示416个公开的数据集包括弥漫性大B细胞淋巴瘤(DLBCL)[52],前列腺[53],急性淋巴细胞白血病(ALL;根据不同表型分为四个亚型)[54],中枢神经系统胚胎性肿瘤(CNS)[55],淋巴瘤(Lym)[56],腺瘤[57],冒号[58],白血病[59]、骨髓瘤[60],胃[61],冲程[62]唇腭裂(CLP)。其中,DLBCL、结肠、白血病、骨髓瘤、ALL1-4和CNS数据集不平衡。

表4本文涉及的数据集,Ratio表示数据集的不平衡比率

唇腭裂(CLP)是婴儿唇或口常见的先天性口腔面部缺陷。它是由组织和特殊细胞在唇和口(腭)形成过程中的一个失败关节引起的,这发生在怀孕的第四周到第九周之间[63]. 唇腭裂婴儿的上唇(和/或腭前部)有一个开口。在一些严重的病例中,这种裂缝甚至延伸到婴儿的鼻子。平均每700个活产婴儿中就有1个受到口唇腭裂的影响[64]. 患有这些缺陷的儿童会因感染而出现进食困难、说话困难,有时还会出现听力问题。

一般来说,这种先天性畸形可分为两种类型:一种是综合征,主要由基因突变引起,另一种是非综合征,其诱发因素更为复杂,包括基因和环境的组合,如吸烟、糖尿病、孕前和孕期使用某些药物[65,66,67,68]. 已有数百个以上的基因被映射到这些缺陷的遗传原因,这表明疾病的发展具有强大的遗传成分[69]. 然而,根本机制仍不清楚。

CLP的常规产前诊断方法是在妊娠18至20周之间通过解剖超声进行[70]. 修复手术可以在婴儿出生后和出生后的前18个月内直接进行[71]. 除了胎儿的位置和母亲的身体状况外,超声筛查中任何异常的检测灵敏度都在很大程度上取决于所使用的仪器和医学超声医生的经验。在大多数情况下,需要进行进一步的基因或生化测试以获得明确诊断。生物标志物的使用为帮助临床诊断提供了巨大的前景,有可能检测胎儿异常的早期迹象。对这些缺陷的早期诊断将使医生有一个全面的治疗计划。

在本文中,CLP数据集是临床医生标记和验证生物标记物的唯一数据集。该数据集包含60份母亲血清样本(30名患有CLP的胎儿的母亲和30名健康婴儿作为正常对照),这些样本是为本研究在妊娠22-30周期间收集的。基于iTraq的蛋白质组学分析鉴定了1042个蛋白质。这些血清样本是从一家合作医院进行产前检查的孕妇身上采集的。在质谱分析实验中,每十份血液样本混合成一份样本,因此数据集的实际样本大小只有六份。

本文将现有研究中广泛使用的准确度、准确度和召回率作为主要评估指标。我们还引入了错误发现率(FDR)和未发现率(MDR)来评估选定的特征和分类模型。fdr和mdr的估计是根据巴黎分子和细胞蛋白质组学指南分析和记录质谱数据的要求[72]. 这些评价指标在以下公式中定义,其中P(P)N个表示阳性和阴性样本的数量,TP(转移定价)TN公司表示正确预测的正负样本数,FP公司FN公司表示错误预测的正负样本数。本文中使用的评价指标计算公式为(1).

$$\begin{aligned}\begin{aligned}FDR&=\frac{FP}{TN+FP}\quad Accuracy=\frac{TP+TN}{P+N}\\MDR&=\fracc{FN}{TP+FN}\quac Precision=\frac{TP}{TP+FP}\\end{alinged}\end{aligned}$$
(1)

在本实验部分中,使用了十倍交叉验证方法,并将其平均作为最终分类精度,以确保与对比文章的实验方法一致。对于样本数较少的数据集,使用“leave-one-out”方法对这些数据进行验证和平均,以便结果最接近整个训练和测试集中的预期值。

改进的L1正则化方法

改进的L1正则化方法,也称为稳定性选择,基于采样和特征选择的组合[73]. 该方法是对L1正则化方法的补充:当L1正则方法遇到一组相关特征时,它倾向于只选择其中一个特征。稳定性选择使用随机化技术。其主要思想是对不同的数据子集和特征子集运行特征选择算法,不断重复并最终聚合特征选择结果。理想情况下,重要功能的得分接近1,不太重要的功能的得分介于0和1之间,最无用的功能的分数接近0。

L1正则化方法的一个重要特征是能够生成特征权重系数的稀疏矩阵,即某些特征的系数变为零,从而可以基于特征权重实现特征选择。因此,L1正则化通常用于高维数据的特征选择。然而,为了获得正确的结果,L1正则化方法需要数据空间满足特定条件。此外,如果特征之间存在高相关性,L1正则化方法很容易失真,从而难以实现高分类精度。L1正则化方法对正则项系数α也非常敏感,因此选择正确的参数至关重要。面对高维小样本数据时,L1正则化方法选择的特征数量小于\(\分钟(n,p)\)这导致通过估计获得的参数不太稳定和可重复[74].

改进的L1正则化算法的核心思想是首先进行随机采样,然后使用特征选择模型对选择进行评估[75]. 当特征对应系数非零时,该特征被认为是被选中的。该算法将上述过程重复数次,以获得每个选定特征的频率,并选择频率较高的特征作为最终选择结果。根据改进的L1正则化框架,不难看出,它允许根据样本空间选择合适的方法,这也使得稳定性选择框架具有更广泛的应用场景。同时,稳定性选择削弱了最终结果对正则化系数的敏感性\(\字母\),大大减少了工作量;稳定性选择能够有效地控制误报,特别是在高维小样本数据上,这种优势更加明显。

K-均值聚类法

从聚类的角度来看,删除不相关的特征不会对聚类精度产生负面影响,并且可以减少所需的存储和计算时间。因此,聚类算法常被用作特征选择前去除冗余特征的预处理方法之一[76]. 对于样本集\(D=\left\{x{1},x{2},x{3},\ldots,x{m}\right\}\),K-means算法是最小二乘误差E类用于群集分区\(C=\left\{C_{1},C_{2},\ldots,C_}k}\right\}\)如公式(2).

$$\开始{aligned}E=\sum_{i=1}^{k}\sum_{x\在C_{i}}\left\|x-\mu_{i{}\right\|_{2}^{2}\end{aligned}中$$
(2)

哪里\(u_{i}=\frac{1}{\left|C_{i{\right|}\sum_{x\在C_{i}}x\中)是平均值的向量\(C_i\).

方程式(2)描述了围绕簇平均向量的簇内样本的贴近度E类值,则簇内样本的相似性越大。

改进的基于L1正则化聚类的特征选择方法(ILRC)

本小节提出了一种用于生物标志物发现的混合特征选择方法,即改进的基于L1正则化聚类(ILRC)的方法。该方法使用T检验和改进的L1正则化(ILR)方法作为混合特征选择方法,并将改进的K-Means聚类算法结合到ILR中[77]. 实验结果表明,与大多数传统特征选择方法和一些先进的混合算法相比,该方法可以获得更高的分类精度。此外,CLP数据集实验表明,添加K-means可以有效提高所选特征的临床可解释性。

算法的总体流程如图所示。6在ILRC中,首先使用K-means(聚类数)对数据进行聚类(k个)使用弯头方法确定[78]. 原始数据集分为k个子数据集(集群),因此每个集群的功能都是相似的。对于每个集群第页使用T-Test方法计算每个特征(节点)的值。对于每个功能\(x_i\),其第页该值的计算公式为().

$$\开始{aligned}P=\frac{{bar{X}}_{1}-{\bar{X}}_{2}}{\sqrt{frac{左(n_{1}-1\右)S_{1}^{2}+\左(n_{2}-1\右)S_{2}^{2}}{n{1}+n_{2}-2}\左(\frac{1}{n{1}}+\frac{1'{n{2}}\right)}}\end{aligned}$$
(3)

哪里\(S_1^2\)\(S_2^2\)是对应于相同特征的两个样本方差;\(n_1)\(氮气)是对应于同一特征的两个样本容量,\({\bar{X}}=\frac{\sum_{i=1}^{n}X{i}}{n},i=1\ldotsn\).

然后根据节点的第页值,具有最小值的节点第页值被定义为种子节点,并计算剩余节点和种子节点之间的皮尔逊相关系数。相关系数按降序和顶部排序第页%除去种子节点以外的节点。此步骤的目的是删除每个集群中与种子节点高度相关的节点。每个集群中的其余功能用于形成新的数据集\(D^*\)然后将改进的L1正则化方法应用于\(D ^*\).考虑到方法的随机性:对于样本数为的数据集n个,实验重复n个特征选择和统计合并了每个特征的权重和每个特征的出现次数,作为最终的特征选择结果。该过程如算法1所示。

图a
图6
图6

ILRC特征选择过程。在预处理输入数据后,执行聚类操作。聚类后,通过T检验对特征进行排序,并选择种子节点。然后评估剩余节点和种子节点之间的相关性,并删除冗余特征。最后,使用ILR评估剩余特征的权重,重复实验,并按照特征的顺序输出结果

该方法可以有效地去除冗余特征。在CLP数据集的实验中,我们在一个簇中去除了以下蛋白质:P37837、P40197、A0AUP5、B2R701。通过审查UniProt的相关信息,我们没有发现任何信息表明这些蛋白与CLP的临床诊断相关,为了临床诊断冗余,将该集群中的这些蛋白删除。

数据和材料的可用性

我们实验中使用的公共数据集来自GEO(基因表达综合数据库)数据库,可通过以下网站获取:https://www.ncbi.nlm.nih.gov/geo网站用于支持本研究结果的患者群体数据尚未提供,因为这些数据是由医院根据许可证提供的,因此无法免费提供。应向相应作者请求访问这些数据。我们的代码和公共数据集位于https://github.com/xwdshiwo.

缩写

ILRC公司:

改进的L1正则化和聚类

法新社:

甲胎蛋白

投标邀请书:

递归特征消除

通用航空:

遗传算法

KNN公司:

K-最近邻

采购订单:

粒子群优化

日期:

决策树

射频:

随机森林

左后:

拉索回归

最小值:

相互信息最大化

AGA公司:

自适应遗传算法

SFS公司:

顺序正向选择

ELM公司:

Exterme学习机

主风险管理报告:

最小冗余最大相关性

SU公司:

对称不确定性

HSA公司:

和谐搜索算法

CLP公司:

唇腭裂

工具书类

  1. 王明,徐忠,丁阿,孔毅。烟草木葡聚糖内切葡糖苷酶/水解酶基因家族的全基因组鉴定和表达谱分析(烟草l.)。基因。2018;9(6):273.

    第条 公共医学中心 中国科学院 谷歌学者 

  2. 罗凯,王刚,李强,陶杰。基于\(F\)-统计学和mPDC用于癌症分类中的基因选择。IEEE接入。2019;7:147617–28.

  3. Ayyad SM、Saleh AI、Labib LM。使用改进的K-最近邻技术对基因表达癌症进行分类。2019年生物系统展;176:41–51.

  4. Saeys Y,Inza I,Larrañaga P。生物信息学中特征选择技术综述。生物信息学。2007;23:2507–17.

    第条 中国科学院 公共医学 谷歌学者 

  5. Bolón-Canedo V、Sánchez-Marono n、Alonso-Betanzos A、Benítez JM、Herrera F。微阵列数据集和应用特征选择方法综述。信息科学。2014;282:111–35.

    第条 谷歌学者 

  6. Lu H,Chen J,Yan K,Jin Q,Xue Y,Gao Z.一种用于基因表达数据分类的混合特征选择算法。神经计算。2017;256:56–62.

    第条 谷歌学者 

  7. Salem H,Attiya G,El-Fishawy N.通过基因表达谱对人类癌症疾病进行分类。应用软计算。2017;50:124–34.

    第条 谷歌学者 

  8. Alshamlan H,Badr G,Alohali Y.mRMR ABC:一种使用微阵列基因表达谱进行癌症分类的混合基因选择算法。生物识别研究国际2015;2015:604910.

    第条 公共医学 公共医学中心 中国科学院 谷歌学者 

  9. Jain I,Jain VK,Jain R.基于相关特征选择的改进二进制粒子群优化用于基因选择和癌症分类。应用软计算。2018;62:203–15.

    第条 谷歌学者 

  10. Moradi P,Gholampour M.通过集成一种新的局部搜索策略实现特征子集选择的混合粒子群优化。应用软计算。2016;43:117–30.

    第条 谷歌学者 

  11. Shreem SS、Abdullah S、Nazri MZA。使用对称不确定性和和声搜索算法的混合特征选择算法。国际系统科学杂志。2016;47(6):1312–29.

    第条 谷歌学者 

  12. Djellali H,Guessoum S,Ghoualmi Zine N,Layachi S。结合遗传算法和粒子群的快速相关滤波器进行特征选择。2017年第五届电气工程国际会议——布默德斯(ICEE-B)。IEEE;2017年,第1-6页。

  13. Hoeller S、Papaxantos L、Gumpinger AC、Fischer K、Beisel C、Borgwardt K、Benenson Y、Jeschek M。基于大规模DNA的表型记录和深度学习能够实现高度准确的序列功能映射。bioRxiv(2020)。

  14. Liang L、Rasmussen M-LH、Piening B、Shen X、Chen S、Röst H、Snyder JK、Tibshirani R、Skotte L、Lee NC等。孕妇的代谢动力学和孕龄及分娩时间预测。单元格。2020;181(7):1680–92.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  15. Chierici M、Bussola N、Marcolini A、Francescatto M、ZandonáA、Trastulla L、Agostinelli C、Jurman G、Furlanello C。集成网络融合:分子剖析中的多组学方法。bioRxiv(2020)。

  16. Norman KC、O'Dwyer DN、Salisbury ML、DiLillo KM、Lama VN、Xia M、Gurczynski SJ、White ES、Flaherty KR、Martinez FJ等。识别与IPF进展相关的血液和BAL中的独特时间特征。科学报告2020;10(1):1–15.

    第条 中国科学院 谷歌学者 

  17. Huang L,Wang L,Hu X,Chen S,Tao Y,Su H,Yang J,Xu W,Vedarethinam V,Wu S,等。血清代谢模式的机器学习编码早期肺腺癌。国家公社。2020;11(1):1–11.

    中国科学院 谷歌学者 

  18. Han C-L,Sheng Y-C,Wang S-Y,Chen Y-H,Kang J-H。血清蛋白质组分析揭示了女性纤维肌痛综合征相关的失调蛋白和机制。科学报告2020;10(1):1–11.

    中国科学院 谷歌学者 

  19. Pd A,Mg B,Lv A。使用选举方法和等级聚类进行集成特征选择。信息科学。2019;480:365–80.

    第条 谷歌学者 

  20. Kolde R,Laur S,Adler P,Vilo J.基因列表整合和荟萃分析的稳健秩聚合。生物信息学。2012;4:573.

    第条 中国科学院 谷歌学者 

  21. Chen Y,Wang X,Lu S,Huang J,Zhang L,Hu W.孕妇血清α-脂肪蛋白变体(AFP-L2和AFP-L3)预测胎儿开放性神经管缺陷和腹壁缺陷的诊断准确性。临床化学学报。2020;507:125–31.

    第条 中国科学院 公共医学 谷歌学者 

  22. Harrison MR、Adzick NS。胎儿作为病人。手术注意事项。Ann Surg,1991年;213(4):279.

  23. Kavitha K,Prakasan A,Dhrishya P.癌症分类基因表达数据的基于评分的特征选择。2020年第四届计算方法与通信国际会议(ICCMC)。IEEE;2020年,第261-266页。

  24. Hsu H-H,Hsieh C-W,Lu M-D。组合滤波器和包装器的混合特征选择。专家系统应用。2011;38(7):8144–50.

    第条 谷歌学者 

  25. 陈杰,宋A,张伟。基于ReliefF和FCBF的杂交基因选择新方法。国际J数字内容技术应用。2011;5(10):404–11.

    谷歌学者 

  26. Zhang Y,Ding C,Li T.ReliefF和MRMR相结合的基因选择算法。BMC基因组学。2008;9(S2):27。

    第条 中国科学院 谷歌学者 

  27. Kononenko I,Šimec E,Robnik-Šikonja M.用ReliefF克服归纳学习算法的短视性。应用智能。1997;7(1):39–55.

    第条 谷歌学者 

  28. Zhou N,Wang L.一种改进的t检验特征选择方法及其在HapMap基因型数据中的应用。基因组蛋白质组学生物信息。2007;5(3–4):242–9.

    第条 谷歌学者 

  29. Liu H,Setiono R.Chi2:数字属性的特征选择和离散化。收录:第七届IEEE人工智能工具国际会议论文集。IEEE;1995年,第388-391页。

  30. Lin C,Miller T,Dligach D,Plenge R,Karlson E,Savova G。临床文档分类特征选择的最大信息系数。In:ICML临床数据机器学习研讨会。爱丁堡,2012年。

  31. Raileanu LE,Stoffel K。基尼指数和信息获取标准之间的理论比较。《数学年鉴》。2004;41(1):77–93.

    第条 谷歌学者 

  32. Hall M.Smith L.机器学习的实用特征子集选择。摘自:第21届澳大利亚计算机科学会议论文集;1996年,第98卷。

  33. 顾Q,李忠,韩J.特征选择的广义fisher评分。arXiv预印本arXiv:1202.3725(2012).

  34. He X、Cai D、Niyogi P.Laplacian对特征选择进行评分。神经信息处理系统的进展;2005年,第18卷。

  35. Wang A,An N,Yang J,Chen G,Li L,Alterovitz G.基于马尔可夫毯的包装基因选择。计算机生物医学。2017;81:11–23.

    第条 中国科学院 公共医学 谷歌学者 

  36. Haury A-C、Mordelte F、Vera-Licona P、Vert J-P。TIGRESS:利用稳定性选择对基因调控进行可信推断。BMC系统生物。2012;6(1):145.

    第条 公共医学 公共医学中心 谷歌学者 

  37. Yan K,Zhang D.采用递归特征消除法对相关气体传感器数据进行特征选择和分析。传感器执行器B化学。2015;212:353–63.

    第条 中国科学院 谷歌学者 

  38. Li X,Xiao N,Claramunt C,Lin H.提高p-中值问题遗传算法性能的初始化策略。计算工业工程2011;61(4):1024–34.

    第条 谷歌学者 

  39. Kar S,Sharma KD,Maitra M.从微阵列基因表达数据中进行基因选择,以利用PSO和自适应k最近邻技术对癌症亚组进行分类。专家系统应用。2015;42(1):612–27.

    第条 谷歌学者 

  40. Trelea IC公司。粒子群优化算法:收敛性分析和参数选择。Inf过程许可。2003;85(6):317–25.

    第条 谷歌学者 

  41. Stein G、Chen B、Wu AS、Hua KA。基于GA特征选择的网络入侵检测决策树分类器。附:第43届东南地区年会会议记录第2卷;2005年,第136-141页。

  42. Chen K-H,Wang K-J,Tsai M-L,Wang K-M,Adrian AM,Cheng W-C,Yang T-S,Teng N-C,Tan K-P,Chang K-S。癌症识别的基因选择:由粒子群优化算法授权的决策树模型。BMC生物信息。2014;15(1):49.

    第条 谷歌学者 

  43. Fonti V,Belitser E.使用套索进行特征选择。VU Amst Res纸质总线分析。2017;30:1–25.

    谷歌学者 

  44. Almugren N,Alshamlan H。癌症分类微阵列基因表达数据中混合特征选择方法的调查。IEEE接入。2019;7:78533–48.

    第条 谷歌学者 

  45. Yan X,Nazmi S,Erol BA,Homaifar A,Gebru B,Tunstel E。通过特征聚类的高效无监督特征选择程序。模式识别快报。2020;131:277–84.

    第条 谷歌学者 

  46. 朱鹏,徐强,胡强,张C.共同规范无监督特征选择。神经计算。2018;275:2855–63.

    第条 谷歌学者 

  47. Hasan MM、Basith S、Shamima KM、Lee G、Kurata H.Meta-i6mA:鉴定DNA的种间预测因子\(N^6\)-植物基因组的甲基腺嘌呤位点,在综合机器学习框架中利用信息特征。生物信息简介。2020;22时:bbaa202。

  48. Mehedi HM、Nalini S、Shaherin B、Gwang L、Watshara S、Balachandran M.HLP红细胞融合:通过融合多个特征表示,对溶血肽及其活性进行改进和稳健的预测。生物信息学。2020;36(11):3350–6.

    第条 中国科学院 谷歌学者 

  49. Mehedi HM、Ashad AM、Watshara S、Deng HW、Balachandran M、Hiroyuki K.NeuroPred-FRL:一个可解释的预测使用特征表示学习识别神经肽的模型。简要生物信息。2021https://doi.org/10.1093/bib/bbab167.

  50. 钟磊,高旭,王忠。一种新的基于k-均值的非平衡数据集改进Somte算法。数学实践理论。2015;45:198–206.

    谷歌学者 

  51. Golub TR,Slonim DK,Tamayo P,Huard C,Lander ES。癌症的分子分类:通过基因监测进行分类发现和分类预测。科学。1999;286(5439):531–7.

    第条 中国科学院 公共医学 谷歌学者 

  52. Shipp MA、Ross KN、Tamayo P、Weng AP、Kutok JL、Aguiar RC、Gaasenbeek M、Angelo M、Reich M、Pinkus GS等。通过基因表达谱和监督机器学习预测弥漫性大b细胞淋巴瘤结果。《国家医学杂志》,2002年;8(1):68–74.

    第条 中国科学院 公共医学 谷歌学者 

  53. Singh D、Febbo PG、Ross K、Jackson DG、Manola J、Ladd C、Tamayo P、Renshaw AA、D'Amico AV、Richie JP等。基因表达与前列腺癌临床行为的相关性。癌细胞。2002;1(2):203–9.

    第条 中国科学院 公共医学 谷歌学者 

  54. Chiaretti S、Li X、Gentleman R、Vitale A、Vignetti M、Mandelli F、Ritz J、Foa R。成人t细胞急性淋巴细胞白血病的基因表达谱确定了对治疗和生存有不同反应的不同患者亚群。鲜血。2004;103(7):2771–8.

    第条 中国科学院 公共医学 谷歌学者 

  55. Pomeroy SL、Tamayo P、Gaasenbeek M、Sturla LM、Angelo M、McLaughlin ME、Kim JY、Goumnerova LC、Black PM、Lau C等。基于基因表达的中枢神经系统胚胎性肿瘤预后预测。自然。2002;415(6870):436–42.

    第条 中国科学院 公共医学 谷歌学者 

  56. Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JC、Sabet H、Tran T、Yu X等。通过基因表达谱确定的不同类型的弥漫性大b细胞淋巴瘤。自然。2000;403(6769):503–11.

    第条 中国科学院 公共医学 谷歌学者 

  57. 诺特曼DA、阿隆·U、西尔克AJ、莱文AJ。寡核苷酸阵列检测大肠腺瘤、腺癌和正常组织的转录基因表达谱。2001年癌症研究;61(7):3124–30.

    中国科学院 公共医学 谷歌学者 

  58. Alon U、Barkai N、Notterman DA、Gish K、Ybara S、Mack D、Levine AJ。寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示了广泛的基因表达模式。国家科学院院刊。1999;96(12):6745–50.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  59. Golub T.R、Slonim D.K、Tamayo P、Huard C、Gaasenbeek M、Mesirov J.P、Coller H、Loh M.L、Downing J.R、Caligiuri M.A等。癌症的分子分类:通过基因表达监测进行类别发现和预测。科学。1999;286(5439):531–7.

    第条 中国科学院 公共医学 谷歌学者 

  60. Tian E,Zhan F,Walker R,Rasmussen E,Ma Y,Barlogie B,Shaughnessy JD Jr.Wnt-signaling拮抗剂DKK1在多发性骨髓瘤溶骨性病变发展中的作用。《新英格兰医学杂志》,2003年;349(26):2483–94.

    第条 中国科学院 公共医学 谷歌学者 

  61. Wu Y、Grabsch H、Ivanova T、Tan IB、Murray J、Ooi CH、Wright AI、West NP、Hutchins GG、Wu J等。综合基因组荟萃分析确定肿瘤内基质是胃癌患者生存的预测因素。内脏。2013;62(8):1100–11.

    第条 中国科学院 公共医学 谷歌学者 

  62. Krug T、Gabriel JP、Taipa R、Fonseca BV、Domingues Montanari S、Fernandez Cadenas I、Manso H、Gouveia LO、Sobral J、Albergaria I等。通过几种全基因组方法的融合,Ttc7b成为缺血性中风的一种新的风险因素。脑血流代谢杂志。2012;32(6):1061–72.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  63. 对于疾病控制C,预防等。关于唇裂和腭裂的事实。CDC.gov公司(http://www.cdc.gov/ncbddd/birthdefects/cleftlip.html). 2017年2月14日(2014年)查阅。

  64. Reynolds K、Kumari P、Rincon LS、Gu R、Ji Y、Kumar S、Zhou CJ。口面部裂中的Wnt信号:串话、发病机制和模型。疾病模型力学。2019;12(2):dmm037051。

    第条 中国科学院 谷歌学者 

  65. Honein M、Rasmussen S、Reefhuis J、Moore C、Romitti P、Correa A、Watkins M、Lammer E。孕妇吸烟、环境吸烟和口腔裂伤风险。《美国流行病学杂志》。2004;159:8.

    谷歌学者 

  66. Correa A、Gilboa SM、Besser LM、Botto LD、Moore CA、Hobbs CA、Cleves MA、Riehle-Colarusso TJ、Waller DK、Reece EA等。糖尿病和出生缺陷。美国妇产科学杂志。2008;199(3):237-e1。

    第条 中国科学院 谷歌学者 

  67. Margulis AV、Mitchell AA、Gilboa SM、Werler MM、Mittleman MA、Glynn RJ、Hernandez-Diaz S、Study NBDP。妊娠期使用托吡酯与口腔裂的风险。美国妇产科学杂志。2012;207(5):405-e1。

    第条 中国科学院 谷歌学者 

  68. Werler MM、Ahrens KA、Bosco JL、Mitchell AA、Anderka MT、Gilboa SM、Holmes LB、Study TNBDP。妊娠期使用抗癫痫药物与出生缺陷风险的关系。流行病学年鉴。2011;21(11):842–50.

    第条 公共医学 公共医学中心 谷歌学者 

  69. Worley ML、Patel KG、Kilpatrick LA。唇腭裂。临床围产期。2018;45(4):661–78.

    第条 公共医学 谷歌学者 

  70. Reynolds K、Zhang S、Sun B、Garland MA、Ji Y、Zhou CJ。口面部裂的遗传学和信号机制。出生缺陷研究2020;112:1588–634.

    第条 中国科学院 公共医学 谷歌学者 

  71. Khan MHR,Bhadra A,Howlader T.用AFT模型实现套索、屋脊和弹性网的稳定性选择[J]。统计应用基因分子生物学。2019;18(5).https://doi.org/10.1515/sagmb-2017-0001

  72. 布拉德肖RA。报告下一代指南中的蛋白质鉴定数据。分子细胞蛋白质组学。2006;5(5):787–8.

    第条 中国科学院 公共医学 谷歌学者 

  73. Meinshausen N,Bühlmann P.稳定性选择。J R Stat Soc系列B Stat方法。2010;72(4):417–73.

    第条 谷歌学者 

  74. Guo S,Guo D,Chen L,Jiang Q.微阵列数据局部降维的L1规则化特征选择方法。计算机生物化学。2017;67:92–101.

    第条 中国科学院 公共医学 谷歌学者 

  75. Zhou Y,Rong J,Steven H.多任务功能选择专用套索。J Mach学习研究-JMLR。2010;9:988–995.

  76. Chormunge S,Jena S.基于相关性的特征选择与高维数据的聚类。电子系统信息技术杂志。2018;5(3):542–9.

    第条 谷歌学者 

  77. Witten DM,Tibshirani R.聚类中的特征选择框架。美国统计协会杂志,2010;105(490):713–26.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  78. Bholowalia P,Kumar A.EBK-Means:WSN中基于肘部方法和K-Means的聚类技术。国际J计算应用。2014;105(9):17–24.

下载参考资料

致谢

不适用。

基金

本研究得到了国家自然科学基金(No.U1708261)、中央高校基本科研业务费专项资金(N2016006)和沈阳医学影像处理工程技术研究中心(17-134-8-00)的资助。

作者信息

作者和附属机构

作者

贡献

KY提出了实验想法,评估了实验数据,并起草了手稿。WDX设计实验程序收集数据,并协助撰写手稿。LJW提出了文章的总体结构,并补充了实验图表。WL修改手稿并评估数据。所有作者阅读并批准了最终手稿。

通讯作者

与的通信魏丽.

道德声明

道德批准和参与同意

不适用。

出版同意书

不适用。

竞争性利益

作者声明,他们没有相互竞争的利益。

其他信息

出版说明

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文是根据Creative Commons Attribution 4.0国际许可证授权的,该许可证允许以任何媒体或格式使用、共享、改编、分发和复制,只要您对原始作者和来源给予适当的信任,提供指向Creative Commons许可证的链接,并指出是否进行了更改。本文中的图像或其他第三方材料包含在文章的Creative Commons许可证中,除非材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可证中,并且您的预期用途不受法定法规允许或超过了允许的用途,则您需要直接获得版权持有人的许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by/4.0/知识共享公共领域专用豁免(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非数据的信贷额度中另有规定。

转载和许可

关于本文

检查更新。通过CrossMark验证货币和真实性

引用这篇文章

Yu,K.,Xie,W.,Wang,L。等。ILRC:一种基于改进的L1正则化和微阵列数据聚类的混合生物标记发现算法。BMC生物信息学 22, 514 (2021). https://doi.org/10.1186/s12859-021-0443-7

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/s12859-021-0443-7

关键词