×

支持向量的重要变量的递归特征选择。 (英语) Zbl 1401.92146号

摘要:DNA微阵列的发展使研究人员能够同时筛选数千个基因,也有助于确定正常组织和疾病组织中的高表达和低表达基因。选择癌症分类的相关基因是一个重要问题。大多数基因选择方法使用单变量排序标准,并任意选择阈值来选择基因。但是,参数设置可能与选定的分类算法不兼容。在本文中,我们提出了一种新的基因选择方法(SVM-t),该方法基于嵌入在支持向量机中的t-统计量。我们比较了两种类似的基于SVM的方法:SVM递归特征消除(SVMRFE)和递归支持向量机(RSVM)的性能。基于广泛的模拟实验和对两个已发表的微阵列数据集的分析,对这三种方法进行了比较。在模拟实验中,我们发现,与SVMRFE和RSVM相比,该方法在选择信息基因方面更稳健,并且在信息基因和非信息基因的变异不同时能够获得良好的分类性能。在两个微阵列数据集的分析中,与SVMRFE和RSVM相比,该方法在识别较少的基因方面具有更好的性能,具有良好的预测准确性。

MSC公司:

92D10型 遗传学和表观遗传学
92 C50 医疗应用(通用)
62页第10页 统计学在生物学和医学中的应用;元分析
68T05年 人工智能中的学习和自适应系统

软件:

GeneSrF公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] T.R.Golub,D.K.Slonim,P.Tamayo等人,“癌症的分子分类:通过基因表达监测进行分类发现和分类预测”,《科学》,第286卷,第5439期,第531-537页,1999年·doi:10.1126/science.286.5439.531
[2] T.S.Furey、N.Cristianini、N.Duffy、D.W.Bednarski、M.Schummer和D.Haussler,“使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证”,《生物信息学》,第16卷,第10期,第906-914页,2000年。
[3] T.Li、C.Zhang和M.Ogihara,“基于基因表达的组织分类的特征选择和多类别分类方法的比较研究”,生物信息学,第20卷,第15期,第2429-2437页,2004年·doi:10.1093/bioinformatics/bth267
[4] Y.W.Chen和C.J.Lin,“将SVM与各种特征选择策略相结合”,摘自《特征提取、模糊性和软计算研究》,第315-324页,Springer出版社,2006年。
[5] P.Roepman,L.F.A.Wessels,N.Kettelarij等人,“原发性头颈鳞癌淋巴结转移诊断的表达谱”,《自然遗传学》,第37卷,第2期,第182-186页,2005年·数字对象标识代码:10.1038/ng1502
[6] M.W.Mark和S.Y.Kung,“两两评分技术中维度诅咒问题的解决方案”,《神经信息处理国际会议论文集》,第314-323页,2006年。
[7] P.Pavlidis、J.Cai、J.Weston和W.N.Grundy,“异质数据的基因功能分类”,《第五届国际计算生物学年会论文集》(RECOMB'01),第249-255页,2001年5月。
[8] L.Yu和H.Liu,“通过相关性和冗余分析进行有效特征选择”,《机器学习研究杂志》,第5卷,第1205-1224页,2004年·Zbl 1222.68340号
[9] M.West,C.Blanchette,H.Dressman等人,“利用基因表达谱预测人类乳腺癌的临床状态”,《美国国家科学院学报》,第98卷,第20期,第11462-11467页,2001年·doi:10.1073/pnas.201162998
[10] R.Díaz-Uriarte和S.Alvarez de AndréS,“使用随机森林对微阵列数据进行基因选择和分类”,BMC生物信息学,第7卷,第3条,2006年·doi:10.1186/1471-2105-7-3
[11] A.Sharma、S.Imoto、S.Miyano和V.Sharma,“基因表达数据基于零空间的特征选择方法”,《国际机器学习和控制论杂志》。新闻界。 ·doi:10.1007/s13042-011-0061-9
[12] A.Sharma、S.Imoto和S.Miyano,“微阵列基因表达数据的Top-r特征选择算法”,IEEE/ACM计算生物学和生物信息学汇刊,第9卷,第3期,第745-7642012页。
[13] Y.Saeys、I.Inza和P.Larrañaga,“生物信息学特征选择技术综述”,《生物信息学》,第23卷,第19期,第2507-2517页,2007年·doi:10.1093/bioinformatics/btm344
[14] N.Cristianini和J.Shawe-Taylor,《支持向量机导论》,剑桥大学出版社,美国马萨诸塞州剑桥市,1999年·Zbl 0994.68074号
[15] M.P.S.Brown,W.N.Grundy,D.Lin等人,“使用支持向量机对微阵列基因表达数据进行基于知识的分析”,《美国国家科学院学报》,第97卷,第1期,第262-267页,2000年·doi:10.1073/pnas.97.1.262
[16] I.Guyon、J.Weston、S.Barnhill和V.Vapnik,“使用支持向量机进行癌症分类的基因选择”,《机器学习》,第46卷,第1-3期,第389-4222002页·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[17] X.Zhang,X.Lu,Q.Shi等人,“用于质谱和微阵列数据的递归SVM特征选择和样本分类”,BMC生物信息学,第7卷,第197条,2006年·doi:10.186/1471-2105-7-197
[18] K.B.Duan、J.C.Rajapakse、H.Wang和F.Azuaje,“利用表达数据在癌症分类中进行基因选择的多重SVM-RFE”,IEEE纳米生物科学汇刊,第4卷,第3期,第228-233页,2005年·doi:10.1109/TNB.2005.853657
[19] D.G.Beer,S.L.R.Kardia,C.C.Huang等人,“基因表达谱预测肺腺癌患者的生存率”,《自然医学》,第8卷,第8期,第816-8242002页·数字对象标识代码:10.1038/nm733
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。