×

衍生人工基因以提高基因选择时的分类准确性。 (英语) Zbl 1244.92044号

摘要:自1936年以来,分类分析一直在不断发展。由于KNN、ANN和SVM等分类器的发展,以及通过数据预处理领域,这一研究领域取得了进步。在分类工作之前,需要对非常高维的数据(如微阵列)进行特征(基因)选择。特征选择的目标是选择信息特征子集,以减少处理时间并提供更高的分类精度。我们为微阵列数据设计了一种人工基因生成(AGM)方法,以提高分类准确性。我们的人工基因来源于整个微阵列数据集,并结合基因选择结果进行分类分析。我们实验证实,插入人工基因后,分类准确度有了明显提高。我们的人工基因在流行的特征(基因)选择算法和分类器中运行良好。该方法可以应用于任何类型的高维数据集。

MSC公司:

92天10分 遗传学和表观遗传学
62H30型 分类和区分;聚类分析(统计方面)
92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 本吉奥,Y。;Grandvalet,Y.,《K倍交叉验证方差的无偏估计》,《机器学习研究杂志》,5,1089-1105(2004)·Zbl 1222.68145号
[2] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[3] Chang,C.,Lin,C.LIBSVM-支持向量机库。网址:http://www.csie.ntu.edu.tw/∼;cjlin/libsvm/;Chang,C.,Lin,C.LIBSVM-支持向量机库。网址:http://www.csie.ntu.edu.tw/∼;cjlin/libsvm/
[4] 盖,T。;Hart,P.,最近邻模式分类,IEEE Transactions(1967)·Zbl 0154.44505号
[5] Devijver;Kittler,《模式识别:统计方法》(1982),普伦蒂斯·霍尔:普伦蒂斯霍尔伦敦·Zbl 0542.68071号
[6] 丁,C。;Peng,H.,从微阵列基因表达数据中选择最小冗余特征,(IEEE计算机学会生物信息学会议论文集(2003),IEEE计算机协会),523页
[7] Fukunaga,K.,《统计模式识别导论》(1990),学术出版社:纽约学术出版社·Zbl 0711.62052号
[8] Golub,T.R。;Slonim,D.K。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.P。;科勒,H。;Loh,M.L。;唐宁,J.R。;Caligiuri,医学硕士。;布鲁姆菲尔德,哥伦比亚特区。;Lander,E.S.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,2865439531(1999)
[9] Gorman,R.P。;Sejnowski,T.J.,《训练用于分类声纳目标的分层网络中隐藏单元的分析》,神经网络,175-89(1988)
[10] Hoshida,Y。;布鲁内特,J.P。;Tamayo,P。;Golub,T.R。;Mesirov,J.P.,《子类映射:识别独立疾病数据集中的常见亚型》,《公共科学图书馆·综合》,第2期,第11期,第1195页(2007年)
[11] Hoshida,Y.,《最近模板预测:基于单样本的灵活类预测与置信度评估》,《公共科学图书馆·综合》,5,11,e15543(2010)
[12] Lachenbruch,P.A。;Goldstein,M.,判别分析,生物统计学,35,1(1979)·Zbl 0404.62033号
[13] Lee,J.,Nomin,B.,Oh,S.RFS:基于R值的高效特征选择方法。生物学和医学计算机,提交出版。;Lee,J.,Nomin,B.,Oh,S.RFS:基于R值的高效特征选择方法。生物学和医学计算机,提交出版。
[14] 梁,J。;Yang,S。;Winstanley,A.,《不变最优特征选择:基于距离判别和特征排名的解决方案》,模式识别,41429-1439(2008)·Zbl 1140.68470号
[15] Notterman1,D.A。;阿龙,美国。;Sierk,A.J。;Levine,A.J.,通过寡核苷酸阵列检测的结直肠腺瘤、腺癌和正常组织的转录基因表达谱,癌症研究,613124(2001)
[16] Oh,S.,基于类别重叠的新特征评估方法,《生物与医学中的计算机》,41,2,115-122(2011)
[17] 冈田,T。;Tomita,S.,判别分析的最佳正交系统,模式识别,18,2,139-144(1985)
[18] 帕帕克里斯托迪斯,G。;双歧杆菌,S。;Mitkas,P.A.,SoFoCles:基于基因本体的微阵列分类特征过滤,生物医学信息学杂志,43,1-14(2010)
[19] 华盛顿州帕克。;El-Sharkawi,医学硕士。;马克斯,R.J。;阿特拉斯,L.E。;Damborg,M.J.,使用人工神经网络进行电力负荷预测,IEEE汇刊(1991)
[20] Robnik-Sikonja,M。;Kononenko,I.,ReliefF和RReliefF的理论实证分析,机器学习,53,23-69(2003)·Zbl 1076.68065号
[21] Schapire,R.E.,机器学习的增强方法概述,(MSRI非线性估计和分类研讨会(2001))·Zbl 1142.62372号
[22] Schölkopf,B。;Smola,A。;Müller,K.R.,作为核特征值问题的非线性分量分析,神经计算,10,5,1299-1319(1998)
[23] 斯皮拉,A。;Beane,J。;沙阿,V。;刘,G。;Schembri,F。;杨,X。;Palma,J。;Brody,J.S.,香烟烟雾对人气道上皮细胞转录组的影响,核酸研究,101,7月(27日),10143-10148(2004年)
[24] Tamayo,P。;Scanfeld,D。;Ebert,B.L。;Gillette,医学硕士。;罗伯茨,C.W.M。;Mesirov,J.P.,跨平台元基因投影,全球转录状态的跨物种表征,PNAS,104,4月(14),5959-5964(2007)
[25] 曾国藩。;哦,M.K。;罗琳,L。;Liao,J.C。;Wong,W.H.,cDNA微阵列分析问题:质量过滤、通道归一化、变异模型和基因效应评估,核酸研究,29,12,2549-2557(2001)
[26] UCI机器学习库。http://archive.ics.uci.edu/ml; UCI机器学习库。http://archive.ics.uci.edu/ml
[27] 韦斯特,M。;布兰切特,C。;Dressman,H。;黄,E。;石田,S。;斯潘,R。;Zuzan,H。;奥尔森·J·A。;马克斯,J.R。;Nevins,J.R.,《利用基因表达谱预测人类乳腺癌的临床状态》,《国家科学院学报》,98,11462-11467(2001)
[28] Zare,H.,2010年。FeaLect:通过计算统计分数进行特征选择。网址:http://cran.rakanu.com; Zare,H.,2010年。FeaLect:通过计算统计分数进行特征选择。网址:http://cran.rakanu.com
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。