×

使用改进的序列反向选择算法对微阵列数据进行Fisher线性判别分析的变量选择。 (英语) Zbl 1334.62196号

小结:一个主要的挑战是与微阵列数据的大量特征相比,样本量较小。变量选择是通过基因表达数据改进癌症诊断或根据表型分类的重要步骤。在本研究中,我们提出了一种改进的序列反向选择(SBS)算法来处理协方差矩阵奇异的情况。然后,我们提出了一种基于加权马氏距离和改进的SBS方法的变量选择算法。此外,基于所提出的变量选择算法,提出了一种Fisher线性判别法,通过同时考虑基因的联合判别能力来提高肿瘤分类的准确性。为了验证效率,我们将所提出的判别方法应用于两个不同的DNA微阵列数据集进行实验研究。实证结果表明,我们的肿瘤分类方法比马尔可夫随机场方法和自变量组分析I方法具有更好的分类效果,这表明,如果考虑到基因对肿瘤分类的联合判别能力,所提出的变量选择方法可以获得更准确、更丰富的基因子集。

MSC公司:

第62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿龙,美国。;Barki,N.,通过寡核苷酸阵列对肿瘤和正常结肠组织探针进行聚类分析揭示的广泛基因表达模式,Proc。国家。阿卡德。科学。美国,96,6745-6750(1999)
[2] Ben-Dor,A。;Bruhn,L.,《基因表达谱的组织分类》,J.Compute。生物学,7559-583(2000)
[3] 纳尼。;鲁米尼,A。;Brahnam,S.,微阵列斑点质量分类的高级机器学习技术,神经计算。申请。,19, 3, 471-475 (2010)
[4] 郑春华。;Huang,D.S.,利用非负矩阵因子分解和基因选择进行肿瘤聚类,IEEE Trans。通知。Technol公司。生物识别。,13, 4, 599-607 (2009)
[5] Yeung,K.Y。;Ruzzo,W.L.,聚类基因表达数据的主成分分析,生物信息学,17,9,763-774(2001)
[6] Jain,A.K。;Duin,R.P.W。;Mao,J.,《统计模式识别:综述》,IEEE Trans。模式分析。,22, 1, 4-37 (2000)
[7] Golub,T.R。;Slonim,D.K。;Tamayo,P.,《癌症的分子分类:通过基因表达监测进行分类发现和分类预测》,《科学》,286,5439,531-537(1999)
[8] Dudiot,S。;Fridlyand,J。;Speed,T.P.,《利用基因表达数据对肿瘤进行分类的鉴别方法比较》,《美国统计协会杂志》,97,457,77-87(2002)·Zbl 1073.62576号
[9] 李·T。;Zhang,C.L。;Ogihara,M.,《基于基因表达的组织分类特征选择和多类方法的比较研究》,生物信息学,20,15,2429-2437(2004)
[10] Bae,K。;Mallick,B.K.,使用两级分层贝叶斯模型进行基因选择,生物信息学,203423-3430(2004)
[11] Lee,K.E。;Sha,N.,基因选择:贝叶斯变量选择方法,生物信息学,1990-97(2003)
[12] 李伟(Li,W.)。;Sun,F。;Grosse,I.,基于基因选择标准的极值分布,用于使用逻辑回归进行鉴别微阵列数据分析,J.Compute。生物学,1215-226(2004)
[13] Draghici,S。;Kulaeva,O.,Sorin噪声样本方法:一种ANOVA方法,允许通过DNA微阵列测量的差异调节基因的稳健选择,生物信息学,19,1348-1359(2003)
[14] Shevade,S.K。;Keerthi,S.,《使用稀疏逻辑回归进行基因选择的简单高效算法》,生物信息学,192246-2253(2003)
[17] 郑春华。;Chong,Y.W。;Wang,H.Q.,利用自变量组分析进行肿瘤分类的基因选择,神经计算。申请。,20, 161-170 (2011)
[18] Stingo,F.C。;Vannucci,M.,《利用马尔可夫随机场先验进行判别分析的变量选择,用于微阵列数据分析》,生物信息学,27,4,495-501(2011)
[19] Madigan,D。;York,J.,离散数据的贝叶斯图形模型,《国际统计评论》,63,215-232(1995)·Zbl 0834.62003号
[20] Brown,P.J.,贝叶斯模型平均与回归选择,J.R.Stat.Soc.Ser。B.,64,519-536(2002)·Zbl 1073.62004号
[21] Sha,N.,用于识别疾病阶段分子特征的多项式概率模型中的贝叶斯变量选择,生物统计学,60812-819(2004)·Zbl 1274.62428号
[22] Tadesse,M.,《高维数据聚类中的贝叶斯变量选择》,美国统计协会,100,602-617(2005)·兹比尔1117.62433
[23] 纳伦德拉,P.M。;Fukunaga,K.,特征子集选择的分支定界算法,IEEE Trans。计算。,26, 9, 917-922 (1977) ·Zbl 0363.68059号
[24] Marill,T。;Green,D.M.,《关于认知系统中受体的有效性》,IEEE Trans。通知。理论,9,11-17(1963)
[25] Whitney,A.W.,《非参数测量选择的直接方法》,IEEE Trans。计算。,20, 9, 1100-1103 (1971) ·兹比尔0227.68047
[26] 普迪尔,P。;Novovicova,J。;Kittler,J.,特征选择中的浮动搜索方法,模式识别。莱特。,15, 11, 1119-1125 (1994)
[27] Mardia,K.V。;Kent,J.T。;Bibby,J.M.,多元分析(1979),学术出版社:圣地亚哥学术出版社·Zbl 0432.62029号
[28] McLachlan,G.J.,《判别分析与统计模式识别》(1992),威利出版社:威利纽约·Zbl 0850.62481号
[29] Ripley,B.D.,模式识别和神经网络(1996),剑桥大学出版社:剑桥大学出版社,纽约剑桥·Zbl 0853.62046号
[30] Barnard,M.,《埃及四个头骨系列中头骨特征的长期变化》,《优生学年鉴》,6352-371(1935)
[31] Fisher,R.A.,《多重测量在分类问题中的应用》,《优生学年鉴》,第7179-188页(1936年)
[32] Ross,D.T。;谢尔夫,U。,《人类癌症细胞系基因表达模式的系统变异》,《自然遗传学》。,24, 227-234 (2000)
[33] Gough,S.M。;Aitchison,A.,Hs.568769被急性淋巴细胞白血病(ALL)中的新t(5;10)破坏,可能是3'overlapping DNTT(TdT)基因Proc的替代转录物。美国癌症研究协会(Am.Assoc.Cancer Res.Annual)。会议,48、85(2007年)
[34] Shinya,T.S。;Hideki,T.,骨髓过氧化物酶的表达和正常核型AML患者的基因突变:双重CEBPA突变与白血病急变中MPO阳性率高相关,国际血液学杂志。,94, 1, 81-89 (2011)
[35] T·玛丽亚。;Silke,K.,MPO、GSTT1、GSTM1、GSTP1、EPHX1和NQO1的遗传多态性是早发肺癌的危险因素,国际癌症杂志,127,7,1547-1561(2010)
[36] 赖,R。;Juco,J.,流式细胞术检测T细胞急性淋巴细胞白血病中CD79a的表达,美国临床杂志。病理学。,113, 6, 823-830 (2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。