×

基因表达数据中预测规则的多个次优解。 (英语) Zbl 1275.92073号

摘要:本文讨论了微阵列基因表达分析方法中的数学和统计方面。我们专注于模式识别,以提取数据中嵌入的信息特征,用于表型预测。有人指出,由于观察到的基因数量与观察到的受试者数量相比不平衡,因此存在严重的困难问题。我们对微阵列基因表达公布的数据进行了重新分析,以检测几乎具有相同性能的许多其他基因集。我们在现阶段得出的结论是,不可能在所有观察到的基因中只提取高性能的信息基因。我们研究了为什么尽管统计机器学习方法中积极提出了分析方法和学习算法,但仍然存在这种困难的原因。我们关注两个基因之间皮尔逊相关性的相互相关性或绝对值,并描述所选基因集和总集的相关性分布。我们表明,在高维数据中寻找信息基因的问题是不存在的,并且其困难与互相关密切相关。

MSC公司:

92D10型 遗传学和表观遗传学
68吨10 模式识别、语音识别
62时20分 关联度量(相关性、典型相关性等)
62H30型 分类和歧视;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] E.S.Lander、L.M.Linton、B.Birren等人,“人类基因组的初始测序和分析”,《自然》,第409卷,第860-921页,2001年。
[2] J.C.Venter、M.D.Adams、E.W.Myers等人,“人类基因组序列”,《科学》,第291卷,第5507期,第1304-13512001页。
[3] R.Tibshirani,“通过套索回归shirinkagee和选择”,《皇家统计学会杂志》,第58卷,第1期,第267-288页,1996年·Zbl 0850.62538号
[4] D.L.Donoho和M.Elad,“通过ell 1最小化实现一般(非正交)词典的最优稀疏表示”,《美国国家科学院学报》,第100卷,第5期,第2197-2202页,2003年·Zbl 1064.94011号 ·doi:10.1073/pnas.0437847100
[5] E.J.Candès、J.K.Romberg和T.Tao,“从不完整和不准确的测量中恢复稳定信号”,《纯粹与应用数学通讯》,第59卷,第8期,第1207-1223页,2006年·邮编1098.94009 ·doi:10.1002/cpa.20124年
[6] D.B.Allison、X.Cui、G.P.Page和M.Sabripour,“微阵列数据分析:从混乱到整合和共识”,《自然评论遗传学》,第7卷,第1期,第55-65页,2006年·doi:10.1038/nrg1749
[7] L.J.van’t Veer,H.Dai等人,“基因表达谱预测乳腺癌的临床结果”,《自然》杂志,第415卷,第6871期,第530-5362002页。
[8] Y.Saeys、I.Inza和P.Larrañaga,“生物信息学特征选择技术综述”,《生物信息学》,第23卷,第19期,第2507-2517页,2007年。
[9] M.Schena、D.Shalon、R.Heller、A.Chai、P.O.Brown和R.W.Davis,“平行人类基因组分析:1000个基因的基于微阵列的表达监测”,《美利坚合众国国家科学院学报》,第93卷,第20期,第10614-10619页,1996年·doi:10.1073/pnas.93.20.10614
[10] R.A.Irizarry、B.Hobbs、F.Collin等人,“高密度寡核苷酸阵列探针水平数据的探索、归一化和总结”,《生物统计学》,第4卷,第2期,第249-264页,2003年·Zbl 1141.62348号 ·doi:10.1093/生物统计学/4.2.249
[11] F.Naef、C.R.Hacker、N.Patil和M.Magnasco,“高密度寡核苷酸阵列中表达比率噪声结构的经验表征”,《基因组生物学》,第3卷,第4期,文章RESEARCH00182002。
[12] T.R.Golub,D.K.Slonim,P.Tamayo等人,“癌症的分子分类:通过基因表达监测进行分类发现和分类预测”,《科学》,第286卷,第5439期,第531-537页,1999年·doi:10.1126/science.286.5439.531
[13] S.Paik,S.Shak,G.Tang等人,“预测三苯氧胺治疗的结节阴性乳腺癌复发的多基因分析”,《新英格兰医学杂志》,第351卷,第27期,第2817-2826页,2004年·doi:10.1056/NEJMoa041588
[14] F.Cardoso、L.Van’t Veer、E.Rutgers、S.Loi、S.Mook和M.J.Piccart-Gebhart,“70基因图谱的临床应用:MINDACT试验”,《临床肿瘤学杂志》,第26卷,第5期,第729-735页,2008年·doi:10.1200/JCO.2007.14.3222
[15] C.Fan,D.S.Oh,L.Wessels等人,“基于基因表达的乳腺癌预测因子之间的一致性”,《新英格兰医学杂志》,第355卷,第6期,第560-5692006页·doi:10.1056/NEJMoa052933
[16] M.Basseville,“信号处理和模式识别的距离测量”,《信号处理》,第18卷,第4期,第349-369页,1989年。
[17] I.Guyon、J.Weston、S.Barnhill和V.Vapnik,“使用支持向量机进行癌症分类的基因选择”,《机器学习》,第46卷,第1-3期,第389-4222002页·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[18] H.Zou和T.Hastie,“通过弹性网的正则化和变量选择”,《皇家统计学会学报》B卷,第67卷,第2期,第301-320页,2005年·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[19] L.Ein-Dor、I.Kela、G.Getz、D.Givol和E.Domany,“乳腺癌的结果特征基因:是否存在独特的集合?”《生物信息学》,第21卷,第2期,第171-178页,2005年·doi:10.1093/bioinformatics/bth469
[20] R.A.Fisher,“分类问题中多重测量的使用”,《优生学年鉴》,第7卷,第2期,第179-188页,1936年。
[21] R.E.Schapire,“弱可学习性的力量”,《机器学习》,第5卷,第2期,第197-227页,1990年·doi:10.1007/BF00116037
[22] O.Komori和S.Eguchi,“最大化ROC曲线下部分面积的增强方法”,BMC生物信息学,第11卷,第314条,2010年·doi:10.1186/1471-2105-11-314
[23] T.Sörlie、Perou、C.M.Perou和R.Tibshiran等人,“乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类”,《美国国家科学院学报》,第98卷,第19期,第10869-10874页,2001年。
[24] M.Yousef、S.Jung、L.C.Showe和M.K.Showe,“当阴性类别是未确定的microRNA基因识别时,从阳性示例中学习”,《分子生物学算法》,第3卷,第1期,第2条,2008年·doi:10.1186/1748-7188-3-2
[25] A.B.Gardner、A.M.Krieger、G.Vachtsevanos和B.Litt,“颅内EEG癫痫发作分析的一类新颖性检测”,《机器学习研究杂志》,第7卷,第1025-1044页,2006年·Zbl 1222.92052号
[26] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素:数据挖掘、推断和预测》,Springer,纽约州纽约市,美国,2001年·Zbl 0973.62007号
[27] M.S.Pepe,《用于分类和预测的医学测试统计评估》,牛津大学出版社,纽约州纽约市,美国,2003年·Zbl 1039.62105号
[28] O.Komori,“ROC曲线下面积最大化的推进方法”,《统计数学研究所年鉴》,第63卷,第5期,第961-979页,2011年·Zbl 1225.62084号 ·doi:10.1007/s10463-009-0264-y
[29] H.M.Wu,“基因表达数据软聚类算法的生物有效性指数”,《计算统计与数据分析》,第55卷,第5期,1969-1979页,2011年·兹比尔1328.62392 ·doi:10.1016/j.csda.2010.12.003
[30] M.Elad,《稀疏和冗余表示:从理论到信号和图像处理应用》,Springer,纽约州纽约市,美国纽约州,2010年·兹比尔1211.94001
[31] T.Sörlie,C.M.Perou,R.Tibshiran等人,“乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类”,《美国国家科学院学报》,第98卷,第19期,第10869-10874页,2001年。
[32] J.S.Parker、M.Mullins、M.C.U.Cheang等人,“基于内在亚型的乳腺癌风险预测因子监测”,《临床肿瘤学杂志》,第27卷,第8期,第1160-1167页,2009年。
[33] A.Mortazavi、B.A.Williams、K.McCue、L.Schaeffer和B.Wold,“通过RNA-Seq绘制和量化哺乳动物转录体”,《自然方法》,第5卷,第7期,第621-628页,2008年·doi:10.1038/neth.1226
[34] Z.Wang、M.Gerstein和M.Snyder,“RNA-Seq:转录组学的革命性工具”,《自然评论遗传学》,第10卷,第1期,第57-63页,2009年·doi:10.1038/nrg2484
[35] S.Pepke、B.Wold和A.Mortazavi,“ChIP-seq和RNA-seq研究的计算”,《自然方法》,第6卷,第11期,第S22-S32页,2009年。
[36] B.T.Wilhelm和J.R.Landry,“RNA-Seq——通过大规模并行RNA-sequencing定量测量表达”,《方法》,第48卷,第3期,第249-257页,2009年·doi:10.1016/j.meth.2009.03.016
[37] D.M.Witten,“使用泊松模型对测序数据进行分类和聚类”,《应用统计年鉴》,第5卷,第4期,第2493-2518页,2011年·兹比尔1234.62150
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。