×

基于微阵列基因表达数据的基因提取中的选择偏差。 (英语) Zbl 1034.92013年

小结:在癌症诊断和治疗的背景下,我们考虑在含有很多(可能数千)基因表达数据的已知类型的相对较少的肿瘤组织样本的基础上构建准确预测规则的问题。最近,文献中的结果表明,可以仅从几个基因构建预测规则,从而使预测错误率可以忽略不计。然而,在这些结果中,测试误差或遗漏交叉验证误差是在不考虑选择偏差的情况下计算的。没有允许值,因为该规则是在最初用于选择规则中使用的基因的组织样本上进行测试的,或者因为该规则的交叉验证不是在选择过程之外;也就是说,在交叉验证过程的每个阶段,在训练规则时不执行基因选择。
我们描述了如何在实践中通过执行交叉验证或在选择过程外部应用引导程序来评估和纠正选择偏差。我们建议使用10倍而不是离开式交叉验证,关于引导,我们建议使用所谓的“(.632+)引导误差估计”来处理过度提交的预测规则。使用两个已发布的数据集,我们证明,当对选择偏差进行校正时,对于仅有几个基因的子集,交叉验证误差不再为零。

理学硕士:

92 C50 医疗应用(通用)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接 链接

参考文献:

[1] 熊,分子遗传学与代谢73(3)pp 239–(2001)·doi:10.1006/mgme.2001.3193
[2] 97第77页–(2002年)·Zbl 1073.62576号 ·doi:10.19198/0162114502753479248
[3] 熊,基因组研究11(11),第1878页–(2001)
[4] PNAS 98(12)第6730页–(2001)·doi:10.1073/pnas.111153698
[5] Golub,《科学》286(5439)pp 531–(1999)·doi:10.1126/science.286.5439.531
[6] 莫勒,《生理基因组学》4(2),第109页–(2000)·doi:10.1006/geno.2000.6242
[7] Chow,《生理基因组学》5(2),第99页–(2001)
[8] 机器学习46第389页–(2002)·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[9] PNAS 195第14863页–(1998年)
[10] Alon,PNAS 96(12)第6745页–(1999)·doi:10.1073/pnas.96.12.6745
[11] Ben-Dor,《计算生物学杂志:计算分子细胞生物学杂志》7(3-4)pp 559–(2000)·doi:10.1089/106652700750050943
[12] PNAS 97(22)第12079页–(2000)·doi:10.1073/pnas.210134797
[13] Sorlie,PNAS 98(19)第10869页–(2001)·doi:10.1073/pnas.191367098
[14] 麦克拉克伦,生物信息学18(3),第413页–(2002)·doi:10.1093/bioinformatics/18.3.413
[15] Furey,生物信息学16(10)pp 906–(2000)·doi:10.1093/bioinformatics/16.10.906
[16] Brown,PNAS 97(1),第262页–(2000)·doi:10.1073/pnas.97.1.262
[17] 第33页,第25页–(2000年)·doi:10.1016/S0031-3203(99)00041-2
[18] ARTIF INTELL 97第273页–(1996年)
[19] ANN STATIST 7第1页–(1979)·Zbl 0406.62024号 ·doi:10.1214/aos/1176344552
[20] 92第548页–(1997年)
[21] 78第316页–(1983年)·doi:10.1080/016214519983.10477973
[22] Roth,《基因组研究》11(11),第1801页–(2001)
[23] PNAS 98(20)第11462页–(2001)·doi:10.1073/pnas.201162998
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。