×

使用预转换处理重要候选特征中的极值。 (英语) Zbl 1217.62066号

总结:预测因子中的极值通常会强烈影响高维环境下的统计分析结果。尽管在大多数高通量技术中经常会出现这种情况,但在文献中往往忽略了这个问题。我们建议使用一个非常简单的转换,该转换之前在不同的上下文中由P.罗伊斯顿W.绍尔布雷【计算统计数据分析51,第9期,4240–4253(2007;Zbl 1162.62387号)]作为数组预处理和高级统计分析之间的中间步骤。这种简单的单变量转换可以识别连续特征中的极值,因此可以用作异常值的诊断工具。利用九个公开可用的微阵列数据集,对不同的单变量和多变量统计分析证明了转换的使用及其效果。

MSC公司:

62G32型 极值统计;尾部推断
62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
65C60个 统计中的计算问题(MSC2010)

软件:

公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ancona,《关于使用DNA微阵列数据对分类器进行统计评估》,BMC生物信息学7第387页–(2006)·doi:10.1186/1471-2105-7-387
[2] Baggerly,《从细胞系衍生化学敏感性:高通量生物学中的法医生物信息学和可复制研究》,《应用统计学年鉴》3,第1309页–(2009)·Zbl 1185.92056号 ·doi:10.1214/09-AOAS291
[3] Baty,基因贡献的稳定性和微阵列数据多元分析中异常值的识别,BMC生物信息学9第289页–(2008)·doi:10.1186/1471-2105-9-289
[4] Benner,《高维考克斯模型:作为模型构建过程一部分的惩罚选择》,《生物医学杂志》52,第50页–(2010)·Zbl 1442.62257号 ·doi:10.1002/bimj.200900064
[5] 布兰德,评估两种临床测量方法之间一致性的统计方法,《柳叶刀》1第307页–(1986)·doi:10.1016/S0140-6736(86)90837-8
[6] Boulesteix,测试高维分子数据的额外预测值,BMC生物信息学11第78页–(2010)·Zbl 05766205号 ·数字对象标识代码:10.1186/1471-2105-11-78
[7] Boulesteix,排名基因列表的稳定性和聚合,生物信息学简报10 pp 556–((2009)·doi:10.1093/bib/bbp034
[8] Bühlmann,Boosting algorithms:regulation,prediction and model fitting(with discussion),《统计科学》22,第477页–(2007)·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[9] Edgeworth,《关于几个量的观察》,Hermathena 6 pp 279–(1887)
[10] Gleiss,用于识别微阵列实验中主要高表达的自适应修剪t统计量,《医学统计学》30,第52页–(2011)·数字对象标识代码:10.1002/sim.4093
[11] Goeman,Cox比例风险模型中L1惩罚估计,《生物医学杂志》52第70页–(2010)·Zbl 1207.62185号
[12] Hothorn,基于模型的高维增强,生物信息学22页2828–(2006)·doi:10.1093/bioinformatics/btl462
[13] Hothorn,生存系,生物统计学7第355页–(2006年)·Zbl 1170.62385号 ·doi:10.1093/biostatistics/kxj011
[14] Hothorn,生物医学杂志和可复制研究,《生物医学杂志》51第553页–(2009)·doi:10.1002/bimj.200900154
[15] Irizarry,《Affymetrix基因芯片探针水平数据摘要》,《核酸研究》31,第15页–(2003)·doi:10.1093/nar/gng015
[16] Irizarry,R.A.Gautier,L.Bolstad,B.M.Miller,C.(2009年)
[17] Irizarry,Affymetrix基因芯片表达测量的比较,生物信息学22 pp 789–(2006)·doi:10.1093/bioinformatics/btk046
[18] Miller,人类乳腺癌中p53状态的表达特征预测突变状态、转录效应和患者生存率,《美国国家科学院院刊》102第13550页–(2005)·doi:10.1073/pnas.0506230102
[19] Minn,《介导乳腺癌肺转移的基因》,《自然》436第518页–(2005)·doi:10.1038/nature03799
[20] Opgen-Rhein,用无分布收缩法对差异表达基因进行准确排序,《遗传学和分子生物学的统计应用》6,第9页–(2007)·Zbl 1166.62361号 ·doi:10.2202/1544-6115.1252
[21] Pawitan,基因表达谱分析使早期乳腺癌患者免于辅助治疗:在两个基于人群的队列中衍生和验证,乳腺癌研究7 pp R953–(2005)·doi:10.1186/bcr1325
[22] Rousseeuw,稳健回归和异常检测(2003)
[23] Royston,《通过初步协变量变换提高分数多项式模型的稳健性:实用方法》,《计算统计与数据分析》51页4240–(2007)·Zbl 1162.62387号 ·doi:10.1016/j.csda.2006.05.006
[24] Sauerbrei,多变量模型构建中连续预测因子的重要变量选择和函数形式的确定,《医学统计学》26页5512–(2007)·doi:10.1002/sim.3148
[25] Sauerbrei,模型构建的自举重采样程序:Cox回归模型的应用,《医学统计学》11页2093–(1992)·doi:10.1002/sim.4780111607
[26] Scherzer,基于血液中基因表达的早期帕金森病分子标记,《美国国家科学院院刊》104 pp 955–(2007)·doi:10.1073/pnas.0610204104
[27] Shieh,检测微阵列数据中的异常样本,《遗传学和分子生物学的统计应用》,第8页,第13页(2009年)·兹比尔1276.62092 ·数字对象标识代码:10.2202/1544-6115.1426
[28] Singh,基因表达与前列腺癌临床行为的相关性,《癌细胞1》第203页–(2002)·doi:10.1016/S1535-6108(02)00030-2
[29] Smyth,用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法,《遗传学和分子生物学的统计应用》3,第3页–(2004)·Zbl 1038.62110号 ·数字对象标识代码:10.2202/1544-6115.1027
[30] Sotiriou,《乳腺癌基因表达谱分析:了解组织学分级的分子基础以改善预后》,《国家癌症研究所杂志》98页262–(2006)·doi:10.1093/jnci/djj052
[31] Tang,《败血症患者外周血单核细胞的基因表达谱》,《危重症医学》37第882页–(2009)·doi:10.1097/CCM.0b013e31819b52fd
[32] Tibshirani,差异基因表达分析的离群和,生物统计学8 pp 2–(2007)·Zbl 1121.62102号 ·doi:10.1093/biostatistics/kxl005
[33] Tomlins,前列腺癌中tmprss2和ets转录因子基因的反复融合,《科学》310第644页–(2005)·doi:10.1126/科学.1117679
[34] Wang,基因表达谱预测淋巴结阴性原发性乳腺癌远处转移,《柳叶刀》365页671–(2005)·doi:10.1016/S0140-6736(05)17947-1
[35] Wu,癌症异常值差异基因表达检测,生物统计学8 pp 566–(2007)·Zbl 1121.62105号 ·doi:10.1093/biostatistics/kxl029
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。