安内拉鲁州布列斯特克;文森特·吉列莫特;威利·索尔布雷 使用预转换处理重要候选特征中的极值。 (英语) Zbl 1217.62066号 生物。J。 53,第4号,673-688(2011)。 总结:预测因子中的极值通常会强烈影响高维环境下的统计分析结果。尽管在大多数高通量技术中经常会出现这种情况,但在文献中往往忽略了这个问题。我们建议使用一个非常简单的转换,该转换之前在不同的上下文中由P.罗伊斯顿和W.绍尔布雷【计算统计数据分析51,第9期,4240–4253(2007;Zbl 1162.62387号)]作为数组预处理和高级统计分析之间的中间步骤。这种简单的单变量转换可以识别连续特征中的极值,因此可以用作异常值的诊断工具。利用九个公开可用的微阵列数据集,对不同的单变量和多变量统计分析证明了转换的使用及其效果。 MSC公司: 62G32型 极值统计;尾部推断 62页第10页 统计学在生物学和医学中的应用;元分析 92C40型 生物化学、分子生物学 65C60个 统计中的计算问题(MSC2010) 关键词:异常值;生物标志物排名;高维数据;不稳定性;离群值 引文:Zbl 1162.62387号 软件:公司 PDF格式BibTeX公司 XML格式引用 \textit{A.-L.Boulesteix}等人,《生物》。J.53,第4号,673--688(2011;Zbl 1217.62066) 全文: 内政部 参考文献: [1] Ancona,《关于使用DNA微阵列数据对分类器进行统计评估》,BMC生物信息学7第387页–(2006)·doi:10.1186/1471-2105-7-387 [2] Baggerly,《从细胞系衍生化学敏感性:高通量生物学中的法医生物信息学和可复制研究》,《应用统计学年鉴》3,第1309页–(2009)·Zbl 1185.92056号 ·doi:10.1214/09-AOAS291 [3] Baty,基因贡献的稳定性和微阵列数据多元分析中异常值的识别,BMC生物信息学9第289页–(2008)·doi:10.1186/1471-2105-9-289 [4] Benner,《高维考克斯模型:作为模型构建过程一部分的惩罚选择》,《生物医学杂志》52,第50页–(2010)·Zbl 1442.62257号 ·doi:10.1002/bimj.200900064 [5] 布兰德,评估两种临床测量方法之间一致性的统计方法,《柳叶刀》1第307页–(1986)·doi:10.1016/S0140-6736(86)90837-8 [6] Boulesteix,测试高维分子数据的额外预测值,BMC生物信息学11第78页–(2010)·Zbl 05766205号 ·数字对象标识代码:10.1186/1471-2105-11-78 [7] Boulesteix,排名基因列表的稳定性和聚合,生物信息学简报10 pp 556–((2009)·doi:10.1093/bib/bbp034 [8] Bühlmann,Boosting algorithms:regulation,prediction and model fitting(with discussion),《统计科学》22,第477页–(2007)·Zbl 1246.62163号 ·doi:10.1214/07-STS242 [9] Edgeworth,《关于几个量的观察》,Hermathena 6 pp 279–(1887) [10] Gleiss,用于识别微阵列实验中主要高表达的自适应修剪t统计量,《医学统计学》30,第52页–(2011)·数字对象标识代码:10.1002/sim.4093 [11] Goeman,Cox比例风险模型中L1惩罚估计,《生物医学杂志》52第70页–(2010)·Zbl 1207.62185号 [12] Hothorn,基于模型的高维增强,生物信息学22页2828–(2006)·doi:10.1093/bioinformatics/btl462 [13] Hothorn,生存系,生物统计学7第355页–(2006年)·Zbl 1170.62385号 ·doi:10.1093/biostatistics/kxj011 [14] Hothorn,生物医学杂志和可复制研究,《生物医学杂志》51第553页–(2009)·doi:10.1002/bimj.200900154 [15] Irizarry,《Affymetrix基因芯片探针水平数据摘要》,《核酸研究》31,第15页–(2003)·doi:10.1093/nar/gng015 [16] Irizarry,R.A.Gautier,L.Bolstad,B.M.Miller,C.(2009年) [17] Irizarry,Affymetrix基因芯片表达测量的比较,生物信息学22 pp 789–(2006)·doi:10.1093/bioinformatics/btk046 [18] Miller,人类乳腺癌中p53状态的表达特征预测突变状态、转录效应和患者生存率,《美国国家科学院院刊》102第13550页–(2005)·doi:10.1073/pnas.0506230102 [19] Minn,《介导乳腺癌肺转移的基因》,《自然》436第518页–(2005)·doi:10.1038/nature03799 [20] Opgen-Rhein,用无分布收缩法对差异表达基因进行准确排序,《遗传学和分子生物学的统计应用》6,第9页–(2007)·Zbl 1166.62361号 ·doi:10.2202/1544-6115.1252 [21] Pawitan,基因表达谱分析使早期乳腺癌患者免于辅助治疗:在两个基于人群的队列中衍生和验证,乳腺癌研究7 pp R953–(2005)·doi:10.1186/bcr1325 [22] Rousseeuw,稳健回归和异常检测(2003) [23] Royston,《通过初步协变量变换提高分数多项式模型的稳健性:实用方法》,《计算统计与数据分析》51页4240–(2007)·Zbl 1162.62387号 ·doi:10.1016/j.csda.2006.05.006 [24] Sauerbrei,多变量模型构建中连续预测因子的重要变量选择和函数形式的确定,《医学统计学》26页5512–(2007)·doi:10.1002/sim.3148 [25] Sauerbrei,模型构建的自举重采样程序:Cox回归模型的应用,《医学统计学》11页2093–(1992)·doi:10.1002/sim.4780111607 [26] Scherzer,基于血液中基因表达的早期帕金森病分子标记,《美国国家科学院院刊》104 pp 955–(2007)·doi:10.1073/pnas.0610204104 [27] Shieh,检测微阵列数据中的异常样本,《遗传学和分子生物学的统计应用》,第8页,第13页(2009年)·兹比尔1276.62092 ·数字对象标识代码:10.2202/1544-6115.1426 [28] Singh,基因表达与前列腺癌临床行为的相关性,《癌细胞1》第203页–(2002)·doi:10.1016/S1535-6108(02)00030-2 [29] Smyth,用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法,《遗传学和分子生物学的统计应用》3,第3页–(2004)·Zbl 1038.62110号 ·数字对象标识代码:10.2202/1544-6115.1027 [30] Sotiriou,《乳腺癌基因表达谱分析:了解组织学分级的分子基础以改善预后》,《国家癌症研究所杂志》98页262–(2006)·doi:10.1093/jnci/djj052 [31] Tang,《败血症患者外周血单核细胞的基因表达谱》,《危重症医学》37第882页–(2009)·doi:10.1097/CCM.0b013e31819b52fd [32] Tibshirani,差异基因表达分析的离群和,生物统计学8 pp 2–(2007)·Zbl 1121.62102号 ·doi:10.1093/biostatistics/kxl005 [33] Tomlins,前列腺癌中tmprss2和ets转录因子基因的反复融合,《科学》310第644页–(2005)·doi:10.1126/科学.1117679 [34] Wang,基因表达谱预测淋巴结阴性原发性乳腺癌远处转移,《柳叶刀》365页671–(2005)·doi:10.1016/S0140-6736(05)17947-1 [35] Wu,癌症异常值差异基因表达检测,生物统计学8 pp 566–(2007)·Zbl 1121.62105号 ·doi:10.1093/biostatistics/kxl029 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。