×

未知子类型的批量效果校正。 (英语) 兹比尔1420.62458

摘要:高吞吐量实验数据在公共数据库中呈指数级累积。然而,不幸的是,从这些丰富的资源中挖掘有效的科学发现受到技术人工制品和固有生物异质性的阻碍。前者通常被称为“批量效应”,后者通常通过子类型进行建模。现有方法要么处理批处理效应,前提是子类型已知,要么处理集群子类型,前提是不存在批处理效应。因此,对于存在未知亚型的批次效应的校正,缺乏研究。在这里,我们将位置和规模调整模型与基于模型的聚类结合成一种新的混合模型,即批效应-校正-未知子类型模型(BUS)。BUS能够(a)明确纠正批次效应,(b)将具有相似特征的样本分组为子类型,(c)识别区分子类型的特征,(d)允许子类型的数量因批次而异,(e)整合不同平台的批次,以及(f)计算复杂度为线性。我们证明了总线的可识别性,并为研究设计提供了条件,在这些条件下可以纠正批量效应。BUS通过模拟研究和一个真实的乳腺癌数据集进行评估,该数据集来自两个平台上测量的三个批次。乳腺癌数据集的结果提供了比现有方法更好的生物学见解。我们将BUS实现为一个免费的生物导体包BUScorrect。

MSC公司:

62页第10页 统计学在生物学和医学科学中的应用;元分析
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alli,E。;杨,J。;Hait,W.,Stathmin沉默诱导突变型p53乳腺癌细胞系的肿瘤抑制功能,261003-1012(2007)
[2] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,803-821(1993)·Zbl 0794.62034号
[3] Bickel,P.J。;Levina,E.,Fisher线性判别函数的一些理论,“朴素贝叶斯”,以及当变量多于观测值时的一些替代方法,Bernoulli,10,989-1010(2004)·Zbl 1064.62073号
[4] 凯里,洛杉矶。;佩罗,C.M。;利瓦西,C.A。;Dressler,L.G。;科恩,D。;康威,K。;卡拉卡,G。;Troester,医学硕士。;Tse,C.K。;Edmiston,S.,《卡罗莱纳州乳腺癌研究中的种族、乳腺癌亚型和生存率》,2952492-2502(2006)
[5] 卡塞拉,G。;Berger,R.L.,《统计推断》(第2卷)(2002年),加利福尼亚州太平洋格罗夫:加利福尼亚州太平洋格罗夫的Duxbury
[6] 查罗尔,M。;Jung,S.Y。;肖,C。;周,X。;Wong,S.T.,Mecp2,神经疾病的关键促因,激活和抑制转录,3201224-1229(2008)
[7] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,通过EM算法从不完整数据中获得最大似然,39,1-38(1977)·Zbl 0364.62022号
[8] Desmedt,C。;Piette,F。;Loi,S。;Wang,Y。;Lallemand,F.,Transbig多中心独立验证系列中结节阴性乳腺癌患者76基因预后特征的强时间依赖性,13,3207-3214(2007)
[9] 埃德加·R。;多姆拉乔夫,M。;Lash,A.E.,《基因表达总览:NCBI基因表达和杂交阵列数据仓库》,30207-210(2002)
[10] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,《美国统计协会杂志》,97,611-631(2002)·Zbl 1073.62545号
[11] Franks,A.M。;Cárdi,G。;Drummond,D.A。;Airoldi,E.M.,《从高通量生物学中的多实验室测量估计结构化协方差矩阵》,美国统计协会杂志,110,27-44(2015)·Zbl 1374.92041号
[12] 富士田,N。;Jaye,D.L。;卡吉塔,M。;Geigerman,C。;莫雷诺,C.S。;Wade,P.A.,Mta3,一种Mi-2/NuRD复合物亚单位,调节乳腺癌的侵袭性生长途径,细胞,113,207-219(2003)
[13] Gelman,A。;Carlin,J.B。;斯特恩,H.S。;Rubin,D.B.,《贝叶斯数据分析》,第2期(2014年),佛罗里达州博卡拉顿:查普曼和霍尔/CRC,佛罗里达州波卡拉顿·Zbl 1279.62004号
[14] Geman,S。;Geman,D.,《随机松弛、吉布斯分布和图像的贝叶斯恢复》,IEEE模式分析和机器智能汇刊,721-741(1984)·Zbl 0573.62030号
[15] E.I.乔治。;Mcculloch,R.E.,《通过吉布斯抽样进行变量选择》,美国统计协会杂志,88,881-889(1993)
[16] 海因,A.-M.K。;理查森,S。;科斯顿,H.C。;Ambler,G.K。;Green,P.J.,Bgx:Affymetrix基因芯片数据分析的完全贝叶斯综合方法,生物统计学,6349-373(2005)·Zbl 1070.62103号
[17] 希克斯,南卡罗来纳州。;滕,M。;Irizarry,R.A.,《单细胞RNA-seq数据中系统偏差和批量效应的广泛和关键影响》,BioRxiv(2015)
[18] 休伯特,L。;Arabie,P.,《分区比较》,分类杂志,2193-218(1985)
[19] 霍,Z。;丁,Y。;刘,S。;奥斯特里奇,S。;Tseng,G.,《在多重转录组研究中识别疾病亚型的稀疏k均值元分析框架》,美国统计协会杂志,111,27-42(2016)
[20] 爱尔兰共和国。;沃伦,D。;斯宾塞,F。;Kim,I.F。;Biswal,S.,微阵列平台的多实验室比较,自然方法,2345-350(2005)
[21] 雅各布·L。;Gagnon-Bartsch,J.A。;Speed,T.P.,《在既没有观察到不需要的变异也没有观察到感兴趣的因素时校正基因表达数据》,生物统计学,17,16-28(2016)
[22] 纪毅。;吴,C。;刘,P。;Wang,J。;Coombes,K.R.,Beta混合物模型在生物信息学中的应用,生物信息学,212118-2122(2005)
[23] 约翰逊,W.E。;李,C。;Rabinovic,A.,使用经验贝叶斯方法调整微阵列表达数据中的批量效应,生物统计学,8118-127(2007)·Zbl 1170.62389号
[24] Karlis,D。;Meligkotsidou,L.,多元泊松分布的有限混合及其应用,统计规划与推断杂志,1371942-1960(2007)·Zbl 1116.60006号
[25] Leek,J.T.,svaseq:从测序数据中去除批次效应和其他不需要的噪音,核酸研究(2014)
[26] Leek,J.T。;Scharpf,R.B。;H.C.布拉沃。;Simcha,D。;Langmead,B.,《处理高吞吐量数据中批量效应的广泛和关键影响》,《自然评论遗传学》,第11733-739页
[27] Leek,J.T。;Storey,J.D.,《通过替代变量分析捕捉基因表达研究中的异质性》,《公共科学图书馆遗传学》(2007年)
[28] Maitra,R。;Ramler,I.P.,《散射存在下的聚类》,生物计量学,65,341-352(2009)·Zbl 1168.62061号
[29] Mccall,M.N。;Bolstad,B.M。;Irizarry,R.A.,冷冻稳健多阵列分析(FRMA),生物统计学,11,242-253(2010)·Zbl 1437.62556号
[30] 麦克拉克伦,G。;Peel,D.,有限混合模型(2004),纽约:威利,纽约
[31] 牛顿,医学硕士。;努埃里,A。;Sarkar,D。;Ahlquist,P.,用半参数层次混合法检测差异基因表达,生物统计学,5155-176(2004)·Zbl 1096.62124号
[32] Onitilo,A.A。;Engel,J.M.(Engel,J.M.)。;格林利,R.T。;Mukesh,B.N.,《基于ER/PR和Her2表达的乳腺癌亚型:临床病理特征和生存率的比较》,临床医学与研究,7,4-13(2009)
[33] 潘·W。;Shen,X.,基于惩罚模型的聚类及其在变量选择中的应用,机器学习研究杂志,81145-1164(2007)·Zbl 1222.68279号
[34] 彼得森,C。;Stingo,F.C。;Vannucci,M.,多高斯图形模型的贝叶斯推断,美国统计协会杂志,110,159-174(2015)·Zbl 1373.62106号
[35] Piccart-Gebhart,M.J。;普罗克特,M。;Leyland-Jones,B。;Goldhirsch,A。;Untch,M.,Her2-阳性乳腺癌辅助化疗后曲妥珠单抗,新英格兰医学杂志,353,1659-1672
[36] Piccolo,S.R。;孙,Y。;坎贝尔,J.D。;伦伯格,M.E。;图片,A.H。;Johnson,W.E.,《促进个性化医疗工作流的单样本微阵列标准化方法》,《基因组学》,100337-344(2012)
[37] Pickrell,J.K。;马里奥尼,J.C。;Pai,A.A。;Degner,J.F。;Engelhardt,B.E.,《通过RNA测序了解人类基因表达变异的机制》,《自然》,464768-772(2010)
[38] Ritter,G.,《稳健聚类分析和变量选择》(2014),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州波卡拉顿
[39] 罗伯特,C。;Casella,G.,Monte Carlo Statistical Methods(2013),纽约:Springer Science&Business Media,纽约
[40] Schwarz,G.,估算模型的维度,《统计年鉴》,第6461-464页(1978年)·Zbl 0379.62005年
[41] 斯莱蒙,D.J。;克拉克·G·M。;Wong,S.G。;莱文·W·J。;Ullrich,A。;Mcguire,W.L.,《人类乳腺癌:复发和生存与Her-2/Neu癌基因扩增的相关性》,《科学》,235,177-182(1987)
[42] 苏亚雷斯-法里纳斯,M。;沙阿·K·R。;海德尔,A.S。;Krueger,J.G。;Lowes,M.A.,《银屑病中的个性化药物:开发基因组分类器以预测阿莱法西普的组织学反应》,BMC皮肤病学,10,1-8(2010)
[43] Taub,医学硕士。;科拉达·布拉沃,H。;Irizarry,R.A.,《克服下一代测序数据中的偏见和系统错误》,基因组医学,2,87(2010)
[44] 癌症基因组图谱网络,人类乳腺肿瘤的综合分子肖像,《自然》,49061-70(2012)
[45] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会杂志》,58267-288(1996)·Zbl 0850.62538号
[46] 曾国藩。;Wong,W.H.,紧密聚类:用于识别数据中稳定和紧密模式的基于重采样的方法,生物计量学,61,10-16(2005)·兹比尔1077.62049
[47] 王,S。;Zhu,J.,基于模型的高维聚类的变量选择及其在微阵列数据中的应用,生物计量学,64440-448(2008)·Zbl 1137.62041号
[48] Wang,Y。;Klijn,J.G。;Zhang,Y。;Sieuwerts,A.M。;Look,M.P.,预测淋巴结阴性原发性乳腺癌远处转移的基因表达谱,《柳叶刀》,365671-679(2005)
[49] Witten,D.M。;Tibshirani,R.,《聚类中特征选择的框架》,《美国统计协会杂志》,105,713-726(2012)·Zbl 1392.62194号
[50] 沃尔夫,I。;Levanon-Cohen,S。;Bose,S。;利古姆斯基,H。;Sredni,B.,Klotho:人类乳腺癌中igf-1和fgf通路的肿瘤抑制剂和调节剂,癌基因,27,7094-7105(2008)
[51] 夏,W。;Chen,J.-S。;周,X。;Sun,P.-R。;李·D·F。;Liao,Y.,p21cip1/waf1的磷酸化/细胞质定位与Her2/neu过度表达相关,并为乳腺癌患者的不良预后提供新的组合预测因子,临床癌症研究,103815-3824(2004)
[52] 雅科维茨,S.J。;Spragins,J.D.,《有限混合物的可识别性》,《数理统计年鉴》,39,209-214(1968)·Zbl 0155.25703号
[53] Yeung,K.Y。;弗雷利,C。;Murua,A。;Raftery,A.E。;Ruzzo,W.L.,基因表达数据的基于模型的聚类和数据转换,生物信息学,17,977-987(2001)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。