×

用于检测基因表达数据中相干模式的贝叶斯因子模型。 (英语) 兹比尔1329.92089

摘要:基因表达微阵列数据分析中的一个常见问题是识别一致表达的特征组。例如,人们经常想知道一组基因,由于在一个数据集中的相关性而聚集在一起,是否仍然在另一个数据集高度共表达。或者,对于一些表达阵列平台,每个感兴趣的基因都有许多相对较短的探针。在这种情况下,可能是一个给定的探针没有测量其目标基因,而是一个具有相似区域的不同基因(称为交叉杂交)。准确检测显示高度一致表达模式的探针集(针对同一基因的探针组)是识别样本中存在哪些基因的最佳方法。我们开发了贝叶斯因子模型(BFM)来解决基因表达数据集中相干模式检测的一般问题。我们将我们的方法与“最新技术”方法进行了比较,以识别合成数据集和实际数据集中的表达基因,结果表明,BFM优于其他检测转录物的程序。我们还演示了使用因子分析来确定基因模块(相干表达基因组)的存在/缺失状态。基因组区域拷贝数的变化是大多数癌症众所周知的重要特征。我们检测了乳腺癌中代表拷贝数改变(CNA)的一组基因,然后确定其他癌症基因组中此区域是否存在CNA。相干模式也可以在高通量测序数据中进行评估,这是一种测量基因表达的新技术。我们通过因子模型分析这类数据,并根据读取映射不确定性检查检测调用。

MSC公司:

92D10型 遗传学和表观遗传学
62页第10页 统计学在生物学和医学中的应用;元分析
2015年1月62日 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Affymetrix技术报告(2001年)。统计算法参考指南。可从获取。
[2] Affymetrix技术报告(2005年)。外显子阵列背景校正。可从获取。
[3] Altschul,S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990年)。基本本地对齐搜索工具。《分子生物学杂志》215,403-410。
[4] Archer,K.J.和Reese,S.E.(2009年)。高通量基因表达微阵列数据的检测调用算法。生物信息学简报2,244-252。
[5] Bild,A.H.,Yao,G.,Chang,J.T.,Wang,Q.,Potti,A.,Chasse,D.,Joshi,M.B.,Harpole,D.,Lancaster,J.M.,Berchuck,A.,Olson,J.A.Jr,Marks,J.R.,Dressman,H.K.,West,M.和Nevins,J.R.(2006)。人类癌症中的致癌途径特征作为靶向治疗的指南。《自然》439,353-357。
[6] Boulesteix,A.L.和Strimmer,K.(2006年)。偏最小二乘法:一种用于分析高维基因组数据的通用工具。生物信息学简报8,32-44。
[7] Brunet,J.P.、Tamayo,P.、Golub,T.R.和Mesirov,J.P.(2004年)。使用矩阵分解发现转移基因和分子模式。美国国家科学院院刊101,4164-4169。
[8] Carvalho,C.,Chang,J.,Lucas,J.、Nevins,J.R.、Wang,Q.和West,M.(2008)。高维稀疏因子建模:在基因表达基因组学中的应用。《美国统计协会杂志》103,1438-1456·Zbl 1286.62091号 ·doi:10.1198/0162145000000869
[9] Chin,K.,DeVries,S.,Fridlyand,J.,Spellman,P.T.,Roydasgupta,R.,Kuo,W.L.,Lapuk,A.,Neve,R.M.,Qian,Z.,Ryder,T.,Chen,F.,Feiler,H.,Tokuyasu,T.、Kingsley,C.、Dairkee,S.、Meng,Z.、Chew,K.、Pinkel,D.、Jain,A.、Ljung,B.M.、Esserman,L.、Alberson,D.G.、Waldman,F.和Gray,J.W.(2006)。与乳腺癌病理生理相关的基因组和转录异常。癌细胞10,529-541。
[10] Diskin,S.J.、Eck,T.、Greshock,J.、Mosse,Y.P.、Naylor,T.,Stoeckert,C.J.、Weber,B.L.、Maris,J.M.和Grant,G.R.(2006年)。STAC:一种测试多阵列CGH实验中DNA拷贝数畸变重要性的方法。基因组研究16,1149-1158。
[11] 福克纳,G.J.、福雷斯特,A.R.、乔克,A.M.、施罗德,K.、Hayashizaki,Y.、卡尼奇,P.、休谟,D.A.和格里蒙德,S.M.(2008)。多重映射短序列标签的拯救策略完善了CAGE对转录活性的调查。基因组学91,281-288。
[12] Freije,W.A.、Castro-Vargas,F.E.、Fang,Z.、Horvath,S.、Cloughesy,T.、Liau,L.M.、Mischel,P.S.和Nelson,S.F.(2004)。胶质瘤的基因表达谱强烈预测生存率。癌症研究64,6503-6510。
[13] Gamerman,D.和Lopes,H.F.(2006年)。马尔可夫链蒙特卡罗:贝叶斯推断的随机模拟,第二版,统计科学文本68。佛罗里达州博卡拉顿:查普曼和霍尔/CRC·Zbl 1137.62011年
[14] Gautier,L.、Cope,L.,Bolstad,B.M.和Irizarry,R.A.(2004)。探针级Affymetrix基因芯片数据的Affy分析。生物信息学20,307-315。
[15] Gentleman,R.、Carey,V.、Bates,D.、Bolstad,B.、Dettling,M.、Dudoit,S.、Ellis,B.、Gautier,L.、Ge,Y.、Gentry,J.、Hornik,K.、Hothorn,T.、Huber,W.、Iacus,S.,Irizarry,R.,Leich,F.、Li,C.、Maechler,M.,Rossini,A.、Sawitzki,G.、Smith,G.,Tierney,L.,Yang,J.和Zhang,J.(2004)。生物导体:用于计算生物学和生物信息学的开放式软件开发。基因组生物学5,R80。
[16] Irizarry,R.A.、Bolstad,B.M.、Collin,F.、Cope,L.M.、Hobbs,B.和Speed,T.P.(2003a)。Affymetrix基因芯片探针级数据摘要。核酸研究31,e15。
[17] Irizarry,R.A.、Hobbs,B.、Collin,F.、Beazer-Barclay,Y.D.、Antonellis,K.J.、Scherf,U.和Speed,T.P.(2003b)。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学4,249-264·Zbl 1141.62348号 ·doi:10.1093/biostatistics/4.2.249
[18] Kapur,K.、Xing,Y.、Ouyang,Z.和Wong,W.(2007年)。外显子阵列可准确评估基因表达。基因组生物学8,R82。
[19] Kim,P.M.和Tidor,B.(2003年)。通过大规模基因表达数据的降维进行子系统识别。基因组研究13,1706-1718。
[20] Lai,W.R.、Johnson,M.D.、Kucherrapati,R.和Park,P.J.(2005年)。用于识别阵列CGH数据中的扩增和缺失的算法的比较分析。生物信息学21,3763-3770。
[21] Li,B.、Ruotti,V.、Stewart,R.M.、Thomson,J.A.和Dewey,C.N.(2010年)。具有读映射不确定性的RNA-Seq基因表达估计。生物信息学26,493-500。
[22] Li,C.和Wong,W.H.(2001)。寡核苷酸阵列的基于模型的分析:模型验证、设计问题和标准误差应用。基因组生物学2,R32。
[23] Liu,W.、Mei,R.、Di,X.、Ryder,T.B.、Hubbell,E.、Dee,S.、Webster,T.A.、Harrington,C.A.、Ho,M.、Baid,J.和Smeekens,S.P.(2002)。使用签名秩调用算法分析高密度表达微阵列。生物信息学18,1593-1599。
[24] Liu,X.、Milo,M.、Lawrence,N.D.和Rattray,M.(2005)。适用于多芯片Affymetrix Probelevel分析的易处理概率模型。生物信息学21,3637-3644。
[25] Lopes,H.F.和West,M.(2004)。因子分析中的贝叶斯模型评估。《中国统计》14,41-67·Zbl 1035.62060号
[26] Lucas,J.E.、Carvalho,C.、Wang,Q.、Bild,A.、Nevins,J.R.和West,M.(2006)。基因表达基因组学中的稀疏统计建模。《基因表达和蛋白质组学的贝叶斯推断》(P.Muller,K.Do和M.Vannucci编辑)155-176。剑桥:剑桥大学出版社。
[27] Lucas,J.E.、Kung,H.N.和Chi,J.T.(2010年)。基因组生物标记物的交叉研究预测:癌症基因组学评估。公共科学图书馆计算生物学6,e1000920。
[28] Marioni,J.C.、Mason,C.E.、Mane,S.M.、Stephens,M.和Gilad,Y.(2008)。RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究18,1509-1517。
[29] Marks,J.R.、Davidoff,A.M.、Kerns,B.J.、Humphrey,P.A.、Pence,J.C.、Dodge,R.K.、Clarke-Pearson,D.L.、Iglehart,J.D.、Bast,R.C.和Berchuck,A.(1991)。上皮性卵巢癌中p53的过度表达和突变。癌症研究51,2979-2984。
[30] McClintick,J.N.和Edenberg,H.J.(2006)。目前的过滤对微阵列实验分析的影响。BMC生物信息学7,49。
[31] Miller,L.D.、Smeds,J.、George,J.,Vega,V.B.、Vergara,L.、Ploner,A.、Pawitan,Y.、Hall,P.、Klaar,S.、Liu,E.T.和Bergh,J.(2005)。人类乳腺癌中p53状态的表达特征可预测突变状态、转录效应和患者生存率。美国国家科学院院刊102,13550-13555。
[32] Mortazavi,A.、Williams,B.A.、McCue,K.、Schaeffer,L.和Wold,B.(2008)。通过RNA序列定位和量化哺乳动物转录组。自然方法5621-628。
[33] Nguyen,D.V.和Roke,D.M.(2002)。使用微阵列基因表达数据通过偏最小二乘法对肿瘤进行分类。生物信息学18,39-50。
[34] Ouandaogo,Z.G.、Haouzi,D.、Assou,S.、Dechaud,H.、Kadoch,I.J.、Vos,J.D.和Hamamah,S.(2011年)。人卵丘细胞分子特征与卵母细胞核成熟期的关系。公共图书馆ONE 6,e27179。
[35] Pollack,J.R.、Sorlie,T.、Perou,C.M.、Rees,C.A.、Jeffrey,S.S.、Lonning,P.E.、Tibshirani,R.、Botstein,D.、Dale,A.L.B.和Brown,P.O.(2002)。微阵列分析揭示了DNA拷贝数改变在人类乳腺肿瘤转录程序中的主要直接作用。《美利坚合众国国家科学院院刊》99,12963-12968。
[36] Rueda,O.M.和Uriarte,R.D.(2007年)。灵活准确地检测aCGH的基因组拷贝数变化。公共科学图书馆计算生物学3,1115-1122。
[37] Sotiriou,C.,Wirapati,P.,Loi,S.,Harris,A.,Fox,S.、Smeds,J.、Nordgren,H.、Farmer,P.、Praz,V.、Kains、B.H.、Desmedt,C.、Larsimont,D.、Cardoso,F.、Peterse,H.,Nuyten,D.、Buyse,M.、Vijver,M.J.V.D.、Bergh,J.,Piccart,M.和Delorenzi,M..(2006)。乳腺癌基因表达谱分析:了解组织学分级的分子基础以改善预后。《国家癌症研究所杂志》98,262-272。
[38] Tiedermann,R.E.、Zhu,Y.X.、Schimdt,J.、Shi,C.X.、Sereduk,C.、Yin,H.、Mousses,S.和Stewart,A.K.(2012年)。通过可药物基因组的RNA干扰致死性筛选鉴定人类多发性骨髓瘤细胞的分子易损性。癌症研究72,757-768。
[39] Wang,Z.、Gerstein,M.和Snyder,M.(2009)。RNA-Seq:转录组学的革命性工具。《自然评论遗传学》10,57-63。
[40] Wang,Y.、Klijn,J.G.M.、Zhang,Y.,Sieuwerts,A.M.、Look,M.P.、Yang,F.、Talantov,D.、Timmermans,M.、Gelder,M.E.M.V.、Yu,J.、Jatkoe,T.、Berns,E.M.J.、Atkins,D.和Foekens,J.A.(2005)。预测淋巴结阴性原发性乳腺癌远处转移的基因表达谱。柳叶刀365671-679。
[41] Warren,P.、Taylor,D.、Martini,P.G.V.、Jackson,J.和Bienkowska,J.(2007)。PANP-一种在寡核苷酸表达阵列上检测基因的新方法。第七届IEEE生物信息学和生物工程国际会议论文集108-115。马萨诸塞州波士顿:IEEE。
[42] West,M.(2003)。“大(p),小(n)”范式中的贝叶斯因子回归模型。贝叶斯统计7(J.Bernardo、M.Bayarri、J.Berger、A.Dawid、D.Heckerman、A.Smith和M.West编辑)723-732。纽约:牛津大学出版社。
[43] Wieringen,W.N.V.、Belien,J.A.M.、Vosse,S.J.、Achame,E.M.和Ylstra,B.(2006)。ACE-it:基因剂量和RNA表达数据的全基因组整合工具。生物信息学221919-1920。
[44] Whitlock,M.C.(2005)。结合独立测试的概率:加权Z方法优于Fisher方法。进化生物学杂志18,1368-1373。
[45] Wu,Z.和Irizarry,R.A.(2005年)。用于分析微阵列探针水平数据的统计框架。工作文件73,约翰·霍普金斯大学生物统计学系。可从获取。
[46] Wu,Z.、Irizarry,R.A.、Gentleman,R.、Murillo,F.M.和Spencer,F.(2004)。寡核苷酸表达阵列的基于模型的背景调整。《美国统计协会杂志》99,909-917·Zbl 1055.62129号 ·doi:10.1198/016214500000683
[47] Yeung,K.Y.和Ruzzo,W.L.(2001)。聚类基因表达数据的主成分分析。生物信息学17,763-774。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。