×

一种集成多个基因组规模数据源的图形模型方法。 (英语) 兹比尔1311.92120

摘要:有效利用多种数据源是现代生物信息学的一大挑战。全基因组数据,如转录因子结合、基因表达和序列保守性测量,用于识别对发育和疾病等主要生物过程重要的结合区域和基因,由于异构数据类型的不同生物学意义和统计分布,很难一起使用,但每种数据类型都可以为理解正在研究的过程提供有价值的信息。在这里,我们提出了集成多个数据源的方法,以获得基因调控和表达的更完整图片。我们的目标是识别基因和顺式-发挥特定生物作用的调控区域。我们描述了一种用于数据集成的图形混合模型方法,检查了使用不同模型拓扑的效果,并讨论了评估模型有效性的方法。模型拟合计算效率高,并且产生的结果具有明确的生物学和统计学解释。Hedgehog和Dorsal信号通路果蝇作为例子,它们在胚胎发育中至关重要。

MSC公司:

92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Alexandridis,R,S.Lin和M.Irwin(2004):“使用基因表达数据的混合建模对肿瘤样本进行分类和发现——一种统一的方法”,生物信息学,20(16),2545-2552。;
[2] Azzalini,A.(2005):“偏正态分布和相关多变量家族”,《Scand J.Stat.》,32(2),159-188·Zbl 1091.62046号
[3] Bantignies,F.、R.H.Goodman和S.M.Smolik(2002年):“辅活化因子dCBP和染色质相关因子Modulo之间的相互作用影响果蝇的分割和黑色素瘤形成,”Proc。国家。阿卡德。科学。,99(5), 2895-2900.;
[4] Barrett,T.、D.B.Troup、S.E.Wilhite、P.Ledoux、D.Rudnev、C.Evangelista、I.F.Kim、A.Soboleva、M.Tomashevsky、K.A.Marshall、K.H.Phillippy、P.M.Sherman、R.N.Muertter和R.Edgar(2009):“NCBI GEO:高通量功能基因组数据的存档”,《核酸研究》,37(数据库问题),D885-D890。;
[5] Baum L.E.、T.Petrie、G.Soules和N.Weiss(1970):“马尔可夫链概率函数统计分析中出现的最大化技术”,《数学年鉴》。《法律总汇》,41(1),164-171·Zbl 0188.49603号
[6] 伯克利果蝇基因组项目。果蝇胚胎发生中的基因表达模式,上次访问时间:2013年1月11日。网址。;
[7] Bezdek,J.C.、R.Ehrlich和W.Full(1984):“FCM:模糊C均值聚类算法”,计算。地质科学。,10(2), 191-203.;
[8] Biehs,B.,K.Kechris,S.M.Liu和T.B.Kornberg(2010):“果蝇胚胎中的刺猬靶点以及产生刺猬信号组织特异性输出的机制”,《发育》,137(22),3887-3898。;
[9] Biemar,F.、D.A.Nix、J.Piel、B.Peterson、M.Ronshaugen、V.Sementchenko、I.Bell、J.R.Manak和M.S.Levine(2006):“使用全基因组拼接阵列全面鉴定果蝇背腹侧模式基因”,Proc。国家。阿卡德。科学。,103(34), 12763-12768.;
[10] Biernacki,C.,G.Celeux和G.Govaert(2000):“评估具有综合完全可能性的聚类混合模型”,IEEE T模式分析。,22(7), 719-725.;
[11] De Bie,T.、P.Monsieurs、K.Engelen、B.De Moor、N.Cristianini和K.Marchal(2005):“从基序、芯片芯片和微阵列数据中发现转录模块”,太平洋时报。生物计算机研讨会。,10, 483-494.;
[12] Dempster,A.P.,N.M.Laird和D.B.Rubin(1977):“通过EM算法从不完整数据中获得最大似然”,J.R.Stat.Soc.B,39(1),1-38·Zbl 0364.62022号
[13] Efron,B.(2007):“大小、功率和错误发现率”,《美国统计年鉴》,35(4),1351-1377·Zbl 1123.62008年
[14] Fujita,P.A.、B.Rhead、A.S.Zweig、A.S Hinrichs、D.Karolchik、M.S.Cline、M.Goldman、G.P.Barber、H.Clawson、A.Coelho、M.Diekhans、T.R.Dreszer、B.M.Giardine、R.A.Harte、J.Hillman-Jackson、F.Hsu、V.Kirkup、R.M.Kuhn、K.Leand、C.H.Li、L.R.Meyer、A.Pohl、B.J.Raney等人(2011):“UCSC基因组浏览器数据库:2011年更新”,《核酸研究》39(增刊1),D876-D882。;
[15] Hartigan,J.A.和M.A.Wong(1979):“算法AS 136:K均值聚类算法”,J.R.Stat.Soc.C(应用统计),28(1),100-108·Zbl 0447.62062号
[16] Hastie,T.、R.Tibshirani、G.Sherlock、M.Eisen、P.Brown和D.Botstein(1999):为基因表达阵列计算缺失数据。技术报告,斯坦福大学生物统计学系,1999年。网址。;
[17] Hawkins,R.D.、G.C.Hon和B.Ren(2010年):“下一代基因组学:综合方法”,《自然评论遗传学》。,11(7), 476-486.;
[18] Heberlein,U.,C.M.Singh,A.Y.Luk和T.J.Donohoe(1995):“刺猬协调果蝇眼睛的生长和分化”,《自然》,373(6516),709-711。;
[19] Hoffman,M.H.,O.J.Buske,J.Wang,Z.Weng,J.A.Bilmes和W.S.Noble(2012):“通过基因组分割在人类染色质结构中的无监督模式发现”,自然方法。,9, 473-476.;
[20] Huang,D.W.,B.T.Sherman和R.A.Lempicki(2009a):“利用DAVID生物信息学资源对大基因列表进行系统和综合分析”,《自然协议》,4(1),44-57。;
[21] Huang,D.W.,B.T.Sherman和R.A.Lempicki(2009b):“生物信息学富集工具:大型基因列表综合功能分析的途径”,《核酸研究》,37(1),1-13。;
[22] Ji,Y.,C.Wu,P.Liu,J.Wang和K.R.Coombes(2005):“β-混合物模型在生物信息学中的应用”,生物信息学,21(9),2118-2122。;
[23] Jörnsten,R.和S.Keleš(2008):“多水平混合模型,应用于多因素基因表达数据的分析”,《生物统计学》,9(3),540-554·Zbl 1143.62038号
[24] Kanehisa,M.和S.Goto(2000):“KEGG:京都基因和基因组百科全书”,《核酸研究》,28,27-30。;
[25] Kanehisa,M,S.Goto,Y.Sato,M.Furumichi和M Tanabe(2012):“KEGG用于大规模分子数据集的集成和解释”,《核酸研究》,40,D109-D114。;
[26] Kvam V.M.、P.Liu和Y.Si(2012):“从RNA-seq数据中检测差异表达基因的统计方法的比较”,《美国医学杂志》,99(2),248-256。;
[27] Lemmens,K.,T.Dhollander,T.De Bie,P.Monsieurs,K.Engelen,B.Smets,J.Winderickx,B.De Moor和K.Marchal(2006):“从ChIP-ChIP、基序和微阵列数据推断转录模块”,《基因组生物学》。,7(5),R37。;
[28] Li,Q.,M.J.MacCoss和M.Stephens(2010):“使用质谱法进行蛋白质鉴定的嵌套混合物模型,”Ann.Appl。统计,4(2),962-987·Zbl 1194.62118号
[29] Lourme,A.和C.Biernacki(2013):“多来源样本的同时高斯模型聚类”,计算。统计,28,371-391·Zbl 1305.65054号
[30] McLachlan,G.J.和T.Krishnan(2008):EM算法和扩展,第二版,美国新泽西州霍博肯:威利出版社·Zbl 1165.62019号
[31] McQuilton,P.、S.E.St.Pierre、J.Thurmond和FlyBase Consortium(2012):“FlyBase101-FlyBase导航的基础”,《核酸研究》,40(D1),D706-D714。;
[32] 国家生物技术信息中心(2013):基因表达总览(GEO),上次访问时间:2013年2月3日。网址。;
[33] Newton,M.A.,A.Noueiry,D.Sarkar和P.Ahlquist(2004):“用半参数分层混合法检测差异基因表达”,《生物统计》,5(2),155-176·Zbl 1096.62124号
[34] Ortiz-Barahona,A.,D.Villar,N.Pescador,J.Amigo和L.del Peso(2010):“通过整合转录诱导数据和硅结合位点预测的概率模型,在基因组范围内识别低氧诱导因子结合位点和靶基因,”《核酸研究》,38(7),2332-2345。;
[35] Qin,J.,M.J.Li,P.Wang,M.Q.Zhang和J.Wang(2011):“ChIP-Array:ChIP-seq/芯片和微阵列基因表达数据的组合分析,以发现转录因子的直接/间接靶点”,《核酸研究》,39(Suppl 2),W430-W436。;
[36] Schwarz,G.(1978):“估算模型的维数”,《Ann.Stat.》,6(2),461-464·Zbl 0379.62005年
[37] Seringhaus,M.、A.Paccanaro、A.Borneman、M.Snyder和M.Gerstein(2006):“预测真菌基因组中的基本基因”,《基因组研究》,16(9),1126-1135。;
[38] Siepel,A.、G.Bejerano、J.S.Pedersen、A.S.Hinrichs、M.Hou、K.Rosenbloom、H.Clawson、J.Spieth、L.W.Hillier、S.Richards、G.M.Weinstock、R.K.Wilson、R.A.Gibbs、W.J.Kent、W.Miller和D.Haussler(2005):“脊椎动物、昆虫、蠕虫和酵母基因组中的进化保守元素”,《基因组研究》,15(8),1034-1050。;
[39] Storey,J.D.(2002):“错误发现率的直接方法”,J.R.Stat.Soc B(Stat.Method.),64(3),479-498·Zbl 1090.62073号
[40] Strimmer,K.(2008):“错误发现率估计的统一方法”,BMC生物信息学9(1),303·Zbl 1318.62329号
[41] Sun,J.、A.Kabán和J.M.Garibaldi(2010):“使用皮尔逊VII型分布的稳健混合聚类”,模式识别。莱特。,31(16), 2447-2454.;
[42] FlyBase Consortium(2013年):FlyBase,上次访问时间为2013年2月1日。网址。;
[43] 基因本体联盟(2000):“基因本体:生物学统一的工具”,《自然遗传学》。,25(1), 25-29.;
[44] 基因本体联盟(2013):基因本体,上次访问时间:2013年3月29日。网址。;
[45] Tomancak,P.,B.Berman,A.Beaton,R.Weiszmann,E.Kwan,V.Hartenstein,S.Celniker和G.Rubin(2007):“果蝇胚胎发生过程中基因表达模式的全球分析”,基因组生物学。,8(7),R145。;
[46] Tyekucheva,S.,L.Marchionni,R.Karchin和G.Parmigiani(2011):“使用基因集整合不同的基因组数据”,《基因组生物学》。,12(10),R105。;
[47] 加州大学圣克鲁斯分校(2013):UCSC基因组浏览器,上次访问日期:2013年4月10日。;
[48] Vermunt,J.K.和J.Magidson(2005):嵌套数据结构的层次混合模型。2004年3月9日至11日,多特蒙德大学,《分类——无处不在的挑战:第28届Gesellschaft für Klassifikation eV年会论文集》,第28卷,第240页。斯普林格,2005年·Zbl 1429.62268号
[49] Viroli,C.(2010):“通过因子混合分析器的混合物进行降维的基于模型的聚类,”J.Classif。,27, 363-388.; ·Zbl 1337.62141号
[50] Von Ohlen,T.、D.Lessing、R.Nusse和J.E.Hooper(1997):“刺猬信号通过一种序列特异性DNA结合蛋白cubitus interrustus调节转录”,Proc。国家。阿卡德。科学。,94(6), 2404-2409.;
[51] Xie,Y.,W.Pan,K.S.Jeong,G.Xiao和A.B.Khodursky(2010):“蛋白质-DNA结合、基因表达和序列数据联合建模的贝叶斯方法”,《统计医学》,29(4),489-503。;
[52] Xu,J.J.(1996):多元和纵向离散响应数据的统计建模和推断。1996年,不列颠哥伦比亚大学博士论文。网址。;
[53] Zeitlinger,J.、R.P.Zinzen、A.Stark、M.Kellis、H.Zhang、R.A.Young和M.Levine(2007):“背侧、扭转和蜗牛的全基因组ChIP-ChIP分析表明果蝇胚胎中多种模式过程的整合,”Gen Dev.,21(4),385-390。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。