×

高通量测序或蛋白质组学实验中特征子集相关计数数据的模拟框架。 (英语) 兹比尔1359.92034

摘要:作为高通量测序实验数据处理的一部分,会生成计数数据,表示映射到特定基因组区域的读取量。计数数据也出现在检测蛋白质相互作用的质谱实验中。为了评估用于分析蛋白质组学实验中的序列计数数据或光谱计数数据的新计算方法,需要人工计数数据。尽管已经提出了一些生成人工测序计数数据的方法,但所有这些方法都模拟了单个测序运行,因此忽略了单个基因组特征之间的相关结构,或者它们仅限于特定结构。我们建议从多元正态分布中提取相关数据,并对这些连续数据进行四舍五入,以获得离散计数。在我们的方法中,所需的分布参数可以用不同的方法构造,也可以从实际计数数据中估计。因为四舍五入会影响相关性结构,所以我们评估了收缩估计器的使用,这些估计器已经用于DNA微阵列的人工表达数据。事实证明,我们的方法对于模拟特定特征子集(例如单个路径或GO类别)的计数非常有用。

MSC公司:

92C40型 生物化学、分子生物学
92B15号机组 普通生物统计学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Adler,A.S.,M.L.McClelland,S.Yee,M.Yaylaoglu,S.Hussain,E.Cosino,E.Quinones,Z.Modrusan,S.Seshagiri,E.Torres,V.S.Chopra,B.Haley,Z.Zhang,E.M.Blackwood,M.Singh,M.Junttila,J-P.Stephan,J.Liu,G.Pau,E.R.Fearon,Z.Jiang和R.Firestein(2014)“结肠癌的综合分析确定了PRPF6在肿瘤生长中的基本功能”,Genes。开发,281068-1084。;阿德勒,A.S。;麦克莱兰,M.L。;Yee,S。;Yaylaoglu,M。;侯赛因,S。;Cosino,E。;喹诺酮类,E。;莫德鲁桑,Z。;Seshagiri,S。;托雷斯,E。;乔普拉,V.S。;B.哈雷。;张,Z。;布莱克伍德,E.M。;辛格,M。;Junttila,M。;斯蒂芬,J-P。;刘,J。;Pau,G。;Fearon,E.R。;江,Z。;Firestein,R.,结肠癌的综合分析确定了PRPF6在肿瘤生长中的基本功能,基因。开发,281068-1084(2014)
[2] Allen,G.I.和Z.Liu(2012):“从高通量测序数据推断遗传网络的对数线性图形模型”,IEEE Int.Conf.Bioinf。生物识别。,41-46. doi:。;艾伦,G.I。;Liu,Z.,用于从高通量测序数据推断遗传网络的对数线性图形模型,IEEE Int.Conf.Bioinf。生物识别。,41-46 (2012) ·doi:10.1109/BIBM.2012.6392619
[3] Allen,G.I.和Z.Liu(2013):“从下一代测序数据推断遗传网络的局部泊松图形模型”,IEEE Trans。纳米生物学。,12, 1-10.; 艾伦,G.I。;Liu,Z.,用于从下一代测序数据推断遗传网络的局部泊松图形模型,IEEE Trans。纳米生物学。,12, 1-10 (2013)
[4] Anders,S.和W.Huber(2010):“序列计数数据的差异表达分析”,《基因组生物学》。,11,R106。;安德斯,S。;Huber,W.,序列计数数据的差异表达分析,基因组生物学。,11,R106(2010)
[5] Anders,S.、P.T.Pyl和W.Huber(2015):“HTSeq-一个使用高通量测序数据的Python框架”,生物信息学,31166-169。;安德斯,S。;Pyl,P.T。;Huber,W.,HTSeq-一个处理高通量测序数据的Python框架,生物信息学,31166-169(2015)
[6] Böhning,D.、E.Dietz和P.Schlattmann(1999):“零膨胀泊松模型和牙科流行病学中的龋齿、缺牙和补牙指数”,J.Royal。Stat.Soc.,系列A,162195-209。;Böhning博士。;迪茨,E。;Schlattmann,P.,《牙科流行病学中的零膨胀泊松模型和龋齿、缺牙和补牙指数》,J.Royal。Stat.Soc.,系列A,162195-209(1999)·Zbl 0865.62017年
[7] Canale,A.和D.B.Dunson(2012):“计数过程的非参数Bayes建模”,《生物特征》,100801-816。;卡纳尔,A。;Dunson,D.B.,计数过程的非参数Bayes建模,Biometrika,100801-816(2012)·Zbl 1279.62202号
[8] Choi,H.,D.Fermin和A.I.Nesvizhskii(2008):“无标签鸟枪蛋白质组学中光谱计数数据的显著性分析”,分子细胞。蛋白质组学,72373-2385。;Choi,H。;Fermin,D。;Nesvizhskii,A.I.,无标签鸟枪蛋白质组学中光谱计数数据的显著性分析,分子细胞。蛋白质组学,72373-2385(2008)
[9] Demir,E.,M.P.Cary,S.Paley,K.Fukuda,C.Lemer,I.Vastrik,G.Wu,P.D'Eustachio,C.Schaefer,J.Luciano,F.Schacherer,I.Martinez-Flores,Z.Hu,V.Jimenez-Jacinto,G.Joshi-Tope,K.Kandasamy,A.C.Lopez-Fuentes,H.Mi,E.Pichler,I.Rodchenkov,A.Splendiani,S.Tkachev,J.Zucker,G.Gopinath,H.Rajasimha,R.Ramakrishnan,I。Shah、M.Syed、N.Anwar、O.Babur、M.Blinov、E.Brauner、D.Corwin、S.Donaldson、F.Gibbons、R.Goldberg、P.Hornbeck、A.Luna、P.Murray-Rust、E.Neumann、O.Ruebenacker、M.Samwald、M.van Iersel、S.Wimalaratne、K.Allen、B.Braun、M.Whirl-Carrillo、K.H.Cheung、K.Dahlquist、A.Finney、M.Gillespie、E.Glass、L.Gong、R.Haw、M.Honig、O。Hubaut,D.Kane,S.Krupa,M.Kutmon,J.Leonard,D.Marks,D.Merberg,V.Petri,A.Pico,D.Ravenscroft,L.Ren,N.Shah,M.Sunshine,R.Tang,R.Whaley,S.Letovksy,K.H.Buetow,A.Rzhetsky,V.Schachter,B.S.Sobral,U.Dogrusoz,S.McWeeney,M.Aladjem,E.Birney,J.Collado-Vides,S.Goto,M.Hucka,N.Le Nov,N.Maltsev,A.Pandey,P.Thomas、E.Wingender、P.D.Karp、C.Sander和G.D.Bader(2010):“路径数据共享的BioPAX社区标准”,《国家生物技术》。,28, 935-942.; Demir,E。;卡里,M.P。;Paley,S。;福田,K。;Lemer,C。;瓦斯特里克,I。;Wu,G。;D’Eustachio,P。;谢弗,C。;卢西亚诺,J。;Schacherer,F。;马丁内斯·弗洛雷斯,I。;胡,Z。;Jimenez-Jacinto,V。;Joshi-Tope,G。;Kandasamy,K。;Lopez-Fuentes,A.C。;米·H。;皮克勒,E。;罗德琴科夫,I。;Splendiani,A。;Tkachev,S。;Zucker,J。;戈皮纳特,G。;拉贾西姆哈,H。;Ramakrishnan,R。;沙阿一世。;Syed,M。;N.安瓦尔。;O.巴布尔。;布林诺夫,M。;布劳纳,E。;科尔文,D。;唐纳森,S。;吉本斯,F。;Goldberg,R。;霍恩贝克,P。;Luna,A。;莫里·鲁斯特,P。;Neumann,E。;O.Ruebenacker。;Samwald,M。;范·埃尔塞尔,M。;维马拉通,S。;艾伦,K。;布劳恩,B。;M.Whirl-Carrillo。;Cheung,K.H。;Dahlquist,K。;芬尼,A。;Gillespie,M。;玻璃,E。;龚,L。;霍·R。;Honig,M。;O.Hubaut。;凯恩,D。;Krupa,S。;库特蒙,M。;Leonard,J。;马克·D。;Merberg,D。;佩特里,V。;Pico,A。;Ravenscroft,D。;任,L。;沙阿,N。;阳光,M。;唐·R。;R.Whaley。;Letovksy,S。;Buetow,K.H。;Rzhetsky,A。;Schachter,V。;Sobral,B.S。;Dogrusoz,美国。;McWeeney,S。;阿拉杰姆,M。;伯尼,E。;Collado-Vides,J。;Goto,S。;哈卡,M。;新墨西哥州勒诺维尔。;马尔采夫,N。;潘迪,A。;托马斯·P。;Wingender,E。;卡普,P.D。;桑德,C。;Bader,G.D.,路径数据共享的BioPAX社区标准,国家生物技术。,28, 935-942 (2010)
[10] Fischer,M.、S.Zilkenat、R.G.Gerlach、S.Wagner和B.Y.Renard(2014):“亲和纯化质谱数据的预处理和后处理工作流”,J.Proteom。第13号决议,2239-2249。;费舍尔,M。;Zilkenat,S。;格拉赫,R.G。;瓦格纳,S。;Renard,B.Y.,亲和纯化质谱数据的预处理和后处理工作流,J.Proteom。决议,第13号,第2239-2249页(2014年)
[11] Frazee,A.C.、G.Pertea、A.E.Jaffe、B.Langmead、S.L.Salzberg和J.T.Leek(2014):“使用Balldrough进行灵活的异构体水平差异表达分析”,bioRxiv再版,doi:。;弗雷泽,A.C。;Pertea,G。;杰菲,A.E。;Langmead,B。;Salzberg,S.L。;Leek,J.T.,使用Balldrough进行柔性异构体水平差异表达分析,bioRxiv再版(2014)·数字对象标识代码:10.1101/003665
[12] Fröhlich,H。Sahin,D.Arlt,C.Bender和T.Beissbarth(2009):“从多重干预中重建蛋白质信号网络的决定效应传播网络”,BMC Bioninform。,10, 322.; Fröhlich,H。;沙欣。;阿尔特,D。;本德,C。;Beissbarth,T.,《从多重干预中重建蛋白质信号网络的决定效应传播网络》,BMC Bioninform,10,322(2009)
[13] Galati,J.C.,K.A.Seaton,K.J.Lee,J.A.Simpson和J.B.Carlin(2014):“多元正态插补后非二进制分类变量的舍入:简单方法的评估和实践意义”,《统计与计算》。模拟。,84, 798-811.; 加拉蒂,J.C。;Seaton,K.A。;Lee,K.J。;辛普森,J.A。;Carlin,J.B.,《多元正态插补后非二进制分类变量的四舍五入:简单方法的评估和实践意义》,《统计与计算杂志》。模拟。,84, 798-811 (2014) ·兹比尔1453.62298
[14] Goeman,J.J.、S.A.van de Geer、F.de Kort和H.C.van Houwelingen(2004):“基因组的全球测试:与临床结果的测试关联”,生物信息学,2093-99。;Goeman,J.J。;van de Geer,S.A。;de Kort,F。;van Houwelingen,H.C.,基因组的全球测试:与临床结果的测试关联,生物信息学,2093-99(2004)·Zbl 1110.62002号
[15] Griebel,T.、B.Zacher、P.Ribeca、E.Raineri、V.Lacroix、R.Guigó和M.Sammeth(2012):“用通量模拟器模拟和模拟通用RNA-Seq实验”,《核酸研究》,第40期,第10073-10083页。;Griebel,T。;Zacher,B。;里贝卡,P。;雷内里,E。;拉克鲁瓦,V。;吉戈,R。;Sammeth,M.,用通量模拟器建模和模拟通用RNA-Seq实验,核酸研究,40,10073-10083(2012)
[16] Higham,N.(2002):“计算最近的相关矩阵——金融问题”,IMA J.Numer。分析。,22, 329-343.; Higham,N.,《计算最近相关矩阵——金融问题》,IMA J.Numer。分析。,22, 329-343 (2002) ·Zbl 1006.65036号
[17] Horton,N.J.、S.R.Lipsitz和M.Parzen(2003):“在多重插补中四舍五入时的潜在偏差”,《美国统计》,第57卷,第229-232页。;新泽西州霍顿。;Lipsitz,S.R。;Parzen,M.,《在多重插补中四舍五入时出现偏差的可能性》,《美国统计》,第57卷,第229-232页(2003年)·Zbl 1182.62002号
[18] Jung,K.、H.Dihazi、A.Bibi、G.H.Dihazi和T.Beissbarth(2014):“全球测试理念适应缺失值的蛋白质组数据”,《生物信息学》,第30期,第1424-1430页。;Jung,K。;Dihazi,H。;比比,A。;Dihazi,G.H。;Beissbarth,T.,《将全球测试理念应用于缺失值的蛋白质组数据》,生物信息学,第30期,第1424-1430页(2014年)
[19] Karlis,D.和L.Meligkotsidou(2005):“具有协方差结构的多元泊松回归”,统计计算。,15255-265页。;Karlis,D。;Meligkotsidou,L.,具有协方差结构的多元泊松回归,统计计算。,15, 255-265 (2005) ·Zbl 1116.60006号
[20] Kirk,P.D.W.和M.P.H.Stumpf(2009):“高斯过程回归自举:探索时间进程数据中不确定性的影响”,生物信息学,251300-1306。;柯克,P.D.W。;Stumpf,M.P.H.,《高斯过程回归自举:探索时间进程数据中不确定性的影响》,生物信息学,251300-1306(2009)
[21] Kramer,F.(2014):“将路径数据作为先验知识整合到网络重建方法中”,论文,乔治奥古斯特大学哥廷根分校。;Kramer,F.,《将路径数据作为先验知识集成到网络重建方法中》,论文(2014)
[22] Kramer,F.、M.Bayerlová、F.Klemm、A.Bleckmann和T.Beissbarth(2013):“rBiopaxParser-解析、修改和可视化BioPAX数据的R包”,生物信息学,29,520-522。;Kramer,F。;Bayerlová,M。;克莱姆,F。;Bleckmann,A。;Beissbarth,T.,rBiopaxParser-解析、修改和可视化BioPAX数据的R包,生物信息学,29,520-522(2013)
[23] Kramer,F.、M.Bayerlová和T.Beißbarth(2014):“将路径数据集成到生物信息算法中的基于R的软件”,《生物学》,385-100。;Kramer,F。;Bayerlová,M。;Beißbarth,T.,用于将路径数据集成到生物信息算法中的基于R的软件,生物学,385-100(2014)
[24] Ledoit,O.和M.Wolf(2003):“应用于投资组合选择,改进股票收益协方差矩阵的估计”,J.Empir。财务。,10, 603-621.; Ledoit,O。;Wolf,M.,《股票收益协方差矩阵的改进估计及其在投资组合选择中的应用》,J.Empir。财务。,10, 603-621 (2003) ·Zbl 1415.62032号
[25] Leisch,F.,A.Weingessel和K.Hornik(1998):“关于相关人工二进制数据的生成。”工作论文SFB“经济学和管理科学中的自适应信息系统和建模”,13。维也纳经济与商业大学经济与管理科学SFB自适应信息系统与建模。;Leisch,F。;Weingessel,A。;Hornik,K.,SFB工作文件“经济和管理科学中的自适应信息系统和建模”(1998年)
[26] Li,B.和C.Dewey(2011):“RSEM:根据RNA-Seq数据进行准确转录定量,有或没有参考基因组,”BMC Bioninform。,12, 323.; 李,B。;Dewey,C.,RSEM:使用或不使用参考基因组的RNA-Seq数据进行准确转录定量,BMC Bioninform。,12, 323 (2011)
[27] Li,C.-S.,J.-C.Lu,J.Park,K.Kim,P.A.Brinkley和J.P.Peterson(1999):“多元零膨胀泊松模型及其应用”,《技术计量学》,41,29-38。;李,C.-S。;卢,J.-C。;Park,J。;Kim,K。;Brinkley,P.A。;Peterson,J.P.,多元零膨胀泊松模型及其应用,技术计量学,41,29-38(1999)
[28] Liao,Y.,G.K.Smyth和W.Shi(2014):“特征计数:将序列读取分配给基因组特征的有效通用程序”,生物信息学,30923-930。;Liao,Y。;Smyth,G.K。;Shi,W.,《FeatureCounts:一种高效的通用程序,用于将序列读取分配给基因组特征》,生物信息学,30923-930(2014)
[29] Liu,Z.,F.Sun,J.Braun,D.P.B.McGovern和S.Piantadosi(2015):“利用宏基因组计数数据同时进行分类群选择和网络构建的多水平正则回归”,生物信息学,311067-1074。;刘,Z。;Sun,F。;Braun,J。;麦戈文,D.P.B。;Piantadosi,S.,利用宏基因组计数数据同时进行分类群选择和网络构建的多级正则化回归,生物信息学,311067-1074(2015)
[30] Mansmann,U.和R.Meister(2006):“测试功能组中的差异基因表达”,《医学方法》,44,449-453。;曼斯曼,美国。;Meister,R.,《测试功能组中的差异基因表达》,《Inf.Med.方法》,44449-453(2006)
[31] Opgen-Rhein,R.和K.Strimmer(2007年):“通过无分布收缩方法对差异表达基因进行准确排名”,《统计学》。申请。遗传学。分子生物学。,6, 9.; Opgen-Rhein,R。;Strimmer,K.,《通过无分布收缩法对差异表达基因进行准确排序》,Statist。申请。遗传学。分子生物学。,6, 9 (2007) ·Zbl 1166.62361号
[32] R核心团队(2013):R:统计计算的语言和环境。奥地利维也纳R统计计算基金会。;R: 统计计算语言和环境(2013)
[33] Robinson,M.D.,D.J.McCarthy和G.K.Smyth(2010):“edgeR:用于数字基因表达数据差异表达分析的生物导体包”,生物信息学,26139-140。;医学博士罗宾逊。;麦卡锡,D.J。;Smyth,G.K.,edgeR:数字基因表达数据差异表达分析的生物导体包,生物信息学,26,139-140(2010)
[34] Rustici G.、N.Kolesnikov、M.Brandizi、T.Burdett、M.Dylag、I.Emam、A.Farne、E.Hastings、J.Ison、M.Keays、N.Kurbatova、J.Malone、R.Mani、A.Mupo、R.Pedro Pereira、E.Pilicheva、J.Rung、A.Sharma、Y.A.Tang、T.Ternent、A.Tikhonov、D.Welter、E.Williams、A.Brazma、H.Parkinson和U.Sarkans(2013):“ArrayExpress更新-数据库增长趋势和数据分析工具链接”,核酸。决议,31,D987-D990。;Rustici,G。;Kolesnikov,N。;Brandizi,M。;Burdett,T。;迪拉格,M。;伊玛目,I。;Farne,A。;黑斯廷斯,E。;伊森·J。;Keays,M。;北卡罗来纳州库尔巴托娃。;马龙,J。;马尼,R。;Mupo,A。;佩德罗·佩雷拉(Pedro Pereira),R。;Pilicheva,E。;Rung,J。;Sharma,A。;Tang,Y.A。;特伦特,T。;Tikhonov,A。;Welter,D。;威廉姆斯,E。;Brazma,A。;帕金森H。;Sarkans,U.,ArrayExpress更新-数据库增长趋势以及与数据分析工具Nucleic Acids的链接。决议,31,D987-D990(2013)
[35] Schaefer,C.F.,K.Anthony,S.Krupa,J.Buchoff,M.Day,T.Hannay和K.H.Buetow(2009):“PID:通路相互作用数据库”,核酸。决议,37,D674-D679。;谢弗,C.F。;Anthony,K。;Krupa,S。;Buchoff,J。;Day,M。;Hannay,T。;Buetow,K.H.,PID:通路相互作用数据库,核酸。Res.,37,D674-D679(2009年)
[36] Schäfer,J.和K.Strimmer(2005):“大规模协方差估计的收缩方法及其对功能基因组学的影响”,《统计学》。申请。遗传学。分子生物学。,4, 32.; Schäfer,J。;Strimmer,K.,《大规模协方差估计的收缩方法及其对功能基因组学的影响》,Statist。申请。遗传学。分子生物学。,4, 32 (2005)
[37] Shi,P.和E.A.Valdez(2014):“保险索赔计数的多元负二项模型”,《保险》。数学。经济。,55, 18-29.; Shi,P。;Valdez,E.A.,保险索赔计数的多元负二项模型,保险。数学。经济。,55, 18-29 (2014) ·Zbl 1296.91169号
[38] Shin,K.和R.Pasupathy(2007):“快速生成双变量泊松随机向量的方法”,Proc 2007 Winter Simulation Conf,472-479。;Shin,K。;Pasupathy,R.,快速生成二元泊松随机向量的方法,Proc 2007 Winter Simulation Conf,472-479(2007)·Zbl 1243.62071号
[39] Yahav,I.和G.Shmueli(2012):“关于在管理科学应用中生成多元泊松数据”,应用。斯托克。模型。公交车。,28, 91-102.; 雅哈夫,I。;Shmueli,G.,《关于在管理科学应用中生成多元泊松数据》,应用。斯托克。模型。公交车。,28, 91-102 (2012) ·Zbl 06292433号
[40] Zhang,L.和B.K.Mallick(2013):“从离散表达数据推断基因网络”,生物统计学,14708-722。;张,L。;Mallick,B.K.,从离散表达数据推断基因网络,生物统计学,14708-722(2013)
[41] Zhao,T.和H.Liu(2012):“R中高维无向图估计的巨大包”,J.Mach。学习。决议,第13号,1059-1062。;Zhao,T。;Liu,H.,R,J.Mach中高维无向图估计的巨大包。学习。第13号决议,1059-1062(2012)·Zbl 1283.68311号
[42] Zhou,H.,J.Jin,Z.Haojun,Y.Bo,M.Wozniak和W.Limsoon(2012):“IntPath-模型生物和重要病原体的综合途径基因关系数据库”,BMC系统。生物,6:Suppl 2,S2。;周,H。;Jin,J。;Haojun,Z。;Bo,Y。;沃兹尼亚克,M。;Limsoon,W.,IntPath-模型生物和重要病原体的综合途径基因关系数据库,BMC系统。生物,6,S2(2012)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。