×

兹马思-数学第一资源

高通量测序或蛋白质组学实验中特征子集相关计数数据的模拟框架。(英语) Zbl公司 1359.92034
摘要:作为高通量测序实验数据处理的一部分,产生的计数数据表示映射到特定基因组区域的读取量。计数数据也出现在检测蛋白质-蛋白质相互作用的质谱实验中。因此,为了评估蛋白质组学实验中测序计数数据或光谱计数数据分析的新计算方法,需要人工计数数据。虽然有人提出了一些生成人工测序计数数据的方法,但它们都模拟单个测序运行,从而省略了单个基因组特征之间的相关结构,或者它们仅限于特定的结构。我们建议从多元正态分布中提取相关数据,并对这些连续数据进行四舍五入,以获得离散计数。在我们的方法中,所需的分布参数可以用不同的方法构造,也可以根据实际计数数据进行估计。因为四舍五入会影响相关结构,所以我们评估已经用于DNA微阵列人工表达数据的收缩估计器的使用。我们_的_方法_被_证明_是_有用_的_ , _以_模拟_计数_的_定义_子集_的_特征_ , _如_个人_路径_或_围棋_类别_ 。_

理学硕士:
92C40型 生物化学、分子生物学
92B15号 一般生物统计学
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 阿德勒,A。S、 ,M。L。麦克莱兰,S。是的,M。Yaylaoglu,S。侯赛因E。科西诺,E。醌,Z。莫德鲁桑,S。塞沙吉里,E。托雷斯,弗吉尼亚州。美国。乔普拉,B。海莉,Z。张娥。M。布莱克伍德,M。辛格,M。朱蒂拉,J-P。斯蒂芬,J。刘G。保罗,E。R。费隆,Z。江和R。Firestein(2014):“结肠癌的综合分析确定了PRPF6在肿瘤生长中的重要作用,”基因。Dev.,28,1068-1084年。
[2] 艾伦,G。一。还有Z。Liu(2012):“从高通量测序数据推断遗传网络的对数线性图形模型”,IEEE Int.Conf.Bioinf。生物医学,41-46。doi:。
[3] 艾伦,G。一。还有Z。Liu(2013):“从下一代测序数据推断遗传网络的局部泊松图模型”,IEEE Trans。纳米生物科学,12,1-10。
[4] 安德斯,S。和W。Huber(2010):“序列计数数据的差异表达分析”,基因组生物学,11,R106。
[5] 安德斯_ , _S_. , _P_._T。Pyl和W。Huber(2015):“HTSeq——一个处理高通量测序数据的Python框架”,生物信息学,31166-169。
[六] Bö赫宁,D.,E。迪茨和P。Schlattmann(1999):“牙齿流行病学中零膨胀泊松模型和龋齿、缺牙和补牙指数,”J。皇家_的_ 。_Stat.Soc.,A系列,162195-209。
[7] 卡纳尔,A。和D。B。Dunson(2012):“计数过程的非参数Bayes建模”,Biometrika,100801-816·Zbl公司 1279.62202
[8] 崔,H.,D。费明和A。一。Nesvizhskii(2008):“无标记鸟枪蛋白质组学中光谱计数数据的显著性分析”,分子细胞。蛋白质组学,72373-2385。
[9] 德米尔,E.,M。P。卡里,S。佩利,K。福田,C。莱默,我。瓦斯特里克,G。吴,P。D'Eustachio,C。谢弗,J。卢西亚诺,F。谢谢勒,I。马丁内斯弗洛雷斯,Z。胡,V。杰辛托,G。乔希·托普,K。坎达萨米,A。C。洛佩兹富恩特斯,H。米,E。皮勒,I。罗钦科夫,A。斯普雷米亚尼。特卡切夫,J。扎克,G。戈皮纳特,H。拉贾西姆哈,R。罗摩克里希南,I。沙阿,M。西德,N。安瓦尔,O。巴布尔,M。布利诺夫,E。布劳纳,D。科温,S。唐纳森F。吉本斯,R。戈德伯格,P。霍恩贝克,A。露娜,P。墨累锈,E。诺伊曼,O。鲁贝纳克,M。萨姆瓦尔德,M。范艾塞尔,S。温马拉特恩,K。艾伦,B。布朗,M。惠尔·卡里略,K。H。张,K。达尔奎斯特,A。芬尼,M。吉莱斯皮,E。玻璃,L。龚,R。哈,M。霍尼格。胡伯特,D。凯恩,S。克鲁帕,M。库特蒙,J。伦纳德。马克,D。梅伯格,V。Petri,A。皮科,D。拉文斯克罗夫特,L。任,N。沙阿,M。阳光,R。唐,R。威利,S。Letovksy,K。H。布托,A。Rzhetsky,V。沙赫特,B。美国。美国索布拉尔。多格鲁索兹,S。麦克威尼,M。阿拉杰姆,E。伯尼,J。Collado Vides,S。去吧,M。哈卡,N。11月ère,N。马尔塞夫,A。潘迪,P。托马斯,E。韦恩德,P。D。卡普,C。桑德和G。D。Bader(2010):“BioPAX社区路径数据共享标准”,Nat。生物技术,28935-942。
[10] 费舍尔,M.,S。齐克纳特,R。G。杰拉赫,S。瓦格纳和B。是的。Renard(2014):“亲和纯化质谱数据的前后处理流程”,J。蛋白质组学。第12239-2249页。
[11] 弗雷泽,A。C、 ,G。佩蒂亚,A。E。杰菲,B。兰米德,S。L。萨尔茨伯格和J。T。Leek(2014):“弹性异构体水平差异表达分析与睡衣”,bioRxiv再版,doi:。
[12] 法国ö赫利希_ , _H_. ,_Ö. 萨欣,D。阿尔特,C。本德和T。Beissbarth(2009):“从多个干预中重建蛋白质信号网络的确定性效应传播网络”,BMC Bioinform,10322。
[13] 加拉提,J。C、 ,K。A。西顿,K。J。李,J。A。辛普森和J。B。卡林(2014):“多元正态插补后非二元分类变量的舍入:简单方法的评估和实践意义,”J。统计计算。模拟_ , _84798_-_811_ 。_
[14] 戈曼,J。J、 ,S.A.van de Geer,F。德科特和H。C。van Houwelingen(2004):“基因组的全球测试:与临床结果的相关性测试”,生物信息学,20,93-99。
[15] 格里贝尔,T.,B。扎彻,P。里贝卡,E。雷内利,V。拉克鲁瓦,R。圭格ó 还有M。Sammeth(2012):“利用通量模拟器模拟和模拟通用RNA序列实验”,《核酸研究》,4010073-10083。
[16] 海姆_ , _N_._2002年):“计算最近的相关矩阵-来自金融的一个问题”,imaj。数字。《分析》,第22、329-343页·Zbl公司 1006.65036
[17] 北卡罗来纳州霍顿市。J、 ,S。R。利普西斯和M。Parzen(2003):“多重插补四舍五入时可能存在偏差”,Am。统计,57,229-232·Zbl公司 1182.62002
[18] 荣格,K.,H。迪哈西,A。比比,G。H。迪哈西和T。Beissbarth(2014):“全球测试理念对缺失值蛋白质组学数据的适应性”,生物信息学,301424-1430。
[19] 卡里斯,D。还有我。Meligkotsidou(2005):“具有协方差结构的多元泊松回归”,Stat.Comput.,15255-265。
[20] 柯克,P。D。W。还有M。P。H。Stumpf(2009):“高斯过程回归自举:探索时间过程数据中不确定性的影响”,生物信息学,251300-1306。
[21] 克莱默,F(2014年):“将路径数据作为先验知识整合到网络重建方法中”,论文,乔治奥古斯特大学Gö丁根。
[22] 克莱默,F.,M。拜洛夫á, F。克莱姆,A。布莱克曼和T。Beissbarth(2013):“rBiopaxParser-解析、修改和可视化BioPAX数据的R包”,生物信息学,29520-522。
[23] 克莱默,F.,M。拜洛夫á 还有T。ßbarth(2014):“将路径数据整合到生物信息算法中的基于R的软件”,生物学,385-100。
[24] 莱多特,O。还有M。沃尔夫(2003):“股票收益协方差矩阵的改进估计及其在投资组合选择中的应用”,J。帝国。金融,10603-621。
[25] 莱希,F.,A。温格塞尔和K。Hornik(1998):“关于相关人工二进制数据的生成”,工作论文SFB“经济和管理科学中的自适应信息系统和建模”,13。维也纳经济与商业大学,经济与管理科学中的SFB适应性信息系统与建模。
[26] 李,B。和C。杜威(2011):“RSEM:从RNA序列数据中精确量化转录物,无论是否有参考基因组”,BMC Bioinform,12323。
[27] 李,C.-S.,J.-C。卢,J。帕克,K。金,P。A。布林克利_和_J_ 。_P。彼得森(1999):“多元零膨胀泊松模型及其应用”,技术计量学,41,29-38。
[28] 廖勇,G。K。斯迈思和W。Shi(2014):“特征计数:为基因组特征分配序列读数的有效通用程序”,生物信息学,30923-930。
[29] 刘,Z.,F。孙,J。布劳恩,D。P。B。麦戈文和S。Piantadosi(2015):“基于元基因组计数数据的同时分类群选择和网络构建的多级正则化回归”,生物信息学,311067-1074。
[30] 曼斯曼,美国。和R。Meister(2006):“测试功能组中的差异基因表达”,方法信息医学,44,449-453。
[31] 奥普金大黄酸。还有K。Strimmer(2007):“通过无分布收缩法对差异表达基因进行精确排序,”统计学家。申请。吉奈特。分子生物学,6,9·Zbl公司 1166.62361
[32] R核心团队(2013):R:统计计算的语言和环境。R统计计算基金会,维也纳,奥地利。网址。
[33] 罗宾逊,M。D、 ,D。J。麦卡锡和G。K。Smyth(2010):“edgeR:用于数字基因表达数据差异表达分析的生物导体包”,生物信息学,26139-140。
[34] 拉斯蒂奇G.,N。科列斯尼科夫。布兰迪兹,T。伯德特,M。迪拉格,我。艾玛,A。法恩,法尔。哈斯廷斯,J。伊森,M。基斯_ , _N_._库巴托娃,J。马龙,R。玛尼,A。穆波,R。佩德罗佩雷拉,E。皮利切娃,J。横档,A。沙玛,Y。A。唐,T。特伦特,A。蒂霍诺夫。韦尔特,E。威廉姆斯,A。布拉斯马H。帕金森和U。Sarkans(2013):“ArrayExpress更新-数据库增长趋势和数据分析工具链接”,核酸。第31页,D987-D990。
[35] 谢弗,C。F、 ,K。安东尼,S。克鲁帕,J。布乔夫,M。天,T。汉奈和K。H。Buetow(2009):“PID:通路相互作用数据库”,核酸。第37页,D674-D679页。
[36] 附表ä费尔,J。还有K。Strimmer(2005):“大规模协方差估计的收缩方法及其对功能基因组学的影响”,统计学家。申请。吉奈特。分子生物学,4,32。
[37] 史,P。和E。A。Valdez(2014):“保险索赔计数的多元负二项模型”,保险公司。数学。经济学,55,18-29·Zbl公司 1296.91169
[38] 申,K。和R。Pasupathy(2007):“快速生成二元泊松随机向量的方法”,2007年冬季模拟会议,472-479。
[39] 雅哈,我。还有G。Shmueli(2012):“管理科学应用中多元泊松数据的生成”,应用。斯托奇。模型。巴士,28,91-102·Zbl公司 06292433
[40] 张,L。还有B。K。Mallick(2013):“从离散表达数据推断基因网络”,《生物统计学》,14708-722。
[41] 赵,T。和H。Liu(2012):“R中高维无向图估计的巨大包”,J。机器。学习。第13页,第1059-1062页·Zbl公司 1283.68311
[42] 周,H.,J。金,Z。你好,Y。博,M。沃兹尼亚克和W。Limson(2012):“IntPath-模式生物和重要病原体的综合通路-基因关系数据库”,BMC系统。生物,6:增刊2,S2。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。