迈克尔·劳伦斯;马丁·摩根 可扩展基因组学R(右)和生物导体。 (英语) Zbl 1332.62009年 统计科学。 第214-226号第29页(2014年). 摘要:本文回顾了在分析大型基因组数据集时解决问题的策略,并描述了这些策略在R(右)由Bioconductor项目的包提供。我们处理大基因组数据的可扩展处理、汇总和可视化。一般思想已经确立,包括限制性查询、压缩、迭代和并行计算。我们通过将Bioconductor软件包应用于检测和分析全基因组测序实验中的遗传变异来演示这些策略。 MSC公司: 62-04 统计相关问题的软件、源代码等 62-07 数据分析(统计)(MSC2010) 62A09号 统计学中的图形方法 92-04 生物相关问题的软件、源代码等 关键词:R(右);生物导体;基因组学;生物学;大数据 软件:GGobi公司;R(右);foreach公司;生物导体;基因组比对;SoDA公司;biovizBase公司;批处理作业;普利尔;Samtools公司;水管工;VCF工具;生物串;基因组范围;pbdR公司;大Wig;批量实验 PDF格式BibTeX公司 XML格式引用 \textit{M.Lawrence}和\textit{M.Morgan},统计科学。29,第2号,214--226(2014;Zbl 1332.62009) 全文: 内政部 arXiv公司 欧几里得 参考文献: [1] Bischl,B.、Lang,M.、Mersmann,O.、Rahnenfuehrer,J.和Weihs,C.(2011)。使用R:Packages BatchJobs和BatchExperimentas在高性能集群上进行计算。技术报告1,TU Dortmund。 [2] 钱伯斯,J.M.(2008)。数据分析软件:用R编程。施普林格,纽约·Zbl 1180.62002号 [3] Cormen,T.H.、Leiserson,C.E.、Rivest,R.L.和Stein,C.(2001)。算法导论,第二版,马萨诸塞州波士顿McGraw-Hill·兹比尔1047.68161 [4] Danecek,P.、Auton,A.、Abecasis,G.、Albers,C.A.、Banks,E.、DePristo,M.A.、Handsaker,R.E.、Lunter,G.,Marth,G.T.、Sherry,S.T.、McVean,G.和Durbin,R.以及1000基因组项目分析小组(2011年)。变量调用格式和VCF工具。生物信息学27 2156-2158。 [5] R.C.绅士、V.J.凯里、D.M.贝茨等人(2004年)。生物导体:用于计算生物学和生物信息学的开放式软件开发。基因组生物学。5 R80。 [6] Kent,W.J.、Sugnet,C.W.、Furey,T.S.、Roskin,K.M.、Pringle,T.H.、Zahler,A.M.和Haussler,D.(2002年)。UCSC的人类基因组浏览器。基因组研究12 996-1006。 [7] Kent,W.J.、Zweig,A.S.、Barber,G.、Hinrichs,A.S.和Karolchik,D.(2010年)。BigWig和BigBed:支持浏览大型分布式数据集。生物信息学26 2204-2207。 [8] Lawrence,M.、Huber,W.、Pagès,H.、Aboyoun,P.、Carlson,M.,Gentleman,R.、Morgan,M.和Carey,V.(2013)。用于计算和注释基因组范围的软件。公共科学图书馆计算生物学9 e1003118。 [9] Lawrence,M.和Wickham,H.(2012)。管道工:可变和动态数据模型。R包版本0.6.6。 [10] Li,H.、Handsaker,B.、Wysoker,A.、Fennell,T.、Ruan,J.、Homer,N.、Marth,G.、Abecasis,G.,Durbin,R.和1000基因组项目数据处理小组(2009年)。序列对齐/映射格式和SAMtools。生物信息学25 2078-2079。 [11] Ostrochov,G.、Chen,W.-C、Schmidt,D.和Patel,P.(2012年)。在R中使用大数据编程。 [12] Pagès,H.、Aboyoun,P.、Gentleman,R.和DebRoy,s.(2013)。生物字符串:表示生物序列和匹配算法的字符串对象。R软件包版本2.25.6。 [13] R开发核心团队(2010年)。R:统计计算语言和环境。R统计计算基金会,奥地利维也纳。 [14] Revolution Analytics和Weston,S.(2013)。foreach:R.R包版本1.4.1的foreach循环构造。 [15] Wickham,H.(2011)。用于数据分析的拆分-应用-合并策略。统计软件杂志40 1-29。 [16] Wickham,H.、Lawrence,M.、Cook,D.、Buja,A.、Hofmann,H.和Swayne,D.F.(2009年)。交互式图形的管道。计算。统计师。24 207-215·Zbl 1232.62014年 ·doi:10.1007/s00180-008-0116-x [17] Yin,T.、Lawrence,M.和Cook,D.(2013)。biovizBase:用于基因组数据可视化的基本图形工具。R软件包版本1.9.1。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。