关贸总公司 swMATH ID: 12019 软件作者: A.McKenna、M.Hanna、E.Banks等人。 描述: 基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架。下一代DNA测序(NGS)项目,如1000基因组项目,已经在彻底改变我们对个体间遗传变异的理解。然而,NGS-1000 Genome试点产生的大量数据集包括近五个TB,这使得即使是计算复杂的个人也很难使用功能丰富、高效且健壮的写作分析工具。事实上,由于访问和操作这些机器产生的数据的复杂性,许多专业人员在回答科学问题的范围和容易程度上都受到了限制。在这里,我们讨论了我们的基因组分析工具包(GATK),这是一个结构化编程框架,旨在利用MapReduce的函数编程原理,为下一代DNA测序器简化高效且健壮的分析工具的开发。GATK提供了一组小而丰富的数据访问模式,涵盖了大多数分析工具的需求。将特定分析计算与通用数据管理基础设施分离,使我们能够优化GATK框架的正确性、稳定性、CPU和内存效率,并实现分布式和共享内存并行化。我们通过描述覆盖计算器和单核苷酸多态性(SNP)调用等健壮、规模容限工具的实现和应用来突出GATK的功能。我们的结论是,GATK编程框架使开发人员和分析人员能够快速、轻松地编写高效、健壮的NGS工具,其中许多工具已被纳入大规模测序项目,如1000基因组项目和癌症基因组图谱。 主页: http://genome.cshlp.org/content/20/9/1297 相关软件: Samtools公司;Trimmomatic公司;对;BWA公司;STAR公司;蝴蝶结2;快速质量控制;香皂;VarScan公司;PyClone(密码克隆);SciClone(科学克隆);MAFFT公司;俾斯麦;鲑鱼;HISAT公司;顶帽;KEGG公司;边缘R;深渊;快速x 引用于: 16文件 全部的 前5名被55位作者引用 4 彼得·米勒 三 季、袁 2 卡马拉卡古鲁科塔 2 Lee,Juhee先生 2 苏巴吉特·森古普塔 1 阿卡林,阿尔图纳 1 吉列尔莫·巴图伦 1 约翰·贝尔 1 鲍拉·博尼佐尼 1 朱拉特·道格莱特 1 吉安卢卡·德拉·维多瓦 1 理查德·德宾 1 冯子丁 1 佛兰德·弗兰克 1 傅蓉 1 Adi F.加兹达尔。 1 迈克尔·哈肯伯格 1 萨米尔·哈纳什。 1 Ionita-Laza,尤利亚纳 1 马滕·贾格尔 1 Ji,Hanlee先生 1 杰克·卡姆 1 刘永超 1 吕洁 1 马卫平 1 Kenneth J.McCallum。 1 穆拉利达兰,奥姆卡尔 1 乔治·纳苏利斯 1 倪,杨 1 艾斯林·奥德里斯科尔 1 JoséL·奥利弗。 1 罗萨里奥·迈克尔·皮罗 1 尤里·皮罗拉 1 马尔科·普雷维塔利 1 瑞兹、拉斐拉 1 彼得·罗宾逊。 1 乔纳森·罗宁 1 贝蒂尔·施密特 1 马克斯·什帕克 1 罗伊·D·斯莱特。 1 宋云S。 1 阿育木田口 1 乔纳森·特霍斯特 1 博拉·乌亚尔 1 王培 1 王伟 1 魏智 1 亚历山大·沃尔夫 1 黄志宏 1 张南希·若南 1 张,清 1 赵志根 1 钟,华 1 周庆华 1 周天健 全部的 前5名8篇连载文章中引用 4 应用统计学年鉴 2 生物计量学 1 美国统计协会杂志 1 理论种群生物学 1 算法 1 ISRN生物数学 1 查普曼和霍尔/CRC数学和计算生物学系列 1 查普曼和霍尔/CRC计算生物学系列 在4个字段中引用 13 生物学和其他自然科学(92-XX) 10 统计学(62-XX) 2 计算机科学(68至XX) 1 数值分析(65-XX) 按年份列出的引文