利用R进行基因组数据检索

动机：

这个软件包诞生于我自己的挫败感，我想让基因组数据检索过程自动化，为大规模基因组研究创建可计算的可复制脚本。由于我找不到易于使用和完全可复制的软件库，我坐下来尝试实现一个框架，使任何人都能自动化和标准化基因组数据检索过程。我希望这个软件包对其他人也有用，并有助于促进基因组学研究中的可复制研究。

我很高兴欢迎任何希望为这个项目做出贡献的人：）给我发封电子邮件就行了。

请查找详细信息此处显示文档.

引用

请引用生物标记如果它对你的研究有帮助。这将允许我在未来继续维护这个项目。

Drost HG、Paszkowski J。Biomartr：利用R检索基因组数据.生物信息学(2017) 33(8): 1216-1217.doi:10.1093/bioinformatics/btw821.

短包装说明：

测序基因组数量的急剧增长使我们能够进行一种新型的生物研究。使用比较方法，这些基因组为我们提供了关于生物信息如何在分子水平上编码以及这些信息如何随进化时间变化的新见解。

然而，任何基于基因组的研究的第一步都是从数据库中检索基因组及其注释。为了在元基因组尺度上自动检索此信息生物标记该软件包为基因组序列检索和功能注释检索提供了接口功能。的主要目标生物标记是为了促进（元）基因组分析中基因组数据的计算再现性和大规模处理。此外，生物标记旨在解决基因组版本危机。使用生物标记用户现在可以控制并了解他们自动检索的基因组版本。许多大规模基因组学研究缺乏这一信息，因此，当基因组版本信息的文档被忽略时，再现性和数据解释几乎不可能实现。

具体来说，生物标记自动化基因组、蛋白质组、CDS、RNA、重复序列、GFF/GTF（注释）、基因组组装质量和从主要生物数据库（如

NCBI参考序列
NCBI基因库
ENSEMBL公司
ENSEMBLGENOMES公司（截至2019年4月-ENSEMBL公司和ENSEMBLGENOMES公司已加入-请参阅此处显示详细信息)
UniProt公司

此外Ensemb生物集市数据库允许用户使用一种新颖的以生物体为中心的搜索策略检索基因组位点的功能注释。此外，用户可以下载整个数据库例如

NCBI参考序列
NCBI编号
NCBI nt公司
NCBI基因库
ENSEMBL公司

只有一个命令。

类似工作

The main difference between theBiomaRt公司包和生物标记包裹是这样的生物标记扩展功能注释检索程序BiomaRt公司和此外为基因组、蛋白质组、编码序列、gff文件、RNA序列、Repeat Masker注释文件提供有用的检索功能，以及检索整个数据库的功能，例如NCBI编号等。

请咨询教程部分了解更多详细信息。

在功能注释检索的上下文中这个生物标记包允许用户仅使用感兴趣生物体的学名筛选可用的mart，而不是首先搜索支持特定感兴趣生物体（使用BiomaRt公司包装）。此外，生物标记允许您在搜索属性和筛选器时搜索特定主题。我知道，软件包的类似命名很不幸，但这是由于历史原因引起的（请在此处找到详细解释：https://github.com/ropensci/biomartr/blob/master/FASKS.md还有这里#11).

我也致力于要比较的整个小插曲这个BiomaRt公司和生物标记上下文中的包功能功能注释（它们的功能重叠，仅占生物rtr包整体功能的20%左右）。

反馈

我真的很重视你的意见和改进建议。因此，如果您能参加这项1分钟3个问题的调查，我将不胜感激(https://goo.gl/forms/Qaoxjb1EnNSLpM02)这样我就可以学习如何改进生物标记以最好的方式。提前致谢。

安装

这个生物标记包依赖于一些生物导体工具，因此需要安装以下软件包：

#安装核心生物导体包
如果 (！requireNamespace（必需命名空间）(“生物经理”))
    安装.包(“生物经理”)
生物技术经理::安装()
#安装包依赖项
生物技术经理::安装(“生物串”)
生物技术经理::安装(“生物反应”)

现在用户可以安装生物标记来自CRAN：

#从CRAN安装biomartr 1.0.7
安装.包(“生物标记”，依赖项= 真的)

#安装包含最新功能的开发人员版本
生物管理器::安装(“ropensci/生物标志物”)

使用Bioconda安装

使用激活的Bioconda通道（参见2。设置通道），安装时使用：

康达安装r-biomertr

并更新为：

康达更新r-biomertr

或者使用docker容器：

码头工人拉码头。io/生物容器/r-biomartr:<tag>

（检查r-生物标记对于的有效值)

例子

集合检索

自动检索集合（=基因组、蛋白质组、CDS、RNA、GFF、Repeat Masker、AssemblyStats文件）将确保生物体的基因组文件与CDS、蛋白质组，RNA、GFF等文件匹配，并使用相同的基因组组装版本生成。基因组学研究在计算和生物再现性方面失败的原因之一是，尚不清楚拟议分析中使用的CDS、蛋白质组、RNA、GFF等文件是否是使用表示相同基因组组装版本的相同基因组组装文件生成的。为了避免这个看似微不足道的错误，我们鼓励用户使用生物标记功能获取集合（）并将相应的输出作为补充数据附加到相应的基因组学研究中，以确保计算和生物再现性。

#酿酒酵母下载集
生物标记::获取收藏(数据库= “参考序列”，有机体= “酿酒酵母”)

在内部获取集合（）函数现在将生成一个名为refseq/收集/酵母菌_cerevisiae并将存储所有基因组和注释文件酿酒酵母在同一文件夹中。此外，准确的基因和注释版本将记录在文件文件夹。

在内部，一个名为doc_Saccharomyces_cerevisiae_db_refseq.txt文件生成。此日志文件中存储的信息结构如下：

文件名：Saccharomyces_cerevisiae_assembly_stats_refseq.txt生物体名称：酵母菌_cerevisiae数据库：NCBI参考网址：ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/146/045/GCF_000146045.2_R64/GCF_000146045.2_R64_assembly_stats.txt下载日期：2018年6月27日星期三15:21:51refseq_category：参考基因组装配_加入：GCF_000146045.2生物项目：PRJNA128生物样本：不适用出租车：559292次特异性名称：菌株=S288Cversion_status：最新release_type：主要genome_rep：完整序号_日期：2014-12-17提交人：酵母基因组数据库

在理想情况下，该参考文件可以作为补充信息包含在任何依赖基因组信息的生命科学出版物中，从而实现实验和分析的再现性。

仅使用一个命令检索数百个基因组

下载所有哺乳动物脊椎动物基因组NCBI参考序列通过：

#下载所有脊椎动物基因组
元检索(王国= “脊椎动物_哺乳动物”，分贝= “参考序列”，类型= “基因组”)

所有基因都存储在根据王国命名的文件夹中。在这种情况下脊椎动物哺乳动物。或者，用户可以指定出文件夹参数定义自定义输出文件夹路径。

常见问题（FAQ）

请查找此处有所有常见问题解答.

讨论和错误报告

我很乐意了解更多关于此包中提供的概念和功能的潜在改进。

此外，如果您发现一些错误或需要此软件包部分的其他（更灵活的）功能，请告诉我：

https://github.com/HajkD/bioratr/issues（https://github.com/HajkD/biorartr/issues）

教程

入门生物标记:

用户还可以阅读中的教程(Posit（前RStudio）) :

#获取biomertr包
图书馆(生物标记)

#查找biomartr软件包中提供的所有教程（小插曲）
#这将打开您的web浏览器
浏览幻影(“生物标记”)

新闻

包的当前状态以及每个版本的功能的详细历史记录生物标记可以在中找到新闻部分。

安装开发人员版本

一些错误修复或新功能在CRAN上尚不可用，但在GitHub上的开发人员版本中可用。下载并安装最新版本的生物标记运行：

#在系统上安装当前版本的biometr
如果 (！requireNamespace（必需命名空间）(“生物经理”，悄悄地= 真的))
    安装.包(“生物经理”)

生物技术经理::安装(“ropensci/biomartr”)

基因组数据检索

元基因组检索

meta.retrieval（）：从NCBI中检索属于同一生命王国或同一分类亚群的物种的元基因组
meta.retrieval.all（）：从整个生命王国的NCBI中执行元基因组检索
获取MetaGenomes（）：从NCBI Genbank检索宏基因组
获取MetaGenomeAnnotations（）：从NCBI Genbank检索宏基因组的注释*.gff文件
列表MetaGenomes（）：在NCBI Genbank上列出可用的宏基因组
获取MetaGenomeSummary（）：用于从NCBI genbank宏基因组检索assembly_summary.txt文件的Helper函数
clean-retrieval（）：设置元数据输出格式

基因组检索

列表基因组（）：列出NCBI和ENSEMBL服务器上可用的所有基因组
列表王国（）：列出NCBI和ENSEMBL服务器上每个生命王国的可用物种数量
列表组（）：列出NCBI和ENSEMBL服务器上每个组的可用物种数量
获取金刚（）：检索可用的生命王国
获取组（）：检索生命王国的可用组
是.geneom.available（）：检查基因组可用性NCBI和ENSEMBL服务器
获取集合（）：检索集合：基因组、蛋白质组、CDS、RNA、GFF、重复掩码、AssemblyStats
获取基因组（）：下载存储在NCBI和ENSEMBL服务器上的特定基因组
获取基因组集（）：多物种基因组检索
获取蛋白质组（）：下载存储在NCBI和ENSEMBL服务器上的特定蛋白质组
获取蛋白质组（）：多物种蛋白质组检索
获取CDS（）：下载存储在NCBI和ENSEMBL服务器上的特定CDS文件（基因组）
获取CDSSet（）：多物种的CDS检索
获取RNA（）：下载存储在NCBI和ENSEMBL服务器上的特定RNA文件
获取RNASet（）：多物种RNA检索
获取GFF（）：从NCBI检索基因组注释(*.gff（平方英尺）)和ENSEMBL(*.gff3)服务器
获取GTF（）：基因组注释检索(*.全球技术基金)来自ENSEMBL服务器
获取重复掩码（）：重复掩码TE注释检索
获取程序集状态（）：从NCBI检索基因组组装统计信息
获取金刚装配摘要（）：用于从NCBI检索所有王国的assembly_summary.txt文件的Helper函数
获取MetaGenomeSummary（）：从NCBI genbank宏基因组检索assembly_summary.txt文件的Helper函数
获取摘要文件（）：Helper函数，用于从NCBI检索特定王国的assembly_summary.txt文件
获取ENSEMBLInfo（）：检索ENSEMBL信息文件
获取GENOMEREPORT（）：从NCBI检索GENOME_REPORTS文件

导入下载的文件

读取基因组（）：将基因组导入为生物字符串或data.table对象
读取保护程序（）：将蛋白质组导入为生物字符串或data.table对象
读取cds（）：将CDS导入为Biostring或data.table对象
读取gff（）：导入GFF文件
read_rna（）：导入RNA文件
读取rm（）：导入重复遮罩输出文件
读取汇编状态（）：导入基因组汇编统计文件

数据库检索

列表NCBI数据库（）：检索可用NCBI数据库列表以供下载
下载.database（）：将NCBI数据库下载到本地硬盘
download.database.all（）：下载完整的NCBI数据库，例如NCBI编号到本地硬盘

BioMart查询

生物制品（）：查询BioMart数据库的主要功能
获取市场（）：检索所有可用的BioMart数据库
获取数据集（）：检索BioMart数据库的所有可用数据集
获取属性（）：检索特定数据集的所有可用属性
获取过滤器（）：检索特定数据集的所有可用筛选器
有机体BM（）：生物集市和数据集生物特定检索功能
组织属性（）：针对生物体的可用BioMart属性检索功能
有机体过滤器（）：用于生物特定检索可用BioMart过滤器的功能

执行基因本体查询

基因本体论

获取GO（）：检索给定基因集的GO项的函数

在Windows系统上下载开发人员版本

#在Windows上，这不起作用-看到了吗？构建github_devtools
安装github(“HajkD/biomartr”，构建的小插曲= 真的，依赖项= 真的)

#使用Windows时，首先需要安装
#R包：rtools->install.packages（“rtools”）

#然后，您可以安装devtools->install.packages（“devtools”）
#然后您可以运行：

开发工具::安装github(“HajkD/biomartr”，内部版本（_V）= 真的，依赖项= 真的)

#然后从图书馆打电话
图书馆(“生物标记”，库.loc= “C:/Program Files/R/R-3.1.1/library”)

行为准则

请注意，此项目发布时带有贡献者行为准则。参与此项目即表示您同意遵守其条款。

生物标记