利用R进行基因组数据检索
动机:
引用
Drost HG、Paszkowski J。 Biomartr:利用R检索基因组数据 . 生物信息学 (2017) 33(8): 1216-1217. doi:10.1093/bioinformatics/btw821 .
短包装说明:
NCBI参考序列 NCBI基因库 ENSEMBL公司 -
ENSEMBLGENOMES公司 (截至2019年4月- ENSEMBL公司 和 ENSEMBLGENOMES公司 已加入-请参阅 此处显示详细信息 ) UniProt公司
NCBI参考序列 NCBI编号 NCBI nt公司 NCBI基因库 ENSEMBL公司
类似工作
The main difference between the
反馈
我真的很重视你的意见和改进建议。 因此,如果您能参加这项1分钟3个问题的调查,我将不胜感激( https://goo.gl/forms/Qaoxjb1EnNSLpM02 )这样我就可以学习如何改进
生物标记 以最好的方式。 提前致谢。
安装
#安装核心生物导体包
如果 ( ! requireNamespace(必需命名空间) ( “生物经理” ) )
安装.包 ( “生物经理” )
生物技术经理 :: 安装 ( )
#安装包依赖项
生物技术经理 :: 安装 ( “生物串” )
生物技术经理 :: 安装 ( “生物反应” )
#从CRAN安装biomartr 1.0.7
安装.包 ( “生物标记” ,依赖项 = 真的 )
#安装包含最新功能的开发人员版本
生物管理器 :: 安装 ( “ropensci/生物标志物” )
使用Bioconda安装
康达安装r-biomertr
康达更新r-biomertr
码头工人拉码头。io/生物容器/r-biomartr:<tag>
例子
集合检索
#酿酒酵母下载集
生物标记 :: 获取收藏 ( 数据库 = “参考序列” ,有机体 = “酿酒酵母” )
文件名:Saccharomyces_cerevisiae_assembly_stats_refseq.txt 生物体名称:酵母菌_cerevisiae 数据库:NCBI参考 网址: ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/146/045/GCF_000146045.2_R64/GCF_000146045.2_R64_assembly_stats.txt 下载日期:2018年6月27日星期三15:21:51 refseq_category:参考基因组 装配_加入:GCF_000146045.2 生物项目:PRJNA128 生物样本:不适用 出租车:559292 次特异性名称:菌株=S288C version_status:最新 release_type:主要 genome_rep:完整 序号_日期:2014-12-17 提交人:酵母基因组数据库
仅使用一个命令检索数百个基因组
#下载所有脊椎动物基因组
元检索 ( 王国 = “脊椎动物_哺乳动物” ,分贝 = “参考序列” ,类型 = “基因组” )
常见问题(FAQ)
讨论和错误报告
新闻
安装开发人员版本
#在系统上安装当前版本的biometr
如果 ( ! requireNamespace(必需命名空间) ( “生物经理” ,悄悄地 = 真的 ) )
安装.包 ( “生物经理” )
生物技术经理 :: 安装 ( “ropensci/biomartr” )
基因组数据检索
元基因组检索
-
meta.retrieval() :从NCBI中检索属于同一生命王国或同一分类亚群的物种的元基因组 -
meta.retrieval.all() :从整个生命王国的NCBI中执行元基因组检索 -
获取MetaGenomes() :从NCBI Genbank检索宏基因组 -
获取MetaGenomeAnnotations() :从NCBI Genbank检索宏基因组的注释*.gff文件 -
列表MetaGenomes() :在NCBI Genbank上列出可用的宏基因组 -
获取MetaGenomeSummary() :用于从NCBI genbank宏基因组检索assembly_summary.txt文件的Helper函数 -
clean-retrieval() :设置元数据输出格式
基因组检索
-
列表基因组() :列出NCBI和ENSEMBL服务器上可用的所有基因组 -
列表王国() :列出NCBI和ENSEMBL服务器上每个生命王国的可用物种数量 -
列表组() :列出NCBI和ENSEMBL服务器上每个组的可用物种数量 -
获取金刚() :检索可用的生命王国 -
获取组() :检索生命王国的可用组 -
是.geneom.available() :检查基因组可用性NCBI和ENSEMBL服务器 -
获取集合() :检索集合:基因组、蛋白质组、CDS、RNA、GFF、重复掩码、AssemblyStats -
获取基因组() :下载存储在NCBI和ENSEMBL服务器上的特定基因组 -
获取基因组集() :多物种基因组检索 -
获取蛋白质组() :下载存储在NCBI和ENSEMBL服务器上的特定蛋白质组 -
获取蛋白质组() :多物种蛋白质组检索 -
获取CDS() :下载存储在NCBI和ENSEMBL服务器上的特定CDS文件(基因组) -
获取CDSSet() :多物种的CDS检索 -
获取RNA() :下载存储在NCBI和ENSEMBL服务器上的特定RNA文件 -
获取RNASet() :多物种RNA检索 -
获取GFF() :从NCBI检索基因组注释( *.gff(平方英尺) )和ENSEMBL( *.gff3 )服务器 -
获取GTF() :基因组注释检索( *.全球技术基金 )来自ENSEMBL服务器 -
获取重复掩码(): 重复掩码TE注释检索 -
获取程序集状态() :从NCBI检索基因组组装统计信息 -
获取金刚装配摘要() :用于从NCBI检索所有王国的assembly_summary.txt文件的Helper函数 -
获取MetaGenomeSummary() :从NCBI genbank宏基因组检索assembly_summary.txt文件的Helper函数 -
获取摘要文件() :Helper函数,用于从NCBI检索特定王国的assembly_summary.txt文件 -
获取ENSEMBLInfo() :检索ENSEMBL信息文件 -
获取GENOMEREPORT() :从NCBI检索GENOME_REPORTS文件
数据库检索
-
列表NCBI数据库() :检索可用NCBI数据库列表以供下载 -
下载.database() :将NCBI数据库下载到本地硬盘 -
download.database.all() :下载完整的NCBI数据库,例如 NCBI编号 到本地硬盘
执行基因本体查询
基因本体论
-
获取GO() :检索给定基因集的GO项的函数
在Windows系统上下载开发人员版本
#在Windows上,这不起作用-看到了吗? 构建github_devtools
安装github ( “HajkD/biomartr” ,构建的小插曲 = 真的 ,依赖项 = 真的 )
#使用Windows时,首先需要安装
#R包:rtools->install.packages(“rtools”)
#然后,您可以安装devtools->install.packages(“devtools”)
#然后您可以运行:
开发工具 :: 安装github ( “HajkD/biomartr” ,内部版本(_V) = 真的 ,依赖项 = 真的 )
#然后从图书馆打电话
图书馆 ( “生物标记” ,库.loc = “C:/Program Files/R/R-3.1.1/library” )