跳到目录

这个1000个工厂计划(1KP)为来自不同谱系的1000多种植物提供转录组序列。一公里允许植物基因组学和转录组学的研究人员通过简单的R接口访问该数据集。每个转录组项目的元数据都是从1KP项目网站上获取的。该元数据包括每个序列样本的物种、组织和研究组。一公里利用分类程序出租车司机,的本地数据库版本征税包,以允许按分类组(以分类名称或NCBI ID的形式输入)过滤元数据。然后可以下载原始核苷酸或翻译后的肽序列,以获得完整或过滤的转录组项目表。

替代方案一公里

数据也可以通过CyVerse(以前的iPlant)直接访问。CyVerse使用iRODS数据系统高效地分发数据。对于高吞吐量的情况或iRODS已经运行的情况,此方法更可取。此外,直接从CyVerse的源代码访问数据比从项目网站抓取数据更稳定。然而一公里R包通常更易于使用(不依赖iRODS或CyVerse API),并提供强大的过滤解决方案。

联系信息

1KP员工

R包维护人员

安装

一公里正在CRAN上,但目前有点过时。因此,目前最好通过github进行安装。

图书馆(开发工具)
安装_工具('ropensci/onekp')

示例

检索两个1KP转录组的蛋白质和基因转录FASTA文件:

一公里 <- 检索(_onek)()
序列号 <- 过滤器_字节码(一公里,c(c)(“URDJ”,“ROAP”))
下载_肽(序列号,“oneKP/pep”)
下载_核苷酸(序列号,“oneKP/nuc”)

这将创建以下目录:

一KP├── 核子——ROAP.fna⑪——URDJ.fna公司└── 激励├── ROAP.faa公司└── URDJ.faa公司

1千帕也可以通过物种名称、分类单元id或分支进行筛选。

#按物种名称筛选
过滤器_种(一公里,‘辐射松’)

#按物种筛选NCBI分类单元ID
过滤器_种(一公里,3347)

#按分支名称筛选学名(获取芸苔科植物的所有数据)
过滤器_by_clade(一公里,“芸苔科”)

#按分支筛选NCBI分类单元ID
过滤器_by_clade(一公里,3700)

为了得到芸苔科所有物种的蛋白质序列:

一公里 <- 检索(_onek)()
序列号 <- 过滤器_分支(一公里,“芸苔科”)
下载_肽(序列号,“oneKP/pep”)
下载_核苷酸(序列号,“oneKP/nuc”)

资金

该R包的开发得到了国家科学基金会(批准号IOS 1546858)的支持。

贡献

我们欢迎任何贡献!