这个1000个工厂计划(1KP)为来自不同谱系的1000多种植物提供转录组序列。一公里
允许植物基因组学和转录组学的研究人员通过简单的R接口访问该数据集。每个转录组项目的元数据都是从1KP项目网站上获取的。该元数据包括每个序列样本的物种、组织和研究组。一公里
利用分类程序出租车司机
,的本地数据库版本征税
包,以允许按分类组(以分类名称或NCBI ID的形式输入)过滤元数据。然后可以下载原始核苷酸或翻译后的肽序列,以获得完整或过滤的转录组项目表。
替代方案一公里
数据也可以通过CyVerse(以前的iPlant)直接访问。CyVerse使用iRODS数据系统高效地分发数据。对于高吞吐量的情况或iRODS已经运行的情况,此方法更可取。此外,直接从CyVerse的源代码访问数据比从项目网站抓取数据更稳定。然而一公里
R包通常更易于使用(不依赖iRODS或CyVerse API),并提供强大的过滤解决方案。
安装
一公里
正在CRAN上,但目前有点过时。因此,目前最好通过github进行安装。
示例
检索两个1KP转录组的蛋白质和基因转录FASTA文件:
这将创建以下目录:
一KP├── 核子│——ROAP.fna│⑪——URDJ.fna公司└── 激励├── ROAP.faa公司└── URDJ.faa公司
1千帕
也可以通过物种名称、分类单元id或分支进行筛选。
为了得到芸苔科所有物种的蛋白质序列:
资金
该R包的开发得到了国家科学基金会(批准号IOS 1546858)的支持。