重新计数

分析成熟RNA-seq基因计数数据集的多实验资源

  

现在有了重新计票的新版本它为来自序列读取档案(SRA)的近60000个人类RNA-seq样本提供了经过处理和汇总的表达数据。这个相关生物导体包提供了一个方便的API,用于查询、下载和分析数据。每项经过处理的研究都包括元和表型数据、基因的表达水平及其潜在的外显子和剪接连接,以及相应的基因组注释。请参见我们的预印本了解详细信息。

此网站对应于所描述的旧资源在我们2011年的论文中

站点地图

相关工具

相关出版物

其他文档

  • VLDS海报,6/11(即将推出)

作者

链接

重新计数是一个在线资源,由使用原始数据构建的RNA-seq基因计数数据集组成18项不同的研究。使用处理原始测序数据(.fastq文件)米尔纳获取每个基因的计数表。为了便于统计分析,我们将每个计数表与样本表型数据组合成一个R对象表达式集. 计数表、ExpressionSets和表型表都可以在这里免费使用。通过小心在几个预处理步骤中,并将多个数据集合并到一个易于访问的网站中,我们将查找和分析RNA-seq数据要简单得多。

下表中的所有列都是可排序的:单击列标题将按字母顺序排列列(保持行正确对齐)。这些列如下:

书房

除了少数例外,这些数据集是以论文的第一作者命名的获得了.fastq文件。Katz的论文包含了鼠标和人的阅读,因此有两个独立的数据集创建。“maqc”数据集是根据从微阵列质量控制项目。“modencodeworm”和“modencondefly”数据集是使用从modENCODE联盟.

PMID(项目管理标识)

我们从中收集.fastq文件的论文可以通过给定的可点击PubMed ID访问。

物种

研究中样品的种类。

生物复制次数

数据集中包含的不同生物复制的数量。收集技术复制品的基因计数。汇集技术复制品的数量,以对每种生物进行计数复制在每个数据集的ExpressionSet和表型表中可用。

唯一对齐的读取数

在每次Myrna运行中,由于没有对齐,一些读取被丢弃,并且一些读取重复对齐,因此被丢弃。此列中的计数是未丢弃的读取数*请注意对于蒙哥马利和皮克雷尔,读取计数是两个数据集的总和,因为这两个数据都是用相同的Myrna运行进行分析的。

表达式集

单击“链接”下载。包含ExpressionSet中的基因计数表和表型数据的RData文件。当R对象加载到工作空间中时,ExpressionSet将被命名为研究.重置,其中“学习”是替换为表第一列中给定的数据集名称。要使用ExpressionSets,您需要安装生物导体并运行命令图书馆(Biobase)。有关使用ExpressionSets的一些初步信息,请单击在这里.

计数表

点击“链接”下载包含Myrna输出的原始基因计数的.txt文件。

表型表

点击“链接”下载包含计数表中每个样本表型信息的.txt文件。每个表型表包含一个示例.id列和anum.tech.reps数列,其中示例.id是样本的HapMap ID(如果适用)或样本的SRX编号,其中可用于在NCBI中搜索样本序列片段归档(SRA)。这个数字技术参考值该栏显示了为获得该样本的基因计数而汇集的技术复制数。

笔记

实验的简要描述。

请注意,要使用下面的ExpressionSets,您需要安装生物导体并运行命令图书馆(Biobase)

数据集

书房 PMID(项目管理标识) 物种 生物复制次数 唯一对齐的读取数 表达式集 计数表 表型表 笔记
车身示意图 未发布,但公开可用在这里 人类 19 2,197,622,796 链接 链接 链接 Illumina Human BodyMap 2.0——组织比较
20856902 人类 41 834,584,950 链接 链接 链接 HapMap-中欧
核心 19056941 人类 2 8,670,342 链接 链接 链接 肺成纤维细胞
吉拉德 20009012 人类 6 41,356,738 链接 链接 链接 肝脏;男性和女性
主要质量控制 20167110 人类 14(技术)**
2(生物)
71,970,164 起初的
集合的
起初的
集合的
起初的
集合的
实验:MAQC-2
蒙哥马利 20220756 人类 60 *886468054 链接 链接 链接 HapMap-中欧
皮克雷尔 20220758 人类 69 *886,468,054 链接 链接 链接 HapMap-YRI
苏丹 18599741 人类 4 6,573,643 链接 链接 链接 单元格类型比较
18978772 人类 22 223,929,919 链接 链接 链接 组织比较
卡茨·穆斯 21057496 鼠标 4 14,368,471 链接 链接 链接 对照组与CUG-BP1击倒成肌细胞
莫塔扎维 18516045 鼠标 61,732,881 链接 链接 链接 组织比较
特拉普奈尔 20436464 鼠标 4 111,376,152 链接 链接 链接 时间进程
20363980 鼠标 1 27,883,862 链接 链接 链接 杂交细胞系,X总是不活跃的
深不可测地 21455293 鼠标 21 343,445,340 链接 链接 链接 2个近交系小鼠
纳加拉克什米 18451266 酵母 4 7,688,602 链接 链接 链接 启动技术比较
铁锤 20452967 老鼠 8 158178477人 链接 链接 链接 2个时间点的实验与对照
现代结壳虫 19181841 蠕虫 46 1,451,119,823 链接 链接 链接 发展时间进程
现代定义 21179090 147(技术)**
30(生物)
2,278,788,557 起初的
集合的
起初的
集合的
起初的
集合的
发展时间进程
*蒙哥马利和皮克雷尔的读取计数是两个数据集的总和。
**这些研究最初包含未经冷却的技术复制表。非制冷表在“原始”链接下可用,而具有池式技术复制的表在“池式”链接下可供使用。

创建的数据集没有截断

上表中的计数表和ExpressionSets是通过截断所有长度超过35bp到35bp的读取来创建的。可以下载未截断而创建的计数表和表达式集在这里.

Ensemble 61基因信息

以下是包含Ensembl 61中基因信息的文件链接,该版本用于创建这些数据集。(这些是genes.txt(基因.txt)来自合奏61 Myrna的文件参考震击器

清单文件

以下是指向的链接Myrna清单文件用于使用Myrna创建计数表。

ExpressionSets入门

请单击在这里用于处理ExpressionSets时有用的几个R命令。

使用的代码

传递给Myrna的命令
R代码用于创建ExpressionSet(需要生物导体其他文件)
R代码用于论文的“示例应用程序”部分(需要生物导体)