GEO登录查看器

NCBI徽标

GEO徽标

美国国立生物技术信息中心>地理位置>访问显示

未登录|登录

GEO帮助：将鼠标悬停在屏幕元素上以获取信息。

GSE33480系列

GSE33480的查询数据集

状态

2012年7月12日公开

标题

来自ENCODE/Caltech的RNA-seq

项目

有机体

实验类型

通过高通量测序进行表达谱分析

总结

该数据由ENCODE生成。如果您对数据有疑问，请直接联系提交实验室(邮寄地址：georgi@caltech.edu对于数据协调/信息学/实验问题，邮寄地址：diane@caltech.edu对于信息学问题，邮寄地址：巴威利_91125@yahoo.com对于实验问题）。如果您对与此数据相关的基因组浏览器轨迹有疑问，请联系ENCODE(邮寄地址：genome@soe.ucsc.edu).

这首曲目是作为ENCODE项目的一部分制作的。RNA-seq是一种绘制和量化任何具有基因组DNA序列组合的生物体转录组的方法。RNA-seq是通过将RNA样本反向转录到cDNA中，然后进行高通量DNA测序来完成的，这是在Illumina基因组分析仪（GAI或GAIIx）上完成的（Mortazavi等人，2008）。这些轨道上显示的转录组测量是在polyA选择的RNA上进行的(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab？term=longPolyA&type=rnaExtract)来自总细胞RNA(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab？term=cell&type=localization)使用两种不同的协议&一种保存读取来自哪个链的信息，另一种不保存。由于文库构建的酶学特性，基于非转录特异性协议，基因和转录物定量更准确，而转录特异性方案有助于指定绞合度，但一般来说，定量的可靠性较差。
非特异性方案（深度“参考”转录组测量，2x75 bp读数）：通过镁催化水解将PolyA-selected RNA片段化，然后通过随机启动和扩增将其转化为cDNA。数据以两种格式生成：单个读取（每个读取都来自cDNA分子的一端）和成对读取（成对从cDNA两端获得）。该RNA-seq协议没有指定编码链。因此，在两条链都被转录的位置将存在歧义。显然，“随机引物”逆转录并不是完全随机的。这是根据阅读群体第一个残基中的序列偏差推断出来的，这可能导致在转录本之间观察到的序列覆盖不均匀。
链特异性方案（1x75 bp读取）：通过镁催化水解将PolyA-selected RNA片段化。将3'适配器连接到片段的3'端，然后将5'适配器连接至5'端。将产生的RNA分子转化为cDNA并扩增。该RNA-seq协议确实指定了编码链，因为每次读取都与原始RNA链处于相同的5'-3'方向。因此，两条链都转录的位点可以消除歧义。然而，RNA连接是一个固有的偏向过程，因此，与非转移特异性数据相比，转录物之间的序列覆盖存在更大的不均匀性，量化也不太准确。
数据分析：使用TopHat将读数与hg19人类参考基因组进行比对，该程序专门设计用于校准RNA-seq读数并从头发现剪接连接。Cufflinks是一个从头开始的转录汇编和量化软件包，在TopHat比对上运行，以发现和量化新转录物，并根据GENCODE注释获得转录表达估计值。所有序列文件、比对、基因和转录模型以及表达估计文件均可下载。

有关数据使用条款和条件，请参阅http://www.genome.gov/27528022和http://www.genome.gov/Pages/Research/ENCODE/ENCODEDataReleasePolicyFinal2008.pdf

总体设计

实验程序：细胞按照批准的ENCODE细胞培养方案生长，但H1-hESC除外，H1-hESC的冷冻细胞颗粒购自Cellular Dynamics。细胞在RLT缓冲液（Qiagen RNEasy试剂盒）中进行裂解，并根据制造商的协议在RNEasy-midi柱上进行处理，包括“柱上”DNA酶消化步骤，以去除残留的基因组DNA。
根据制造商的方案，使用寡核苷酸珠（Dynal）两次选择75µg总RNA，以从每种制剂中分离mRNA。对于2x75 bp非转录RNA-seq，然后根据Mortazavi等人（2008）的协议处理100 ngs的mRNA，并根据ChIPSeq DNA基因组DNA试剂盒（Illumina）的协议在基因组分析仪流式细胞上进行测序。大多数配对文库的大小选择约为200 bp（片段长度），但少数额外的复制品除外，这些复制品的大小选择为400 bp，目的是调查片段长度对结果的影响。根据Illumina的Strand specific RNA-seq方案，从来自相同制剂的100ng mRNA制备Strand specific RNA-seq文库。
根据制造商的建议，使用Illumina基因组分析仪I或Illumina基因组分析仪IIx对文库进行测序。获得了75 bp长的读数，定向、股特异性文库为单端（1x75D），非股特异性库为配对端（2x75）。
数据处理和分析：使用TopHat（版本1.0.14）将读数映射到参考人类基因组（版本hg19），根据细胞系的性别，有或没有Y染色体，在所有情况下都没有随机染色体和单倍型。TopHat使用默认设置，但指定经验确定的平均内部距离除外。在将读取数据映射到基因组并识别剪接连接后，使用转录组装和量化软件Cufflinks（0.9.3版），使用序列偏差检测和校正选项，进一步分析数据。袖扣的使用有两种模式：首先，基于GENCODE注释对GENCODE GRCh37的v3c和v4版本的基因和单个转录物的表达进行量化，其次，袖扣以从头转录组装和量化模式运行，以获得候选的新转录物和基因模型及其表达估计。

Web链接

http://genome.ucsc.edu/cgi-bin/hgTrackUi？db=hg19&g=wgEncodeCaltechRnaSeq

贡献者

莫塔扎维A,威廉姆斯B,马里诺夫G,鳟鱼D,国王B,McCue K公司,谢弗·L,内夫N,泡利·F,张F,红色T,劳赫·R,鹧鸪C,Schroth G公司,罗S,维马斯E,Trapnell C公司,Pachter L公司,萨尔茨堡S,马里诺夫G,鳟鱼D,威廉姆斯B

引文

生物项目

提交日期

2011年11月4日

上次更新日期

2019年5月15日

联系人姓名

编码DCC

电子邮件

encode-help@lists.stanford.edu

组织机构名称

编码DCC

街道地址

300巴斯德博士

西蒂

斯坦福大学

省/自治区

加利福尼亚州

邮政编码

94305-5120

国家

美国

平台（1）

Illumina基因组分析仪（智人）

样品（24）

更多。。。

更多。。。

GSM958728	Caltech_RnaSeq_GM12878_2x75_200公司
GSM958729	加州理工学院_自然科学系_K562_2x75_200
GSM958730	Caltech_RnaSeq_GM12878_1x75D公司

关系

SRA公司

SRP014320标准

下载家庭	格式
SOFT格式的族文件	柔软
MINiML格式的族文件	MINiML公司
系列矩阵文件	TXT公司

补充文件	大小	下载	文件类型/资源
GSE33480_RAW.tar标准	44.4 Gb	（http）（自定义）	TAR（BAI、BAM、BIGBED、BIGWIG、GTF的）
GSE33480_运行_包含UCSC对象.txt.gz	5.5千磅	（英尺/平方英尺）（http）	TXT公司
SRA运行选择器
作为补充文件提供的处理数据
SRA中有原始数据

|国家土地管理局|国家卫生研究院|GEO帮助|免责声明|无障碍|