|
|
GEO帮助:将鼠标悬停在屏幕元素上以获取信息。 |
|
状态 |
2012年7月12日公开 |
标题 |
来自ENCODE/Caltech的RNA-seq |
项目 |
编码器
|
有机体 |
智人 |
实验类型 |
通过高通量测序进行表达谱分析
|
总结 |
该数据由ENCODE生成。如果您对数据有疑问,请直接联系提交实验室(邮寄地址:georgi@caltech.edu对于数据协调/信息学/实验问题,邮寄地址:diane@caltech.edu对于信息学问题,邮寄地址:巴威利_91125@yahoo.com对于实验问题)。如果您对与此数据相关的基因组浏览器轨迹有疑问,请联系ENCODE(邮寄地址:genome@soe.ucsc.edu).
这首曲目是作为ENCODE项目的一部分制作的。RNA-seq是一种绘制和量化任何具有基因组DNA序列组合的生物体转录组的方法。RNA-seq是通过将RNA样本反向转录到cDNA中,然后进行高通量DNA测序来完成的,这是在Illumina基因组分析仪(GAI或GAIIx)上完成的(Mortazavi等人,2008)。这些轨道上显示的转录组测量是在polyA选择的RNA上进行的(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab?term=longPolyA&type=rnaExtract)来自总细胞RNA(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab?term=cell&type=localization)使用两种不同的协议&一种保存读取来自哪个链的信息,另一种不保存。由于文库构建的酶学特性,基于非转录特异性协议,基因和转录物定量更准确,而转录特异性方案有助于指定绞合度,但一般来说,定量的可靠性较差。 非特异性方案(深度“参考”转录组测量,2x75 bp读数):通过镁催化水解将PolyA-selected RNA片段化,然后通过随机启动和扩增将其转化为cDNA。数据以两种格式生成:单个读取(每个读取都来自cDNA分子的一端)和成对读取(成对从cDNA两端获得)。该RNA-seq协议没有指定编码链。因此,在两条链都被转录的位置将存在歧义。显然,“随机引物”逆转录并不是完全随机的。这是根据阅读群体第一个残基中的序列偏差推断出来的,这可能导致在转录本之间观察到的序列覆盖不均匀。 链特异性方案(1x75 bp读取):通过镁催化水解将PolyA-selected RNA片段化。将3'适配器连接到片段的3'端,然后将5'适配器连接至5'端。将产生的RNA分子转化为cDNA并扩增。该RNA-seq协议确实指定了编码链,因为每次读取都与原始RNA链处于相同的5'-3'方向。因此,两条链都转录的位点可以消除歧义。然而,RNA连接是一个固有的偏向过程,因此,与非转移特异性数据相比,转录物之间的序列覆盖存在更大的不均匀性,量化也不太准确。 数据分析:使用TopHat将读数与hg19人类参考基因组进行比对,该程序专门设计用于校准RNA-seq读数并从头发现剪接连接。Cufflinks是一个从头开始的转录汇编和量化软件包,在TopHat比对上运行,以发现和量化新转录物,并根据GENCODE注释获得转录表达估计值。所有序列文件、比对、基因和转录模型以及表达估计文件均可下载。
有关数据使用条款和条件,请参阅http://www.genome.gov/27528022和http://www.genome.gov/Pages/Research/ENCODE/ENCODEDataReleasePolicyFinal2008.pdf
|
|
|
总体设计 |
实验程序:细胞按照批准的ENCODE细胞培养方案生长,但H1-hESC除外,H1-hESC的冷冻细胞颗粒购自Cellular Dynamics。细胞在RLT缓冲液(Qiagen RNEasy试剂盒)中进行裂解,并根据制造商的协议在RNEasy-midi柱上进行处理,包括“柱上”DNA酶消化步骤,以去除残留的基因组DNA。 根据制造商的方案,使用寡核苷酸珠(Dynal)两次选择75µg总RNA,以从每种制剂中分离mRNA。对于2x75 bp非转录RNA-seq,然后根据Mortazavi等人(2008)的协议处理100 ngs的mRNA,并根据ChIPSeq DNA基因组DNA试剂盒(Illumina)的协议在基因组分析仪流式细胞上进行测序。大多数配对文库的大小选择约为200 bp(片段长度),但少数额外的复制品除外,这些复制品的大小选择为400 bp,目的是调查片段长度对结果的影响。根据Illumina的Strand specific RNA-seq方案,从来自相同制剂的100ng mRNA制备Strand specific RNA-seq文库。 根据制造商的建议,使用Illumina基因组分析仪I或Illumina基因组分析仪IIx对文库进行测序。获得了75 bp长的读数,定向、股特异性文库为单端(1x75D),非股特异性库为配对端(2x75)。 数据处理和分析:使用TopHat(版本1.0.14)将读数映射到参考人类基因组(版本hg19),根据细胞系的性别,有或没有Y染色体,在所有情况下都没有随机染色体和单倍型。TopHat使用默认设置,但指定经验确定的平均内部距离除外。在将读取数据映射到基因组并识别剪接连接后,使用转录组装和量化软件Cufflinks(0.9.3版),使用序列偏差检测和校正选项,进一步分析数据。袖扣的使用有两种模式:首先,基于GENCODE注释对GENCODE GRCh37的v3c和v4版本的基因和单个转录物的表达进行量化,其次,袖扣以从头转录组装和量化模式运行,以获得候选的新转录物和基因模型及其表达估计。
|
Web链接 |
http://genome.ucsc.edu/cgi-bin/hgTrackUi?db=hg19&g=wgEncodeCaltechRnaSeq
|
|
|
贡献者 |
莫塔扎维A,威廉姆斯B,马里诺夫G,鳟鱼D,国王B,McCue K公司,谢弗·L,内夫N,泡利·F,张F,红色T,劳赫·R,鹧鸪C,Schroth G公司,罗S,维马斯E,Trapnell C公司,Pachter L公司,萨尔茨堡S,马里诺夫G,鳟鱼D,威廉姆斯B |
引文 |
22955620 |
生物项目 |
PRJNA30709型 |
|
提交日期 |
2011年11月4日 |
上次更新日期 |
2019年5月15日 |
联系人姓名 |
编码DCC |
电子邮件 |
encode-help@lists.stanford.edu
|
组织机构名称 |
编码DCC
|
街道地址 |
300巴斯德博士
|
西蒂 |
斯坦福大学 |
省/自治区 |
加利福尼亚州 |
邮政编码 |
94305-5120 |
国家 |
美国 |
|
|
平台(1) |
|
样品(24)
|
|
关系 |
SRA公司 |
SRP014320标准 |
补充文件 |
大小 |
下载 |
文件类型/资源 |
GSE33480_RAW.tar标准 |
44.4 Gb |
(http)(自定义) |
TAR(BAI、BAM、BIGBED、BIGWIG、GTF的) |
GSE33480_运行_包含UCSC对象.txt.gz |
5.5千磅 |
(英尺/平方英尺)(http) |
TXT公司 |
SRA运行选择器 |
作为补充文件提供的处理数据 |
SRA中有原始数据 |
|
|
|
|
|