NCBI徽标
GEO徽标
   美国国立生物技术信息中心>地理位置>访问显示帮助 未登录|登录帮助
GEO帮助:将鼠标悬停在屏幕元素上以获取信息。
        去吧
GSE33480系列 GSE33480的查询数据集
状态 2012年7月12日公开
标题 来自ENCODE/Caltech的RNA-seq
项目 编码器
有机体 智人
实验类型 通过高通量测序进行表达谱分析
总结 该数据由ENCODE生成。如果您对数据有疑问,请直接联系提交实验室(邮寄地址:georgi@caltech.edu对于数据协调/信息学/实验问题,邮寄地址:diane@caltech.edu对于信息学问题,邮寄地址:巴威利_91125@yahoo.com对于实验问题)。如果您对与此数据相关的基因组浏览器轨迹有疑问,请联系ENCODE(邮寄地址:genome@soe.ucsc.edu).

这首曲目是作为ENCODE项目的一部分制作的。RNA-seq是一种绘制和量化任何具有基因组DNA序列组合的生物体转录组的方法。RNA-seq是通过将RNA样本反向转录到cDNA中,然后进行高通量DNA测序来完成的,这是在Illumina基因组分析仪(GAI或GAIIx)上完成的(Mortazavi等人,2008)。这些轨道上显示的转录组测量是在polyA选择的RNA上进行的(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab?term=longPolyA&type=rnaExtract)来自总细胞RNA(http://genome.ucsc.edu/cgi-bin/hgEncodeVocab?term=cell&type=localization)使用两种不同的协议&一种保存读取来自哪个链的信息,另一种不保存。由于文库构建的酶学特性,基于非转录特异性协议,基因和转录物定量更准确,而转录特异性方案有助于指定绞合度,但一般来说,定量的可靠性较差。
非特异性方案(深度“参考”转录组测量,2x75 bp读数):通过镁催化水解将PolyA-selected RNA片段化,然后通过随机启动和扩增将其转化为cDNA。数据以两种格式生成:单个读取(每个读取都来自cDNA分子的一端)和成对读取(成对从cDNA两端获得)。该RNA-seq协议没有指定编码链。因此,在两条链都被转录的位置将存在歧义。显然,“随机引物”逆转录并不是完全随机的。这是根据阅读群体第一个残基中的序列偏差推断出来的,这可能导致在转录本之间观察到的序列覆盖不均匀。
链特异性方案(1x75 bp读取):通过镁催化水解将PolyA-selected RNA片段化。将3'适配器连接到片段的3'端,然后将5'适配器连接至5'端。将产生的RNA分子转化为cDNA并扩增。该RNA-seq协议确实指定了编码链,因为每次读取都与原始RNA链处于相同的5'-3'方向。因此,两条链都转录的位点可以消除歧义。然而,RNA连接是一个固有的偏向过程,因此,与非转移特异性数据相比,转录物之间的序列覆盖存在更大的不均匀性,量化也不太准确。
数据分析:使用TopHat将读数与hg19人类参考基因组进行比对,该程序专门设计用于校准RNA-seq读数并从头发现剪接连接。Cufflinks是一个从头开始的转录汇编和量化软件包,在TopHat比对上运行,以发现和量化新转录物,并根据GENCODE注释获得转录表达估计值。所有序列文件、比对、基因和转录模型以及表达估计文件均可下载。

有关数据使用条款和条件,请参阅http://www.genome.gov/27528022http://www.genome.gov/Pages/Research/ENCODE/ENCODEDataReleasePolicyFinal2008.pdf
 
总体设计 实验程序:细胞按照批准的ENCODE细胞培养方案生长,但H1-hESC除外,H1-hESC的冷冻细胞颗粒购自Cellular Dynamics。细胞在RLT缓冲液(Qiagen RNEasy试剂盒)中进行裂解,并根据制造商的协议在RNEasy-midi柱上进行处理,包括“柱上”DNA酶消化步骤,以去除残留的基因组DNA。
根据制造商的方案,使用寡核苷酸珠(Dynal)两次选择75µg总RNA,以从每种制剂中分离mRNA。对于2x75 bp非转录RNA-seq,然后根据Mortazavi等人(2008)的协议处理100 ngs的mRNA,并根据ChIPSeq DNA基因组DNA试剂盒(Illumina)的协议在基因组分析仪流式细胞上进行测序。大多数配对文库的大小选择约为200 bp(片段长度),但少数额外的复制品除外,这些复制品的大小选择为400 bp,目的是调查片段长度对结果的影响。根据Illumina的Strand specific RNA-seq方案,从来自相同制剂的100ng mRNA制备Strand specific RNA-seq文库。
根据制造商的建议,使用Illumina基因组分析仪I或Illumina基因组分析仪IIx对文库进行测序。获得了75 bp长的读数,定向、股特异性文库为单端(1x75D),非股特异性库为配对端(2x75)。
数据处理和分析:使用TopHat(版本1.0.14)将读数映射到参考人类基因组(版本hg19),根据细胞系的性别,有或没有Y染色体,在所有情况下都没有随机染色体和单倍型。TopHat使用默认设置,但指定经验确定的平均内部距离除外。在将读取数据映射到基因组并识别剪接连接后,使用转录组装和量化软件Cufflinks(0.9.3版),使用序列偏差检测和校正选项,进一步分析数据。袖扣的使用有两种模式:首先,基于GENCODE注释对GENCODE GRCh37的v3c和v4版本的基因和单个转录物的表达进行量化,其次,袖扣以从头转录组装和量化模式运行,以获得候选的新转录物和基因模型及其表达估计。
Web链接 http://genome.ucsc.edu/cgi-bin/hgTrackUi?db=hg19&g=wgEncodeCaltechRnaSeq
 
贡献者 莫塔扎维A,威廉姆斯B,马里诺夫G,鳟鱼D,国王B,McCue K公司,谢弗·L,内夫N,泡利·F,张F,红色T,劳赫·R,鹧鸪C,Schroth G公司,罗S,维马斯E,Trapnell C公司,Pachter L公司,萨尔茨堡S,马里诺夫G,鳟鱼D,威廉姆斯B
引文 22955620
生物项目 PRJNA30709型
提交日期 2011年11月4日
上次更新日期 2019年5月15日
联系人姓名 编码DCC
电子邮件 encode-help@lists.stanford.edu
组织机构名称 编码DCC
街道地址 300巴斯德博士
西蒂 斯坦福大学
省/自治区 加利福尼亚州
邮政编码 94305-5120
国家 美国
 
平台(1)
GPL9052型 Illumina基因组分析仪(智人)
样品(24)
GSM958728 Caltech_RnaSeq_GM12878_2x75_200公司
GSM958729 加州理工学院_自然科学系_K562_2x75_200
GSM958730 Caltech_RnaSeq_GM12878_1x75D公司
关系
SRA公司 SRP014320标准

下载家庭 格式
SOFT格式的族文件 柔软帮助
MINiML格式的族文件 MINiML公司帮助
系列矩阵文件 TXT公司帮助

补充文件 大小 下载 文件类型/资源
GSE33480_RAW.tar标准 44.4 Gb (http)(自定义) TAR(BAI、BAM、BIGBED、BIGWIG、GTF的)
GSE33480_运行_包含UCSC对象.txt.gz 5.5千磅 (英尺/平方英尺)(http) TXT公司
SRA运行选择器帮助
作为补充文件提供的处理数据
SRA中有原始数据

|国家土地管理局|国家卫生研究院|GEO帮助|免责声明|无障碍|
NCBI Home NCBI Search NCBI SiteMap