公共科学图书馆一号。2011; 6(3):e17820。
用RNA-Seq和微阵列评估C57BL/6J和DBA/2J小鼠纹状体的基因表达
,#2,* ,#1,三 ,三 ,三 ,2 ,1,三 ,4 ,5 ,2,5,6,7和1,三
丹尼尔·波托姆利
2美国俄勒冈州波特兰市俄勒冈健康与科学大学俄勒冈临床与转化研究所
妮可·A·R·沃尔特
1美国俄勒冈州波特兰退伍军人事务医疗中心研究服务
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
杰西卡·埃泽尔·亨特
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
普里西拉·达拉基安
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
Sunita Kawane公司
2美国俄勒冈州波特兰市俄勒冈健康与科学大学俄勒冈临床与转化研究所
卡里·J·巴克
1美国俄勒冈州波特兰退伍军人事务医疗中心研究服务
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
罗伯特·P·塞尔
4大规模平行测序共享资源,俄勒冈州健康与科学大学,美国俄勒冈州波特兰
迈克尔·摩尼
5美国俄勒冈州波特兰市俄勒冈健康与科学大学生物信息学和计算生物学、医学信息学和临床流行病学分部
香农·K·麦克维尼
2美国俄勒冈州波特兰市俄勒冈健康与科学大学俄勒冈临床与转化研究所
5美国俄勒冈州波特兰市俄勒冈健康与科学大学生物信息学和计算生物学、医学信息学和临床流行病学分部
6美国俄勒冈州波特兰市俄勒冈健康与科学大学生物统计学、公共卫生与预防医学部
7OHSU奈特癌症研究所,俄勒冈州波特兰俄勒冈健康与科学大学,美国俄勒冈
罗伯特·希兹曼
1美国俄勒冈州波特兰退伍军人事务医疗中心研究服务
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
庄小溪,编辑器
1美国俄勒冈州波特兰退伍军人事务医疗中心研究服务
2美国俄勒冈州波特兰市俄勒冈健康与科学大学俄勒冈临床与转化研究所
三美国俄勒冈州波特兰市俄勒冈健康与科学大学行为神经科学系
4大规模并行测序共享资源,俄勒冈州波特兰市俄勒冈健康与科学大学,美国俄勒冈
5美国俄勒冈州波特兰市俄勒冈健康与科学大学生物信息学和计算生物学、医学信息学和临床流行病学分部
6美国俄勒冈州波特兰市俄勒冈健康与科学大学生物统计学、公共卫生与预防医学部
7OHSU奈特癌症研究所,俄勒冈州波特兰俄勒冈健康与科学大学,美国俄勒冈
美国芝加哥大学
#贡献均等。
构思并设计了实验:RH KJB SKM JEH NARW DB。进行实验:NARW JEH RPS。分析数据:DB NARW PD SK MM JEH。论文撰写人:DB NARW JEH。参与讨论和编辑手稿:KJB SKM MM RH。将SNP叠加到参考序列和SNP掩模探针上:PD SK。协助比较微阵列平台:MM。
2010年12月13日收到;2011年2月10日接受。
版权这是一篇开放存取的文章,没有任何版权,任何人都可以出于任何合法目的自由复制、分发、传播、修改、构建或以其他方式使用。这项工作是在知识共享CC0公共领域奉献下提供的。 这是一篇根据知识共享公共领域声明条款发布的开放存取文章,该声明规定,一旦将本作品置于公共领域,任何人都可以出于任何合法目的自由复制、分发、传播、修改、构建或以其他方式使用本作品。
- 补充资料
图S1:
去除的基因相对于剩余基因的计数分布。每个基因的log2平均读取计数分布按基因是否在B6和D2菌株(右)的至少一条车道上为零计数或其中一个菌株(左)的至少在一条车道中为零计数进行分类。(畅通节能法)
指南:D88CE558-0AB5-4E77-8F20-F6F157F6E3BA
图S2:
按每条车道的总计数缩放的基因分布。每个基因计数分布的箱线图,按每条车道的总唯一读取计数(以兆为单位)进行缩放。(畅通节能法)
GUID:231E5092-CEFB-444E-8A7B-88A90895CDA7
图S3:
基因长度与edgeR计算的q值的基因显著性之间的关系。图A)所示为log2基因长度的分布,以结合外显子碱基表示,与该基因是否在q值<.01(DE)或否(非DE)下差异表达有关。图B)所示为按长度四分位数分类的基因长度的q值分布。(畅通节能法)
GUID:0FA37DD5-8C89-40B3-BE6F-10AB077C3D65
图S4:
使用单因子泊松模型计算的q值的基因长度和基因显著性之间的关系。图A)所示为log2基因长度的分布,以结合外显子碱基表示,与该基因是否在q值<.01(DE)或否(非DE)下差异表达有关。图B)所示为按长度四分位数分类的基因长度的q值分布。(畅通节能法)
GUID:568BD0BB-C6FA-438E-9C91-9FE9D5C33A7D
图S5:
基因长度每千基SNP数与基因差异表达方向的关系。左边的箱线图(非DE)是非差异表达基因每千碱基SNP的分布。中间的箱线图(DE B6>D2)显示了那些差异表达的基因的分布,B6的标准化计数高于D2。同样,右边的箱线图显示了那些与D2差异表达的基因的分布,显示出比B6更高的标准化读取计数。(畅通节能法)
GUID:9D070EFC-CEF1-4FBC-AD99-65DD7956EDDC
表S1:
读取映射统计信息的摘要。所示为每个流单元(批次)每条通道的读取统计信息。菌株栏参考样品是否来自C57BL6/J(B6)或DBA2/J(D2)近交系小鼠。总读取数是指每条车道生成的读取总数。其余的列参考读取是否唯一地放置在基因组中的某个位置(唯一映射),是否映射到多个位置(多映射),或是否映射失败(非映射)。使用Bowtie进行所有重新校准[26].(XLS)
GUID:C9A741F9-75F1-43A7-BC69-329643BD4DD2
表S2:
当一个基因存在一个或多个探针时,平台内的微阵列数据一致。表中的数字表示基因的数量。q<0.01时差异表达(DE);褶皱变化(FC);probeset指Affymetrix探针或Illumina微阵列探针;相同的折叠方向意味着同一菌株表现出较高的基因表达some表示至少一个。(XLS)
GUID:F2635DC2-0C1C-473D-8835-51149ED4140B
GUID:1705F946-0D17-4049-A76E-FB221AEF7C70
数据集S1:检测到的所有基因的RNA-Seq结果,并与Affymetrix和Illumina微阵列数据进行比较。(发送)
GUID:1FEA1965-3DF1-4D18-A820-201BB26F8BA1
数据集S2:Affymetrix MOE 430 2.0阵列在B6和D2小鼠纹状体中检测到的所有问题的微阵列结果。(发送)
GUID:E5FE0496-6057-4DAD-8EFC-67B785A9948E
数据集S3:Illumina MouseRef-8 v2.0阵列在B6和D2小鼠纹状体中检测到的所有探针的微阵列结果。(发送)
GUID:C1EE7B2A-38DF-4ACB-B1B7-F529FA9604D9
摘要
C57BL/6J(B6)和DBA/2J(D2)是神经科学研究中最常用的两种近交系小鼠菌株。然而,目前唯一可用的小鼠基因组完全基于B6菌株序列。随后,寡核苷酸微阵列探针仅基于该B6参考序列,由于其等位基因序列差异,包括单核苷酸多态性(SNP),使得其在小鼠品系间的基因表达谱比较中的应用变得可疑。下一代测序(NGS)和RNA-Seq应用的出现为检测差异基因表达提供了一种明确的替代寡核苷酸阵列的方法,而无需考虑杂交技术固有的问题。使用RNA-Seq,21个样本(10个B6和11个D2)的每个样本平均产生2200万个短序列读取,这些读取与小鼠参考基因组对齐,允许在纹状体中查询这两个菌株的16183个集合基因。为了确定差异表达,根据外显子的读数应用“数字信使核糖核酸计数”。目前的研究将RNA-Seq(Illumina GA IIx)与两个微阵列平台(Illumina MouseRef-8 v2.0和Affymetrix MOE 430 2.0)进行比较,以检测B6和D2近交系小鼠菌株之间纹状体基因的差异表达。我们表明,通过使用严格的数据处理要求,RNA-Seq确定的差异表达在更多情况下与Affymetrix和Illumina平台一致,而不是仅与单个平台一致,并且与褶皱变化方向不一致的情况很少。最后,我们表明,与基于杂交的技术相比,RNA-Seq检测到的基因比任何一个微阵列平台都多,因此从RNA-Seg中可以获得更多信息。在RNA-Seq中差异表达的大多数基因仅在RNA-Seq中检测到,这对于效应大小较小的研究很重要,因为基于杂交技术的敏感性可能会导致解释偏差。
介绍
桑德伯格等人。[1]似乎是第一个使用微阵列检测两种近交系小鼠(C57BL/6[B6]和129SvEv)之间差异脑基因表达的小鼠。使用1.8倍的变化阈值,这些作者发现检测到的约1%的转录物存在差异表达。随后的研究检查了近交系小鼠或大鼠大样本中大脑基因的差异表达[2],[3],[4],[5]以及隔离啮齿动物种群[6],[7],[8].重组自交系和F2群体已被用来生成表达QTL(eQTL)图谱,而这些图谱又常常与行为数量性状位点(bQTL[4],[5],[9]微阵列技术和分析技术的改进使得可以非常准确地测量大脑基因表达的变化;重要的是,累积数据记录表明,自交系或来自自交系的群体之间的表达差异最大,例如选择性繁殖系[10],实际上相当小(15%到30%)。在某种程度上,这些微小的变化反映了这样一个事实,即由于探针饱和,寡核苷酸阵列的杂交等温线往往不是线性的[11].由于选择性剪接的高度,这种效应在大脑中可能会更加明显[12]寡核苷酸阵列的第二个问题是SNP的影响,这是近交系或近交系衍生群体特有的问题[8],[13]啮齿动物寡核苷酸阵列基于B6小鼠或Brown-Norway(BN)大鼠菌株的序列。即使是与B6或BN密切相关的近交系也可能存在数百万SNP的差异[14],这反过来会导致显著的杂交伪影[13]。屏蔽SNP可以改善这种情况,但在某些情况下会导致从分析中删除探针(Illumina)或探针(Affymetrix)。寡核苷酸阵列的第三个问题是与预定义报告者/探针相关的注释和总结问题。最后,由于微阵列主要询问3′非翻译区(3′-UTR),因此它们提供的关于选择性剪接的信息相对较少。Affymetrix 1.0 Exon ST阵列收集关于选择性剪接的数据,但当用于检测差异选择性剪接时,由于每个探针的探针数量较少,因此对“SNP效应”特别敏感。
下一代测序(NGS)的出现和RNA-seq应用为检测差异基因表达提供了一个明确的替代寡核苷酸阵列,并有效地解决了上述问题。Mortazavi等人。[15]比较了短读Illumina/Solexa 1G平台产生的数据与Affymetrix 430 2.0阵列产生的数据之间的小鼠肝脏基因表达(仅B6菌株)。比较的短读指标是外显子模型每千碱基每百万映射读数(RPKM)。在基因水平上,这两个平台相当一致。然而,RNA-Seq也产生了新的数据。虽然90%的唯一定位阅读位于已知外显子内,但附加数据表明“新的和修订的基因模型,包括改变或附加的启动子、外显子和3′-UTR以及新的候选microRNA前体。”Morazavi等人。[15]他们还能够检测到超过100000个剪接位点,并注意到约3500个基因表达一个或多个交替的内部剪接。随后对小鼠和其他物种(如酵母)的研究证实,RNA-seq和微阵列在基因表达水平上产生了类似的数据[16],[17],[18]据我们所知,还没有研究使用RNA-seq来检测近交系之间的差异表达。然而,考虑到类似的应用,Bullard等人。[19]检查了最适合检测差异基因表达的各种标准化范式;他们得出结论,上四分位归一化引入的偏差最小。
目前的研究将RNA-Seq与两个微阵列平台(Affymetrix MOE 430 2.0和Illumina MouseRef-8 v2.0)进行了比较,以检测B6和DBA/2J(D2)近交系小鼠品系之间的差异纹状体基因表达。比较B6和D2菌株有几个原因。首先,B6是小鼠基因组的参考菌株,D2菌株是桑格小鼠基因组项目中正在进行完全测序的几个菌株之一。此外,还有大量的基因表达数据集对B6和D2菌株以及重组自交系和F菌株进行了比较2来自这些菌株的杂交;这些数据集中包括来自纹状体的数据[8],[20],[21]最后,有广泛的表型数据比较B6和D2菌株[见22]包括行为、解剖和行为纹状体相关表型的数据[2],[23],[24]我们表明,通过使用严格的数据处理要求,RNA-Seq确定的差异表达与Affymetrix和Illumina平台在更多情况下一致,而不是仅与一个平台一致,褶皱变化方向冲突的情况很少。RNA-Seq的大动态范围检测到的基因比在微阵列上看到的多数千个。通过使用该技术获得的附加信息说明了RNA-Seq的价值。
方法
RNA制备
在RNA-Seq和Illumina微阵列实验中使用了幼稚、成年、雄性B6和D2品系小鼠,而Affymetrix微阵列实验则使用了两性小鼠。该动物研究由波特兰退伍军人事务医疗中心机构动物护理和使用委员会根据方案ID VA1509进行审查和批准。动物被颈椎脱位处死,大脑被切除。纹状体解剖如下。切除1.5 mm冠状组织切片,其尾部边界为视交叉。将切片放在一个冰冻的皮氏培养皿上,小心地去除纹状体周围的物质。从尾部到嘴侧表面,纹状体的尺寸减小,因此采用斜切法去除额外的非输送物质。解剖后,组织要么在液氮中快速冷冻,要么保存在RNAlater中(加利福尼亚州巴伦西亚市齐根)。使用TRIzol®试剂(Invitrogen,Carlsbad CA)通过一步异硫氰酸胍程序分离总RNA。通过紫外光谱法评估RNA样品的纯度和浓度(NanoDrop,Wilmington,DE),并在安捷伦生物分析仪(Santa Clara,CA)上进一步评估RNA的完整性。所有样本的RNA完整性数字(RIN)为8或更高。
转录组测序
21只雄性小鼠(10 B6和11 D2)的总RNA被提供给俄勒冈州健康与科学大学大规模并行测序共享资源设施[25]用于转录组测序(NCBI SRA登录号:SRA026846.1)。使用Illumina信使核糖核酸序列样品制备试剂盒(加利福尼亚州圣地亚哥)制备文库。简言之,使用寡核苷酸-T-包被的Sera-Mag磁珠两轮分离,从1µg总RNA中回收poly(A)+RNA。然后对回收的聚(A)+RNA进行化学裂解。使用SuperScript II和随机引物将RNA片段转换为cDNA。第二条链是用RNaseH和DNA Pol I合成的。cDNA末端是用T4 DNA聚合酶、T4多核苷酸激酶和Klenow DNA聚合物修复的。使用Klenow片段(3′至5′外显子)将单个腺苷添加到3′端。使用T4 DNA连接酶将适配器连接到cDNA末端。从2%低度超强琼脂糖凝胶中提取300 bp片段。然后使用(PCR)Phusion DNA聚合酶通过15个聚合酶链反应扩增300 bp片段。文库通过安捷伦生物分析仪(加州圣克拉拉)进行验证。文库稀释至10 pM,并使用Illumina Cluster Station应用于Illuminia流动池。对Illumina GAIIx进行测序。除第三个流动池为70个循环外,序列为76个循环的单次读取。使用《CASAVA用户指南》1.6版中所述的Illumina CASAVA软件包处理所得数据。
使用Bowtie将所有读取结果重新对准NCBI m37版本的小鼠基因组组装[26]考虑22个染色体组的短读比对程序。每个读取被修剪为43个碱基的长度,并使用前32个碱基进行种子对齐,最多允许2个不匹配。此分析中仅使用了唯一映射读取。NCBI m37组件的Exon启动和停止位置从Ensembl下载[27]每个基因的结合外显子创建如下。对于每个Ensembl基因,合并注释外显子,为特定基因创建一组非冗余外显子。例如,如果一个带注释的转录本有一个外显子,该外显子与给定基因的第二个带注释转录本中的外显子边界重叠,则联合外显子的边界将由第一个外显字的起始位置和第二个外显音的终止位置组成。因为我们没有进行链特异性RNA-Seq,如果注释的外显子在基因之间重叠,则将这些间隔从整体基因表达计算中删除,类似于最近提出的并集交叉外显子[19].使用Genometer计算读数[19]如果起始位置位于我们确定的结合外显子之一,则从Bioconductor 2.6包。然后,通过对仅归因于特定基因的每个结合外显子的计数求和,创建基因级表示。删除了所有21个通道中读取计数为零的基因,以及至少一个B6和一个D2样本中包含读取计数为0的基因。总计数标准化[19]泊松模型的拟合在R中进行[28]使用edgeR Bioconductor软件包进行上四分位归一化和负二项式精确测试。由edgeR确定的对数转换平均读取计数小于−20的基因在中标记为低读取计数数据集S1NCBI m37基因组组装的单核苷酸(SNP)校正是使用自定义perl脚本,使用从Sanger小鼠基因组项目中获得的D2菌株的SNP进行的[14]为了创建一个合成D2序列,对于每个SNP,将D2等位基因插入参考序列(B6)的指定位置。由于参考基因组被重复屏蔽,如果在参考位置出现“N”,则D2碱基不会插入,而是保留为“N”。所有箱线图都是使用ggplot2 R包生成的[29].
微阵列
含有2µg总RNA的高质量样品被送往俄勒冈州健康与科学大学基因微阵列共享资源设施,以在微阵列芯片上进行标记和杂交。所使用的程序分别严格遵循Affymetrix或Illumina的规范[30]所有微阵列数据都符合MIAME,并且原始数据已经以登录号存放在GEO中{“类型”:“entrez-geo”,“属性”:{“文本”:“GSE26024”,“term_id”:“26024”}}GSE26024标准.
使用Affymetrix MOE 430 2.0阵列对20只小鼠样本(5只雄性D2、5只雌性D2、五只雄性B6和五只雌性B6)组成的独立组进行评估。使用稳健多芯片平均法对这些数据进行分析[31]与之前的工作一样,使用建议的背景校正、分位数归一化和摘要程序进行完美匹配探测[13],[32],[33]使用limma Bioconductor测定差异表达[34]通过拟合一个也包含性别地位的线性模型进行打包。掩盖了跨越B6和D2菌株之间SNP的单个探针和非唯一排列的探针[13]为了跨平台进行比较,我们使用了微阵列探针的Ensembl映射[27]如果一个探针没有定位在Ensembl构建59基因的唯一外显子内,则将其排除在这些分析之外。任何掩盖后剩余探针少于四个(每个探针中有11个)的探针都被排除在我们的分析之外。为了删除不可靠的调用并为Affymetrix问题设置阈值,我们在Bioconductor的affy包中使用了MAS5方法的默认设置。MAS5检测调用将问题标记为“存在”或“检测到”(p<0.04)、“边缘”(0.04<p<0.06)或“不存在”或未检测到(p>0.06)。排除了至少一个B6和一个D2样本中有“缺席”呼叫的探针。所有差异表达p值均为假发现率(FDR),使用q值生物导体包进行调整[35]使用每个菌株的平均反对数RMA值计算折叠变化。
使用Illumina MouseRef-8 v2.0阵列对24只雄性小鼠(12只D2和12只B6)进行评估。其中包括一个由5只D2和5只B6小鼠组成的独立组,以及一个由7只B6和7只D2样本组成的组,这些样本也使用RNA-seq进行了分析。Illumina阵列数据通过R中的lumi Bioconductor包进行分析[36].使用方差稳定变换(VST)对数据进行变换[37]并使用鲁棒样条归一化(RSN)进行归一化[36]根据lumi的测定,探针检测“存在”表达的阈值设置为p<0.05。如果探针没有完美地映射到小鼠基因组NCBI m37集合上的单个基因组位置,则将其排除在我们的分析之外。与Affymetrix的方法类似,我们使用Illumina探针的Ensembl映射进行跨平台比较,因此如果探针没有映射到Ensemble基因ID(构建59),则将其排除在外。如果基于桑格小鼠基因组测序的探针跨越一个或多个SNP[14],它已被删除。使用q值生物导体包对差异表达p值进行FDR调整[35]使用每个应变平均的反向VST变换计算折叠变化。
结果
RNA-Seq号
我们从10只B6和11只D2小鼠(三个Illumina GAIIx流细胞上的21条通道)中产生了单端RNA-Seq读数。每个样本的读取情况的高级摘要如所示表S1,包括总读取数和唯一映射读取数。为了便于总结与已知基因注释相关的RNA-Seq数据,我们首先根据Ensembl构建59个外显子注释组装一个基因级表示,如方法这产生了由Ensembl 59注释的36229个基因的汇总读取计数。其中12632个基因在所有车道上都没有读取,因此没有进一步考虑。另外7414个基因对至少一个B6和一个D2样本没有读取,被认为是不可靠的。如图所示图S1与其余基因相比,被移除的基因的读取计数往往很低。我们随后的分析侧重于剩余的16183个基因。
尽管读取计数的分布在泳道和流通池之间是可变的,但这些差异可以使用上四分位数缩放程序进行归一化[19]()而不采用更极端的归一化程序,如分位数归一化[19],[38]此外,上四分位缩放()与仅基于总读取计数缩放(类似于RPKM度量)的分布相比,导致了同质分布[15](图S2).
每条车道/流单元每个基因的读取计数分布。A)所示为每个基因的非标准化计数分布。然而,计数被一个常量除,该常量在此定义为以兆字节(MB)为单位的总唯一读取计数的平均值。这样做是为了便于比较箱线图。对于B),计数值通过上四分位校正总计数(MB)进行标准化。使用edgeR计算上四分位校正值[42]此外,这两个图都以log2比例显示。还要注意的是,X轴的标记形式为traint_lane_flowcell。
在我们手中,单因素泊松模型与之前提出的似然比检验相结合[19],产生了倾向于反保守的结果。最简单的解释是,我们的生物复制品之间的变异性比固定分散泊松模型所能解释的要大,这种可能性以前已经提到过了[18],[19]其他广义线性模型可用于解释过度分散,例如与拟似然拟合的泊松族之一[39]或负二项族之一[40]然而,由于我们的设计相对简单,我们决定使用精确的测试[41]用于edgeR Bioconductor包中实现的负二项分布[42].
在估计了常见的色散参数并应用精确测试后,错误发现率(FDR)控制[35]应用程序。我们发现1727个差异表达基因(DE)(q值<0.01),其中958个基因在B6中相对于D2更高表达,769个基因在B中相对于D22更低表达(分别为B6/D2>0或<0的对数倍变化)。在中演示数据集S1(附带说明文本S1)是基因、它们的折叠变化、平均读取计数的度量以及指示特别低表达(低读取计数)基因的标志。根据基因是否被确定为差异表达,对总结合外显子长度的分布进行了检查,结果表明,似乎没有与之前看到的情况相反的明显基因长度偏差[19],[43]对每个四分位基因长度的DE基因计数的检查也没有显示任何基因长度偏差(图S3)。相反,如果我们检查为单因素泊松模型生成的相同图,其中包含偏移量中的上四分位缩放程序读取计数调整,我们可以看到证据表明较长的基因区域倾向于差异表达(图S4)这表明统计模型的选择可能是基因长度对差异表达影响的一个重要因素。
除了基因长度之外,我们还评估了基因组结构对结果的潜在影响。如Walter等人。[13]由于等位基因序列变异导致杂交效率的差异,微阵列分析可以检测假阴性或假阳性差异表达。RNA-Seq中可能会出现类似的现象,因为应用了启发式算法来加速重新校准算法。例如,SNP和碱基调用错误的组合可能导致读取映射错误或根本没有映射,从而可能导致差异表达基因中的菌株特异性偏差。为了解决这一问题,我们计算了16183个基因中每个结合外显子每千碱基的SNP数量,并评估了差异表达以证明方向性偏差。如中所示图S5就已知SNP的密度而言,D2>B6差异表达调用的分布相对于B6>D2调用向下移动,尽管分布在很大程度上重叠。为了进一步解决这个问题,我们合成了一个D2参考序列,并将D2读数重新对齐。我们发现,唯一映射读取数略有增加(每个D2样本的读取数增加不到0.2%),而多映射读取数增加最小(每个D2-样本的读取量增加不到0.1%)。此外,在总结、归一化和应用edgeR程序后,我们发现958个最初鉴定为DE且B6>D2的基因中有934个(97.5%)仍然是DE,但其余24个基因的状态发生了变化,这些基因不再被检测为DE,表明它们最初可能是假阳性。最初没有DE的36个基因的状态也发生了变化;根据重新校准的读数,这些被检测为D2>B6的DE,表明等位基因偏差可能导致假阴性结果。最后,最初检测到的5个基因的状态发生了变化,即DE D2>B6,未发现差异表达。总的来说,相对于RNA-Seq发现的1727个差异表达基因,假定的假阳性和假阴性差异表达调用的数量是最小的。改变状态的基因显示在数据集S1.
微阵列
Affymetrix MOE 430 2.0微阵列包含45037个探针,询问Ensembl中注释的18461个基因[27],Illumina Mouse MouseRef-8 v2.0微阵列有25697个探针,检测16948个基因。分析完每个微阵列实验后方法Affymetrix微阵列在纹状体中检测到10663个背景以上表达的基因,Illumina微阵列检测到9521个基因。接下来,我们评估了每个微阵列平台上的差异表达,如方法Affymetrix和Illumina微阵列分析分别鉴定了1652和869个差异表达基因(q<0.01)。微阵列平台固有的特点是,通常有多个探针映射到同一个基因。当每个微阵列上存在一个或多个探针或探针时,差异表达和折叠变化方向总结如下表S2和完整的详细信息见数据集S2和第3章(均在中描述文本S1)。为了比较不同平台的DE,我们使用了具有最佳q值的微阵列探针或探针。在中演示数据集S2和第3章是问题和探针,它们的折叠变化,以及完整的注释细节。
RNA-seq和微阵列结果的比较
首先,我们比较了三个平台检测到的基因重叠。7211个基因对所有三个平台都是通用的()。有202个基因是Affymetrix微阵列所特有的,529个基因是Illumina微阵列所独有的,4179个基因仅由RNA-Seq检测到()。这些基因中的大多数是蛋白质编码的,尽管每个平台也检测到其他Ensemble基因类别中的一些基因,如数据集(S1,第2页,第3章).
纹状体表达的小鼠基因检测平台重叠。对于RNA-Seq:当RNA-Seq数据与Ensembl中注释的所有基因对齐时,通过过滤器进行检测的基因。微阵列:筛选后检测到的基因至少有一个探针(Affymetrix)或探针(Illumina)。
接下来,我们比较了不同平台之间的差异表达。RNA-Seq共检测到1727个DE基因。RNA-Seq DE基因的最大子集(591个基因)仅在RNA-Seq-DE分析中检测到表达,因此其DE的证据也仅限于RNA-Seq数据。使用Affymetrix和Illumina微阵列检测到369和212个RNA-Seq差异表达的基因,但在这些微阵列分析中,这些基因中只有51%和31%是DE。总结了555个RNA-Seq DE基因的最终子集,这些基因也通过至少一个探针或探针在两个微阵列上检测到。其中222个基因是基于RNA-Seq的DE,而两个微阵列平台都检测到这些基因是“存在”的,但没有检测到DE。这表明差异表达可能不会延伸到3′UTR,这是由微阵列优先询问的。这些基因中有144个是使用所有三种平台的DE,表明可能在整个基因中存在高置信度差异表达。
RNA-Seq检测到差异表达(DE)平台重叠。根据RNA-Seq数据,1524个DE基因中,555个也是检测Affymetrix MOE 430 2.0和Illumina MouseRef-8 v2.0。当在所有三个平台上进行查询时,144个在所有三种平台上显示DE(5个在所有这三个平台中显示DE,但在折叠变化方向上不一致),表明可能在所有外显子中都是DE的基因。125和54分别是Affymetrix和RNA-Seq上的DE或Illumina和RNA-Seq(其中3和2分别在折叠变化方向上不一致)。虽然在所有三个平台上都检测到,但222只在RNA-Seq上显示DE。
在所比较的555个(),只有13个被标记为读取计数低。此外,与在至少一个阵列平台上发现差异表达的222个相比,仅在RNA-Seq上发现的平均对数转换计数略高(p=0.015;双尾吨-这表明许多仅在RNA-Seq分析中发现的DE基因可能确实为真阳性。
讨论
目前的研究使用了一种基因水平的总结方法,该方法已被证明提供了比单一碱基位置更可靠的值[44]或更小的间隔,因为序列位置之间观察到的不均匀性可能归因于随机六聚体启动[45]。与之前的报告一致,我们发现通过总读取计数调整读取计数差异似乎是不够的,但通过每条车道的上四分位进行额外的修正,可以提供足够的方法来规范化数据[19]。虽然使用泊松模型发现了相对较大的影响,但使用edgeR软件包,我们发现几乎没有证据表明存在基因长度偏差。我们表明,仅由于SNP的存在,在近交系小鼠品系的比较中有可能出现假阳性和假阴性,尽管对这种比较的影响并不严重。我们注意到,可能存在的任何偏差都是SNP密度的函数。对于更复杂和SNP密度更高的小鼠模型,例如异种库存[7],[46],SNP可能对某些基因的DE有更严重的影响。我们进一步注意到,这两个菌株之间的插入和删除(我们没有考虑)可能会导致类似的影响。在Sanger正在进行的普通近交系的测序基因组发布后,基因组结构对差异表达分析的影响可能不再是几个近交系小鼠的问题[14],允许根据各自的参考序列和转录模型进行分析。
与Illumina或Affymetrix微阵列平台相比,RNA-Seq提供了更多“检测到”的基因,这些基因具有可靠的信号,不受SNP或注释问题的影响。我们认识到在分析描述RNA-Seq的背景水平方面存在困难,并建议今后进行其他实验,精确测量所选模型系统中计数范围相对较广的基因的mRNA丰度,类似于早期研究中所做的工作[15]。尽管平台存在差异,但我们发现,总体而言,基于折叠变化方向和显著性值,微阵列和RNA-Seq的一致性相对较好,58%的RNA-Seq-DE基因在所有平台上被检测,确定在相同方向上差异表达,错误发现率为0.01。通过RNA-Seq和至少一个微阵列平台发现这些基因中最大比例的DE在所有三个平台上都是DE。有趣的是,Affymetrix MOE430 2.0比Illumina更符合RNA-Seq数据。Affymetrix和测序数据之间的高度相关性在SAGE样数字基因表达(DGE)的背景下已经观察到[47].
所有三个平台询问的RNA-Seq-DE基因中比例最大的是那些仅在RNA-Seq中差异表达的基因。我们发现,相对于那些与至少一个微阵列平台一致的基因,这些基因往往具有更大的平均读取计数,这进一步表明RNA-Seq在这两个微阵列平台上的效用。与两种微阵列技术共同差异表达的144个基因可能代表注释基因中相对同质表达的实例,因为来自这两个微阵列平台的探针应倾向于偏向基因的3′UTR端。在这方面,仅在差异表达方面与一个平台一致或仅在RNA-Seq中发现的基因可能代表转录亚型丰度的差异。这些类别中每一种的差异都说明了RNA-Seq相对于微阵列的优势,在这种情况下,RNA-Seg计算整个基因的DE,而不仅仅是在基因内的单个探针(集合)位置。据估计,每个小鼠基因的平均替代转录本约为2.5个[48]图中有选择性剪接,探针位置明显影响微阵列数据的解释。
另一个潜在的跨平台敏感性生物学评估可以通过跨平台检测Y染色体基因来完成。然而,对本研究中用于分析的Ensembl注释的审查表明,只有20个基因注释位于Y染色体上。其中,如果我们检查通过SNP过滤器的探针、背景上的检测以及我们分析中使用的独特Ensemble映射,那么Illumina阵列上只剩下7个探针,询问Y染色体上的5个基因,Affymetrix阵列上没有探针。我们确实注意到,在Illumina阵列检测到的5个基因中,其中4个也被RNA-seq检测到(唯一的例外是Illuminia阵列上最低可接受信号水平)。然而,由于带注释的基因如此之少,而且阵列上的覆盖率如此之低,因此目前使用这种类型的分析进行评估并不能提供信息。
此外,目前存在许多针对RNA-Seq的实验方案选择,每种方案都有其自身的优势和对下游分析的影响。例如,为了去除高度丰富的rRNA分子,要么富集含有poly-A的序列,要么耗尽rRNA[49],[50]在我们的RNA-Seq实验中,我们使用了poly-a富集程序,因为目前的rRNA耗竭策略效率较低[50]然而,使用不同的选择程序可能会影响与微阵列的一致性,这是未来研究的一个有趣的主题。
尽管目前已有许多分析RNA-Seq数据的方法,而且还有更多的方法在继续开发,但可以提出的最基本和最基本的问题是,一个基因/转录物是否在两组之间有差异表达。基因水平的差异表达为进一步的实验奠定了基础,这些实验旨在识别和量化样本之间的转录亚型[44],[51]和从头开始未标记表达区域的识别[15],[52].方法存在以推断转录亚型的选择性剪接和相对定量[44],[51],并且配对-end序列的生成应该允许对观察到的任何新的选择性剪接事件有更大的信心[53]。未来应继续使用该技术来评估小鼠菌株间选择性剪接的细节。
支持信息
图S1
去除的基因相对于剩余基因的计数分布。每个基因的log2平均读取计数分布按基因是否在B6和D2菌株(右)的至少一条车道上为零计数或其中一个菌株(左)的至少在一条车道中为零计数进行分类。
(畅通节能法)
图S2
按每条车道的总计数缩放的基因分布。每个基因计数分布的箱线图,按每条车道的总唯一读取计数(以兆为单位)进行缩放。
(畅通节能法)
图S3
基因长度与edgeR计算的q值的基因显著性之间的关系。图A)所示为log2基因长度的分布,以结合外显子碱基表示,与该基因是否在q值<.01(DE)或否(非DE)下差异表达有关。图B)所示为按长度四分位数分类的基因长度的q值分布。
(畅通节能法)
图S4
使用单因子泊松模型计算的q值的基因长度和基因显著性之间的关系。图A)所示为log2基因长度的分布,以结合外显子碱基表示,与该基因是否在q值<.01(DE)或否(非DE)下差异表达有关。图B)所示为按长度四分位数分类的基因长度的q值分布。
(畅通节能法)
图S5
每千碱基基因长度的SNPs数量与基因差异表达方向之间的关系。左边的方框图(非DE)是非差异表达基因每千碱基SNPs的分布。中间的箱线图(DE B6>D2)显示了那些差异表达的基因的分布,B6的标准化计数高于D2。同样,右边的箱线图显示了那些与D2差异表达的基因的分布,显示出比B6更高的标准化读取计数。
(畅通节能法)
表S1
读取映射统计信息的摘要。所示为每个流单元(批次)每条通道的读取统计信息。菌株栏参考样品是否来自C57BL6/J(B6)或DBA2/J(D2)近交系小鼠。总读取数是指每条车道生成的读取总数。其余的列参考读取是否唯一地放置在基因组中的某个位置(唯一映射),是否映射到多个位置(多映射),或是否映射失败(非映射)。使用Bowtie进行所有重新校准[26].
(XLS)
表S2
当一个基因存在一个或多个探针时,平台内的微阵列数据一致。表中的数字表示基因的数量。q<0.01时差异表达(DE);褶皱变化(FC);probeset指Affymetrix探针或Illumina微阵列探针;相同的折叠方向意味着同一菌株表现出较高的基因表达some表示至少一个。
(XLS)
数据集S1
检测到的所有基因的RNA-Seq结果,并与Affymetrix和Illumina微阵列数据进行比较。
(发送)
数据集S2
Affymetrix MOE 430 2.0阵列在B6和D2小鼠纹状体中检测到的所有探针的微阵列结果。
(发送)
数据集S3
Illumina MouseRef-8 v2.0阵列在B6和D2小鼠纹状体中检测到的所有探针的微阵列结果。
(发送)
致谢
我们感谢Denesa Oberbeck和Barry Malmanger在纹状体解剖方面的技术专长。
脚注
竞争利益:提交人声明,不存在相互竞争的利益。
资金:这项工作得到了DA005228(KB和NW)、AA011114(KB和NEW)、AA 011034(RH)、AA013484(RH”)、AA010760(RH、KB、SKM、PD和NW”)、T32AA07468(JH和DO)、T32DA07262(DO),MH051372(RH》)、5UL1RR024140(DB和SKM)、5P30CA069533-13(SKM),5T15LM007088(MM)退伍军人事务研究服务局的资助,以及MJ Murdock慈善信托的拨款。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
工具书类
1Sandberg R、Yasuda R、Pankratz DG、Carter TA、Del Rio JA等。成年小鼠大脑中的区域和菌株特异性基因表达图谱。美国国家科学院院刊。2000;97:11038–11043。 [PMC免费文章][公共医学][谷歌学者] 2Hitzemann R、Malmanger B、Reed C、Lawler M、Hitzemann B等。QTL、基因表达和序列分析的整合策略。哺乳动物基因组。2003;14:733–747.[公共医学][谷歌学者] 三。Mulligan MK、Ponomarev I、Hitzemann RJ、Belknap JK、Tabakoff B等。通过转录组元分析了解饮酒的遗传学。美国国家科学院院刊。2006;103:6368–6373. [PMC免费文章][公共医学][谷歌学者] 4Tabakoff B、Saba L、Printz M、Flodman P、Hodgkinson C等。大鼠和人类饮酒的遗传基因组决定因素。BMC生物。2009;7:70. [PMC免费文章][公共医学][谷歌学者] 5王华,朱义忠,王鹏,法鲁克·JM,Teo AL,等。猫冷冻试验后焦虑性PVG和SD大鼠基因表达的cDNA微阵列分析。实验脑研究。2003;149:413–421.[公共医学][谷歌学者] 6Bice PJ,Liang T,Zhang L,Graves TJ,Carr LG,等。高、低酒精依赖大鼠染色体10 QTL区域候选基因的精细定位和表达。酒精。2010;44:477–485. [PMC免费文章][公共医学][谷歌学者] 7Malmanger B、Lawler M、Coulombe S、Murray R、Cooper S等。关于利用多交叉作图(MCM)绘制数量性状位点的进一步研究。哺乳动物基因组。2006;17:1193–1204.[公共医学][谷歌学者] 8Peirce JL、Li H、Wang J、Manly KF、Hitzemann RJ等。mRNA表达QTL的可复制性如何?哺乳动物基因组。2006;17:643–656.[公共医学][谷歌学者] 9Sikela JM、Maclaren EJ、Kim Y、Karimpour Fard A、Cai WW等。理解酒精作用的DNA微阵列和蛋白质组学策略。酒精临床实验研究。2006;30:700–708. [PMC免费文章][公共医学][谷歌学者] 10Bice PJ,Foroud T,Carr LG,Zhang L,Liu L,et al.高酒精偏好(HAP)和低酒精偏好(LAP)小鼠品系中影响酒精偏好的QTL鉴定。行为遗传学。2006;36:248–260。[公共医学][谷歌学者] 11Pozhitkov AE,Boube I,Brouwer MH,Noble PA。超越Affymetrix阵列:扩展已知杂交等温线集并观察洗涤前信号强度。核酸研究。2010;38:e28。 [PMC免费文章][公共医学][谷歌学者] 12Fagnani M、Barash Y、Ip JY、Miswetta C、Pan Q等。哺乳动物中枢神经系统选择性剪接的功能协调。基因组生物学。2007;8:R108。 [PMC免费文章][公共医学][谷歌学者] 13Walter NA、McWeeney SK、Peters ST、Belknap JK、Hitzemann R等。单核苷酸多态性的重要性:对差异表达检测的影响。自然方法。2007;4:679–680. [PMC免费文章][公共医学][谷歌学者] 15Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628.[公共医学][谷歌学者] 16Bloom JS,Khan Z,Kruglyak L,Singh M,Caudy AA。通过简短测序测量差异基因表达:与双通道基因表达微阵列的定量比较。BMC基因组学。2009;10:221. [PMC免费文章][公共医学][谷歌学者] 17Bradford JR、Hey Y、Yates T、Li Y、Pepper SD等。大规模平行核苷酸测序与寡核苷酸微阵列全球转录谱的比较。BMC基因组学。2010;11:282. [PMC免费文章][公共医学][谷歌学者] 18Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517。 [PMC免费文章][公共医学][谷歌学者] 19Bullard JH,Purdom E,Hansen KD,Dudoit S。mRNA-Seq实验中归一化和差异表达统计方法的评估。BMC生物信息学。2010;11:94. [PMC免费文章][公共医学][谷歌学者] 20Rosen GD、Chesler EJ、Manly KF、Williams RW。系统神经遗传学的信息学方法。方法分子生物学。2007;401:287–303.[公共医学][谷歌学者] 21Rosen GD、La Porte NT、Diechtiaref B、Pung CJ、Nissanov J等。小鼠基因组学信息学中心:神经系统复杂特征的解剖。神经信息学。2003;1:327–342.[公共医学][谷歌学者] 23Hitzemann R、Qian Y、Kanes S、Dains K、Hitzeman B。基底神经节的遗传学和组织学。神经生物学国际版。1995;38:43–94.[公共医学][谷歌学者] 24Rosen GD,Williams RW。小鼠纹状体的复杂特征分析:独立QTL调节体积和神经元数量。BMC神经科学。2001;2:5. [PMC免费文章][公共医学][谷歌学者] 26Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10:R25。 [PMC免费文章][公共医学][谷歌学者] 29威克姆H。Ggplot2:用于数据分析的优雅图形。纽约:Springer;2009[谷歌学者] 30俄勒冈州健康与科学大学,基因微阵列共享资源。
31Irizarry RA、Hobbs B、Collin F、Beazer-Barclay YD、Antonellis KJ等。高密度寡核苷酸阵列探针水平数据的探索、规范化和总结。生物统计学。2003;4:249–264.[公共医学][谷歌学者] 32丹麦DL,Buck KJ。小鼠1号染色体上影响酒精依赖和相关戒断的潜在候选基因的分子分析和鉴定。基因脑行为。2008;7:599–608.[公共医学][谷歌学者] 33Hofstetter JR、Hitzemann RJ、Belknap JK、Walter NA、McWeeney SK等。氟哌啶醇诱导小鼠远端1号染色体上过氧化氢症的数量性状位点的特征。基因脑行为。2008;7:214–223。[公共医学][谷歌学者] 34史密斯GK。Limma:微阵列数据的线性模型。作者:Gentleman R、Carey V、Dudoit S、Irizarry RA、Huber W,编辑。使用R和生物导体的生物信息学和计算生物学解决方案。纽约:Springer;2005年,第397–420页。[谷歌学者] 35Storey JD,Tibshirani R.全基因组研究的统计意义。美国国家科学院院刊。2003;100:9440–9445. [PMC免费文章][公共医学][谷歌学者] 36Du P,Kibbe WA,Lin SM.lumi:处理Illumina微阵列的管道。生物信息学。2008;24:1547–1548.[公共医学][谷歌学者] 37Lin SM、Du P、Huber W、Kibbe WA。Illumina微阵列数据的基于模型的方差稳定转换。核酸研究。2008;36:e11。 [PMC免费文章][公共医学][谷歌学者] 38Bolstad BM、Irizarry RA、Astrand M、Speed TP。基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。生物信息学。2003;19:185–193.[公共医学][谷歌学者] 39Nelder JA,Wedderburn RWM公司。广义线性模型。英国皇家统计学会杂志。1972;135:370–384. [谷歌学者] 40Venables W,Ripley B。现代应用统计学与S。纽约:Springer;2002[谷歌学者] 41Robinson医学博士、Smyth GK。负二项离散度的小样本估计及其在SAGE数据中的应用。生物统计学。2008;9:321–332.[公共医学][谷歌学者] 42Robinson医学博士、McCarthy DJ、Smyth GK。edgeR:用于数字基因表达数据差异表达分析的Bioconder软件包。生物信息学。2010;26:139–140. [PMC免费文章][公共医学][谷歌学者] 43Oshlack A,韦克菲尔德MJ。RNA-seq数据中的转录长度偏差混淆了系统生物学。生物直接。2009;4:14. [PMC免费文章][公共医学][谷歌学者] 44Wang ET,Sandberg R,Luo S,Khrebtukova I,Zhang L,等。人类组织转录体中的替代亚型调控。自然。2008;456:470–476. [PMC免费文章][公共医学][谷歌学者] 45Hansen KD,Brenner SE,Dudoit S.随机六聚体启动引起的Illumina转录组测序偏差。核酸研究。2010;38:e131。 [PMC免费文章][公共医学][谷歌学者] 46Iancu OD、Darakjian P、Walter NA、Malmanger B、Oberbeck D等。遗传多样性和纹状体基因网络:聚焦异质性股票合作杂交(HS-CC)小鼠。BMC基因组学。2010;11:585. [PMC免费文章][公共医学][谷歌学者] 47t Hoen PA、Ariyurek Y、Thygesen HH、Vreugdenhil E、Vossen RH等。基于深度序列的表达分析表明,在五种微阵列平台上,在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008;36:e141。 [PMC免费文章][公共医学][谷歌学者] 48Kim H,Klein R,Majewski J,Ott J.估计哺乳动物和无脊椎动物的选择性剪接率。Nat Genet。2004;36:915–916; 作者回复16–917。[公共医学][谷歌学者] 49Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ等。通过大规模mRNA测序进行干细胞转录组分析。自然方法。2008;5:613–619.[公共医学][谷歌学者] 50Wilhelm BT,Landry JR.RNA-Seq——通过大规模并行RNA测序定量测量表达。方法。2009;48:249–257.[公共医学][谷歌学者] 51Pan Q,Shai O,Lee LJ,Frey BJ,Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。Nat Genet。2008;40:1413–1415.[公共医学][谷歌学者] 52Lee A、Hansen KD、Bullard J、Dudoit S、Sherlock G。通过拼接微阵列和超高通量测序揭示的酵母中新的低丰度和瞬时RNA在密切相关的酵母物种中并不保守。公共科学图书馆-遗传学。2008;4:e1000299。 [PMC免费文章][公共医学][谷歌学者] 53Griffith M、Griffith OL、Mwenifumbo J、Goya R、Morrissy AS等。RNA测序的替代表达分析。自然方法。2010;7:843–847.[公共医学][谷歌学者]