自20世纪90年代中期以来,DNA微阵列一直是大规模基因表达水平研究的首选技术。这些阵列同时询问数千个转录物的能力导致了在广泛的生物学问题上的重要进展,包括鉴定患病和健康组织之间的基因表达差异,以及对发育过程、药物基因组反应,和基因调控的进化(谢尔夫等人,2000年;白色2001;Rifkin等人,2003年;Passador-Gurgel等人,2007年). 然而,阵列技术有几个局限性。例如,杂交的背景水平(即与相应转录物的表达水平无关的探针杂交)限制了表达测量的准确性,特别是对于低丰度的转录物。此外,探针的杂交特性也有很大不同(Gautier等人,2004年). 因此,尽管比较不同阵列的杂交结果可以确定样本之间的基因表达差异(Allison等人,2006年)单个样本的杂交结果可能无法提供不同转录物相对表达的可靠测量。最后,阵列仅限于使用阵列上的相关探针查询转录本。
基于测序的基因表达水平测量方法有可能克服这些限制。新的超高通量测序技术使数千个百万碱基的DNA能够在几天内测序。几种技术,包括454生命科学公司(罗氏)开发的技术(Margulies等人,2005年)和Illumina(前Solexa测序)(Bennett等人,2005年),目前可用,并已用于研究遗传变异(Korbel等人,2007年),转录因子结合位点(Mikkelsen等人,2007年)和DNA甲基化(Cokus等人2008). mRNA表达水平测量的应用进展较慢,部分原因是难以制定适当的实验方案,也因为表达研究旨在识别样本之间的(也许是细微的)数量差异,而其他应用迄今为止,专注于检测事件的缺失或存在,例如转录因子结合。
在本研究中,我们描述了一个试点项目的结果,以评估Illumina测序在检测和测量mRNA表达水平以及比较样本表达水平方面的潜力。具体而言,我们将Illumina测序应用于肝脏RNA样本和肾脏RNA样本,对每个样本进行七次测序,并将结果与相同样本上的Affymetrix阵列数据进行比较。尽管有几篇论文描述了使用454测序来检测mRNA表达水平(Weber等人,2007年;Sugarbaker等人,2008年;Torres等人,2008年),我们选择Illumina测序平台是因为目前,在固定成本下,它的覆盖范围和深度远远大于其他测序技术,这使得它对表达研究特别有吸引力。我们的研究还与以前的报告不同,它评估了单个样本的技术重复之间的可变性,并将基于序列的结果与最先进的阵列平台的结果进行了直接比较。
我们发现测序数据具有高度的重复性,技术重复之间几乎没有系统性差异。统计上,我们发现可以使用泊松模型捕获技术复制之间的差异,只有一小部分(~0.5%)的基因显示出与该模型的明显偏差。该泊松模型可用于识别差异表达基因,并且使用该方法,序列数据识别的差异表达基因比在相同错误发现率下从阵列数据的标准分析中获得的差异表达基因多30%。我们还说明了基于序列的方法识别交替分裂形式的潜力。
结果
实验设计
Illumina的测序技术使用大规模并行Sanger测序,同时对数百万个DNA短片段进行测序。每次机器运行时,DNA样本可以在八个通道中的一个通道中独立测序,尽管一个通道通常用于对对照样本进行测序。通常,每条车道会产生数百万次的短读(例如,此处考虑的数据中有32个基点)。为了评估Illumina测序测量样本之间基因表达差异的能力,我们采用了以下研究设计():我们从单个人类男性的肝脏和肾脏样本中提取总RNA,纯化poly(a)mRNA,并在合成cDNA之前将其剪切。然后将该cDNA处理成模板分子库,以便在Illumina基因组分析仪上进行测序(参见方法)。为了评估运行内和运行间的技术差异,我们将每个样本排序七次,分成两个运行机器(). 为了研究cDNA浓度的影响,使用了两种不同的cDNA浓度:3 pM(每个样品五条通道)和1.5 pM(每样品两条通道)。
研究设计的图形表示。(A类)实验设计总结。(B类)在两次运行中对每个样本进行排序的车道。在每次运行中,控制样本在车道中排序5样品在两种浓度下进行测序:1.5 pM(用星号表示)和3 pM(无星号)。
为了与基于阵列的技术进行比较,我们将相同的RNA样本与Affymetrix U133 Plus 2阵列杂交(www.affmetrix.com/products/arrays/specific/hgu133plus.affx). 我们对每个RNA样本使用三个阵列(技术复制),样本制备和数据分析设计为尽可能类似于基于序列的方法(方法)。为了便于序列和阵列数据之间的直接比较,我们将阵列探针集映射到Ensembl数据库v.48中的注释基因(Flicek等人,2008年). 总的来说,70%的探针集映射到一个Ensemble基因,在考虑到映射到同一基因的多个探针集和没有唯一映射的探针集后,我们确定了一组17708个探针集,唯一映射到17708个基因,并在后续分析中使用(见方法)。
Illumina测序数据处理
每个RNA样本在七个通道中测序,在3 pM浓度下每通道产生1290万到1470万个读数,在1.5 pM浓度时每通道产生840万到930万个读取(补充表1)。我们使用Illumina提供的算法ELAND将所有读取与整个基因组对齐,该算法设计用于32-bp读取特别有效。公差设置为每个比对中最多允许两个错配,并且忽略与多个基因组位置比对的读数。根据这些标准,40%的读操作唯一地映射到基因组位置,其中65%映射到常染色体或性染色体(其余几乎完全映射到线粒体DNA)。这些百分比在3 pM和1.5 pM浓度下相似,并与使用Illumina测序的其他研究结果相比较(Nagalakshmi等人,2008年). 读取不能唯一映射到基因组的可能原因包括存在测序错误或多态性、来自重复序列的读取以及外显子-外显子连接的读取(可以通过更复杂的比对策略进行恢复;见下文)。
正如预期的那样,基于Ensembl数据库,映射读取的位置分布显示出对注释基因区域的强烈偏见:83%的映射读取位于此类区域;其中,68%属于注释外显子。此外,到基因间位置的读映射(即每个基因最远5′和3′外显子的读映射)往往位于注释基因附近(补充图1),这表明集合注释中的许多基因可能需要扩展或修订。尽管如此,仍有相当大一部分(10.6%)的基因间读取被映射到已知基因中至少100kb的位置,支持其他已发表的数据(2007年ENCODE项目联盟)这表明许多转录活性区域(TAR)目前尚未标记。
我们通过求和每个基因内外显子的读映射数,获得了Ensembl数据库中每个基因的“总体”表达量(补充表2)。对于具有多个转录本的基因,我们取转录本的中位数。在每个泳道中,在理想化的假设下(例如,没有比对错误,没有序列上下文测序偏差),这些“基因计数”将与转录物长度乘以mRNA表达水平成比例。在Ensembl数据库中的基因中,22925(72%)被至少一次读取映射到。在这些基因中,读取次数的分布在各个基因之间非常不平衡(补充图2),许多基因的读取次数相对较少(肝脏的中值=46,肾脏的中值=101)。
序列数据高度可复制的第一个(尽管相当粗略)迹象是,对于每个样本,基因计数在泳道之间高度相关(平均Spearman相关性=0.96)(补充图3)。
一个特别重要的问题是,数据在多大程度上表现出“车道效应”,即在不同车道以相同浓度排序的同一样本的结果之间的系统性差异,超过了采样误差的预期值。我们从两个方面研究了这个问题,首先是依次考虑每对车道(这允许识别任何边远车道),然后是同时考虑多条车道(如果它们持续影响相同的基因,则应增加检测车道效应的能力)。
当比较一对车道时,我们计算出每个基因的P(P)-值检验无效假设,即一条车道上的基因计数类似于两条车道上读数的随机样本(这是利用这样一个事实完成的,即在没有车道效应的情况下,在考虑每条车道上不同的总基因计数后,每条车道上的单个基因计数应遵循超几何分布)。在没有车道效应的情况下P(P)-跨基因的值应该是一致的,而与一致性的偏差(我们使用qq(质量)-图)表示车道效应。在相同样本以相同浓度测序的22条车道之间的双向比较中,我们发现只有一小部分基因(始终小于0.5%)具有非常小的P(P)-表明车道效应明显证据的值(; 补充图4)。这对于两个不同序列内和跨序列的比较来说都是正确的,尽管不同序列间的比较似乎显示出基因比例稍大,但P(P)-值(需要进行更大的实验来全面评估运行间的可变性)。相反,使用相同的程序比较相同样品在不同浓度下测序的结果P(P)-与均匀性偏差大得多的值(; 补充图5)。
用于评估车道效果的绘图。每个面板显示一个qq(质量)-比较统计数据分布的绘图(Y(Y)-轴)在不存在车道效应的情况下的理论分布(X(X)-轴)。与线路的偏差年=x个表示车道效应的存在。(红色点)95%以上;(蓝色点)99.5%以上。(A类)使用时的典型结果P(P)-从超几何检验统计中得出的值,用于比较用于在相同浓度下对相同样本进行排序的两条车道。(在该面板中,使用了肾脏样本在第1次跑步、第1条跑道和第2次跑步和第2条跑道中测序时生成的数据;所有两两比较参见补充图4。)(B类)比较用于在不同浓度下对同一样品进行排序的两条通道时的类似结果。(在该面板中,使用了肾脏样本在第1次跑步、第1条跑道和第2次跑步和第4条跑道中测序时生成的数据;所有两两比较参见补充图5。)(C类,D类)结果(在两个不同的尺度上),当使用良好度统计来评估泊松模型与在3 pM浓度下测序的肾脏数据的拟合度时。肝脏样本显示出类似的模式(补充图6)。
为了比较多车道的车道效应,我们采用了基于以下泊松模型的密切相关的方法。如果x个ijk公司表示映射到基因的读取数j个对于k个样本数据的第th个通道我,x个ijk公司可以建模为具有平均值μ的独立泊松随机变量ijk公司=c(c)伊克λijk公司,其中λijk公司被限制为跨基因求和为1j个.参数c(c)伊克表示车道的总速度k个样品的我产生读数和参数λijk公司表示读取映射到基因的速率j个(车道内k个样品的我)相对于其他基因。无车道效应假设对应于λijk公司在车道上保持恒定k个。对于每个基因,我们计算了一个关于L(左)车道来检验这个假设:如果没有车道效应,那么这个统计数据应该是χ2在上分发L(左)−1个自由度。A类qq(质量)-这些值的绘图(; 补充图6)显示,在每种情况下,只有一小部分基因(~0.5%)显示出车道效应的有力证据(即,超泊松变异)。
总之,对于同一样本在相同浓度下的车道测序,只有一小部分基因显示车道之间的差异超过了采样误差的预期。对于在不同浓度下取样的序列,差异更明显。因此,在本文的其余部分中,我们只考虑在3 pM浓度下测序的数据(每个样本五条通道)。
识别差异表达基因
上述泊松模型为鉴定差异表达的基因提供了一个自然的框架。实际上,该模型可以被视为广义线性模型(McCullagh和Nelder 1989年),标准方法用于估计参数和计算P(P)-每个基因的值测试了两组之间没有差异表达的无效假设(见方法)。
上述优良性检验的结果表明,有一小部分基因偏离泊松假设(非泊松变异)。为了检查这方面的数据是否会导致差异表达基因的假阳性识别,我们应用泊松模型来识别用于同一样本测序的车道组之间的差异表达基因。我们观察到,即使对于显示车道效应最有力证据的车道对,也只有14个基因以0.1%的错误发现率(FDR)被鉴定为差异表达(补充图7)。类似地,当我们将此模型应用于每个组都包含两条用于对同一样本进行测序的通道时,最差的比较只产生了24个错误识别为差异表达的基因。我们的结论是,在这种情况下,在这种严格的FDR下,偏离泊松模型不会导致识别出相当数量的假阳性差异表达基因。
接下来,我们使用这种方法通过比较五个通道的肝肾样本,从Illumina测序数据中识别差异表达的基因。在0.1%的FDR下,我们确定了11493个基因在样本之间的差异表达(其中94%的基因具有估计的绝对对数2-褶皱变化>0.5;71%>1)。
不同技术的结果比较
作为比较序列和阵列数据的第一步,我们将映射到每个基因的序列读取数与阵列中相应的(标准化)绝对强度进行了比较(). 令人放心的是,这两种转录物丰度的独立测量是高度相关的(Spearman相关性=肝脏0.73,肾脏0.75)。有趣的是,当两种技术的结果不同时,通常是阵列强度大而序列计数小;阵列上探针特异性背景杂交可以解释的模式。
将Illumina测序中的肾脏计数与阵列中的归一化强度进行比较(左边)和肝脏(正确的). 在每个面板中,平均值(log2)每个基因的计数绘制在X(X)-轴和来自阵列的相应归一化强度显示在Y(Y)-轴。为了避免记录0,在记录日志之前,我们将每个平均计数加1。
接下来,我们将从Illumina测序数据中调用的差异表达基因与从阵列中识别的差异表达的基因进行了比较。通过应用广泛使用的经验贝叶斯方法(Smyth 2004年)根据阵列数据,我们确定了8113个差异表达基因,其FDR为0.1%(估计绝对对数为83%2-折叠变化>0.5,43%>1)。其中,81%的基因也从Illumina测序数据中确定为差异表达,这有力地证明了从序列数据中调用的大多数基因在两个样本之间确实存在差异表达。此外,对数的估计值2-两种技术样本之间基因表达水平的倍数变化是相关的(Spearman相关=0.73)(). 对于通过大量序列读取映射到的基因,相关性更大。例如,对于被(平均)映射到的基因,两个组织中的读取数均超过32(在对数刻度上≥5))不同技术之间的折叠变化的Spearman相关性为0.79,而映射到至少一个但少于32个读数的基因的相关性为0.60。这些与阵列数据的比较表明,Illumina测序技术和我们的分析方法表现良好。补充表3提供了两种技术的基因结果的完整比较。
估计日志的比较2Illumina的褶皱变化(肝脏/肾脏)(Y(Y)-轴)和Affymetrix(X(X)-轴)。我们只考虑使用平台和基因进行检测的基因,这些基因在肝脏和肾脏样本中跨通道的平均计数大于0。(红点和绿点)根据Illumina测序数据以0.1%的FDR进行差异表达的基因,两个组织中的平均计数大于(红色)或小于(绿色)250。(黑点)根据Illumina测序数据未被称为差异表达的基因。显示两种技术之间相关性最强的差异表达基因集似乎是那些被多次读取映射到的基因(红色),而被较少读取映射到差异表达基因的相关性较弱(绿色)。
综合考虑,6538个基因通过测序或阵列数据被确定为差异表达,但不是通过两者(). 为了进一步检验这些差异,我们使用了第三种技术,即定量PCR(qPCR),来测试五个基因在肝脏和肾脏样本之间的表达差异,这五个基因被称为差异表达基因,来自序列数据,而不是数组(基质金属蛋白酶25,SLC5A1型,MDK公司,ZNF570型,GPR64型)以及使用阵列发现差异表达的六个基因,但没有测序数据(C16或68,CD38型,LSM7型,S100P型,PEX11A型,GLOD5(发光二极管5)). 我们在带注释的基因3′端上游1kb范围内设计了qPCR引物(方法)。qPCR结果证实为差异表达(t吨-测试,P(P)<0.01)第一组基因中的四个(除ZNF570型),但第二盘只有两盘(CD38型和GLOD5(发光二极管5)). 因此,总的来说,qPCR结果与Illumina测序结果的一致性比与阵列的一致性更高。
维恩图总结了被称为差异表达的基因之间的重叠(左边圆)序列数据和(正确的圆)数组。这两种技术调用的基因数量由两个圆圈之间的重叠表示。
超越基因表达差异分析
除了识别基因表达差异外,测序数据还可用于识别新的外显子和转录本,并研究选择性剪接。例如,为了找到新的外显子或转录物,可以检查基因组中基因间读取(即当前注释基因之间映射的读取)的分布。如果将大量读数映射到特定的基因组区域,这将表明该区域可能为后续工作提供一个很好的靶点。此外,识别跨外显子-外显子连接的序列阅读应该有助于重建选择性剪接变异体的组成(尽管重建整个转录本将是一项挑战,特别是在短阅读中)。对这两个主题的综合分析超出了本研究的范围。然而,为了说明这些数据的潜力,我们进行了初步分析,以确定跨越外显子-外显子连接的读码。
由于覆盖已拼接在一起的外显子的读码不会直接映射回参考人类基因组,因此我们开发了一种拼接检测算法(参见方法)来检查所有未与基因组对齐(至少一个位置)的读码。在肾脏中,我们发现了超过200000个定位于基因内可能的外显子-外显子连接的读码。在绘制的交叉点中,超过30000个显示了两倍或更大的覆盖范围。正如所料,我们还发现了选择性剪接的证据(即跳过一个或多个外显子的剪接连接)。存在假定的选择性剪接变异体的特定基因的一个例子是C17或45在17号染色体上(). 我们观察到肝脏剪接亚型的比例相似。支持选择性剪接的读取次数(补充表4)应作为此时数量级的估计,因为需要更仔细的分析来解决数据库中可能的外显子注释冲突。因此,对这些数据及其可靠性的全面检查仍然是必要的,但这些初步数据显示了短序列读取检测剪接变化的潜力。
可选拼接示例。的完整外显子结构C17或45肾脏显示(ENSG00000175061)(顶部)和肝脏(底部)外显子按比例绘制。(黑色)映射到每个外显子和外显子连接的读取数。(灰色)映射到可选剪接外显子连接(即非连续外显子之间的连接)的读取数。(外显子下方的黑线)该基因在第2条跑道第2条(肾脏)和第2条高速公路第3条(肝脏)中的定位。
讨论
我们的结果证明了高通量测序在测量基因表达水平方面的有效性。使用Illumina测序平台,我们检测到81%的基因在阵列数据中的差异表达,称为显著差异表达,以及两种技术之间的折叠变化率的相关性(Spearman相关性=0.73)与不同微阵列平台的比较结果相似或更高(Shi等人,2006年). 此外,我们的分析表明,测序数据中称为差异表达的基因(而非阵列中的差异表达基因)中有很大一部分可能是真阳性:首先,对同一样本中的车道进行比较,发现最多有14个基因是差异表达的,其次,对五个在Illumina测序中被鉴定为差异表达的基因进行qPCR的结果证实了其中四个基因。剩下的基因(ZNF570型)可能代表Illumina测序数据中的假阳性。或者,它可能反映了两种技术调查的基因区域的差异。
替代分析策略
我们在这里采用的识别序列数据中差异表达基因的方法基于泊松模型。优度检验表明,一小部分基因显示出与该模型的明显偏差(非泊松变异),尽管我们发现这些偏差并没有导致在严格的FDR下对差异表达基因进行假阳性鉴定,然而,考虑到额外的泊松变化,仍有改进模型的空间。一种自然的策略是用另一种分布代替泊松分布,例如准泊松分布(Venables和Ripley 2002)或负二项分布(Robinson和Smyth 2007),它有一个额外的参数,用于估计相对于泊松模型的过度(或不足)分散。或者,通过适当的计数数据转换,现有的微阵列实验方法(Allison等人,2006年)也可能效果很好。例如,一种自然的方法是首先将每条车道中的计数数据转换为比例,然后应用arcsin-root变换,这是比例的标准方差稳定变换。更准确地说,我们建议转换每个计数x个至√n个电弧正弦(√x个/n个),其中n个是车道中的计数总数。然后,这些转换后的数据可以用作经验贝叶斯方法的输入Smyth(2004)虽然这种方法缺乏直接处理计数数据的优雅性,但经验贝叶斯方法的层次结构可能比简单的准泊松方法提供更准确的基因特异性变异性估计,从而可能提高功率。
RNA-seq研究设计
我们研究的一个重要方面是调查与Illumina测序相关的技术差异。我们的分析表明,Illumina测序数据具有高度的可复制性,相对较少的基因显示出“车道效应”的证据:一条车道上的读数代表了从多条车道上获得的读数中的近似随机样本。请注意,这并不要求或暗示序列数据表现出很少的系统性偏差[例如GC含量或聚(N)s的影响]。然而,这确实表明,任何此类偏差在车道之间基本上是一致的,无论是在相同浓度的运行内还是运行之间(尽管要全面评估运行之间的变化,需要更多运行的数据)。
我们注意到,我们的研究设计不包括Illumina测序文库处理步骤的重复。由于微阵列的等效处理步骤(即片段化和扩增)导致引入的技术差异非常小,我们预计,不同通道和流细胞的测序将引入与Illumina测序相关的大部分技术差异,而不是库的处理。然而,考虑到我们的观察结果,在不同的车道或平板上测序的技术差异非常小,在文库处理步骤中引入的差异可能会在测序技术相关的总技术差异中占据相当大的比例。
显示车道效应的基因比例相对较小,再加上数据的计数性质,使得仅在一条车道上测序的样本之间进行有意义的比较成为可能。这本身并不意味着仅在一条通道中对每个样本进行测序就足够了:数据通道越少,必然会减少可评估其表达的基因数量,并降低检测表达差异的能力。然而,在我们的数据中,额外的车道只提供了检测到的基因数量的适度增加。例如,将每个样本的车道数从一条增加到两条,从而使实验成本加倍,从而使至少一条基因对应的数量仅增加7%–8%;增加更多车道会产生较小的额外增加(补充表5)。类似地,随着数据通道的增加,检测差异表达基因的能力大大增强()即使只使用一条通道识别5670个差异表达基因,其数量也与使用三个技术微阵列复制品发现的数量一样多。此外,使用三条序列数据比三条微阵列检测更多。
典型的基因表达实验比较许多RNA样本(例如,技术和生物复制)的表达水平,每个样本只与微阵列杂交一次。我们的数据表明,在这种情况下,使用当前的测序协议,用单条Illumina测序数据线替换每个阵列(适当地将样本随机分布在不同的序列中)已经是一个很有吸引力的选择,随着实验协议和对齐方法的改进,每条车道上生成的可用数据将越来越多,这种方法也将越来越受欢迎。
最后,虽然这项工作的主要重点是确定Illumina测序是否可以用于表征样本之间的基因表达差异,但序列数据可能有助于回答使用阵列难以解决的其他问题。特别是,阵列技术只能测量阵列上具有相应探针的基因的表达,在大多数情况下,探针仅设计用于覆盖基因的一小部分(在Affymetrix U133 Plus 2阵列的情况下,大多数探针位于转录本的3′端)。因此,不可能检测到新的转录区域或(通常)存在基因的替代剪接形式。这两个问题都可以通过Illumina测序数据来解决,我们已经开发了解决这些问题的方法(方法)。然而,使用测序方法识别剪接变体假设有足够数量的阅读跨越外显子-外显子连接。如果样本仅在一条车道上进行排序,则情况可能并非如此,可能需要额外的数据来解决此问题。
总之,Illumina测序在测量mRNA表达和识别差异表达基因方面似乎是一项非常有前途的技术,与现有的基于阵列的方法相比,它具有可比性,并且在某些方面更优越。鉴于测序成本迅速下降,基于序列的方法被广泛采用似乎只是时间问题。
方法
Illumina测序样品处理
国家发展研究所(NDRI)为我们收集了一名男性的肝脏和肾脏组织样本;网址:http://www.ndri.org/),尸检后6小时内。组织样本被snap冷冻并保存在干冰上直到加工。我们使用TRIzol(Invitrogen)从每个组织中提取总RNA。根据生物分析仪2100(安捷伦)的分析,两种组织的总RNA质量较高且具有可比性。
按照Illumina提供的cDNA样品测序协议,对总RNA样品的等分样品进行Illuminia测序。简单地说,我们使用Dynal oligo(dT)珠(Invitrogen)从总RNA样本中分离poly(A)mRNA。然后,我们使用Ambion的RNA片段试剂盒对mRNA进行片段化,然后使用随机六聚体引物合成第一和第二链cDNA。我们通过使用T4 DNA聚合酶和Klenow DNA聚合物在20°C下进行30分钟的“末端修复”反应来补充cDNA合成。然后,我们通过使用3′-到5′外切酶将单个a碱基添加到cDNA分子中,并连接Illumina适配器。详细的实验室协议可根据要求提供。Illumina的软件分三个阶段处理测序反应过程中拍摄的图像(192版):Firecrest进行图像分析,Bustard进行底牌,Gerald进行序列分析。
微阵列处理和低水平分析
从用于Illumina测序的相同总RNA样品中提取的等分样品在三个技术复制品中与Affymetrix HG-U133 Plus 2.0阵列杂交(每次杂交使用5μg总RNA)。为了尽量减少变异来源,并使测序和基于阵列的方法之间的比较尽可能公平,将杂交到阵列的RNA样品进行单一标记反应。杂交和扫描在芝加哥大学功能基因组学设施进行。
我们使用RMA算法获得了每个阵列中所有探测集的背景校正、归一化、摘要原始值(Gautier等人,2004年). 我们使用MA图(杂交强度与表达中的折叠变化相对应)(Smyth和Speed 2003)评估数据质量和技术复制的一致性(参见补充图8)。
随后,我们考虑了映射到集合基因的探针集子集。我们使用NetAffx分析中心(v24;www.affmetrix.com/analysis/index.affx)和生物城(Flicek等人2008)以映射尽可能多的探测集。因此,在阵列上总共54675个探针组中,我们能够将38059个定位到Ensembl基因。在只有一个探针集映射到一个基因的情况下,我们在未来的所有分析中都使用了相应的强度。当多个探针集映射到同一个基因时,我们考虑了Affymetrix软件在六次杂交中最常用的探针集。如果在相同数量的杂交中出现两个或多个探针集,我们随机选择一个探针集并将其用于所有进一步的分析。为了确定两种组织之间差异表达的基因,我们使用了一种经经验修正的贝叶斯t吨-统计(Smyth 2004年). 这些错误的发现率(FDR)P(P)-使用以下方法计算值Storey和Tibshirani(2003).
定量聚合酶链反应
我们为每个基因3′端上游1kb范围内的基因区域设计了qPCR引物。引物序列可根据要求提供。作为模板,我们使用了与Illumina测序和微阵列实验相同的肝脏和肾脏总RNA。定量RT-PCR在25μL反应中进行,该反应包含2×SYBR主混合物(Sigma)、每个引物0.2 pM和1μL cDNA模板。在7900HT快速实时PCR系统(Applied Biosystem,Inc.)中对每个样品进行三次技术复制。在使用定量RT-PCR和引物对结果进行归一化后,使用标准曲线确定每个反应的检测阈值周期RPS7型该基因在许多组织中有恒定的表达水平(de Jonge等人,2007年); 这也是我们实验中使用的两种技术的情况。组织间转录水平差异的重要性通过t吨-测试。我们注意到,尽管我们报告了11个qPCR的结果,但我们最初选择了12个基因(六个基因被称为Illumina测序中的差异表达基因,但不是阵列,六个基因使用阵列发现差异表达,但不是Illuminia测序)。然而,我们错误地将FBXL6型基因,在序列数据中只具有轻微的显著性(问-值=0.001003),在阵列数据中不重要(问-值=0.078);使用qPCR也发现该基因存在差异表达。
评估车道效应,运行内和运行间
对于通过至少一次读取映射到的每个基因,我们使用基于超几何分布的测试来计算P(P)-值测试每个车道的计数数量是否超过随机抽样的预期值。具体来说,让x个t吨1和x个t吨2表示基因计数t吨在两条车道上,以及C类1和C类2表示这些车道中的读取总数。在没有车道效应的情况下,一条车道上的读数将是两条车道上读数的随机样本。这将导致x个t吨1具有超几何分布(条件是x个t吨1+x个t吨2). 具体来说,在无车道效应的零假设下x个t吨1=x个由提供
哪里
基于这个零分布,我们计算出一个单边P(P)-观测值的值x个t吨1,作为
哪里U型是在[0,1)上均匀生成的随机数。(此随机数的使用U型确保P(P)-值在null下是真正统一的;如果没有此步骤P(P)-值在null下的分布是离散的,只是近似均匀。)然后我们把这些片面的P(P)-值转换为双面P(P)-值:如果原始P(P)-值<0.5,我们将其乘以2,如果原始值>0.5,我们将其从1中减去,并将该值乘以2。
在无车道效应的零假设下,这些超几何P(P)-值均匀分布在[0,1)上。我们通过qq(质量)-绘图(; 补充图4、5)。
χ2光纤质量测试
χ2优秀的统计数据,X(X)ij公司,是为基因计算的j个和样品我作为
其中总和是所有车道上的样本我.在这里ijk公司表示泊松平均值μ的最大似然估计ijk公司=c(c)伊克λijk公司,在λ的约束下ijk公司在车道上是恒定的k个.
如果计数x个ijk公司是具有平均值μ的独立泊松ijk公司,那么这些统计数据应该遵循χ2分配L(左)−1个自由度,其中L(左)是样本的车道数我.评估给定样本的情况是否如此我,的值X(X)ij公司可以根据相应χ的分位数绘制2使用qq(质量)-绘图。
识别新的替代拼接形式
为了研究剪接和选择性剪接,我们采用了两阶段的方法。首先,我们删除了ELAND在人类基因组(构建36,hg18)中对齐到一个或多个位置的所有读取,允许最多出现两个错误匹配。为了发现新剪接形式中外显子-外显子连接的reads映射,我们使用了以下对齐策略:
首先,我们从Ensembl基因注释(v.48)中提取了所有外显子序列,并使用Perl程序创建了一个数据库(外显子边缘数据库,EEDB),该数据库由两部分组成:一个3′数据库,包含每个外显子3′端的32 bp,另一个5′数据库,其中包含每个外显子5′端的32bp。
然后,我们反复将每个未映射的读取划分为两个段,A和B,其中A的大小不断增加n个(9 <n个<23),并且B的大小在减小(32−n个). 我们测试了A与上一个n个3′数据库中每个条目的bp,B用于与前32−对齐n个5′数据库中每个条目的bp。在这些测试中,我们需要精确匹配(没有不匹配)。对于每个n个,如果我们发现A和B都有一个比对,那么这对比对被记录为外显子-外显子连接点,阅读到该连接点。该搜索针对正向和反向股方向进行。
这个过程将读取映射到外显子连接,一些读取映射到一个或多个连接,其他读取映射到无连接。在映射到的连接中,一些连接跨越同一基因中的多个外显子,而其他连接跨越不同基因中的外显子。在这项研究中,我们只报告了那些跨越同一基因外显子的连接的匹配数量,剩下对其他连接的调查和验证供未来研究使用。