mRNA-Seq差异表达统计的比较
差异表达基因的列表通常是通过计算每个基因的测试统计来生成的,该测试统计比较了两种生物样本之间的表达水平,并根据第页-评估观察差异的统计显著性的值。
我们评估了差异表达的各种统计数据(见上文方法中的描述),发现测试统计数据之间的主要差异在于它们处理低计数的能力,这在研究mRNA-Seq背景下的差异表达时是一个非常重要的问题。当两个样本的读数都为零时,显然无法说明微分表达式。当一个基因对一个样本的读数为零,而对另一个样本的读数为合理数字时,就会出现更相关的零计数或低计数情况。大约700个基因(约1.8%)在大脑或UHR中为零,在其他组织中为10个或更多。据推测,这代表了一种有趣的生物现象,根据测序,一个组织中的基因完全不受压。
对于任一样本中计数为零的基因t吨-统计失败:估计的标准误差变得非常大(在delta方法中为无穷大t吨-统计)和标称值第页-值聚集在一个样本周围,而与另一个样本中的读取次数无关。然而,对于Fisher精确检验和基于GLM的似然比检验,我们可以看到第页-值。对于两个样本中计数合理的基因,测试统计量的选择对标称值几乎没有影响第页-值([附加文件1:补充图S2和S3])。因为它们不能稳定地处理低计数基因t吨-统计数据未能检测到许多“简单”的DE病例(即两种情况下表达差异较大的基因),因此敏感性很低。The poor performance of Thet吨-统计数据反映在ROC曲线中(图1). 去除两个样本中读数均小于20的基因完全解释了t吨-统计数据和各种DE统计数据的等效ROC结果,所有这些都得到了显著改进(图1).
由于不同的mRNA-Seq DE测试显示出类似的行为,我们将从这里开始只关注基于GLM的似然比测试的结果。当使用不同的测试统计数据时,结果不会改变,除非已经注意到t吨-低计数基因的统计。
技术效果对差异表达的影响
差异表达中的基因长度偏差
根据mRNA-Seq分析,较长的转录物比相同水平表达的较短转录物产生更多“可排序”片段。基因计数和长度之间显然存在正相关,这种关联并没有通过基因长度的缩放完全消除,如在RPKM中[7]([附加文件1:补充图S4])。这表明较长基因的表达较高,或者基因计数对长度的非线性依赖。
如所述[11],基因计数对长度的依赖性在信使核糖核酸序列DE结果中产生了“基因长度相关的偏差”:较长的基因往往具有更显著的DE统计数据(图2). 这里评估的所有mRNA-Seq DE统计数据都与读取计数的估计标准误差有内在的相关性。这在创建差异表达的“基因列表”方面是一个严重的缺陷,因为与具有较大影响的短基因相比,生成的列表可能倾向于具有较小潜在影响的长基因。仅考虑估计的折叠变化是不够的,因为这忽略了给定折叠变化和基因长度的相当大的标准误差范围。
人们可以使用每个基因的固定碱基数来纠正DE统计的长度依赖性;通过从每个基因中随机选择250 bp重复DE分析,消除了DE显著性和长度之间的关联([附加文件1:补充图S5])。这也表明关联的原因是基因的长度,而不是较长基因的潜在表达水平的差异。然而,定长分析并不令人满意,因为它丢弃了大量数据,并且没有自然选择通用长度。
基于基因长度的加权分析可能构成对长度无关的DE滤波器的合理折衷。确实,缩放每个t吨-长度平方根的倒数统计提供了长度相关性排名(图2). 然而,选择截止点的问题仍然存在。根据下列假设[11],与未加权t吨-统计数据和使用相同的跨基因截止值,对于给定的DE水平,功率随着基因长度的增加而增加。在相同的场景下,对于加权t吨-统计数据表明,I型错误率和功耗都随着长度的增加而降低。
底座校准方法的影响
在每个流细胞中保留八分之一的通道来对噬菌体phi X基因组DNA进行测序的做法在样本大小和平衡方面对实验设计具有重要意义。我们发现,在三个映射严格程度的每一个水平上,使用自动校准比使用标准phi X校准映射到基因组的读取数更多(图三). 纯度过滤完全匹配(FPM)读取不太可能包含排序错误,可以作为完全准确读取的代理。类似地,具有0、1或2不匹配(FMM)的纯过滤读取由FPM读取以及表示序列错误的读取组成。然后,可以将比率(FMM-FPM)/FMM视为测序错误率的粗略估计,假设没有SNP。对于所有车道,自动校准方法产生的错误率略低(约5%)。
阅读次数的增加在整个转录组中分布不均。大多数UI基因在校准方法之间的读数计数没有变化,而当使用自动校准时,大约25%的基因具有4个或更多的额外读数。当计算phi X和自动校准的每个基因的(FMM-FPM)/FMM比率时,自动校准平均产生约3.8%的错误率。
通过将观察到的差异与随机交换14条车道中每个车道的自动校准和φX校准读取计数集获得的差异的排列分布进行比较,评估两种校准方法之间表达测量差异的显著性。我们发现,在绝对表达测量方面,两种校准方法之间存在微小但具有统计意义的差异。然而,DE分析中使用的相对表达式度量似乎没有显著差异(参见[附加文件2:补充章节S8])。
尽管我们的评估仅基于两个流动单元,但很明显,自动校准是有利的,因为它可以产生更平衡的设计,每个流动单元释放一个通道,并且每个通道产生更多更高质量的读数。
车道、流细胞和库准备效果
泊松分布已被证明在通过总车道数进行归一化后,能够很好地拟合复制车道上的基因级计数分布[4,6];我们在MAQC数据和未发表的数据集方面的经验黑腹果蝇支持这一结论。泊松模型在不同生物体和不同测序设施中的良好性能有力地支持了其作为车道变化模型的有效性,并证明了通过求和跨车道合并读取计数的合理性。然而,请注意,在分析时,泊松分布的适用性值得怀疑生物复制(即,来自给定生物组中不同个体的样本,例如,患有相同类型癌症的患者)。SAGE文献中描述的负二项或经验贝叶斯方法的使用[21,22],在这种可变性增加的环境中可能是合理的。
我们的分析也证实了前面提到的流式细胞之间的微小技术差异[6]尽管有证据表明流细胞之间的差异略大于复制通道之间的差异([附加文件1:补充图S6c])。无论其统计意义如何,估计的流细胞效应的大小都很小,因此只有在检测极小的生物效应时才会产生较小的影响;对于阅读次数超过3次的基因,几乎没有。
据我们所知,目前还没有对图书馆准备期间引入的技术变化进行公开审查;复制库准备工作既昂贵又耗时。库准备对总读取次数有明显影响([附加文件1:补充图S1])。在对总车道数的差异进行调整后,有证据表明,与流细胞和车道相比,复制库准备之间的差异增加了([附加文件1:补充图S6d]);然而,这种增加的变异性主要是由于高计数基因具有很强的检测小差异的能力。由于实验设计的原因,无法将文库制备效果与流动细胞和生物效果进行直接比较,但对估计差异大小的比较表明,文库制程效果远小于Brain和UHR之间的生物效果(图4)对于某些基因来说,比流细胞效应稍大(图4和[附加文件1:补充图S6])。
大脑和UHR样本之间的生物学差异可能比通常观察到的要大得多;因此,变化的技术来源不一定总是无关紧要的。最后,我们注意到MAQC数据有点“理想”,即:(1)商业颗粒RNA已测序,(2)测序由Illumina公司内部执行。典型的信使核糖核酸序列实验始于从生物样本中提取RNA,提取过程中诱导的变异性可能比这里看到的技术变异性大得多。
mRNA-Seq数据的规范化
由于通道之间的读取总数不同,因此必须规范化读取计数,以允许跨通道或样本比较表达式度量。虽然这一主题在mRNA-Seq文献中受到的关注相对较少,但通常的做法是通过车道总数来衡量基因计数[6,7]. 然而,我们发现,更通用的基于分位数的程序与qRT-PCR产生更好的一致性,并且有望比单个家政基因的标准化更稳健。
在这里,我们评估了各种标准化程序,并重点关注两个主要问题:(1)标准化是否提高了DE检测(灵敏度)?(2) 标准化是否会导致重复之间的低技术可变性(特异性)?为了评估DE检测,我们依赖以下的qRT-PCR数据[13]作为判断真假阳性的金标准。由于qRT-PCR数据中的非DE基因数量有限,我们还评估了复制车道的泊松模型(附加文件中的GLM 12:补充表S4])。
最简单的标准化形式是通过缩放车道中的基因计数来实现的我,通过单个车道特定因素d日
我
本质上,这些全球的比例因子定义了无差异表达的无效假设:如果基因在车道上的计数比例与向量确定的比例相同d日
我
’s,那么它被认为是非差异表达的。
如前所述,标准总计数标准化可降低车道、流细胞和库准备之间的差异。以前还不清楚的是,这种标准化技术反映了相对较少的高计数基因的行为:5%的基因约占大脑和UHR总计数的50%。这些基因不能保证在不同的生物条件下具有相似的表达水平,并且在MAQC-2数据集的情况下,与大多数基因相比,它们在大脑中明显过度表达(图5).
因此,总计数归一化的性能对于检测DE来说并不是特别令人印象深刻(图6):与微阵列数据相比,敏感性仅稍高,即使是表达差异相对较大的基因(>2绝对对数比)。当包含差异表达水平较低的基因(绝对对数比>0.5)时,性能并不比微阵列好(也许稍差)。这与一般的预期相矛盾,因为信使核糖核酸序列数据的噪声较小,因此更善于检测小的表达差异。对于较小水平的DE,使用总计数归一化估计的对数比率中的偏差使得测序估计不太准确。
我们评估了mRNA-Seq数据归一化的两种备选方案。一种方法依赖于一个单一的看家基因,如POLR2A,这是一种标准化qRT-PCR表达测量的技术。然而,这通常不是一个可行的解决方案,因为它是未知的先验的哪些基因具有稳定的表达水平(in[13],POLR2A是在对多个平板上的UHR和Brain进行多次重复检测后选择的)。
与标准的微阵列数据归一化技术类似,我们建议根据分位数等参数匹配基因计数的面间分布。例如,可以简单地按中间值缩放车道内的计数。在我们的案例中,由于零和低计数基因的优势,中位数对不同水平的测序工作没有信息。相反,我们在排除了所有通道中零读数的基因后,使用了per-lane上四分位(第75个百分位)(参见方法)。
与总计数标准化相比,POLR2A和上四分位数标准化显著降低了DE相对于qRT-PCR的偏差(图7和[附加文件1:补充图S7]),上四分位数偏差接近零。ROC曲线表明,在检测DE时,上四分位数和POLR2A归一化都明显优于总计数归一化(图6和[附加文件1:补充图S8a]),并导致测序相对于微阵列数据的灵敏度提高(图6和[附加文件1:补充图S9])。
仔细研究不同归一化程序的技术差异表明,与总计数归一化相比,上四分位归一化并没有显著增加可变性水平;POLR2A标准化的变化稍大,但仍具有可比性(图8).
最后,像在微阵列实验中经常做的那样,跨通道执行分位数归一化也是可行的[23]. 然而,这一更复杂的正常化战略似乎没有额外的好处。分位数归一化在ROC分析中的表现类似(图[附加文件1:补充图S8a]),并与上四分位归一化(图8). 我们再次回忆起MAQC数据的某种人为性质,这些数据基本上是在同一时间由一个实验室使用理想的RNA样本获得的。随着越来越多的数据可用,基因计数分布可能会有更大的变化,需要更积极的标准化。