数据集和过度分散
本文使用了三个全基因组RNA-Seq数据集。前两个是由Illumina的Solexa平台生成的,第三个是由ABI的SOLiD平台生成的。第一个数据集[7]由7900万、7600万和7000万个来自三种小鼠组织的读数组成:大脑、肝脏和骨骼肌。每个读数的长度为25。第二个数据集[11]它由来自10种不同人类组织和5种乳腺上皮或乳腺癌细胞系的1200万到2900万个读数组成。每个读数的长度为32。我们使用其中九种组织或细胞系的数据,并将它们合并为三组(第一组为脂肪、大脑和乳房,第二组为结肠、心脏和肝脏,第三组为淋巴结、骨骼肌和睾丸)。每个组包含6100万到7700万个读取。第三个数据集[12]由两种细胞系(类胚体(EB)和未分化小鼠胚胎干细胞(ES))的1600万个高质量读数组成。每个原始读数是35个核苷酸,但有些被截断为30或25个核苷酸以确保高质量。我们将这三个数据集分别称为Wold数据、Burge数据和Grimmond数据,这与最初生成数据的研究小组一致。正如我们刚才所描述的,这三个数据集中的每一个都包含几个代表不同组织、组或细胞系的子数据集,总共有八个子数据集:三个(组织)代表Wold数据,三个(组)代表Burge数据,两个(细胞系)代表Grimmond数据。在我们的所有处理和计算中,上述子数据集是单独考虑的;也就是说,一次只分析一个子数据集。
首先,从原始数据集中提取计数数据。材料和方法中描述了详细的程序。简言之,我们将读取映射到所有RefSeq基因的所有亚型,然后为了避免歧义,我们只计算唯一映射到RefSeq中只注释了一个亚型且与其他基因不重叠的基因的读取,我们称之为“非重叠单转录基因”。此外,我们只使用表达水平最高的前100个基因的计数来拟合我们的模型,因为它们具有最高的信噪比(参见附加文件1详细信息)。
两项证据清楚地表明,计数违反了恒速泊松模型。首先,数据严重过度分散。泊松分布的一个基本性质是均值和方差相等。如果方差大于平均值,则数据被称为过度分散,泊松假设不合适。表1列出了每个子数据集的前100个基因中方差与均值比率(也称为“法诺因子”)的最大值、中值和最小值。所有比率都远大于1。其次,基因计数的“模式”(相对值)在同一数据集的不同子数据集中惊人地保守。图1显示基因中的计数阿波(载脂蛋白E)的所有三个组织的沃尔德数据。尽管计数的绝对值在不同组织中相差100倍,但不同组织的变化模式高度一致。沃尔德数据的其他基因以及伯格和格里蒙德数据的基因也是如此。这有力地证明了来自同一基因的不同位置的计数不是从同一分布中采样的。相反,计数的分布似乎取决于其序列在转录本中的位置。这迫使我们考虑更复杂的模型。Hansen也描述了阅读率偏差强烈依赖于局部序列的观察结果等。[21]这是我们在审查论文时注意到的一项独立工作。
泊松线性模型及其性能
对于核苷酸j个基因的我,我们想对从这个核苷酸(表示为n个
ij公司
)取决于该基因的表达水平(表示为μ2)以及围绕该核苷酸的核苷酸序列(带有长度的序列K(K)表示为b条ij公司1,b条ij公司2,⋯,b条
ijK公司
,). 我们假设n个
伊吉
~泊松(μ
ij公司
),其中μ
ij公司
是泊松分布的速率,以及μ
ij公司
=ω
ij公司
μ
伊吉
,其中ω
ij公司
是排序偏好,可能取决于周围的序列。作为一种简单的方法,我们对偏好使用线性模型,从而得出泊松率:
哪里ν
我
=对数(μ
我
),α是一个常数项,I(b条
ijk公司
=小时)等于1,如果k个第个周围序列的核苷酸是小时,否则为0,以及β
千赫
是字母的影响系数小时发生在k个第个位置。该模型使用大约3K个参数来模拟排序偏好。为了拟合上述模型,我们迭代优化了基因表达水平和泊松回归系数(材料和方法)。
我们将模型应用于八个子数据集中的每一个子数据集。作为局部序列上下文,我们在读取的第一个核苷酸之前使用40个核苷酸,在它们之后使用40个核酸(即读取的前40个核苷酸;请参阅附加文件1选择该地区的原因)。因此,我们的模型使用3×80=240个参数来建模排序偏好。与每个子数据集中的样本大小(约100000个计数)相比,这是一个相对较小的数字。
在线性回归中,回归可以解释的方差百分比,表示为R(右)2,用于测量菲特的质量。在泊松回归中,我们可以用偏差代替方差,并定义:
哪里d日是拟合模型的偏差,以及d日0是空模型的偏差[22]. 在我们的例子中,空模型是假设相同排序偏好的朴素模型。决赛R(右)2表中列出了我们获得的值2粗略地说,这个简单的线性模型可以解释大约40%到50%的方差。
图2显示了线性模型中的所有系数。每个系数的渐近标准误差约为0.002,因此几乎所有系数在统计上都非常显著。这并不奇怪,因为我们的样本量远远大于参数的数量。在这种情况下,更重要的是系数的大小。通常,图中央部分的系数的绝对值大于两侧的系数,后者接近于零。这表明,read第一个位置周围的核苷酸对测序偏好有更大的影响。这是合理的,因为这些核苷酸往往形成一个读取局部二级结构的头部,它只涉及几个核苷酸,因此很容易预测。虽然更远的核苷酸可能会形成带有读头的非局部二级结构,但由于它涉及的核苷酸太多,并且可能因情况不同而有显著差异,因此很难预测其结构。
同一数据集的每个子数据集中的系数都非常相似,尽管它们在不同的数据集中有显著差异。这有力地证明了这些系数是有意义的,而不仅仅是随机的。
虽然很难从生物学角度解释每个系数的大小,但我们可以通过使用的协议解释数据集之间系数的主要差异。Wold和Burge数据都是使用Illumina平台生成的,因此它们的曲线看起来很相似,尤其是在中部。然而,在Wold数据中的cDNA合成之前,mRNA被切割成大约200个核苷酸片段,但在Burge数据中没有。较短的mRNA片段不太可能形成非局部二级结构。因此,沃尔德数据的系数曲线应该有较轻的尾部。Grimmond的实验使用了ABI的平台进行测序,并在测序之前向合成的cDNA添加了不同的连接子,因此整个曲线看起来与Wold和Burge的数据完全不同。
我们的泊松线性模型表明,至少37%到52%的不均匀性可以由序列差异来解释。然而,这一百分比可能低估了局部序列上下文可解释的偏差部分,因为简单的线性模型无法捕捉到许多其他影响。向线性模型中添加更多预测因子是可能的,尤其是添加二核苷酸成分可以大大改善拟合(附加文件1),但我们倾向于考虑非线性模型,以便更好地理解计数的不均匀性在多大程度上是系统偏差而不是随机噪声。
MART模型及其性能
尝试过支持向量机和神经网络等方法(附加文件1),我们选择了MART(多元加性回归树)作为非线性模型的最终选择。MART是Friedman提出的一种梯度树增强算法[23,24]. “gbm”包中提供了MART的一个版本[25]第页,共页[26]. 此外,为了避免非线性模型通常出现的过度拟合,我们使用交叉验证和R(右)2在测试数据中。
关于使用MART和估计交叉验证的详细信息R(右)2材料和方法中给出。在此分析中,我们使用较短的周围序列。对于Wold和Burge数据,我们在reads的第一个核苷酸之前使用了25个核苷酸,在reads之后使用了15个核苷酸,对于Grimmond数据,我们使用了之前的15个核苷酸和之后的25个核苷酸。这些是泊松回归模型中系数较大的区域(附加文件1). 使用较短的周围序列可以降低输入数据的维数,从而缩短训练时间并减少过度拟合的机会。
最终交叉验证R(右)2表中列出了我们获得的值2八分之七R(右)2值大于0.50,其中两个高达0.70。与线性模型相比,R(右)2增加0.10至0.20,显示MART模型的威力。图三给出了两个方法如何执行的示例。图图3a-c显示基因计数阿波在原始数据中,分别用泊松线性模型拟合计数和用MART拟合计数。很容易看出,MART更符合计数。因此,我们建议在根据数据进行任何统计推断时,应使用MART模型,而泊松线性模型仅用于为MART选择合理的周围序列区域。我们还注意到,与使用泊松线性模型确定的拟合数相比,使用MART确定的拟合计数沿基因的变化更快,但在这两种情况下,变化都不如原始数据中的剧烈。实际上,这两种方法拟合的计数的方差与平均值之比分别为55和91,均小于原始计数的127。这表明我们的两个模型仍然给出了保守的拟合。
我们的高潮R(右)2结果表明,从局部序列中可以预测测序偏好中至少50%到70%的不一致性。
我们使用最高度表达的基因训练的模型可以用于预测其他基因的测序偏好。例如,我们使用仅使用前100个基因训练的MART模型预测了沃尔德数据的大脑样本对所有独特基因的偏好,结果总结为R(右)2(图4). 正如预期,R(右)2对于表达水平较低的基因来说,其变异性较小,因为不可预测的随机性在平均值较小的泊松分布中占较大比例。平均值R(右)2对于高表达或中等表达的基因(外显子每千碱基每百万映射序列读取数(RPKM)>30)大于0.5,并且没有R(右)2RPKM>1的基因为阴性,表明我们的模型始终优于统一模型。请注意,在这些数据中,1 RPKM代表平均每核苷酸仅0.034次读取。
我们模型的应用
我们的结果可能有助于从RNA-Seq数据进行定量推断。为了减少由于读取速率的不一致性而导致的基因表达估计偏差,我们建议在我们的MART模型下,通过沿着基因的读取总数除以测序偏好总和(SSP)来估计单个亚型基因的表达。相比之下,标准估计值将读取数除以基因长度,这相当于在所有测序偏好设置为1的统一模型下除以SSP。
为了测试新方法,我们首先将使用Wold RNA-Seq数据的小鼠肝脏子数据集估计的基因表达水平与使用Kapur使用的相同组织的Affymetrix微阵列数据估计的基因表示水平进行了比较等。[27]. 对于RNA-Seq数据,我们在统一模型和MART模型下估计基因表达水平,对于微阵列数据,我们使用稳健多芯片平均值[28]. 所有非重叠的单转录基因都包含在比较中,结果由Spearman的秩相关系数汇总。对于所考虑的所有基因,与统一模型相比,使用我们的MART模型将秩相关从0.771增加到0.773,这表示一个非常小的改进。
我们的测序偏好高度预测模型未能导致基因表达评估更显著改善的原因是什么?我们相信答案是,当一个基因很大时,当在多个位置上对测序偏好的显著局部变化进行汇总以产生整个基因的SSP时,这些变化将被消除。在这种情况下,MART模型下的单一共享点与统一模型下的单个共享点相差不大,并且新的估计值与通常的估计值几乎相同。为了查看新的估计值在与标准估计值不同的情况下是否会导致改进,我们首先通过折合变化量化两个估计值之间的差异,定义如下:
沃尔德数据中跨基因的平均折叠变化仅为1.02;因此,新估计值的性能如此接近标准估计值也就不足为奇了。一致地,当我们检查100个折叠变化最大的基因时(平均而言,这100个基因中的折叠变化为1.10),等级相关性显示出更大的改善,从0.095到0.198,即108%的相对变化。
表三给出了不同数据集的1号染色体基因、外显子和连接的平均折叠变化。我们看到,倍数变化可能远远大于1,这取决于我们对测序偏好、测序平台和生成数据的实验室进行平均的区域有多大。例如,Grimmond数据显示,跨基因的平均折叠变化为1.25。因此,我们预计新的估计将显示该数据有更大的改善。为了看看情况是否如此,我们注意到卡普尔等。[27]计算来自小鼠胚胎样本的Affymetrix微阵列数据的基因表达水平,我们可以使用这些数据评估Grimmond EB数据的新估计值和标准估计值。对于所有考虑的基因,秩相关系数从标准估计的0.439增加到新估计的0.469,相对变化为6.9%。根据SSP的折叠变化,我们进一步将这些基因分为五类,每一类包含约20%的所有基因。表4显示了每个箱子中基因表达水平的秩相关系数。很明显,在具有较大倍变化的基因中会出现较大的改进。对于折叠变化最小的20%的基因,改善仅为0.1%左右,但对于折叠变化最大的20%的基因,改善约为26%。最显著的是,在折叠变化最大的100个基因中,秩相关从0.323变为0.526,相对提高了62.8%。这些结果表明,我们基于建模测序偏好的新估计可以显著改善基因表达估计。
接下来,我们研究了测序偏好的结合是否可以改善对异构体特异表达水平的推断。我们修改了Jiang的异构体特异性表达估计等。[13]假设每个外显子的平均计数与外显子SSP成比例,而不是外显子长度。图5显示了RefSeq基因的四种亚型Clta公司在鼠标中。在均匀模型下[13]Grimmond EB数据的亚型表达分别为21.6%、53.4%、8.95%和16.0%(总和为100%)。当考虑到排序首选项时[13]分别为15.5%、52.9%、10.8%和20.7%。基于新表达式级别和序列首选项的新计数更适合数据(未显示数据)。
回到沃尔德数据,我们从表中注意到三SSP外显子的倍数变化为1.12,这表明MART模型和均匀模型之间的外显子水平估计可能存在足够的差异。为了评估这两个模型在外显子水平估计方面的性能,我们将我们对亚型表达水平的估计与Pan中给出的估计进行了比较等。[29]他使用定制微阵列研究了10个小鼠组织中的3126个“盒式”选择性剪接(AS)事件。每个组织中的每个AS事件都由七个探针靶向,然后计算选择性剪接外显子排除值百分比(%ASex)作为汇总统计。在蒋的论文中等。[13]介绍了他们估算亚型表达水平的方法,他们比较了Pan的ASex百分比等。[29]根据三种小鼠组织(肝脏、肌肉和大脑)的统一模型计算%ASex。特别是,他们根据两个标准选择了AS事件的子集:一个标准要求基因的适度表达水平和相对狭窄的%ASex置信区间;另一种则需要适度比例的外显子排除亚型。我们使用相同的基因子集,考虑到MART预测的测序偏好,并使用他们的方法计算ASex百分比。结果总结见表5对于几乎每个基因子集,当我们考虑测序偏好时,Pearson的相关系数更高,平均相对改善约为7.2%。这表明我们的MART模型为亚型表达水平估计提供了有意义的改进,即使是对于不一致性最小的Wold数据也是如此。
综上所述,我们发现决定我们的模型能带来多大改进的主要因素是褶皱变化的幅度。因此,我们期望我们的方法可以应用于涉及短序列元素的许多其他问题。在新的亚型发现中,一个当前非常感兴趣的问题,关键是要考虑沿该区域读取的相对计数。例如,一个碱基读数比其周围区域多的区域表明存在一个新的外显子。然而,如果这个区域的读数更多,仅仅因为它比周围区域有更大的测序偏好,这可能会产生误导。需要进一步努力将我们的方法融入到当前的异构体发现算法中。
虽然MART模型可以更好地估计排序偏好,因此可用于统计推断,但泊松线性模型的主要目的是选择合适的K(K)用于MART模型。然而,我们仍有可能从中获得更多信息,尤其是从系数图中(如图2). 例如,如果曲线中间部分的系数具有较大的绝对值,这可能表明测序偏好的差异在实验中反复扩大,很可能是通过多轮PCR,我们可能需要使用更多的mRNA样本,而不是进行过多轮PCR。另一个例子是,如果系数曲线有重尾,这应该表明mRNA/cDNA倾向于形成复杂的非局部二级结构,这也是不利的,我们可能需要将mRNA片段化为更小的片段和/或选择具有适当长度的更好的连接子。经验丰富的技术人员知道实验的所有细节,可能会对偏差的主要原因提供更多的解释,甚至是精确定位。这可能有助于改进RNA-Seq协议。