跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2010; 11(5):R50。
2010年5月11日在线发布。 数字对象标识:10.1186/gb-2010-11-5-r50
预防性维修识别码:PMC2898062型
PMID:20459815

RNA-Seq数据中短读速率的非均匀性建模

关联数据

补充资料

简短摘要

从短读取RNA-seq数据中建模读取计数的方法。

摘要

映射后,RNA-Seq数据可以通过一系列读取计数进行汇总,这些读取计数通常被建模为每个转录本上具有恒定速率的泊松变量,这实际上与数据很不匹配。我们建议对不同位置使用可变速率,并提出两个模型来基于局部序列预测这些速率。这些模型解释了50%以上的变异,可以改进对Illumina和Applied Biosystems数据的基因和亚型表达的估计。

背景

微阵列是一种同时测量许多基因表达水平的有效技术,但这种方法存在一些局限性。低表达基因的表达估计值通常不可靠,因为真正的信号被交叉杂交效应掩盖了[1,2]. 此外,阵列的设计依赖于基因结构的注释,因此该方法对于发现新的剪接事件并不理想。最近开发的一种替代方法,称为RNA-Seq,有潜力克服这些困难[]. RNA-Seq使用超高通量测序[4]确定大量cDNA片段的序列。生成的序列(读取)可以是长序列(>100核苷酸)或短序列,具体取决于平台[4]. 目前流行的两个短读平台是Illumina的Solexa[5-11]和应用生物系统公司(ABI)的SOLiD[12]. 每一个都可以在一次运行中生成数千万次的短读[5-12]. 在本文中,我们只考虑短读RNA-Seq。

RNA-Seq产生的读数首先通过计算机程序映射到基因组和/或参考转录本。然后,RNA-Seq的输出可以通过一系列“计数”进行汇总。也就是说,对于基因组中或假定转录本上的每个位置,它给出了一个计数,表示从该位置开始映射的读取数。例如(为了简化起见,我们缩短了基因并读取),如果一个具有单一亚型的基因具有序列ACGTCCCC,并且我们有12个ACGTC读取,8个CGTCC读取,9个GTCCC读取和5个TCCCC读取,那么这个基因可以通过计数12、8、9、5的序列进行总结。

RNA-Seq数据的定量推断,例如计算基因表达水平[7]和亚型表达水平[13],基于这些计数。为了有效地利用数据,为这些计数建立一个适当的统计模型是至关重要的。当前的分析方法显式或隐式地假设一个朴素的恒速泊松模型,在该模型中,来自同一亚型的所有计数都是从泊松分布中独立采样的,单个速率与亚型的表达水平成比例[7,13,14]. 不幸的是,我们发现这个模型不能很好地拟合真实数据(见结果),需要一个更精细的模型。

为了更好地建模计数,考虑可变速率的泊松模型是很自然的;也就是说,来自亚型的计数仍然被建模为泊松随机变量,但每个泊松随机变数具有不同的速率(平均值)。通过检查不同组织计数之间的相似性(见结果),可以看出泊松比不仅取决于基因表达水平,还取决于读数的位置。因此,我们将速率建模为基因表达水平和从该位置开始读取的“排序偏好”的乘积。这种排序偏好是一个显示在此位置生成读取的可能性的因素。

多姆等。[15]发现GC丰富的区域往往比AT丰富的区域有更多的读取,但我们发现纯粹基于GC内容的模型工作得很差(附加文件1)。通过回顾如何在微阵列中处理相关问题,可以获得一些关于如何建模测序偏好的线索。微阵列中的每个基因都有一组探针,每个探针都可以连续测量基因表达水平。同一组测量值采用不同平均值的高斯分布建模,每个平均值都是基因表达水平和探针对cDNA序列亲和力的乘积。Naef和Magnasco[16]提出了仅依赖于探针序列的探针亲和力模型:

方程式图像

哪里ω是探针的亲和力,K(K)是探针的长度,I(b条伊克=小时))当k个第个基本对是字母小时,否则为0,αβ千赫是我们想要估计的参数,以及ε是高斯噪声,因此可以通过正则线性最小二乘法估计参数。该模型的主要特点是,它考虑每个位置出现的字母,而不仅仅是每个字母出现的总次数。这个简单的线性模型可以解释Affymetrix寡核苷酸阵列数据集中44%的亲和力差异。为其他阵列或数据集开发了类似的模型[17-20].

在RNA-Seq实验中,cDNA合成通常由随机启动启动。根据其序列,mRNA片段可能形成阻碍引物结合的二级结构。此外,引物通常由非随机侧翼序列标记,该序列可能根据mRNA序列优先与mRNA相互作用。由于这些影响,结合的概率取决于核苷酸序列和方案。合成后,cDNA与连接子连接,扩增,然后测序。在这些步骤中,cDNA的二级结构和协议的细节会再次影响效率。因此,协议和局部序列上下文可能对读取mRNA片段的可能性有很大影响。因此,在特定方案下,我们可以根据局部核苷酸序列预测测序偏好,至少可以部分预测。

结果和讨论

数据集和过度分散

本文使用了三个全基因组RNA-Seq数据集。前两个是由Illumina的Solexa平台生成的,第三个是由ABI的SOLiD平台生成的。第一个数据集[7]由来自三种小鼠组织的7900万、7600万和7000万个读数组成:大脑、肝脏和骨骼肌。每个读数的长度为25。第二个数据集[11]由来自10种不同人类组织和5种乳腺上皮或乳腺癌细胞系的1200万到2900万个读数组成。每个读数的长度为32。我们使用其中九种组织或细胞系的数据,并将它们合并为三组(第一组为脂肪、大脑和乳房,第二组为结肠、心脏和肝脏,第三组为淋巴结、骨骼肌和睾丸)。每个组包含6100万到7700万个读取。第三个数据集[12]由两种细胞系(类胚体(EB)和未分化小鼠胚胎干细胞(ES))的1600万个高质量读数组成。每个原始读数是35个核苷酸,但有些被截断为30或25个核苷酸以确保高质量。我们将这三个数据集分别称为Wold数据、Burge数据和Grimmond数据,这与最初生成数据的研究小组一致。正如我们刚才所描述的,这三个数据集中的每一个都包含几个代表不同组织、组或细胞系的子数据集,总共有八个子数据集:三个(组织)代表Wold数据,三个(组)代表Burge数据,两个(细胞系)代表Grimmond数据。在我们的所有处理和计算中,上述子数据集是单独考虑的;也就是说,一次只分析一个子数据集。

首先,从原始数据集中提取计数数据。材料和方法中描述了详细的程序。简言之,我们将读取映射到所有RefSeq基因的所有亚型,然后为了避免歧义,我们只计算唯一映射到RefSeq中只注释了一个亚型且与其他基因不重叠的基因的读取,我们称之为“非重叠单转录基因”。此外,我们只使用表达水平最高的前100个基因的计数来拟合我们的模型,因为它们具有最高的信噪比(参见附加文件1详细信息)。

两项证据清楚地表明,计数违反了恒速泊松模型。首先,数据严重过度分散。泊松分布的一个基本性质是均值和方差相等。如果方差大于平均值,则数据被称为过度分散,泊松假设不合适。表11列出了每个子数据集中前100个基因的方差-均值比(也称为“Fano因子”)的最大值、中位数和最小值。所有比率都远大于1。其次,基因计数的“模式”(相对值)在同一数据集的不同子数据集中惊人地保守。图11显示基因中的计数阿波(载脂蛋白E)的所有三个组织的沃尔德数据。尽管计数的绝对值在不同组织中相差100倍,但不同组织的变化模式高度一致。沃尔德数据的其他基因以及伯格和格里蒙德数据的基因也是如此。这有力地证明,来自同一基因不同位置的计数并不是从同一分布中取样的。相反,计数的分布似乎取决于其序列在转录本中的位置。这迫使我们考虑更复杂的模型。Hansen也描述了阅读率偏差强烈依赖于局部序列的观察结果等。[21]这是我们在审查论文时注意到的一项独立工作。

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-1.jpg

基因读取数阿波在Wold数据的不同组织中. ()大脑(b条)肝脏(c(c))骨骼肌。每条垂直线代表从该位置开始的读取计数。灰色线是UTR区域的计数,再加上100 bp。在这里,内含子被删除,外显子连接成一个整体。只显示了一条基因链上的计数;另一条链上的计数在不同组织中显示出相似性。Nt:核苷酸。

表1

不同数据集的方差-均值比

方差与平均值之比

数据集子数据集最大值中间带最小值
沃尔德大脑2483621
肝脏1,5034819
肌肉2,0883418
伯格第1组8357814
第2组1,18710228
第3组1,59311220
格里蒙德电子束24,38580647
9,16234522

泊松线性模型及其性能

对于核苷酸j基因的,我们想对从这个核苷酸(表示为n个ij公司)取决于该基因的表达水平(表示为μ2)以及围绕该核苷酸的核苷酸序列(带有长度的序列K(K)表示为b条ij公司1,b条ij公司2, ⋯,b条ijK公司,). 我们假设n个ij公司~泊松(μij公司),其中μij公司是泊松分布的速率,以及μij公司=ωij公司μij公司,其中ωij公司是排序偏好,可能取决于周围的序列。作为一种简单的方法,我们对偏好使用线性模型,从而得出泊松率:

方程式图像

哪里ν=对数(μ),α是一个常数项,I(b条ijk公司=小时)等于1,如果k个第个周围序列的核苷酸是小时,否则为0,以及β千赫是字母的影响系数小时发生在k个第个位置。该模型使用大约3K个参数来模拟排序偏好。为了拟合上述模型,我们迭代优化了基因表达水平和泊松回归系数(材料和方法)。

我们将我们的模型应用于八个子数据集中的每一个子数据集。作为局部序列上下文,我们在读取的第一个核苷酸之前使用40个核苷酸,在它们之后使用40个核酸(即读取的前40个核苷酸;请参阅附加文件1出于选择该区域的原因)。因此,我们的模型使用3×80=240个参数来建模排序偏好。与每个子数据集中的样本大小(约100000个计数)相比,这是一个相对较小的数字。

在线性回归中,可以用回归来解释的方差百分比,表示为R(右)2,用于测量菲特的质量。在泊松回归中,我们可以用偏差代替方差,并定义:

方程式图像

哪里是拟合模型的偏差,以及0是空模型的偏差[22]. 在我们的例子中,空模型是假设相同排序偏好的朴素模型。决赛R(右)2表中列出了我们获得的值表2。2粗略地说,这个简单的线性模型可以解释大约40%到50%的方差。

表2

R(右)2在不同的数据集中

R(右) 2

泊松线性市场


数据集子数据集80个核苷酸,非交叉验证80个核苷酸,交叉验证40个核苷酸,交叉验证40个核苷酸,交叉验证
沃尔德大脑0.520.510.510.70
肝脏0.510.500.500.70
肌肉0.480.460.460.59
伯格第1组0.430.420.420.52
第2组0.370.350.350.46
第3组0.450.420.420.54
格里蒙德电子束0.470.400.400.58
0.450.390.370.54

我们考虑的周围序列的长度。

图22显示了线性模型中的所有系数。每个系数的渐近标准误差约为0.002,因此几乎所有系数都具有统计意义。这并不奇怪,因为我们的样本量远远大于参数的数量。在这种情况下,更重要的是系数的大小。通常,图中央部分的系数的绝对值大于两侧的系数,后者接近于零。这表明,read第一个位置周围的核苷酸对测序偏好有更大的影响。这是合理的,因为这些核苷酸往往形成一个读取局部二级结构的头部,它只涉及几个核苷酸,因此很容易预测。虽然更远的核苷酸可能会形成带有读头的非局部二级结构,但由于它涉及的核苷酸太多,并且可能因情况不同而有显著差异,因此很难预测其结构。

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-2.jpg

不同数据集中泊松线性模型的系数当我们将周围序列视为读取第一个核苷酸之前的40个核苷酸和之后的40个核酸时,八个子数据集中泊松线性模型的系数。位置-1、0、1分别表示read的第一个核苷酸之前的核苷酸、read的首个核苷酸和read的第二个核苷酸。核苷酸的颜色编码:红色,T;绿色,A;蓝色,C;黑色,G。核苷酸T(红色)的系数是基本水平,所以它们总是零。()沃尔德数据中的系数。子数据集的形状编码:矩形,大脑;三角形,肝脏;圆形,骨骼肌。(b条)伯格数据中的系数。子数据集的形状编码:矩形,组1;三角形,第2组;圆,第3组。(c(c))Grimmond数据中的系数。子数据集的形状编码:矩形,EB;下面是如何读取这些系数的示例。在沃尔德大脑数据中,读取的第一个核苷酸((a)中位置0处的蓝色矩形)中的C系数为0.82。这意味着如果核苷酸T被C取代,那么测序偏好将增加到e(电子)0.82=2.27倍。Nt:核苷酸。

同一数据集的每个子数据集中的系数都非常相似,尽管它们在不同的数据集中有显著差异。这有力地证明了这些系数是有意义的,而不仅仅是随机的。

虽然很难从生物学角度解释每个系数的大小,但我们可以通过使用的协议解释数据集之间系数的主要差异。Wold和Burge数据都是使用Illumina平台生成的,因此它们的曲线看起来很相似,尤其是在中部。然而,在Wold数据中的cDNA合成之前,mRNA被切割成大约200个核苷酸片段,但在Burge数据中没有。较短的mRNA片段不太可能形成非局部二级结构。因此,沃尔德数据的系数曲线应该有较轻的尾部。Grimmond的实验使用了ABI的平台进行测序,并在测序之前向合成的cDNA添加了不同的连接子,因此整个曲线看起来与Wold和Burge的数据完全不同。

我们的泊松线性模型表明,至少37%到52%的不均匀性可以由序列差异来解释。然而,这个百分比可能低估了局部序列上下文可以解释的偏差部分,因为简单的线性模型无法捕捉到许多其他影响。在线性模型中添加更多的预测因子是可能的,特别是添加二核苷酸组成可以显著改善拟合(附加文件1),但我们倾向于考虑非线性模型,以便更好地理解计数的不均匀性在多大程度上是系统偏差而不是随机噪声。

MART模型及其性能

尝试过支持向量机和神经网络等方法(附加文件1),我们选择了MART(多元加性回归树)作为非线性模型的最终选择。MART是Friedman提出的一种梯度树增强算法[23,24]. “gbm”包中提供了MART的一个版本[25]第页,共页[26]. 此外,为了避免非线性模型通常出现的过度拟合,我们使用交叉验证和R(右)2在测试数据中。

关于使用MART和估计交叉验证的详细信息R(右)2在材料和方法中给出。在此分析中,我们使用较短的周围序列。对于Wold和Burge数据,我们在reads的第一个核苷酸之前使用了25个核苷酸,在reads之后使用了15个核苷酸,对于Grimmond数据,我们使用了之前的15个核苷酸和之后的25个核苷酸。这些是泊松回归模型中系数较大的区域(附加文件1)。使用较短的周围序列可以降低输入数据的维数,从而缩短训练时间并减少过度拟合的机会。

最终交叉验证R(右)2表中列出了我们获得的值表2。2八分之七R(右)2值大于0.50,其中两个高达0.70。与线性模型相比,R(右)2增加0.10至0.20,显示MART模型的威力。图3给出了两个方法如何执行的示例。图3a-c型显示基因计数阿波在原始数据中,分别用泊松线性模型拟合计数和用MART拟合计数。很容易看出,MART更符合计数。因此,我们建议在根据数据进行任何统计推断时,应使用MART模型,而泊松线性模型仅用于为MART选择合理的周围序列区域。我们还注意到,与使用泊松线性模型确定的拟合数相比,使用MART确定的拟合计数沿基因的变化更快,但在这两种情况下,变化都不如原始数据中的剧烈。实际上,这两种方法拟合的计数的方差与平均值之比分别为55和91,均小于原始计数的127。这表明我们的两个模型仍然给出保守拟合。

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-3.jpg

配件数量阿波基因黑色垂直线表示沿阿波基因(UTR和另外100个核苷酸被截断)。()沃尔德大脑数据中的读取次数(真值)。这与图1a的中心部分(黑色垂直线)相同。(b条)使用泊松线性模型的拟合读数计数。我们使用前100个基因中的其他99个基因来训练线性模型,然后用它来预测阿波。此预测具有(交叉验证)R(右)2= 0.54. (c(c))使用MART的拟合读数计数。我们使用前100个基因中的其他99个基因来训练MART,然后用它来预测阿波。此预测具有(交叉验证)R(右)2= 0.69.

我们的高潮R(右)2结果表明,从局部序列中可以预测测序偏好中至少50%到70%的不一致性。

我们使用最高度表达的基因训练的模型可以用于预测其他基因的测序偏好。例如,我们使用仅使用前100个基因训练的MART模型预测了Wold数据的大脑样本对所有独特基因的偏好,结果总结如下R(右)2(图(图4)。4)。正如预期,R(右)2对于表达水平较低的基因来说,其变异性较小,因为不可预测的随机性在平均值较小的泊松分布中占较大比例。平均值R(右)2对于高表达或中等表达的基因,高于0.5(每百万个映射序列外显子的每千碱基读数(RPKM)>30)R(右)2RPKM>1的基因为阴性,表明我们的模型始终优于统一模型。请注意,在这些数据中,1 RPKM代表平均每核苷酸仅0.034次读取。

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-4.jpg

的箱线图R(右)2世界大脑数据中的独特基因根据RPKMs,我们将至少有一个读码的基因分为六组:<1、1-5、5-15、15-30、30-100和>100;每组分别包含4205、3320、2807、1330、1094和383个基因。注意,在这些数据中,1 RPKM代表平均每核苷酸0.034个读取,RPKM>30的基因被认为相对丰富,RPKM<1的基因即使用于转录检测也不可靠[7].

我们模型的应用

我们的结果可能有助于从RNA-Seq数据进行定量推断。为了减少由于读取速率的不一致性而导致的基因表达估计偏差,我们建议在我们的MART模型下,通过沿着基因的读取总数除以测序偏好总和(SSP)来估计单个亚型基因的表达。相比之下,标准估计值将读取数除以基因长度,这相当于在所有测序偏好设置为1的统一模型下除以SSP。

为了测试新方法,我们首先将使用Wold RNA-Seq数据的小鼠肝脏子数据集估计的基因表达水平与使用Kapur使用的相同组织的Affymetrix微阵列数据估计的基因表示水平进行了比较等。[27]. 对于RNA-Seq数据,我们在统一模型和MART模型下估计基因表达水平,对于微阵列数据,我们使用稳健多芯片平均值[28]. 所有非重叠的单转录基因都包含在比较中,结果由Spearman的秩相关系数汇总。对于所考虑的所有基因,与统一模型相比,使用我们的MART模型将秩相关从0.771增加到0.773,这表示一个非常小的改进。

我们对测序偏好的高度预测模型未能导致基因表达评估的更显著改进,原因是什么?我们认为,答案是,当一个基因较大时,当将测序偏好中的显著局部差异在多个位置上求和,以生成整个基因的SSP时,这些差异将被消除。在这种情况下,MART模型下的单一共享点与统一模型下的单个共享点相差不大,并且新的估计值与通常的估计值几乎相同。为了查看新的估计值在与标准估计值不同的情况下是否会导致改进,我们首先通过折合变化量化两个估计值之间的差异,定义如下:

方程式图像

沃尔德数据中跨基因的平均折叠变化仅为1.02;因此,新估计值的性能如此接近标准估计值也就不足为奇了。一致地,当我们检查100个折叠变化最大的基因时(平均而言,这100个基因中的折叠变化为1.10),等级相关性显示出更大的改善,从0.095到0.198,即108%的相对变化。

表3给出了不同数据集的1号染色体基因、外显子和连接的平均折叠变化。我们发现,根据测序偏好、测序平台和生成数据的实验室的平均区域大小,折叠变化可以大大大于1。例如,Grimmond数据显示,跨基因的平均折叠变化为1.25。因此,我们预计新的估计将显示该数据有更大的改善。为了看看情况是否如此,我们注意到卡普尔等。[27]计算来自小鼠胚胎样本的Affymetrix微阵列数据的基因表达水平,我们可以使用这些数据评估Grimmond EB数据的新估计值和标准估计值。对于所有考虑的基因,秩相关系数从标准估计的0.439增加到新估计的0.469,相对变化为6.9%。根据SSP的折叠变化,我们进一步将这些基因分为五类,每一类包含约20%的所有基因。表44显示了每个箱子中基因表达水平的秩相关系数。很明显,在具有较大倍变化的基因中会出现较大的改进。对于20%的折叠变化最小的基因,改善幅度仅为0.1%左右,而对于20%折叠变化最大的基因,提高幅度约为26%。最显著的是,在折叠变化最大的100个基因中,秩相关从0.323变为0.526,相对提高了62.8%。这些结果表明,我们基于建模测序偏好的新估计可以显著改善基因表达估计。

表3

1号染色体的基因、外显子和连接的平均倍数变化

平均排序偏好的平均倍数变化

用于训练模型的数据集基因外显子交叉点(读取长度=35)交叉点(读取长度=100)
沃尔德1.021.121.131.07
伯格1.181.321.371.28
格里蒙德1.252.172.341.73

表4

小鼠类胚体Spearman秩相关系数

折叠更换箱均匀模型SCC我们的MART模型的SCC相对改进
(1.00, 1.09)0.4650.4660.1%
(1.09, 1.19)0.4370.4441.4%
(1.19, 1.33)0.4130.4345.1%
(1.33, 1.53)0.4810.5208.2%
(1.53, 4.82)0.3890.49026.0%

SCC:斯皮尔曼等级相关系数。

接下来,我们研究了测序偏好的结合是否可以改善对异构体特异表达水平的推断。我们修改了Jiang的异构体特异性表达估计等。[13]假设每个外显子的平均计数与外显子SSP成比例,而不是外显子长度。图55显示了RefSeq基因的四种亚型Clta公司在鼠标中。在均匀模型下[13]Grimmond EB数据的亚型表达分别为21.6%、53.4%、8.95%和16.0%(总和为100%)。当考虑到排序首选项时[13]分别为15.5%、52.9%、10.8%和20.7%。基于新表达式级别和序列首选项的新计数更适合数据(未显示数据)。

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-5.jpg

RefSeq基因的四种亚型Clta公司在鼠标中。此图是使用CisGenome浏览器生成的[36]. 顶部显示了小鼠4号染色体中的碱基位置和外显子的灰色块。底部显示四种亚型,外显子放大。第一种亚型的外显子1的尾部比其他三种亚型少6 bp。第二个亚型有7个外显子,而第三个亚型同时缺失了外显子5(54 bp)和外显子6(36 bp),第四个亚型缺失了外隐子6。

回到沃尔德数据,我们从表中注意到表3外显子SSP的倍数变化为1.12,这表明MART模型和统一模型在外显子水平估计方面可能存在足够的差异。为了评估这两个模型在外显子水平估计方面的性能,我们将我们对亚型表达水平的估计与Pan中给出的估计进行了比较等。[29]他使用定制微阵列研究了10个小鼠组织中的3126个“盒式”选择性剪接(AS)事件。每个组织中的每个AS事件都由七个探针靶向,然后计算选择性剪接外显子排除值百分比(%ASex)作为汇总统计。在蒋的论文中等。[13]介绍了他们估算亚型表达水平的方法,他们比较了Pan的ASex百分比等。[29]根据三种小鼠组织(肝脏、肌肉和大脑)的统一模型计算%ASex。特别是,他们根据两个标准选择了AS事件的子集:一个标准要求基因的适度表达水平和相对狭窄的%ASex置信区间;另一种则需要适度比例的外显子排除亚型。我们使用相同的基因子集,考虑到MART预测的测序偏好,并使用他们的方法计算ASex百分比。结果总结见表表5。5对于几乎每个基因子集,当我们考虑测序偏好时,皮尔逊相关系数较高,平均相对改善约为7.2%。这表明我们的MART模型为亚型表达水平估计提供了有意义的改进,即使是对于不一致性最小的Wold数据也是如此。

表5

%A性别的皮尔逊相关系数

选择标准组织所选AS事件数采用统一模型的PCC通过我们的MART模型进行PCC相对改进
1肝脏4720.480.504.2%
肌肉4510.400.4512.5%
大脑6990.360.4011.1%
2肝脏2280.600.600%
肌肉1940.480.516.3%
大脑2980.440.5013.6%

PCC:皮尔逊相关系数。

综上所述,我们发现决定我们的模型能带来多大改进的主要因素是褶皱变化的幅度。因此,我们期望我们的方法可以应用于涉及短序列元素的许多其他问题。在新的亚型发现中,一个当前非常感兴趣的问题,关键是要考虑沿该区域读取的相对计数。例如,一个碱基读数比其周围区域多的区域表明存在一个新的外显子。然而,如果仅仅因为该区域比其周围区域具有更大的测序偏好,所以该区域具有更多读取数,则可能会产生误导。需要进一步努力将我们的方法融入到当前的异构体发现算法中。

虽然MART模型可以更好地估计排序偏好,因此可用于统计推断,但泊松线性模型的主要目的是选择合适的K(K)用于MART模型。然而,我们仍有可能从中获得更多信息,尤其是从系数图中(如图图2)。2)。例如,如果曲线中间部分的系数具有较大的绝对值,这可能表明测序偏好的差异在实验中反复扩大,很可能是通过多轮PCR,我们可能需要使用更多的mRNA样本,而不是进行过多轮PCR。另一个例子是,如果系数曲线有重尾,这应该表明信使核糖核酸/cDNA倾向于形成复杂的非局部二级结构,这也是不利的,我们可能需要将信使核糖核酸片段成更小的片段和/或选择具有适当长度的更好的连接体。经验丰富的技术人员知道实验的所有细节,可能会对偏差的主要原因提供更多的解释,甚至是精确定位。这可能有助于改进RNA-Seq的方案。

结论

RNA-Seq数据中的非均匀性非常显著

在八个子数据集中的每一个子数据集中,RNA-Seq计数数据大多过于分散。这有力地证明了计数的不均匀性对于具有恒定捕获速率的泊松分布来说太大了。此外,在每个数据集的子数据集中,沿基因计数的趋势不同,显示出高度一致的模式。这不仅是泊松分布失效的证据,也表明计数的变化取决于基因的位置。

泊松线性模型

我们提出了计数数据的泊松线性模型,并实现了一个迭代泊松线性回归程序来拟合它。使用周围的80个核苷酸,它能够解释37%到52%的高表达基因计数差异。我们发现第一个核苷酸附近的核苷酸系数具有更大的抽象值,表明它们在决定测序偏好方面起着更重要的作用。

MART模型

为了捕捉局部序列的非线性效应,我们使用MART来拟合日志偏好,并实施交叉验证策略来计算R(右)2.MART进行交叉验证R(右)2在八个子数据集中,有七个子数据集为0.52至0.70,提高了0.10至0.20。这一结果表明,非均匀性的主要信息是在局部序列中。

我们模型的优点

我们的模型可以帮助我们评估RNA-Seq实验的协议。它还可以为RNA-Seq数据的定量推断提供更好的估计。由于平均偏好在短片段序列中可能会有很大差异,因此改进可能会非常显著。我们认为,RNA-Seq数据的所有定量分析都应包含测序偏好信息。特别是,我们建议只使用前100个基因和MART训练一个测序偏好模型,然后使用该训练模型预测转录组中所有位点的测序偏好,然后将其用于进一步的推断。

材料和方法

从原始读取数据中提取计数数据

首先,我们从UCSC基因组浏览器网站下载[30]RefSeq基因序列[31,32](2007年7月,Wold和Grimmond数据为鼠标mm9,Burge数据为人类hg19)。然后,我们将读取映射到RefSeq基因的所有亚型。对于Illumina数据,我们使用SeqMap直接绘制了25或32个核苷酸读取[33],允许两个不匹配。对于ABI数据,我们使用了与补充图中描述的相同的策略图11第页,共页[12]其中,分别对35、30和25个核苷酸合格读进行三轮定位。在每一轮中,我们都使用SOCS[34]作为映射工具。映射后,我们选择了RefSeq中只注释了一个亚型并且与其他基因不重叠的基因,并将其称为“非重叠的单一亚型基因”。为了避免歧义,我们只保留了指向唯一位点的读码,而该位点位于唯一基因内。然后,我们计算了从这些独特基因的每个位置开始映射的读取数,从而得出计数数据。由于读取长度较短,一些位置与其他位置具有相同的局部序列(读取长度),因此我们的计数方法总是为它们分配一个零计数。这可能会影响我们的分析结果。然而,即使读取长度仅为25,这些位置也不到所有位置的2%,因此它们不应显著改变我们的分析。

之后还要执行几个步骤。避免注释中的UTR歧义和排序中的边界偏差[],我们截断了所有UTR和两端的100个核苷酸。然后,我们在截短后丢弃了太短(少于100个核苷酸)的基因。最后,在计算RPKM测量的基因表达水平后[7],我们丢弃了所有基因,除了表达水平最高的前100个基因。这些顶级基因的计数是我们用于拟合模型的唯一计数。这些顶级基因的读取在所有明确定位的读取中占相当大的比例,因此为测序偏好提供了足够的信息。相比之下,低表达的基因没有或只有很少的读取,而适度表达的基因在相当大比例的位点上通常为零;因此,关于它们的测序偏好的信息是有限的。

每个子数据集中前100个基因的计数数据可在R包“mseq”中获得[35],可在CRAN(综合R档案网络)中公开获取。

拟合泊松线性模型

我们使用以下策略来拟合我们的泊松回归模型:

1.初始化保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i5.gif,其中L(左)是基因的长度.

2.查看保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i6.gif作为已知偏移量,拟合泊松回归模型以获得保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i7.gif保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i8.gif。这是一个标准算法,R的“glm()”[26]实现它。

3.更新保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i9.gif,其中W公司是基因所有核苷酸的测序偏好之和也就是说,保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i10.gif.

4.跳到步骤2,除非偏差减小小于1%。

在上面,步骤2给出了αβ千赫鉴于保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i6.gif,很容易证明步骤3给出了ν鉴于α=保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i7.gifβ千赫=保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i8.gif因此,上述过程通过反复优化偏好参数和基因表达水平来最大化可能性。

R程序包“mseq”中提供了执行此程序的R代码[35].

使用MART和估计交叉验证的策略R(右)2

使用MART和估计交叉验证的策略R(右)2包括以下步骤:(1)将100个基因随机分为5组。在交叉验证的每一次折叠中,使用其中一个作为测试集,使用其他四个作为训练集。(2) 在每个折叠中,对于训练数据集中的每个基因,将每个计数除以该基因中计数的平均值。结果数字被认为是该位置的排序偏好。为了避免第3步中麻烦的零偏好,我们将零计数替换为一个小数字(计算中为0.5)。(3) 获取这些首选项的对数。(4) 使用周围的序列作为输入,使用这些日志首选项作为输出来训练MART。我们用于MART的参数是:交互深度=10,收缩率=0.06,树数=2000(该方法对参数的选择是稳健的;附加文件1)。此外,由于高表达基因的方差较小,我们对其对数偏好赋予了更大的权重。基因对数偏好的权重设置为N个/L(左),其中N个是该基因的总读取次数,以及L(左)是这个基因的长度。(5) 使用经过训练的MART预测测试数据的日志偏好。(6) 获得基因表达水平的最大似然估计。也就是说,假设一个基因的长度是L(左),日志首选项为1, ...,L(左),计数为n个1, ...,n个L(左),则基因表达水平为

保存图片、插图等的外部文件。对象名称为gb-2010-11-5-r50-i11.gif(7) 根据步骤5中的对数偏好和步骤6中的基因表达水平计算偏差。同时计算零偏差。(8) 对所有五个折叠重复步骤2至7。(9) 计算最终交叉验证R(右)2,这是五个折叠中的偏差之和,大于零偏差之和。

R程序包“mseq”中提供了执行此程序的R代码[35].

缩写

ABI:应用生物系统;阿波(Apoe):载脂蛋白E;AS:可选拼接;%ASex:选择性剪接外显子排除百分比;bp:碱基对;EB:类胚体;ES:胚胎干细胞;MART:多元加性回归树;RPKM:每百万个映射序列的外显子千碱基读数;SSP:排序首选项之和;UTR:未翻译区域。

作者的贡献

JL、HJ和WHW构思了这项研究。JL制定了方法,进行了分析,并起草了手稿。HJ和WHW审查并修订了手稿。所有作者都已阅读并批准了最终稿。

补充材料

附加文件1:

补充材料Word文档,包含本文的补充材料,其中提供了有关我们提出的方法的详细信息和讨论。

单击此处获取文件(608K,文档)

致谢

本研究由NIH资助R01 HG004634和R01 HG 003903。本项目中的计算是在NSF计算基础设施拨款DMS-0821823支持的系统上进行的。我们感谢Xi Chen对RNA-Seq实验协议的讨论。我们还感谢三位匿名审稿人提出的富有洞察力和建设性的意见和建议,这些意见和建议大大改进了我们的论文。

工具书类

  • Okoniewski MJ,Miller CJ。短寡核苷酸微阵列中探针之间的杂交相互作用导致虚假相关性。BMC生物信息学。2006;7:276.doi:10.1186/1471-2105-7-276。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Royce TE、Rozowsky JS、Gerstein MB。走向通用微阵列:通过最近邻探针序列鉴定预测基因表达。核酸研究。2007年;35:e99.doi:10.1093/nar/gkm549。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wang Z,Gerstein M,Snyder M.RNA-Seq:转录组学的革命性工具。Nat Rev基因。2009年;10:57–63. doi:10.1038/nrg2484。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Holt RA,Jones SJ。流式细胞测序的新范式。基因组研究。2008;18:839–846. doi:10.1101/gr.073262.107。[公共医学] [交叉参考][谷歌学者]
  • Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wilhelm BT、Marguerat S、Watt S、Schubert F、Wood V、Goodhead I、Penkett CJ、Rogers J、Bahler J.在单核苷酸分辨率下调查的真核转录组的动态库。自然。2008;453:1239–1243. doi:10.1038/nature07002。[公共医学] [交叉参考][谷歌学者]
  • Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。[公共医学] [交叉参考][谷歌学者]
  • Lister R、O'Malley RC、Tonti-Filippini J、Gregory BD、Berry CC、Millar AH、Ecker JR。表观基因组高度集成的单碱基分辨率图谱拟南芥.细胞。2008;133:523–536. doi:10.1016/j.cell.2008.03.029。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y.RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. doi:10.10101/gr.079558.108。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Morin R、Bainbridge M、Fejes A、Hirst M、Krzywinski M、Pugh T、McDonald H、Varhol R、Jones S、Marra M。使用随机引物cDNA和大规模并行短阅读测序分析HeLa S3转录组。生物技术。2008;45:81–94。doi:10.2144/000112900。[公共医学] [交叉参考][谷歌学者]
  • Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB。人类组织转录体中的替代亚型调控。自然。2008;456:470–476. doi:10.1038/nature07509。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ、Brown MK、Taylor DF、Steptoe AL、Wani S、Bethel G、Robertson AJ、Perkins AC、Bruce SJ、Lee CC、Ranade SS、Peckham HE、Manning JM、McKernan KJ、Grimmond SM。通过大规模mRNA测序进行干细胞转录组分析。自然方法。2008;5:613–619. doi:10.1038/nmeth.1223。[公共医学] [交叉参考][谷歌学者]
  • 姜浩、王浩。RNA-Seq亚型表达的统计推断。生物信息学。2009年;25:1026–1032。doi:10.1093/bioinformatics/btp113。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pan Q,Shai O,Lee LJ,Frey BJ,Blencowe BJ。通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008;40:1413–1415. doi:10.1038/ng.259。[公共医学] [交叉参考][谷歌学者]
  • Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36:e105.doi:10.1093/nar/gkn425。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Naef F,Magnasco MO.解决亮错配之谜:寡核苷酸阵列中的标记和有效结合。物理评论E Stat Nonlin软物质物理。2003年;68:011906.[公共医学][谷歌学者]
  • Johnson WE、Li W、Meyer CA、Gottardo R、Carroll JS、Brown M、Liu XS。ChIP-ChIP平铺阵列的基于模型的分析。美国国家科学院程序。2006;103:12457–12462. doi:10.1073/pnas.0601180103。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Potter DP,Yan P,Huang TH,Lin S.差异甲基化杂交实验的探针信号校正。BMC生物信息学。2008;9:453.网址:10.1186/1471-2105-9-453。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wu ZJ、Irizarry RA、Gentleman R、Martinez-Murillo F、Spencer F。寡核苷酸表达阵列的基于模型的背景调整。美国统计协会。2004;99:909–917. doi:10.1198/016214500000683。[交叉参考][谷歌学者]
  • Song JS、Johnson WE、Zhu X、Zhang X、Li W、Manrai AK、Liu JS、Chen R、Liu XS。基于模型的双色阵列分析(MA2C)。基因组生物学。2007年;8:R178。doi:10.1186/gb-2007-8-8-R178。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hansen KD,Brenner SE,Dudoit S.随机六聚体启动引起的Illumina转录组测序偏差。核酸研究。2010年出版。[PMC免费文章][公共医学]
  • Hardin JW、Hilbe JM。广义线性模型和扩展。2.德克萨斯州大学站:Stata出版社;2007[谷歌学者]
  • 弗里德曼·JH。贪婪函数近似:梯度增强机。Ann统计。2001;29:1189–1232. doi:10.1214/aos/1013203451。[交叉参考][谷歌学者]
  • 弗里德曼·JH。随机梯度增强。计算统计数据分析。2002;38:367–378. doi:10.1016/S0167-9473(01)00065-2。[交叉参考][谷歌学者]
  • 格雷格·里奇韦。gbm:广义增强回归模型。R包版本1.6-3。2007http://cran.r-project.org/web/packages/gbm/index.html
  • R开发核心团队。R: 统计计算语言和环境。奥地利维也纳:R统计计算基金会;2008[谷歌学者]
  • Kapur K、Jiang H、Xing Y、Wong WH。Affymetrix外显子阵列的交叉杂交建模。生物信息学。2008;24:2887–2893. doi:10.1093/bioinformatics/btn571。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Irizarry RA、Bolstad BM、Collin F、Cope LM、Hobbs B、Speed TP。Affymetrix基因芯片探针级数据摘要。核酸研究。2003年;31:e15.doi:10.1093/nar/gng015。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pan Q,Shai O,Miswetta C,Zhang W,Saltzman AL,Mohammad N,Babak T,Siu H,Hughes TR,Morris QD,Frey BJ,Blencowe BJ。利用定量微阵列平台揭示哺乳动物选择性剪接的全球调控特征。分子细胞。2004;16:929–941. doi:10.1016/j.molcel.2004.12.004。[公共医学] [交叉参考][谷歌学者]
  • UCSC基因组浏览器。http://genome.ucsc.edu/
  • Lander ES、Linton LM、Birren B、Nusbaum C、Zody MC、Baldwin J、Devon K、Dewar K、Doyle M、FitzHugh W、Funke R、Gage D、Harris K、Heaford A、Howland J、Kann L、Lehoczky J、LeVine R、McEwan P、McKernan K、Meldrim J、Mesirov JP、Miranda C、Morris W、Naylor J、Raymond C、Rosetti M、Santos R、Sheridan A、Sougnez C等人。人类基因组的初步测序和分析。自然。2001;409:860–921. doi:10.1038/35057062。[公共医学] [交叉参考][谷歌学者]
  • Waterston RH、Lindblad Toh K、Birney E、Rogers J、Abril JF、Agarwal P、Agarwala R、Ainscough R、Alexandersson M、An P、Antonarakis SE、Attwood J、Baertsch R、Bailey J、Barlow K、Beck S、Berry E、Birren B、Bloom T、Bork P、Botcherby M、Bray N、Brent MR、Brown DG、Brown SD、Bult C、Burton J、Butler J、Campbell RD、Carninci P.等人。小鼠基因组的初步测序和比较分析。自然。2002;420:520–562。doi:10.1038/nature01262。[公共医学] [交叉参考][谷歌学者]
  • 姜浩、王浩。SeqMap:将大量寡核苷酸映射到基因组中。生物信息学。2008;24:2395–2396. doi:10.1093/bioinformatics/btn429。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Ondov BD、Varadarajan A、Passalacqua KD、Bergman NH。将Applied Biosystems SOLiD序列数据高效映射到功能基因组应用的参考基因组。生物信息学。2008;24:2776–2777. doi:10.1093/bioinformatics/btn512。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • CRAN上的mseq。http://cran.r-project.org/web/packages/mseq/index.html
  • Ji H、Jiang H、Ma W、Johnson DS、Myers RM、Wong WH。用于分析ChIP-ChIP和ChIP-seq数据的集成软件系统。国家生物技术。2008;26:1293–1300. doi:10.1038/nbt.1505。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自基因组生物学由以下人员提供BMC公司