Modeling non-uniformity in short-read rates in RNA-Seq data

Li, Jun; Jiang, Hui; Wong, Wing Hung

doi:10.1186/gb-2010-11-5-r50

方法
开放式访问
出版：2010年5月11日

RNA-Seq数据中短读速率的非均匀性建模

基因组生物学 体积 11，物品编号：50兰特(2010)引用这篇文章

2.6万访问
144引文
6海拔高度
韵律学细节

摘要

映射后，RNA-Seq数据可以通过一系列读取计数进行汇总，这些读取计数通常被建模为每个转录本上具有恒定速率的泊松变量，这实际上与数据很不匹配。我们建议对不同位置使用可变速率，并提出两个模型来基于局部序列预测这些速率。这些模型解释了50%以上的变异，可以改进对Illumina和Applied Biosystems数据的基因和亚型表达的估计。

背景

微阵列是一种同时测量许多基因表达水平的有效技术，但这种方法存在一些局限性。对于低表达的基因，表达估计通常是不可靠的，因为真正的信号被交叉杂交效应掩盖了[1,2]. 此外，阵列的设计依赖于基因结构的注释，因此该方法对于发现新的剪接事件并不理想。最近开发的一种替代方法，称为RNA-Seq，有潜力克服这些困难[三]. RNA-Seq使用超高通量测序[4]确定大量cDNA片段的序列。生成的序列（读取）可以是长序列（>100核苷酸）或短序列，具体取决于平台[4]. 目前流行的两个短阅读平台是Illumina的Solexa[5——11]和应用生物系统公司（ABI）的SOLiD[12]. 每一个都可以在一次运行中生成数千万次的短读[5——12]. 在本文中，我们只考虑短读RNA-Seq。

RNA-Seq产生的读数首先通过计算机程序映射到基因组和/或参考转录本。然后，RNA序列的输出可以用一系列的“计数”来概括。也就是说，对于基因组中或假定转录本上的每个位置，它给出了一个计数，表示从该位置开始映射的读取数。例如（为了简化起见，我们缩短了基因并读取），如果一个具有单一亚型的基因具有序列ACGTCCCC，并且我们有12个ACGTC读取，8个CGTCC读取，9个GTCCC读取和5个TCCCC读取，那么这个基因可以通过计数12、8、9、5的序列进行总结。

RNA-Seq数据的定量推断，例如计算基因表达水平[7]和亚型表达水平[13]，基于这些计数。为了有效地利用数据，为这些计数建立适当的统计模型至关重要。当前的分析方法显式或隐式地假设一个朴素的恒速泊松模型，在该模型中，来自同一亚型的所有计数都是从泊松分布中独立采样的，单个速率与亚型的表达水平成比例[7,13,14]. 不幸的是，我们发现这个模型并不能很好地拟合实际数据（见结果），需要一个更精细的模型。

为了更好地建模计数，考虑可变速率的泊松模型是很自然的；也就是说，来自亚型的计数仍然被建模为泊松随机变量，但每个泊松随机变数具有不同的速率（平均值）。通过检查不同组织计数之间的相似性（参见结果），可以看出泊松率不仅取决于基因表达水平，还取决于读取的位置。因此，我们将速率建模为基因表达水平和从该位置开始的读数的“测序偏好”的乘积。这种排序偏好是一个显示在此位置生成读取的可能性的因素。

多姆等。[15]发现GC丰富的区域往往比AT丰富的区域有更多的读取，但我们发现纯粹基于GC内容的模型工作得很差（附加文件1). 通过回顾如何在微阵列中处理相关问题，可以获得一些关于如何建模测序偏好的线索。微阵列中的每个基因都有一组探针，每个探针都可以连续测量基因表达水平。同一组测量值采用不同平均值的高斯分布建模，每个平均值都是基因表达水平和探针对cDNA序列亲和力的乘积。Naef和Magnasco[16]提出了仅依赖于探针序列的探针亲和力模型：

哪里ω_我是探针的亲和力我,K（K）是探针的长度，I(b条_伊克=小时))当k个^第个基本对是字母小时，否则为0，α和β_千赫是我们想要估计的参数，以及ε是高斯噪声，因此可以通过正则线性最小二乘法估计参数。该模型的主要特点是，它考虑每个位置出现的字母，而不仅仅是每个字母出现的总次数。这个简单的线性模型可以解释Affymetrix寡核苷酸阵列数据集中44%的亲和力差异。为其他阵列或数据集开发了类似的模型[17——20].

在RNA-Seq实验中，cDNA合成通常由随机启动启动。根据其序列，mRNA片段可能形成阻碍引物结合的二级结构。此外，引物通常由非随机侧翼序列标记，该序列可能根据mRNA序列优先与mRNA相互作用。由于这些影响，结合的概率取决于核苷酸序列和方案。合成后，cDNA与连接子连接，扩增，然后测序。在这些步骤中，cDNA的二级结构和方案的细节可以再次影响效率。因此，协议和局部序列上下文可能对读取mRNA片段的可能性有很大影响。因此，在特定方案下，我们可以根据局部核苷酸序列预测测序偏好，至少可以部分预测。

结果和讨论

数据集和过度分散

本文使用了三个全基因组RNA-Seq数据集。前两个是由Illumina的Solexa平台生成的，第三个是由ABI的SOLiD平台生成的。第一个数据集[7]由7900万、7600万和7000万个来自三种小鼠组织的读数组成：大脑、肝脏和骨骼肌。每个读数的长度为25。第二个数据集[11]它由来自10种不同人类组织和5种乳腺上皮或乳腺癌细胞系的1200万到2900万个读数组成。每个读数的长度为32。我们使用其中九种组织或细胞系的数据，并将它们合并为三组（第一组为脂肪、大脑和乳房，第二组为结肠、心脏和肝脏，第三组为淋巴结、骨骼肌和睾丸）。每个组包含6100万到7700万个读取。第三个数据集[12]由两种细胞系（类胚体（EB）和未分化小鼠胚胎干细胞（ES））的1600万个高质量读数组成。每个原始读数是35个核苷酸，但有些被截断为30或25个核苷酸以确保高质量。我们将这三个数据集分别称为Wold数据、Burge数据和Grimmond数据，这与最初生成数据的研究小组一致。正如我们刚才所描述的，这三个数据集中的每一个都包含几个代表不同组织、组或细胞系的子数据集，总共有八个子数据集：三个（组织）代表Wold数据，三个（组）代表Burge数据，两个（细胞系）代表Grimmond数据。在我们的所有处理和计算中，上述子数据集是单独考虑的；也就是说，一次只分析一个子数据集。

首先，从原始数据集中提取计数数据。材料和方法中描述了详细的程序。简言之，我们将读取映射到所有RefSeq基因的所有亚型，然后为了避免歧义，我们只计算唯一映射到RefSeq中只注释了一个亚型且与其他基因不重叠的基因的读取，我们称之为“非重叠单转录基因”。此外，我们只使用表达水平最高的前100个基因的计数来拟合我们的模型，因为它们具有最高的信噪比（参见附加文件1详细信息）。

两项证据清楚地表明，计数违反了恒速泊松模型。首先，数据严重过度分散。泊松分布的一个基本性质是均值和方差相等。如果方差大于平均值，则数据被称为过度分散，泊松假设不合适。表1列出了每个子数据集的前100个基因中方差与均值比率（也称为“法诺因子”）的最大值、中值和最小值。所有比率都远大于1。其次，基因计数的“模式”（相对值）在同一数据集的不同子数据集中惊人地保守。图1显示基因中的计数阿波（载脂蛋白E）的所有三个组织的沃尔德数据。尽管计数的绝对值在不同组织中相差100倍，但不同组织的变化模式高度一致。沃尔德数据的其他基因以及伯格和格里蒙德数据的基因也是如此。这有力地证明了来自同一基因的不同位置的计数不是从同一分布中采样的。相反，计数的分布似乎取决于其序列在转录本中的位置。这迫使我们考虑更复杂的模型。Hansen也描述了阅读率偏差强烈依赖于局部序列的观察结果等。[21]这是我们在审查论文时注意到的一项独立工作。

表1不同数据集的方差平均比

全尺寸桌子

泊松线性模型及其性能

对于核苷酸j个基因的我，我们想对从这个核苷酸（表示为n个_ij公司)取决于该基因的表达水平（表示为μ₂)以及围绕该核苷酸的核苷酸序列（带有长度的序列K（K）表示为b条_ij公司1,b条_ij公司2,⋯,b条_ijK公司,). 我们假设n个_伊吉~泊松(μ_ij公司)，其中μ_ij公司是泊松分布的速率，以及μ_ij公司=ω_ij公司μ_伊吉，其中ω_ij公司是排序偏好，可能取决于周围的序列。作为一种简单的方法，我们对偏好使用线性模型，从而得出泊松率：

哪里ν_我=对数(μ_我)，α是一个常数项，I(b条_ijk公司=小时)等于1，如果k个^第个周围序列的核苷酸是小时，否则为0，以及β_千赫是字母的影响系数小时发生在k个^第个位置。该模型使用大约3K个参数来模拟排序偏好。为了拟合上述模型，我们迭代优化了基因表达水平和泊松回归系数（材料和方法）。

我们将模型应用于八个子数据集中的每一个子数据集。作为局部序列上下文，我们在读取的第一个核苷酸之前使用40个核苷酸，在它们之后使用40个核酸（即读取的前40个核苷酸；请参阅附加文件1选择该地区的原因）。因此，我们的模型使用3×80=240个参数来建模排序偏好。与每个子数据集中的样本大小（约100000个计数）相比，这是一个相对较小的数字。

在线性回归中，回归可以解释的方差百分比，表示为R（右）²，用于测量菲特的质量。在泊松回归中，我们可以用偏差代替方差，并定义：

哪里d日是拟合模型的偏差，以及d日₀是空模型的偏差[22]. 在我们的例子中，空模型是假设相同排序偏好的朴素模型。决赛R（右）²表中列出了我们获得的值2粗略地说，这个简单的线性模型可以解释大约40%到50%的方差。

表2R（右）²在不同的数据集中

全尺寸桌子

图2显示了线性模型中的所有系数。每个系数的渐近标准误差约为0.002，因此几乎所有系数在统计上都非常显著。这并不奇怪，因为我们的样本量远远大于参数的数量。在这种情况下，更重要的是系数的大小。通常，图中央部分的系数的绝对值大于两侧的系数，后者接近于零。这表明，read第一个位置周围的核苷酸对测序偏好有更大的影响。这是合理的，因为这些核苷酸往往形成一个读取局部二级结构的头部，它只涉及几个核苷酸，因此很容易预测。虽然更远的核苷酸可能会形成带有读头的非局部二级结构，但由于它涉及的核苷酸太多，并且可能因情况不同而有显著差异，因此很难预测其结构。

同一数据集的每个子数据集中的系数都非常相似，尽管它们在不同的数据集中有显著差异。这有力地证明了这些系数是有意义的，而不仅仅是随机的。

虽然很难从生物学角度解释每个系数的大小，但我们可以通过使用的协议解释数据集之间系数的主要差异。Wold和Burge数据都是使用Illumina平台生成的，因此它们的曲线看起来很相似，尤其是在中部。然而，在Wold数据中的cDNA合成之前，mRNA被切割成大约200个核苷酸片段，但在Burge数据中没有。较短的mRNA片段不太可能形成非局部二级结构。因此，沃尔德数据的系数曲线应该有较轻的尾部。Grimmond的实验使用了ABI的平台进行测序，并在测序之前向合成的cDNA添加了不同的连接子，因此整个曲线看起来与Wold和Burge的数据完全不同。

我们的泊松线性模型表明，至少37%到52%的不均匀性可以由序列差异来解释。然而，这一百分比可能低估了局部序列上下文可解释的偏差部分，因为简单的线性模型无法捕捉到许多其他影响。向线性模型中添加更多预测因子是可能的，尤其是添加二核苷酸成分可以大大改善拟合（附加文件1)，但我们倾向于考虑非线性模型，以便更好地理解计数的不均匀性在多大程度上是系统偏差而不是随机噪声。

MART模型及其性能

尝试过支持向量机和神经网络等方法（附加文件1)，我们选择了MART（多元加性回归树）作为非线性模型的最终选择。MART是Friedman提出的一种梯度树增强算法[23,24]. “gbm”包中提供了MART的一个版本[25]第页，共页[26]. 此外，为了避免非线性模型通常出现的过度拟合，我们使用交叉验证和R（右）²在测试数据中。

关于使用MART和估计交叉验证的详细信息R（右）²材料和方法中给出。在此分析中，我们使用较短的周围序列。对于Wold和Burge数据，我们在reads的第一个核苷酸之前使用了25个核苷酸，在reads之后使用了15个核苷酸，对于Grimmond数据，我们使用了之前的15个核苷酸和之后的25个核苷酸。这些是泊松回归模型中系数较大的区域（附加文件1). 使用较短的周围序列可以降低输入数据的维数，从而缩短训练时间并减少过度拟合的机会。

最终交叉验证R（右）²表中列出了我们获得的值2八分之七R（右）²值大于0.50，其中两个高达0.70。与线性模型相比，R（右）²增加0.10至0.20，显示MART模型的威力。图三给出了两个方法如何执行的示例。图图3a-c显示基因计数阿波在原始数据中，分别用泊松线性模型拟合计数和用MART拟合计数。很容易看出，MART更符合计数。因此，我们建议在根据数据进行任何统计推断时，应使用MART模型，而泊松线性模型仅用于为MART选择合理的周围序列区域。我们还注意到，与使用泊松线性模型确定的拟合数相比，使用MART确定的拟合计数沿基因的变化更快，但在这两种情况下，变化都不如原始数据中的剧烈。实际上，这两种方法拟合的计数的方差与平均值之比分别为55和91，均小于原始计数的127。这表明我们的两个模型仍然给出了保守的拟合。

我们的高潮R（右）²结果表明，从局部序列中可以预测测序偏好中至少50%到70%的不一致性。

我们使用最高度表达的基因训练的模型可以用于预测其他基因的测序偏好。例如，我们使用仅使用前100个基因训练的MART模型预测了沃尔德数据的大脑样本对所有独特基因的偏好，结果总结为R（右）²（图4). 正如预期，R（右）²对于表达水平较低的基因来说，其变异性较小，因为不可预测的随机性在平均值较小的泊松分布中占较大比例。平均值R（右）²对于高表达或中等表达的基因（外显子每千碱基每百万映射序列读取数（RPKM）>30）大于0.5，并且没有R（右）²RPKM>1的基因为阴性，表明我们的模型始终优于统一模型。请注意，在这些数据中，1 RPKM代表平均每核苷酸仅0.034次读取。

我们模型的应用

我们的结果可能有助于从RNA-Seq数据进行定量推断。为了减少由于读取速率的不一致性而导致的基因表达估计偏差，我们建议在我们的MART模型下，通过沿着基因的读取总数除以测序偏好总和（SSP）来估计单个亚型基因的表达。相比之下，标准估计值将读取数除以基因长度，这相当于在所有测序偏好设置为1的统一模型下除以SSP。

为了测试新方法，我们首先将使用Wold RNA-Seq数据的小鼠肝脏子数据集估计的基因表达水平与使用Kapur使用的相同组织的Affymetrix微阵列数据估计的基因表示水平进行了比较等。[27]. 对于RNA-Seq数据，我们在统一模型和MART模型下估计基因表达水平，对于微阵列数据，我们使用稳健多芯片平均值[28]. 所有非重叠的单转录基因都包含在比较中，结果由Spearman的秩相关系数汇总。对于所考虑的所有基因，与统一模型相比，使用我们的MART模型将秩相关从0.771增加到0.773，这表示一个非常小的改进。

我们的测序偏好高度预测模型未能导致基因表达评估更显著改善的原因是什么？我们相信答案是，当一个基因很大时，当在多个位置上对测序偏好的显著局部变化进行汇总以产生整个基因的SSP时，这些变化将被消除。在这种情况下，MART模型下的单一共享点与统一模型下的单个共享点相差不大，并且新的估计值与通常的估计值几乎相同。为了查看新的估计值在与标准估计值不同的情况下是否会导致改进，我们首先通过折合变化量化两个估计值之间的差异，定义如下：

沃尔德数据中跨基因的平均折叠变化仅为1.02；因此，新估计值的性能如此接近标准估计值也就不足为奇了。一致地，当我们检查100个折叠变化最大的基因时（平均而言，这100个基因中的折叠变化为1.10），等级相关性显示出更大的改善，从0.095到0.198，即108%的相对变化。

表三给出了不同数据集的1号染色体基因、外显子和连接的平均折叠变化。我们看到，倍数变化可能远远大于1，这取决于我们对测序偏好、测序平台和生成数据的实验室进行平均的区域有多大。例如，Grimmond数据显示，跨基因的平均折叠变化为1.25。因此，我们预计新的估计将显示该数据有更大的改善。为了看看情况是否如此，我们注意到卡普尔等。[27]计算来自小鼠胚胎样本的Affymetrix微阵列数据的基因表达水平，我们可以使用这些数据评估Grimmond EB数据的新估计值和标准估计值。对于所有考虑的基因，秩相关系数从标准估计的0.439增加到新估计的0.469，相对变化为6.9%。根据SSP的折叠变化，我们进一步将这些基因分为五类，每一类包含约20%的所有基因。表4显示了每个箱子中基因表达水平的秩相关系数。很明显，在具有较大倍变化的基因中会出现较大的改进。对于折叠变化最小的20%的基因，改善仅为0.1%左右，但对于折叠变化最大的20%的基因，改善约为26%。最显著的是，在折叠变化最大的100个基因中，秩相关从0.323变为0.526，相对提高了62.8%。这些结果表明，我们基于建模测序偏好的新估计可以显著改善基因表达估计。

表3 1号染色体基因、外显子和连接的平均折叠变化

全尺寸桌子

表4小鼠类胚体Spearman秩相关系数

全尺寸桌子

接下来，我们研究了测序偏好的结合是否可以改善对异构体特异表达水平的推断。我们修改了Jiang的异构体特异性表达估计等。[13]假设每个外显子的平均计数与外显子SSP成比例，而不是外显子长度。图5显示了RefSeq基因的四种亚型Clta公司在鼠标中。在均匀模型下[13]Grimmond EB数据的亚型表达分别为21.6%、53.4%、8.95%和16.0%（总和为100%）。当考虑到排序首选项时[13]分别为15.5%、52.9%、10.8%和20.7%。基于新表达式级别和序列首选项的新计数更适合数据（未显示数据）。

回到沃尔德数据，我们从表中注意到三SSP外显子的倍数变化为1.12，这表明MART模型和均匀模型之间的外显子水平估计可能存在足够的差异。为了评估这两个模型在外显子水平估计方面的性能，我们将我们对亚型表达水平的估计与Pan中给出的估计进行了比较等。[29]他使用定制微阵列研究了10个小鼠组织中的3126个“盒式”选择性剪接（AS）事件。每个组织中的每个AS事件都由七个探针靶向，然后计算选择性剪接外显子排除值百分比（%ASex）作为汇总统计。在蒋的论文中等。[13]介绍了他们估算亚型表达水平的方法，他们比较了Pan的ASex百分比等。[29]根据三种小鼠组织（肝脏、肌肉和大脑）的统一模型计算%ASex。特别是，他们根据两个标准选择了AS事件的子集：一个标准要求基因的适度表达水平和相对狭窄的%ASex置信区间；另一种则需要适度比例的外显子排除亚型。我们使用相同的基因子集，考虑到MART预测的测序偏好，并使用他们的方法计算ASex百分比。结果总结见表5对于几乎每个基因子集，当我们考虑测序偏好时，Pearson的相关系数更高，平均相对改善约为7.2%。这表明我们的MART模型为亚型表达水平估计提供了有意义的改进，即使是对于不一致性最小的Wold数据也是如此。

表5%A性别的皮尔逊相关系数

全尺寸桌子

综上所述，我们发现决定我们的模型能带来多大改进的主要因素是褶皱变化的幅度。因此，我们期望我们的方法可以应用于涉及短序列元素的许多其他问题。在新的亚型发现中，一个当前非常感兴趣的问题，关键是要考虑沿该区域读取的相对计数。例如，一个碱基读数比其周围区域多的区域表明存在一个新的外显子。然而，如果这个区域的读数更多，仅仅因为它比周围区域有更大的测序偏好，这可能会产生误导。需要进一步努力将我们的方法融入到当前的异构体发现算法中。

虽然MART模型可以更好地估计排序偏好，因此可用于统计推断，但泊松线性模型的主要目的是选择合适的K（K）用于MART模型。然而，我们仍有可能从中获得更多信息，尤其是从系数图中（如图2). 例如，如果曲线中间部分的系数具有较大的绝对值，这可能表明测序偏好的差异在实验中反复扩大，很可能是通过多轮PCR，我们可能需要使用更多的mRNA样本，而不是进行过多轮PCR。另一个例子是，如果系数曲线有重尾，这应该表明mRNA/cDNA倾向于形成复杂的非局部二级结构，这也是不利的，我们可能需要将mRNA片段化为更小的片段和/或选择具有适当长度的更好的连接子。经验丰富的技术人员知道实验的所有细节，可能会对偏差的主要原因提供更多的解释，甚至是精确定位。这可能有助于改进RNA-Seq协议。

结论

RNA-Seq数据中的非均匀性非常显著

在八个子数据集中的每一个子数据集中，RNA-Seq计数数据大多过于分散。这有力地证明了计数的不均匀性对于具有恒定捕获速率的泊松分布来说太大了。此外，在每个数据集的子数据集中，沿基因计数的趋势不同，显示出高度一致的模式。这不仅是泊松分布失效的证据，也表明计数的变化取决于基因的位置。

泊松线性模型

我们提出了计数数据的泊松线性模型，并实现了一个迭代泊松线性回归程序来拟合它。使用周围的80个核苷酸，它能够解释37%到52%的高表达基因计数差异。我们发现第一个核苷酸附近的核苷酸系数具有更大的抽象值，表明它们在决定测序偏好方面起着更重要的作用。

MART模型

为了捕捉局部序列的非线性效应，我们使用MART来拟合日志偏好，并实施交叉验证策略来计算R（右）².MART进行交叉验证R（右）²在八个子数据集中，有七个子数据集为0.52至0.70，提高了0.10至0.20。这一结果表明，非均匀性的主要信息是在局部序列中。

我们模型的优点

我们的模型可以帮助我们评估RNA-Seq实验的协议。它还可以为RNA-Seq数据的定量推断提供更好的估计。由于平均偏好在短片段序列中可能会有很大差异，因此改进可能会非常显著。我们认为，RNA-Seq数据的所有定量分析都应包含测序偏好信息。特别是，我们建议只使用前100个基因和MART训练一个测序偏好模型，然后使用该训练模型预测转录组中所有位点的测序偏好，然后将其用于进一步的推断。

材料和方法

从原始读取数据中提取计数数据

首先，我们从UCSC基因组浏览器网站下载[30]RefSeq基因序列[31,32]（2007年7月，Wold和Grimmond数据为鼠标mm9，Burge数据为人类hg19）。然后，我们将读取映射到RefSeq基因的所有亚型。对于Illumina数据，我们使用SeqMap直接绘制了25或32个核苷酸读取[33]，允许两个不匹配。对于ABI数据，我们使用了与补充图中描述的相同的策略1第页，共页[12]其中，分别对35、30和25个核苷酸合格读进行三轮定位。在每一轮中，我们都使用SOCS[34]作为映射工具。映射后，我们选择了RefSeq中只注释了一个亚型并且与其他基因不重叠的基因，并将其称为“非重叠的单一亚型基因”。为了避免歧义，我们只保留了指向唯一位点的读码，而该位点位于唯一基因内。然后，我们计算了从这些独特基因的每个位置开始映射的读取数，从而得出计数数据。由于读取长度较短，一些位置与其他位置具有相同的局部序列（读取长度），因此我们的计数方法总是为它们分配一个零计数。这可能会影响我们的分析结果。然而，即使读取长度仅为25，这些位置也不到所有位置的2%，因此它们不应显著改变我们的分析。

随后将执行多个步骤。避免注释中的UTR歧义和排序中的边界偏差[三]，我们截短了所有的UTR，并在两端进一步截短了100个核苷酸。然后，我们在截短后丢弃了太短的基因（少于100个核苷酸）。最后，在计算RPKM测量的基因表达水平后[7]，我们丢弃了所有基因，除了表达水平最高的前100个基因。这些顶级基因的计数是我们用来拟合模型的唯一计数。这些顶级基因的读取在所有明确定位的读取中占相当大的比例，因此为测序偏好提供了足够的信息。相比之下，低表达的基因没有或只有很少的读取，而适度表达的基因在相当大比例的位点上通常为零；因此，关于它们的测序偏好的信息是有限的。

每个子数据集中前100个基因的计数数据可在R包“mseq”中获得[35]，可在CRAN（综合R档案网络）中公开获取。

拟合泊松线性模型

我们使用以下策略来拟合我们的泊松回归模型：

1.初始化，其中L（左） _我是基因的长度我.

2.查看作为已知偏移量，拟合泊松回归模型以获得和。这是一个标准算法，R的“glm（）”[26]实现它。

3.更新，其中W公司 _我是基因所有核苷酸的测序偏好之和我也就是说，.

4.跳到步骤2，除非偏差减小小于1%。

在上面，步骤2给出了α和β_千赫鉴于，很容易证明步骤3给出了ν_我鉴于α=和β_千赫=因此，上述程序通过迭代优化偏好参数和基因表达水平来最大化可能性。

R程序包“mseq”中提供了执行此程序的R代码[35].

使用MART和估计交叉验证的策略R（右）²

使用MART和估计交叉验证的策略R（右）²包括以下步骤：（1）将100个基因随机分为5组。在每次交叉验证中，使用其中一个作为测试集，其他四个作为训练集。（2）在每个折叠中，对于训练数据集中的每个基因，将每个计数除以该基因中计数的平均值。结果数字被认为是该位置的排序偏好。为了避免零偏好，这在步骤3中很麻烦，我们用一个小数字（在我们的计算中为0.5）代替零计数。（3）获取这些首选项的对数。（4）使用周围的序列作为输入，使用这些日志首选项作为输出来训练MART。我们用于MART的参数是：交互深度=10，收缩率=0.06，树数=2000（该方法对参数的选择是稳健的；附加文件1). 此外，由于高表达基因的方差较小，我们对其对数偏好赋予了更大的权重。基因对数偏好的权重我设置为N个_我/L（左）_我，其中N个_我是该基因的总读取次数，以及L（左）_我是这个基因的长度。（5）使用经过训练的MART预测测试数据的日志偏好。（6）获得基因表达水平的最大似然估计。也就是说，假设一个基因的长度为L（左），日志首选项为一1, ...,一_L（左），计数为n个₁, ...,n个_L（左），则基因表达水平为

（7）根据步骤5中的对数偏好和步骤6中的基因表达水平计算偏差。同时计算零偏差。（8）对所有五个折叠重复步骤2至7。（9）计算最终交叉验证R（右）²，这是五个折叠中的偏差之和，大于零偏差之和。

R程序包“mseq”中提供了执行此程序的R代码[35].

缩写

ABI公司：: 应用生物系统
阿波:: 载脂蛋白E
澳大利亚标准：: 交替拼接
%ASex公司：: 选择性剪接外显子排除百分比
血压：: 碱基对
欧洲银行：: 胚状体
锿：: 胚胎干细胞
市场：: 多元可加回归树
每公里转数：: 每千碱基外显子读数/百万映射序列读数
单一共享平台：: 排序首选项之和
UTR（UTR）：: 非翻译区域。

工具书类

Okoniewski MJ，Miller CJ：短寡核苷酸微阵列探针之间的杂交相互作用导致虚假相关性。BMC生物信息学。2006, 7: 276-10.1186/1471-2105-7-276.
第条公共医学公共医学中心谷歌学者
Royce TE，Rozowsky JS，Gerstein MB：走向通用微阵列：通过最近邻探针序列识别预测基因表达。《核酸研究》2007，35:e99-10.1093/nar/gkm549。
第条公共医学公共医学中心谷歌学者
Wang Z，Gerstein M，Snyder M：RNA序列：转录组学的革命性工具。Nat Rev基因。2009, 10: 57-63. 10.1038/nrg2484。
第条公共医学中国科学院公共医学中心谷歌学者
Holt RA，Jones SJ：流式细胞测序的新范式。《基因组研究》2008，18:839-846。10.1101/gr.073262.107。
第条公共医学中国科学院谷歌学者
Nagalakshmi U，Wang Z，Waern K，Shou C，Raha D，Gerstein M，Snyder M：通过RNA测序确定的酵母基因组转录图谱。科学。2008, 320: 1344-1349. 10.1126/科学1158441。
第条公共医学中国科学院公共医学中心谷歌学者
Wilhelm BT、Marguerat S、Watt S、Schubert F、Wood V、Goodhead I、Penkett CJ、Rogers J、Bahler J：在单核苷酸分辨率下调查的真核转录组的动态库。自然。2008, 453: 1239-1243. 10.1038/nature07002。
第条公共医学中国科学院谷歌学者
Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B：通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008, 5: 621-628. 10.1038/nmeth.1226。
第条公共医学中国科学院谷歌学者
Lister R、O'Malley RC、Tonti-Filippini J、Gregory BD、Berry CC、Millar AH、Ecker JR：表观基因组高度整合的单碱基分辨率图谱拟南芥。单元格。2008, 133: 523-536. 2016年10月10日/j.cell.2008.03.029。
第条公共医学中国科学院公共医学中心谷歌学者
Marioni JC、Mason CE、Mane SM、Stephens M、Gilad Y:RNA-seq：技术再现性评估和与基因表达阵列的比较。《基因组研究》2008，18:1509-1517。10.1101克/克079558.108。
第条公共医学中国科学院公共医学中心谷歌学者
Morin R、Bainbridge M、Fejes A、Hirst M、Krzywinski M、Pugh T、McDonald H、Varhol R、Jones S、Marra M：使用随机引物cDNA和大规模平行短阅读测序分析HeLa S3转录组。生物技术。2008, 45: 81-94. 10.2144/000112900.
第条公共医学中国科学院谷歌学者
Wang ET、Sandberg R、Luo S、Khrebtukova I、Zhang L、Mayr C、Kingsmore SF、Schroth GP、Burge CB：人类组织转录体中的替代亚型调控。自然。2008, 456: 470-476. 10.1038/nature07509。
第条公共医学中国科学院公共医学中心谷歌学者
Cloonan N、Forrest AR、Kolle G、Gardiner BB、Faulkner GJ、Brown MK、Taylor DF、Steptoe AL、Wani S、Bethel G、Robertson AJ、Perkins AC、Bruce SJ、Lee CC、Ranade SS、Peckham HE、Manning JM、McKernan KJ、Grimmond SM：通过大规模信使核糖核酸测序进行干细胞转录组分析。自然方法。2008, 5: 613-619. 10.1038/nmeth.1223。
第条公共医学中国科学院谷歌学者
姜浩，王文华：RNA-Seq亚型表达的统计推断。生物信息学。2009, 25: 1026-1032. 10.1093/bioinformatics/btp113。
第条公共医学中国科学院公共医学中心谷歌学者
Pan Q，Shai O，Lee LJ，Frey BJ，Blencowe BJ：通过高通量测序深入研究人类转录组中的选择性剪接复杂性。自然遗传学。2008, 40: 1413-1415. 10.1038/ng.259。
第条公共医学中国科学院谷歌学者
Dom JC、Lottaz C、Borodina T、Himmelbauer H：高通量DNA测序的超短读数据集中的重大偏差。《核酸研究》2008，36:e105-10.1093/nar/gkn425。
第条公共医学公共医学中心谷歌学者
Naef F，Magnasco MO：解开明亮错配之谜：寡核苷酸阵列中的标记和有效结合。物理评论E Stat Nonlin软物质物理。2003, 68: 011906-
第条公共医学谷歌学者
Johnson WE、Li W、Meyer CA、Gottardo R、Carroll JS、Brown M、Liu XS:ChIP-ChIP瓷砖阵列的基于模型的分析。美国国家科学院院刊2006，103:12457-12462。10.1073/pnas.0601180103。
第条公共医学中国科学院公共医学中心谷歌学者
Potter DP，Yan P，Huang TH，Lin S：差异甲基化杂交实验的探针信号校正。BMC生物信息学。2008, 9: 453-10.1186/1471-2105-9-453.
第条公共医学公共医学中心谷歌学者
Wu ZJ、Irizarry RA、Gentleman R、Martinez-Murillo F、Spencer F：寡核苷酸表达阵列的基于模型的背景调整。《美国统计协会杂志》，2004年，99:909-917。10.1198/016214504000000683.
第条谷歌学者
Song JS，Johnson WE，Zhu X，Zhang X，Li W，Manrai AK，Liu JS，Chen R，Liu XS:基于模型的双色阵列分析（MA2C）。基因组生物学。2007年8月：R178-10.1186/gb-2007-8-8-R178。
第条公共医学公共医学中心谷歌学者
Hansen KD，Brenner SE，Dudoit S：随机六聚体启动引起的Illumina转录组测序偏差。2010年核酸研究，
谷歌学者
Hardin JW，Hilbe JM：广义线性模型和扩展。2007年，德克萨斯州大学城：Stata出版社，2
谷歌学者
Friedman JH：贪婪函数近似：梯度提升机。Ann Stat.2001，29:1189-1232。10.1214/aos/1013203451。
第条谷歌学者
Friedman JH：随机梯度增强。计算统计数据分析。2002, 38: 367-378. 10.1016/S0167-9473（01）00065-2。
第条谷歌学者
格雷格·里奇韦。gbm：广义增强回归模型。R包版本1.6-3。2007, [http://cran.r-project.org/web/packages/gbm/index.html]
R开发核心团队：R：统计计算的语言和环境。2008年，奥地利维也纳：R统计计算基金会
谷歌学者
Kapur K，Jiang H，Xing Y，Wong WH:Affymetrix外显子阵列的交叉杂交建模。生物信息学。2008, 24: 2887-2893. 10.1093/bioinformatics/btn571。
第条公共医学中国科学院公共医学中心谷歌学者
Irizarry RA、Bolstad BM、Collin F、Cope LM、Hobbs B、Speed TP：Affymetrix基因芯片探针水平数据摘要。《核酸研究》2003，31:e15-10.1093/nar/gng015。
第条公共医学公共医学中心谷歌学者
Pan Q，Shai O，Miswetta C，Zhang W，Saltzman AL，Mohammad N，Babak T，Siu H，Hughes TR，Morris QD，Frey BJ，Blencowe BJ:使用定量微阵列平台揭示哺乳动物选择性剪接的全球调控特征。分子细胞。2004, 16: 929-941. 2016年10月10日/j.molcel.2004.12.004。
第条公共医学中国科学院谷歌学者
UCSC基因组浏览器。[http://genome.ucsc.edu/]
Lander ES、Linton LM、Birren B、Nusbaum C、Zody MC、Baldwin J、Devon K、Dewar K、Doyle M、FitzHugh W、Funke R、Gage D、Harris K、Heaford A、Howland J、Kann L、Lehoczky J、LeVine R、McEwan P、McKernan K、Meldrim J、Mesirov JP、Miranda C、Morris W、Naylor J、Raymond C、Rosetti M、Santos R、Sheridan A、Sougnez C、，等人：人类基因组的初步测序和分析。自然。2001, 409: 860-921. 10.1038/35057062.
第条公共医学中国科学院谷歌学者
Waterston RH、Lindblad-Toh K、Birney E、Rogers J、Abril JF、Agarwal P、Agarwarla R、Ainscow R、Alexandersson M、An P、Antonarakis SE、Attwood J、Baertsch R、Bailey J、Barlow K、Beck S、Berry E、Birren B、Bloom T、Bork P、Botcherby M、Bray N、Brent MR、Brown DG、Brown-SD、Bult C、Burton J、Butler J、Campbell RD、Carnincin P、，等：小鼠基因组的初步测序和比较分析。自然。2002, 420: 520-562. 10.1038/nature01262。
第条公共医学中国科学院谷歌学者
姜浩，王文华：SeqMap：将大量寡核苷酸映射到基因组。生物信息学。2008年，24:2395-2396。10.1093/bioinformatics/btn429。
第条公共医学中国科学院公共医学中心谷歌学者
Ondov BD、Varadarajan A、Passalacqua KD、Bergman NH:应用生物系统SOLiD序列数据到功能基因组应用参考基因组的高效映射。生物信息学。2008, 24: 2776-2777. 10.1093/bioinformatics/btn512。
第条公共医学中国科学院公共医学中心谷歌学者
CRAN上的mseq[http://cran.r-project.org/web/packages/mseq/index.html]
Ji H、Jiang H、Ma W、Johnson DS、Myers RM、Wong WH:分析ChIP-ChIP和ChIP-seq数据的集成软件系统。国家生物技术。2008, 26: 1293-1300. 10.1038/nbt.1505。
第条公共医学中国科学院公共医学中心谷歌学者

下载参考资料

致谢

本研究由NIH资助R01 HG004634和R01 HG 003903。本项目中的计算是在美国国家科学基金会计算基础设施拨款DMS-0821823支持的系统上进行的。我们感谢Xi Chen对RNA-Seq实验协议的讨论。我们还感谢三位匿名审稿人提出的富有洞察力和建设性的意见和建议，这些意见和建议大大改进了我们的论文。

作者信息

作者和附属机构

斯坦福大学统计系，红杉厅，390 Serra Mall，Stanford，CA，94305，USA
Jun Li、Hui Jiang和Wing Hung Wong
斯坦福基因组技术中心，855 California Ave，Palo Alto，CA，94304，USA
汇江
斯坦福大学卫生研究与政策系，地址：259 Campus Drive，Redwood Building，Stanford，CA，94305，USA
王永雄

作者

李军（Jun Li）
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
汇江
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
王永雄
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信王永雄.

其他信息

作者的贡献

JL、HJ和WHW构思了这项研究。JL开发了方法，进行了分析，并起草了手稿。HJ和WHW审查并修订了手稿。所有作者都已阅读并批准了最终稿。

电子补充材料

13059_2009_2343_MOESM1_ESM.doc

附加文件1：补充材料。Word文档包含本文的补充材料，其中提供了有关我们提出的方法的详细信息和讨论。（文档608 KB）

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

权利和权限

转载和许可

关于本文

引用这篇文章

Li，J.，Jiang，H.&Wong，W.H.在RNA-Seq数据中模拟短读速率的不均匀性。基因组生物学 11，R50（2010）。https://doi.org/10.1186/gb-2010-11-5-r50

下载引文

收到:2009年11月20日
修订过的:2010年4月13日
认可的:2010年5月11日
出版:2010年5月11日
内政部:https://doi.org/10.1186/gb-2010-11-5-r50

RNA-Seq数据中短读速率的非均匀性建模

摘要

背景