跳到主要内容

Solexa测序数据的概率基调用

摘要

背景

Solexa/Illumina短读超高通量DNA测序技术通过DNA菌落的并行测序和合成产生数百万个短标签(多达36个碱基)。此类高通量数据的处理和统计分析带来了新的挑战;目前,由于无法将标签与参考序列匹配,相当一部分标签被常规丢弃,从而降低了该技术的有效吞吐量。

结果

我们提出了一种新的基调用算法,该算法利用基于模型的聚类和概率理论来识别模糊基,并用IUPAC符号对其进行编码。我们还使用基于信息内容的分数来选择最佳子标签,以消除接近读取末尾的不确定基数。

结论

我们表明,与Solexa的数据处理管道相比,该方法平均提高了15%的基因组覆盖率和可用标签数量。提供了一个R包,可以快速准确地调用Solexa的荧光强度文件并生成信息丰富的诊断图。

背景

超高通量测序通过提供快速、高分辨率的基因组信息访问,对生物研究产生了越来越大的影响。通用技术可用于无偏见的基因分型[1],转录组分析[46],蛋白质-DNA相互作用[7,8],德诺沃排序[9,10]. 虽然样本处理相对简化,但数据管理和信息处理方面的创新对于充分发挥该技术的潜力是必要的。标准的Solexa/Illumina基因组分析仪“经典”运行可在3.5天内生成700 Gb的图像文件和200 Gb的处理数据文件,总计近400000个图像文件和20000个处理文件。最新的GAII升级进一步增加了数据量,主要是通过获取更大的图像(尽管只有100块)和执行配对测序的能力(每个群体72个碱基)。管理日常排序运行所需的计算基础设施的设置和维护成本极高。因此,开发新的算法以从可用图像中提取更多信息并减少每个项目的测序运行次数将被证明是非常有价值的。最后,设计良好的质量指标和诊断工具将允许快速评估测序运行的质量,并决定适用的数据保留策略。

Solexa/Illumina基因组分析仪对附着在流动细胞表面的随机克隆DNA克隆阵列进行顺序合成。在细胞的8条通道中,每一条都有大约800万个这样的菌落。在每个合成周期中,用四种不同的荧光染料标记并在3’末端封闭的所有四种核苷酸都被引入流动池。最多执行36个这样的合成循环。

基因组分析仪“经典”上的数据采集过程如下:细胞的每条通道被分成大约300块瓷砖,分别通过四个不同的滤光片进行拍摄。图像分析软件在每张图片上定位每个菌落,并量化相应的四种荧光强度。输出包括每个平铺一个文件,每个群体一行,由四个坐标和多达144个实数组成,共36个强度四倍。基调用开始于量化的下游,并重建可能产生每个菌落的DNA序列。Solexa数据分析管道为每条车道中的每个瓷砖输出两个重要文件:一个序列文件,其中序列由每个强度行确定,另一个快速q文件,其中每个基准的质量分数都被调用。这个快速q值测量了在-5到40的对数范围内相对于其他三种强度的最可能的基本强度(它逐渐等于Phred值[11]). 在这里,我们提出了一种基于荧光强度量化的替代概率基调用方法,该方法使用扩展的IUPAC字母表对模糊基进行编码。信息标准用于控制可信任读取的长度。我们表明,这种方法在原始序列上增加了约15%(通常为10-25%)的标签到参考基因组的特定映射,在质量过滤后增加了70%。该方法在一个名为Rolexa的自由分发软件中实现。

最近也发表了类似的方法。Cokus等人在分析拟南芥甲基化模式时引入的方法与我们在使用高斯混合物方面最接近[12]. Alta-Cyclic基调用者[13]使用需要在已知数据集上训练的支持向量机。我们的方法计算量小且模块化,因为它提供了一组互补功能,试图解决Solexa序列中观察到的各种偏差[1416]基于所涉及的生物化学的简单模型。

结果

荧光发射的统计特性

几个噪声源干扰了采集步骤:图像中的信噪比取决于菌落在成像场中的位置(边界效应),菌落在图片上很难分割,荧光发射光谱部分重叠,因为发射“泄漏”到相邻通道。此外,合成效率有限,因此,在每个群体中,一些DNA链包含非互补碱基,或者由于在前一步未能包含核苷酸而失同步。这两种效应都导致了与大多数菌落不同的荧光团的发射。这些影响可能取决于序列的碱基组成[17]并且随着每一个额外的化学循环明显恶化。

我们使用phiX174的测序(参见材料和方法)来分析测序过程中四个彩色通道中的信号。我们首先观察到,虽然直方图的形状很大程度上取决于使用的染料,但单个通道中的强度分布显示出背景噪声和信号之间的良好分离(图。1安培和附加文件1). 例如,G公司其动态范围比T型范围一般随循环次数的增加而减小。最大范围跨越4-5个日志。随着测序的进行,动态范围减小,信噪比恶化,背景噪声和信号之间的分离变得越来越模糊(附加文件1). 接下来,我们观察到C类频道,以及T型G公司通道,高度相关(图。1安培).

图1
图1

荧光强度中的信号和噪声.在phiX174测序数据的五个串联瓷砖上表示第一个合成周期。强度投影在对应于C类频道和G公司T型周期1和15处的地震道。椭圆代表高斯混合(显示了一个标准偏差的中心和直线)。B类。去相关转换后的相同数据(请参见方法)。着色反映了概率最大的混合物成分。

减少位置偏差、相位差和串扰

如上所述,在强度数据水平上存在三个主要的系统偏差来源。第一个是彩色通道之间的串扰:例如C类渠道不是独立的。因此,我们通过线性映射将原始强度转换为具有角度轴的基ϕθ相对于原始轴(参见方法)。我们对这两个角度进行优化,以使变换后的坐标之间的总体相关性最小化。我们在每个测序周期以及其他两个周期重复此操作,G公司T型通道(图。1B年).

第二个重要的偏差是菌落失相:周期中特定通道中发射的荧光量n个取决于序列中各个位置对应的碱基数量1, ...,n个-1因为之前循环中累积的合并失败将在循环中得到部分补偿n个从而增加所有信道中的信号。这种交叉周期依赖性可以通过带参数的二项式分布进行建模q个这是在每个合成周期中互补链不伸长的概率。我们假设这个速率对于所有核苷酸和所有循环都是相等的。我们确定q个通过最小化循环强度之间的平均相关性n个n+1.

系统变化的最后一个主要来源是光学效应:在每一块瓷砖上,靠近图像中心的菌落比靠近边缘的菌落更亮(附加文件2). 我们通过拟合二维lowess来纠正这个问题[18]对每个瓷砖的强度进行建模,并减去拟合强度和中值强度之间的差值。

在应用下面描述的基于模型的聚类算法之前,对原始强度依次应用三种校正(参见方法)。

基于模型的聚类和信息理论库调用

我们使用了基于模型的聚类算法[12,1922]将强度四倍分为四组。很明显,出现了与四个碱基相对应的四个清晰的簇(图。1A–B级). 具体来说,我们用四个四维高斯随机变量的混合物对每个通道中测量的强度进行建模,并使用一个或几个组合瓷砖中所有菌落的强度四倍来拟合模型参数。拟合模型在强度四倍空间上提供了四种概率分布,即概率(k个) =(|1(k个), ...,4(k个))那个k个第个要调用的基数是了解周期中所有四个通道的测量强度k个,对于C类,G公司T型.我们可以通过熵来测量基础调用中的不确定性水平 小时 ( k个 ) = α { ACGT公司 } α ( k个 ) o个 2 α ( k个 ) 数学类型@MTEF@5@5@+=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaaeGaciGaaiaabeqaaqaqabibiWaaaGcbaGaa emiAaGMaeiikaGIaem4AaSMaeiika KIaeyypa0JaeyOeI0YaaabuaeaacqWGqbaudaWgaaWcbaGaeqySdegabeaakiabcIcaOiabdUgaRjabcMcaPiabcYgaSj美国广播公司+gaVjabc EgaNnaaBaaaleaacqaYaGmaeqaaOGaemiuaa1aaSbaaSqaaiabeg7aHbqabaGccqGGOaakcqWGRbWAcqGGPaqkaSqaaibeg7aHjabgIGiolabcUha7jabbgeabjabboeadjabbEeahjabbsfaujabc2ha9bqab0GaeyyeIuoaaaa@5034@ 它测量确定正确值的不确定性(以位为单位)k个第个底座[23]. 知道小时然后,我们使用概率单纯形中的截止值来决定调用哪个IUPAC代码(图2安培,方法)。随着测序的进行,我们还计算了每个菌落的累积熵, H(H) ( n个 ) = k个 = 1 , , n个 小时 ( k个 ) 数学类型@MTEF@5@5@+=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xH8viVGI8Gi=hEeeu0xXdba9frFj0xb9qqpG0dXdb9aspeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemisaGKaeikaGIaemOBa4MaeiikaKIaeyypa0ZaabuaeaacqWGObaAcqGGOaakcqWGRbWAcqGGPaqkaSqaaiabdUgaRjabg2da9iabigdaXabcYcaSiablAciljabcYcaSiAbd6gaUbqabb0GaeyyeIuoaaaa@3F34@ ,它估计日志2与调用到位置的代码兼容的实际序列数n个。此总熵用于将标签从最模糊到最模糊进行排序。3A级结果表明,该模糊度得分与Solexa快速q质量得分相关,但明显不同。模糊度度量对于基因组组装或多态性鉴定很有用,因为它允许在从标签的多重比对中获得统计数据时向下加亮低质量标签。如下所示,该指标还可用于优化标签长度,并增加在参考基因组上识别匹配的机会。

图2
图2

由熵确定的基本调用..三字母字母表的概率单纯形(=蓝色,C类=红色,G公司=绿色)。三角形中的每个点都是概率三元组(,C类,G公司)由相应的混合色表示。蓝线是等熵水平,黑线是各种IUPAC代码之间的截止点。这些对应于状态变量的中点(S公司= 2小时).B类.每基的熵在36个基上的10块瓷砖上的分布。底部的红线表示IUPAC截止。每个节段内的质量用红色表示。

图3
图3

质量和熵取决于序列中的位置.分位数-快速q质量分数与每个基础的信息含量的分位数图。这两个指标之间的相关性很松散,但显然不等同。B类沿着测序的前35个碱基的快速q得分的方框图。在14个垒之后,整体的基础质量急剧下降,但分布仍然延伸到30到35个垒时的前40分。C类四类模糊IUPAC代码的频率与序列中的位置有关。

基因组覆盖率统计

为了评估基本调用的质量,并将其与通过Solexa分析管道获得的序列进行比较,我们计算了映射效率#{精确映射到基因组}/#{总读取次数}。我们使用了获取GWI工具[24]在5386 nt参考phiX174基因组序列[RefSeq:NC_001422]上搜索IUPAC代码中编码的每个测序标签的唯一精确匹配。因此,我们丢弃了在多个位置匹配或在引用序列的任何位置不完全匹配的每个标记。Solexa流单元的一条通道(330块)产生了8 M个标签、3 M个唯一标签和3.8个可映射标签,每次运行的吞吐量为1.37亿个立即可用的基础。通过降低我们看到的质量对标签进行排序(图4)低熵标签很容易被Solexa和Rolexa管道识别,但在低质量序列中,Rolexa-called标签的覆盖率显著增加,导致总覆盖率增加至10-25%(平均15%)。我们还发现,根据质量(或熵,未显示数据)进行排名是一种明智的优先级策略,因为覆盖范围在列表顶部急剧增加,随后趋于平稳。

图4
图4

Rolexa控球提高了覆盖率黑色:Solexa基本调用,蓝色:仅使用ACGT字母表的Rolexa基本调用(最可能的基本调用),绿色:使用IUPAC代码的Rolex基本调用,红色:使用IOPAC代码的罗lexa基础调用和标记长度优化。右边距中的数字是以百万为单位的匹配标签数。序列标签按质量下降(快q)排序,并搜索参考phiX174基因组上的唯一精确匹配。垂直轴显示找到精确匹配的标签的比例。

为了估计测序的错误率,我们使用了对齐0[25]搜索每个标签和phiX基因组之间的最佳匹配,然后计算标签和参考之间的不匹配数量。5A级显示了错误率是如何随着Solexa标签的测序周期而增加的。使用最可能的ACGT基调用的Rolexa标签显示增长较慢,引入IUPAC代码显著降低了错误率的截距和斜率,这是测序周期的函数。

图5
图5

互补碱基比率不平衡..每个测序周期的错误率。每个标签在基因组上使用对齐0以及通过计算被调用的基与相应位置的引用之间的差异数来定义的错误率。黑色表示Solexa-called标签的错误率,蓝色表示仅使用ACGT字母表调用的Rolexa标签,绿色表示使用IUPAC代码的Rolex-called标记。B类.基地比例,C类,G公司T型Solexa基地呼叫(虚线)和Rolexa基地呼叫(连续线)标签中的每个位置。互补的T型比例不同(比率不是1),并且沿着序列降低(线漂移)。尽管比例与1不同,但使用Rolexa基本调用时,比例对位置的依赖性较小。y轴上的标签错误。面板C-D公司重点关注通过Rolexa基调用“拯救”的标签,即那些在Solexa基调用后无法映射到基因组上,但通过Rolex基调用具有匹配位置的标签。C类Solexa标签和相应的Rolexa标签之间的替换分布表明C类T型G公司与基础互补性的重新平衡相一致的替代。D类。在Solexa标签中随机位置引入1到6个与Rolexa算法频率相同的突变,仅能挽救约2%被Rolexa-算法拯救的具有相同数量模糊碱基(绿色条)的标签。

基本分布统计

Solexa序列的一个令人惊讶的特性是互补性之间的不平衡T型基数以及两者之间G公司C类[14]. 如图所示5亿,随着测序的进行,比例逐渐恶化,这可能与互补碱基对荧光染料的不同噪声水平以及染料特定的化学效应有关(见图。1). 因此,更可能称为接近背景的强度T型,或C类G公司在强度水平上应用我们的校正可以稳定碱的比例,这对于T来说尤其明显。由于目前我们还不清楚A/T比不是一,而是稳定在0.9左右(图5亿).

为了确定我们增加的覆盖率是否不仅仅是字母表更退化的结果,我们验证了在随机位置引入歧义并不会同样改善映射。因此,我们根据Solexa碱基调用选择了在基因组上不匹配的标签,但在Rolexa引入1到5个模糊碱基后匹配。然后我们在这些标签中引入了模糊性,频率与Rolexa相同,但位置是随机的。第五天显示,只有大约2%的随机突变在基因组上找到了匹配,这表明熵是模糊位置的特定预测因子。

优化标签长度

虽然Solexa的质量分数沿着序列趋于下降,但其分布主要是向下扩散,而不是向下移动(图。3B公司). 因此,基于平均质量计算全局长度截止值将丢弃许多高质量的基础,不一定确保质量一致。因此,我们希望通过将标签剪切到更短的长度来增加可以映射到参考序列的标签数量[26]. 然而,这个过程有一个缺点,因为它会减少每个标签的覆盖长度,并增加找到多个匹配的概率。同样,标准Solexa程序建议选择平均快速q值高的标签。然而,低平均值可能是由于靠近有用标签末尾的几个不确定基数造成的。

我们通过应用以下质量过滤器测试了不同的选择。对于Solexa方法,我们将标签长度切割为20、25、26、28、30,然后过滤所有快速q值平均值低于30、25或20的序列。相比之下,我们对Rolexa标签使用了以下过滤过程:我们选择了3个不同长度相关的熵截止值信息技术(k)(参见方法)并在每次读取中搜索最长时间k个-总熵小于的mer信息技术(k)。然后,我们将此子序列在两个方向上扩展到下一个不明确的基,并最终删除了所有小于10个基的标记。图中总结了不同过滤器的覆盖率统计信息6我们对330个靶向人类基因组区域的序列进行了类似的分析,发现核苷酸覆盖率平均增加了50%(附加文件). 我们看到,根据实际覆盖率与预期覆盖率的比率以及基因组上具有唯一匹配的标签的比率,Rolexa的效率在所有数据集中都是优越的。后一个标准很重要,因为在高通量测序的许多应用中(如基因表达测量或ChIP-Seq),覆盖范围不如基因组上的命中数重要。同样,在基因分型和靶向重新测序中,如果预期匹配不准确,那么在与参考序列进行匹配之前可靠地过滤出低质量标签的能力是最重要的,因为必须将实际多态性与测序错误区分开来。

图6
图6

依赖标签的质量过滤提高了映射效率。使用了几个熵截止值来过滤低质量的Rolexall标签,并将标签减少为得分较高的子标签。Solexa-called标签被过滤到与前几组标签的平均长度相同的长度,以及不同的平均快速q分数。。目标基因组的实际覆盖率是预期覆盖率的函数(如果所有标签都可以被映射)。B类.筛选覆盖率(实际覆盖的核苷酸数除以预期数X轴)和标签映射率(映射到基因组的标签数除以通过质量过滤器的标签数Y轴)的效率。在所有数据集中,Rolexa(红点)的效率都优于Solexa(绿点)。点标有使用的截止值(见正文):Rolexa截止值可以是常数(2、4、6、8)、对数增长(Log)或指数增长(Exp),Solexa截止值由两个数字表示,长度截止值后面是快速q截止值。

讨论

Solexa高通量测序技术分析中的几点可能会从进一步的改进中受益。首先,应该减少互补基础之间的不平衡。尽管phiX174是一种单链DNA病毒,但该文库是由双链共价闭合环状基因组制备的。如图所示,随着测序周期的进行,测序结果显示互补碱基之间的平衡日益恶化(图5亿). 我们的方法对此进行了改进,但并没有完全解决问题。

Dohm等人最近也采用了类似的方法[14]已经观察到与这里描述的偏差类似的偏差,但只建议在序列比对级别上纠正它们,而不是在基调用级别上。Cokus等人[12]使用Solexa的预处理数据(_sig2文件),并应用非常类似的EM过程来拟合高斯混合模型以进行概率基调用。他们不使用基于信息的度量来降低IUPAC编码的概率,而是构建位置权重矩阵,用以扫描参考基因组,这在计算上是昂贵的,并且不直接适用于德诺沃排序。Erlich等人[13]训练基于参考序列优化的支持向量机,该参考序列的计算成本很高。Rolexa只需要一台(现在很常见的)多核计算机,并在10小时内对5个核的一条通道进行完整分析。此外,它还基于对系统生物化学特性的建模。

这里我们没有考虑微调图像分析算法的潜在重要好处。观察显微镜设备生成的图像可以发现,当图像的某些区域的菌落密度高时,就会发生出血,给每个菌落分配正确的荧光强度显然是一个棘手的问题(见[16]).

由于Solexa输出数据的文件大小和格式很大,同时(和随机)访问20000个文本文件会给任何标准文件系统带来很大压力,更不用说备份设备了。Rolexa使用压缩的输入和输出,这已经大大减小了文件大小。然而,更合适的文件格式可以帮助存储和处理,例如使用后缀表和树[27,28]. Solexa/Illumina测序器的最新GAII升级通过更大的采集区域、更长的读取和配对测序生成更多数据。生成更长的读取时间需要高效可靠的算法来进行基本调用,直到读取结束时,算法的精确度都是合理的。此外,吞吐量的增加要求这些算法速度快,并且基于直接和简单的方法,这些方法不需要从一次运行调优到下一次运行即可重复使用。

结论

Solexa/Illumina高通量测序已经并将越来越多地产生大量系统规模的基因组学和功能基因组学数据。与其他高通量技术一样,信号处理和数据统计评估的改进将证明是技术成熟的关键一步,也是可靠应用和新发现的进展[29].

方法

样品制备和基因组分析仪测序

使用的phiX174控制库由Illumina(目录号CT-901-001)制备。简单地说,通过雾化作用,病毒DNA的双链共价闭合环状被打破成100–400 bp的片段;Klenow、T4 DNA聚合酶和PNK修复末端;和一个底座在3英尺末端添加。在连接双链基因组适配器后,对样品进行凝胶纯化,以分离“插入物”约为200 bp的片段,并通过18个PCR周期进行扩增(Illumina协议“为基因组DNA测序准备样品”,第11251892号A版)。该文库通过将等分样本克隆到TOPO质粒并对5-10个克隆进行毛细管测序来进行质量控制。

使用“标准群集生成试剂盒”(目录号FC-103-1001)和“Illumina群集站”流动细胞中35次等温扩增循环,使用10 nM文库的pM稀释液制备DNA集落。在扩增之后,将其中一条链移除;末端转移酶在双脱氧核苷酸存在下阻断自由3'-末端;基因组测序引物杂交。将流动细胞转移至“经典”基因组分析仪,并使用2.0版扫描缓冲液的“36周期测序试剂盒”(目录号FC-104-1003)进行36个周期的测序。

人类细胞的测序

用于附加文件的示例来自长程PCR扩增获得的混合DNA[30]来自3个不同个体的19号染色体的30kb区域加上来自第四个个体的3号染色体的50kb区域。如上所述对phiX174进行测序。

数据分析

本文的所有数据分析都是使用R统计框架进行的http://www.r-project.org/和Rolexa套装。此包使用麦克卢斯特例行程序[20]以及包在多核架构上高效运行。已使用获取GWI工具[24]首先生成phiX174基因组的综合索引,并将每个查询与其索引项匹配。我们使用对齐0[25]从标签到基因组搜索最佳匹配并估计错误率(见图。5A级). 计算错误时,IUPAC代码与其兼容基之一的对齐被视为正确匹配。

原始数据分析(图像分析、初始基本呼叫和快速q分数)使用Firecrest公司图像分析模块和巴斯塔Illumina软件套件中的base-caller(SolexaPipeline-0.2.2.6)。无过滤或分析杰拉尔德已执行。

初步数据转换

我们对测量强度I建模(α,n个,x个) (α=,C类,G公司,T型是染色通道,n个= 1, ...,36是循环编号和x个表示菌落坐标)作为以下无偏强度的组合J型(α,n个,x个):

( α , n个 , x个 ) = = 1 , ... , n个 β = , C类 , G公司 , T型 M(M) ( α , β ) J型 ( β , , x个 ) R(右) ( , n个 ) , 数学类型@MTEF@5@5@@=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaaaabeqaaeqabiWaaaGcbaGaemysaKKaeiikaGIaeqySdeMaeiilaWIaemOBa4Maeiila WIaemi EaGNaeiykaKIaeyypa0Zaabuaeaadaaeqbqaaabd2eanjabcIcaOiabeg7aHjabcYcaSiabek7aijabcMcaPiabdQeakjabcIca Oiabek7aIjabcYca Siabd2gaTjabcYjabc Siabd6gaUjabcMcaPaWcbaGaeqOSdiMaeyypa0JaemyqaeKaeiilaWIaem4qam Kaeiila WIaem4 raCKaeiilaWIAEmivaqfabeqdcGHris5aaWcbagaemyBa0MaeyYPa0JaeGymaeJaeiilaWiaeiola4IaeiOla4IaeilaWIaamOBa4gabeqqGHris5aOGaeiila Wcaaa@64BE@

其中4×4矩阵M(M)是块对角的混合矩阵,取决于4个参数ϕ 自动控制 ,θ 自动控制 ,ϕ 燃气轮机 θ 燃气轮机 :

M(M) ( { , C类 } , { , C类 } ) = ( c(c) o个 θ C类 θ C类 余弦 φ C类 φ C类 ) , 数学类型@MTEF@5@5@+=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpei8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaaeGaciGaaiaabeqaqaqabiWaaabiWaaaGcb aGaemyta00aaeWaaeaadaGadaqaaiabdgeabjabcYcaSiabdoeadbGaay5Eaiaaw2haiabcYcaSmaacmaabaGaemyqaeKaeiilaWIaem4qameacaGL7bGaayzFaaaacaGLOAGaayzkaaGaeyypa0ZaaewaaaaafaqabeGacaaabaGaei4yamMaei4Ba8Maei4CamNaeqiUde3aasbaaaqaaabdgeabdjabdoeadbqabaaakeacyGGZbWCcqGGPbqAcqGUbGBcqaH4oqCdaWgaaWcbaGaemyqae4qae4kameabeaaaaOqaaiGbcogaJjabc+gaVjabchoaZjabeA8aQnaaBaaaleaaacqWGbbqqcqWGdbWqaeqaaaGcbaGagi4CamNaeiyAaKMaeiOBa4MaeqOXdO2aaSbaaSqaaabdgeabjabdoeadbqabaaaaaGccaGLOAGaayzkaaGaeiilaWcaaa@5E4C@

类似地G公司,T型块和退相矩阵R(右)是参数的函数q个具有二项式结构:

R(右) ( , n个 ) = { 0 如果 > n个 , ( n个 ) q个 n个 ( 1 q个 ) 如果 n个 . 数学类型@MTEF@5@5@@=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaemOuaiIkaGIaemyBa0MaeiilaWIaemOBa4MaeiykaKIaeyypa0ZaiqaaaafabeGabaaabaGaeGimaaJaeeiiaaaaeyAaKMaeeOzayMaeiiaaaaemyBa0迈耶Opa4JaemOBa4MaiiilaWcabaWaaeaafaqabeGabaGaemOBa4加巴加巴盖米巴巴巴巴加巴加亚巴加巴巴巴盖米巴0gaaaaGaayjkaaawMcaaiabdghaXnaaCaaleqabaGabaaGabaGaaGabaa emOBa4MaeyOeI0IaemyBa0gaaOGaeiikaGIaeGymaeJaeyOoeIaemyCaeyNaeiykaKYAAWbaaSqabeaacqWGTbqBaaGccqGGaaicqGPbqAcqqGMbGzcqGgaaicqGbqBcqGHKjYOcqWGUbGBcqGUaGlaaaaacaGL7baaaa@5893@

参数ϕ 自动控制 ,θ 自动控制 ,ϕ 燃气轮机 ,θ 燃气轮机 通过最小化以下函数来确定:

F类 n个 (θ 自动控制 ,ϕ 自动控制 ,θ 燃气轮机 ,ϕ 燃气轮机 )=cor(M(M)-1(,n个, •),M(M)-1 (C类,n个, •))2+cor公司(M(M)-1 (G公司,n个, •),M(M)-1(T型,n个, •))2,

它定义了一个中间强度矩阵K(K)=M(M)-1 。然后将其引入函数

G公司 ( q个 ) = α , n个 c(c) o个 第页 ( R(右) 1 K(K) ( α , n个 , ) , R(右) 1 K(K) ( α , n个 + 1 , ) ) 2 , 数学类型@MTEF@5@5@@=feaagart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi=xI8qiVKYPFjYdHaVhbbf9v8qaqFr0xc9vqFj0dXdba91qpepeI8k8fiI+fsY=rqGqVepae9pg0db9vqaiVgFr0xfr=xfr=xc9adbaqaaeGaciGaaiaabeqaaeqabiWaaaGcbaGaem4raCKaeiikaGIaemyCaeNaeiykaKIaeyypa0ZaaabuaaacqGGJbWycgGVbWBcqGYbGCdaqaaaiabdkfasnaaCaaaleqabaGaeyOeIa0IaeGymaem4saSKaeiika GIaeqySdeMaeiilaWIaemOBa4Maeiila WIaeyOiGCRaeiyka KIaeilaWIaamOai1aaWbaaQaacqaWbaaqaacqa GhaisalcqaIXaqama aGccqWGlbWscqGGOaakcqaHXoqycqGGSalcqWGUbGBcqGHRaWkcqixaqmcqGGSaalcqGHIaYTcqGGPaqkaiaawIcacaGLPaaadaahaaWcbeqaaiabikdaYaaaaacqahXoqcycqGGSalecqGGUbGBaeqaniabggHiLdGccqGGSaraaaaaaaaaaaa@5A73@

其被最小化以确定q个.

最后,我们修正了簇坐标函数中的系统偏差,如下所示:我们拟合了一个二维lowess[18]作为的函数(x),年)坐标,然后减去该拟合与所有四个通道中每个平铺和循环的中值强度之间的差值。

基于模型的聚类和数据拟合

我们使用了电动汽车的模型麦克卢斯特算法[20]拟合用于根据四维强度向量函数分配基本概率的高斯混合,类似于在[12]. 该模型假设具有四个形状和体积相同但方向不同的协方差矩阵的高斯混合。我们通过将每个菌落归因于具有最高(校正)强度的核苷酸来初始化分类。考虑到初始分类麦克卢斯特执行算法,在给定类别属性的情况下估计最大似然参数,其中要估计的参数是全局尺度和形状参数以及每个类别的中心和方向(使用中描述的协方差参数化[20]). 然后是EM算法的E步骤,以估计属于每个类别的每个数据点的条件概率,并给出先前获得的参数估计值。EM算法的完全收敛是一个选项,但由于离群值的影响(与在[12]). 有关实现的更多详细信息,请参阅软件包文档(请参阅可用性部分)。

基本呼叫和标签长度的截止值

Rolexa算法需要两种类型的截止值,这两种截止值都可以在Rolex包中轻松自定义。在所给出的分析中,概率单纯形中不同IUPAC基之间的极限(图2安培)已设置为HT(n)=对数2(n个+0.5)与n个=1,2,3(图2B型). 其次是长度相关的截止值IT(n)通过选择最长的子标签来过滤不确定的基S公司总熵小于信息技术(n=长度(S) ).在图中6我们使用了以下6个选项:常量信息技术 c(c) (n)=c(c)使用常量c(c)设置为2、4、6或8,两个截止值随着标签长度的增加而增加:信息技术日志(n个)=对数2(4 + (n个-1)/5)和信息技术费用(n个) = 2(1+(n个-1)/36)后两个截止值在序列长度上介于2和大约4之间插值,但第一个截止值是凹的(开始时增加得更快),第二个是凸的。

可利用性

我们开发了一个名为Rolexa的R包,可从http://bbcf.epfl.ch/软件。它根据GPL许可证分发,并使用麦克卢斯特属于R分发的一部分的包。

工具书类

  1. Bentley DR:全基因组重新排序。遗传学与发展的当前观点2006, 16(6):545–552. 2016年10月10日/j.gde.2006.10.009

    第条 中国科学院 谷歌学者 

  2. Chen W、Kalscheu V、Tzschach A、Menzel C、Ullmann R、Schulz M、Erdogan F、Li N、Kijas Z、Arkesteijn G、,.:通过下一代测序绘制易位断点。基因组研究2008

    谷歌学者 

  3. Korbel JO、Urban AE、Affourtit JP、Godwin B、Grubert F、Simons J、Kim PM、Palejev D、Carriero NJ、Du L、,.:配对基因绘图揭示了人类基因组中广泛的结构变异。科学类2007, 318(5849):420–426. 10.1126/科学.1149504

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  4. Hafner M、Landgraf P、Ludwig J、Rice A、Ojo T、Lin C、Holoch D、Lim C、Tuschl T:使用cDNA文库测序鉴定微RNA和其他小调控RNA。方法2008, 44(1):3–12. 2016年10月10日/j.ymeth.2007.09.009

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  5. Vera JC、Wheat CW、Fescemyer HW、Frilander MJ、Crawford DL、Hanski I、Marden JH:使用454焦磷酸测序对非模式生物进行快速转录组表征。分子生态学2008, 17(7):1636–1647. 10.1111/j.1365-294X.2008.03666.x

    第条 中国科学院 公共医学 谷歌学者 

  6. Friedländer MR、Chen W、Adamidi C、Maaskola J、Einspanier R、Knespel S、Rajewsky N:使用miRDeep从深度测序数据中发现微RNA。Nat生物技术2008, 26(4):407–415. 10.1038/nbt1394

    第条 公共医学 谷歌学者 

  7. Mikkelsen T、Ku M、Jaffe D、Issac B、Lieberman E、Giannoukos G、Alvarez P、Brockman W、Kim T、Koche R、,.:多能干细胞和谱系提交细胞染色质状态的全基因组图。自然2007, 448(7153):553–560. 10.1038/性质06008

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  8. Barski A、Cuddapah S、Cui K、Roh TY、Schones DE、Wang Z、Wei G、Chepelev I、Zhao K:人类基因组中组蛋白甲基化的高分辨率分析。单元格2007, 129(4):823–837. 2016年10月10日/j.cell.2007.05.009

    第条 中国科学院 公共医学 谷歌学者 

  9. Hernandez D、François P、Farinelli L、Osterás M、Schrenzel J:新生细菌基因组测序:在台式计算机上组装数百万个非常短的读取。基因组研究2008, 18(5):802–809. 10.1101/gr.072033.107

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. Margulies M、Egholm M、Altman W、Attiya S、Bader J、Bemben L、Berka J、Braverman M、Chen Y、Chen Z、,.:微细加工高密度微微立方体反应器中的基因组测序。自然2005, 437(7057):376–380.

    公共医学中心 中国科学院 公共医学 谷歌学者 

  11. 尤因B,格林P:使用phred对自动定序器轨迹进行基线标定。二、。错误概率。基因组研究1998, 8(3):186–194.

    第条 中国科学院 公共医学 谷歌学者 

  12. Cokus SJ、Feng S、Zhang X、Chen Z、Merriman B、Haudenschild CD、Pradhan S、Nelson S、Pellegrini M、Jacobsen SE:拟南芥基因组的Shotgun亚硫酸氢盐测序揭示了DNA甲基化模式。自然2008, 452(7184):215–219. 10.1038/性质06745

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  13. Erlich Y、Mitra PP、Delabastide M、McCombie WR、Hannon GJ:Alta-Cyclic:下一代测序的自我优化基调用者。Nat方法2008

    谷歌学者 

  14. Dom JC、Lottaz C、Borodina T、Himmelbauer H:高通量DNA测序的超短读数据集中的重大偏差。核酸研究2008

    谷歌学者 

  15. Smith A、Xuan Z、Zhang M:使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学2008, 9: 128. 10.1186/1471-2105-9-128

    第条 公共医学中心 公共医学 谷歌学者 

  16. Dolan PC,丹佛DR:TileQC:Solexa数据基于瓷砖的质量控制系统。BMC生物信息学2008, 9(1):250. 10.1186/1471-2105-9-250

    第条 公共医学中心 公共医学 谷歌学者 

  17. Yakovchuk P、Protozanova E、Frank-Kamenetskii MD:碱基封装和碱基对DNA双螺旋热稳定性的贡献。核酸研究2006, 34(2):564–574. 10.1093/nar/gkj454

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  18. Cleveland WS:稳健的局部加权回归和平滑散点图。J Amer统计协会1979, 74(368):829–836. 10.2307/2286407

    第条 谷歌学者 

  19. Banfield JD,Raftery AE:基于模型的高斯和非高斯聚类。生物计量学1993, 49(3):803–821. 10.2307/2532201

    第条 谷歌学者 

  20. Fraley C,Raftery AE:MCLUST:基于模型的聚类分析软件。J分类1999, 16(2):297–306. 2007年10月7日/003579900058

    第条 谷歌学者 

  21. Fraley C,Raftery AE:基于模型的聚类、判别分析和密度估计。J Amer统计协会2002, 97(458):611–631. 10.1198/016214502760047131

    第条 谷歌学者 

  22. Fraley C,Raftery AE:增强的基于模型的聚类、密度估计和判别分析软件:MCLUST。J分类2003, 20(2):263–286. 2007年10月7日/00357-003-0015-3

    第条 谷歌学者 

  23. Cover TM,Thomas JA:信息论要素。约翰·威利;1991

    第章 谷歌学者 

  24. Iseli C,Ambrosini G,Bucher P,Jongeel CV:快速搜索基因组序列中的短词的索引策略。公共科学图书馆2007年,2(6):e579。10.1371/journal.pone.0000579

    第条 公共医学中心 公共医学 谷歌学者 

  25. Myers EW,Miller W:线性空间中的最优对准。计算应用程序Biosci1988, 4(1):11–17.

    中国科学院 公共医学 谷歌学者 

  26. Smith A、Xuan Z、Zhang M:使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学2008, 9(1):128. 10.1186/1471-2105-9-128

    第条 公共医学中心 公共医学 谷歌学者 

  27. Ferragina P,Manzini G,Mäkinen V,Navarro G:序列和全文索引的压缩表示。ACM算法事务(TALG)2007., 3(2):

  28. Gräf S、Nielsen FG、Kurtz S、Huynen MA、Birney E、Stunnenberg H、Flicek P:全基因组拼接阵列的优化设计和评估。生物信息学2007年,23(13):i195-204。10.1093/生物信息学/btm200

    第条 公共医学 谷歌学者 

  29. Pop M,Salzberg SL:新测序技术的生物信息学挑战。趋势Genet2008, 24(3):142–149.

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  30. Hinds DA、Stuve LL、Nilsen GB、Halperin E、Eskin E、Ballinger DG、Frazer KA、Cox DR:三个人群常见DNA变异的全基因组模式。科学类2005, 307(5712):1072–1079. 10.1126/科学.1105436

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

FN感谢瑞士国家科学基金会(编号3100A0-113617)的资助。我们感谢卡洛·里沃尔塔尽早提供他的数据。部分数据分析是在瑞士生物信息学研究所的Vital-IT高性能计算设施上进行的。

作者信息

作者和附属机构

作者

通讯作者

与的通信费利克斯·纳夫.

其他信息

作者的贡献

JR和AA实施了该方法,JR和CI分析了数据,JR与FN撰写了手稿,FN和IX设计并监督了该研究。LF提供了见解和数据,并进行了实验。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2008_2416_MOESM1_ESM.png

附加文件1:噪声信号随序列周期数衰减。显示了周期5、15、25和35的原始荧光强度直方图。信号和噪声之间的分离越来越模糊G公司频道比中的C类T型频道。红线表示两个高斯分布的混合拟合,蓝色竖线表示混合最高成分的平均值和一个标准偏差。(巴布亚新几内亚17 KB)

12859_2008_2416_MOESM2_ESM.png

附加文件2:位置偏差的校正.。图像显示了瓷砖区域内荧光强度的局部平均值。瓷砖的中心明显比边缘亮。B类。通过lowess fit进行校正后,整个平铺的平均值在视觉上更加恒定。(巴布亚新几内亚20 KB)

12859_2008_2416_MOESM3_ESM.png

附加文件3:相对于人体样本上的Solexa数据,增加了Rolexa数据的覆盖范围使用Rolexa和Solexa管线分析了完整的测序车道(330块瓷砖)。X轴表示Rolexa碱基标记瓦片序列覆盖的核苷酸数量,Y轴表示与相应Solexa碱基标记的比率,标签限制为25个碱基或36个碱基的全长。(巴布亚新几内亚15 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

重印和许可

关于本文

引用本文

Rougemont,J.、Amzallag,A.、Iseli,C。等。Solexa测序数据的概率基调用。BMC生物信息学 9, 431 (2008). https://doi.org/10.1186/1471-2105-9-431

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-9-431

关键词