Probabilistic base calling of Solexa sequencing data

Rougemont, Jacques; Amzallag, Arnaud; Iseli, Christian; Farinelli, Laurent; Xenarios, Ioannis; Naef, Felix

doi:10.1186/1471-2105-9-431

方法论文章
开放式访问
出版：2008年10月13日

Solexa测序数据的概率基调用

BMC生物信息学 体积 9，物品编号：431(2008)引用本文

2万访问
70引文
12海拔高度
韵律学细节

摘要

背景

Solexa/Illumina短读超高通量DNA测序技术通过DNA菌落的并行测序和合成产生数百万个短标签（多达36个碱基）。此类高通量数据的处理和统计分析带来了新的挑战；目前，由于无法将标签与参考序列匹配，相当一部分标签被常规丢弃，从而降低了该技术的有效吞吐量。

结果

我们提出了一种新的基调用算法，该算法利用基于模型的聚类和概率理论来识别模糊基，并用IUPAC符号对其进行编码。我们还使用基于信息内容的分数来选择最佳子标签，以消除接近读取末尾的不确定基数。

结论

我们表明，与Solexa的数据处理管道相比，该方法平均提高了15%的基因组覆盖率和可用标签数量。提供了一个R包，可以快速准确地调用Solexa的荧光强度文件并生成信息丰富的诊断图。

背景

超高通量测序通过提供快速、高分辨率的基因组信息访问，对生物研究产生了越来越大的影响。通用技术可用于无偏见的基因分型[1–三]，转录组分析[4–6]，蛋白质-DNA相互作用[7,8],德诺沃排序[9,10]. 虽然样本处理相对简化，但数据管理和信息处理方面的创新对于充分发挥该技术的潜力是必要的。标准的Solexa/Illumina基因组分析仪“经典”运行可在3.5天内生成700 Gb的图像文件和200 Gb的处理数据文件，总计近400000个图像文件和20000个处理文件。最新的GAII升级进一步增加了数据量，主要是通过获取更大的图像（尽管只有100块）和执行配对测序的能力（每个群体72个碱基）。管理日常排序运行所需的计算基础设施的设置和维护成本极高。因此，开发新的算法以从可用图像中提取更多信息并减少每个项目的测序运行次数将被证明是非常有价值的。最后，设计良好的质量指标和诊断工具将允许快速评估测序运行的质量，并决定适用的数据保留策略。

Solexa/Illumina基因组分析仪对附着在流动细胞表面的随机克隆DNA克隆阵列进行顺序合成。在细胞的8条通道中，每一条都有大约800万个这样的菌落。在每个合成周期中，用四种不同的荧光染料标记并在3’末端封闭的所有四种核苷酸都被引入流动池。最多执行36个这样的合成循环。

基因组分析仪“经典”上的数据采集过程如下：细胞的每条通道被分成大约300块瓷砖，分别通过四个不同的滤光片进行拍摄。图像分析软件在每张图片上定位每个菌落，并量化相应的四种荧光强度。输出包括每个平铺一个文件，每个群体一行，由四个坐标和多达144个实数组成，共36个强度四倍。基调用开始于量化的下游，并重建可能产生每个菌落的DNA序列。Solexa数据分析管道为每条车道中的每个瓷砖输出两个重要文件：一个序列文件，其中序列由每个强度行确定，另一个快速q文件，其中每个基准的质量分数都被调用。这个快速q值测量了在-5到40的对数范围内相对于其他三种强度的最可能的基本强度（它逐渐等于Phred值[11]). 在这里，我们提出了一种基于荧光强度量化的替代概率基调用方法，该方法使用扩展的IUPAC字母表对模糊基进行编码。信息标准用于控制可信任读取的长度。我们表明，这种方法在原始序列上增加了约15%（通常为10-25%）的标签到参考基因组的特定映射，在质量过滤后增加了70%。该方法在一个名为Rolexa的自由分发软件中实现。

最近也发表了类似的方法。Cokus等人在分析拟南芥甲基化模式时引入的方法与我们在使用高斯混合物方面最接近[12]. Alta-Cyclic基调用者[13]使用需要在已知数据集上训练的支持向量机。我们的方法计算量小且模块化，因为它提供了一组互补功能，试图解决Solexa序列中观察到的各种偏差[14–16]基于所涉及的生物化学的简单模型。

结果

荧光发射的统计特性

几个噪声源干扰了采集步骤：图像中的信噪比取决于菌落在成像场中的位置（边界效应），菌落在图片上很难分割，荧光发射光谱部分重叠，因为发射“泄漏”到相邻通道。此外，合成效率有限，因此，在每个群体中，一些DNA链包含非互补碱基，或者由于在前一步未能包含核苷酸而失同步。这两种效应都导致了与大多数菌落不同的荧光团的发射。这些影响可能取决于序列的碱基组成[17]并且随着每一个额外的化学循环明显恶化。

我们使用phiX174的测序（参见材料和方法）来分析测序过程中四个彩色通道中的信号。我们首先观察到，虽然直方图的形状很大程度上取决于使用的染料，但单个通道中的强度分布显示出背景噪声和信号之间的良好分离（图。1安培和附加文件1). 例如，G公司其动态范围比T型范围一般随循环次数的增加而减小。最大范围跨越4-5个日志。随着测序的进行，动态范围减小，信噪比恶化，背景噪声和信号之间的分离变得越来越模糊（附加文件1). 接下来，我们观察到一和C类频道，以及T型和G公司通道，高度相关（图。1安培).

减少位置偏差、相位差和串扰

如上所述，在强度数据水平上存在三个主要的系统偏差来源。第一个是彩色通道之间的串扰：例如一和C类渠道不是独立的。因此，我们通过线性映射将原始强度转换为具有角度轴的基ϕ和θ相对于原始轴（参见方法）。我们对这两个角度进行优化，以使变换后的坐标之间的总体相关性最小化。我们在每个测序周期以及其他两个周期重复此操作，G公司和T型通道（图。1B年).

第二个重要的偏差是菌落失相：周期中特定通道中发射的荧光量n个取决于序列中各个位置对应的碱基数量1, ...,n个-1因为之前循环中累积的合并失败将在循环中得到部分补偿n个从而增加所有信道中的信号。这种交叉周期依赖性可以通过带参数的二项式分布进行建模q个这是在每个合成周期中互补链不伸长的概率。我们假设这个速率对于所有核苷酸和所有循环都是相等的。我们确定q个通过最小化循环强度之间的平均相关性n个和n+1.

系统变化的最后一个主要来源是光学效应：在每一块瓷砖上，靠近图像中心的菌落比靠近边缘的菌落更亮（附加文件2). 我们通过拟合二维lowess来纠正这个问题[18]对每个瓷砖的强度进行建模，并减去拟合强度和中值强度之间的差值。

在应用下面描述的基于模型的聚类算法之前，对原始强度依次应用三种校正（参见方法）。

基于模型的聚类和信息理论库调用

我们使用了基于模型的聚类算法[12,19–22]将强度四倍分为四组。很明显，出现了与四个碱基相对应的四个清晰的簇（图。1A–B级). 具体来说，我们用四个四维高斯随机变量的混合物对每个通道中测量的强度进行建模，并使用一个或几个组合瓷砖中所有菌落的强度四倍来拟合模型参数。拟合模型在强度四倍空间上提供了四种概率分布，即概率对_一(k个) =对(一|我₁(k个), ...,我₄(k个))那个k个^第个要调用的基数是一了解周期中所有四个通道的测量强度k个，对于对_C类,对_G公司和对_T型.我们可以通过熵来测量基础调用中的不确定性水平 $小时 (k个) = - \sum_{α \in {ACGT公司}} 对_{α} (k个) 我 o个克_{2} 对_{α} (k个)$ 它测量确定正确值的不确定性（以位为单位）k个^第个底座[23]. 知道小时然后，我们使用概率单纯形中的截止值来决定调用哪个IUPAC代码（图2安培，方法）。随着测序的进行，我们还计算了每个菌落的累积熵， $H（H） (n个) = \sum_{k个 = 1, \dots, n个} 小时 (k个)$ ，它估计日志₂与调用到位置的代码兼容的实际序列数n个。此总熵用于将标签从最模糊到最模糊进行排序。图3A级结果表明，该模糊度得分与Solexa快速q质量得分相关，但明显不同。模糊度度量对于基因组组装或多态性鉴定很有用，因为它允许在从标签的多重比对中获得统计数据时向下加亮低质量标签。如下所示，该指标还可用于优化标签长度，并增加在参考基因组上识别匹配的机会。

基因组覆盖率统计

为了评估基本调用的质量，并将其与通过Solexa分析管道获得的序列进行比较，我们计算了映射效率#{精确映射到基因组}/#{总读取次数}。我们使用了获取GWI工具[24]在5386 nt参考phiX174基因组序列[RefSeq:NC_001422]上搜索IUPAC代码中编码的每个测序标签的唯一精确匹配。因此，我们丢弃了在多个位置匹配或在引用序列的任何位置不完全匹配的每个标记。Solexa流单元的一条通道（330块）产生了8 M个标签、3 M个唯一标签和3.8个可映射标签，每次运行的吞吐量为1.37亿个立即可用的基础。通过降低我们看到的质量对标签进行排序（图4)低熵标签很容易被Solexa和Rolexa管道识别，但在低质量序列中，Rolexa-called标签的覆盖率显著增加，导致总覆盖率增加至10-25%（平均15%）。我们还发现，根据质量（或熵，未显示数据）进行排名是一种明智的优先级策略，因为覆盖范围在列表顶部急剧增加，随后趋于平稳。

为了估计测序的错误率，我们使用了对齐0[25]搜索每个标签和phiX基因组之间的最佳匹配，然后计算标签和参考之间的不匹配数量。图5A级显示了错误率是如何随着Solexa标签的测序周期而增加的。使用最可能的ACGT基调用的Rolexa标签显示增长较慢，引入IUPAC代码显著降低了错误率的截距和斜率，这是测序周期的函数。

基本分布统计

Solexa序列的一个令人惊讶的特性是互补性之间的不平衡一和T型基数以及两者之间G公司和C类[14]. 如图所示5亿，随着测序的进行，比例逐渐恶化，这可能与互补碱基对荧光染料的不同噪声水平以及染料特定的化学效应有关（见图。1). 因此，更可能称为接近背景的强度T型比一，或C类比G公司在强度水平上应用我们的校正可以稳定碱的比例，这对于T来说尤其明显。由于目前我们还不清楚A/T比不是一，而是稳定在0.9左右（图5亿).

为了确定我们增加的覆盖率是否不仅仅是字母表更退化的结果，我们验证了在随机位置引入歧义并不会同样改善映射。因此，我们根据Solexa碱基调用选择了在基因组上不匹配的标签，但在Rolexa引入1到5个模糊碱基后匹配。然后我们在这些标签中引入了模糊性，频率与Rolexa相同，但位置是随机的。图第五天显示，只有大约2%的随机突变在基因组上找到了匹配，这表明熵是模糊位置的特定预测因子。

优化标签长度

虽然Solexa的质量分数沿着序列趋于下降，但其分布主要是向下扩散，而不是向下移动（图。3B公司). 因此，基于平均质量计算全局长度截止值将丢弃许多高质量的基础，不一定确保质量一致。因此，我们希望通过将标签剪切到更短的长度来增加可以映射到参考序列的标签数量[26]. 然而，这个过程有一个缺点，因为它会减少每个标签的覆盖长度，并增加找到多个匹配的概率。同样，标准Solexa程序建议选择平均快速q值高的标签。然而，低平均值可能是由于靠近有用标签末尾的几个不确定基数造成的。

我们通过应用以下质量过滤器测试了不同的选择。对于Solexa方法，我们将标签长度切割为20、25、26、28、30，然后过滤所有快速q值平均值低于30、25或20的序列。相比之下，我们对Rolexa标签使用了以下过滤过程：我们选择了3个不同长度相关的熵截止值信息技术（k）（参见方法）并在每次读取中搜索最长时间k个-总熵小于的mer信息技术（k）。然后，我们将此子序列在两个方向上扩展到下一个不明确的基，并最终删除了所有小于10个基的标记。图中总结了不同过滤器的覆盖率统计信息6我们对330个靶向人类基因组区域的序列进行了类似的分析，发现核苷酸覆盖率平均增加了50%（附加文件三). 我们看到，根据实际覆盖率与预期覆盖率的比率以及基因组上具有唯一匹配的标签的比率，Rolexa的效率在所有数据集中都是优越的。后一个标准很重要，因为在高通量测序的许多应用中（如基因表达测量或ChIP-Seq），覆盖范围不如基因组上的命中数重要。同样，在基因分型和靶向重新测序中，如果预期匹配不准确，那么在与参考序列进行匹配之前可靠地过滤出低质量标签的能力是最重要的，因为必须将实际多态性与测序错误区分开来。

讨论

Solexa高通量测序技术分析中的几点可能会从进一步的改进中受益。首先，应该减少互补基础之间的不平衡。尽管phiX174是一种单链DNA病毒，但该文库是由双链共价闭合环状基因组制备的。如图所示，随着测序周期的进行，测序结果显示互补碱基之间的平衡日益恶化（图5亿). 我们的方法对此进行了改进，但并没有完全解决问题。

Dohm等人最近也采用了类似的方法[14]已经观察到与这里描述的偏差类似的偏差，但只建议在序列比对级别上纠正它们，而不是在基调用级别上。Cokus等人[12]使用Solexa的预处理数据（_sig2文件），并应用非常类似的EM过程来拟合高斯混合模型以进行概率基调用。他们不使用基于信息的度量来降低IUPAC编码的概率，而是构建位置权重矩阵，用以扫描参考基因组，这在计算上是昂贵的，并且不直接适用于德诺沃排序。Erlich等人[13]训练基于参考序列优化的支持向量机，该参考序列的计算成本很高。Rolexa只需要一台（现在很常见的）多核计算机，并在10小时内对5个核的一条通道进行完整分析。此外，它还基于对系统生物化学特性的建模。

这里我们没有考虑微调图像分析算法的潜在重要好处。观察显微镜设备生成的图像可以发现，当图像的某些区域的菌落密度高时，就会发生出血，给每个菌落分配正确的荧光强度显然是一个棘手的问题（见[16]).

由于Solexa输出数据的文件大小和格式很大，同时（和随机）访问20000个文本文件会给任何标准文件系统带来很大压力，更不用说备份设备了。Rolexa使用压缩的输入和输出，这已经大大减小了文件大小。然而，更合适的文件格式可以帮助存储和处理，例如使用后缀表和树[27,28]. Solexa/Illumina测序器的最新GAII升级通过更大的采集区域、更长的读取和配对测序生成更多数据。生成更长的读取时间需要高效可靠的算法来进行基本调用，直到读取结束时，算法的精确度都是合理的。此外，吞吐量的增加要求这些算法速度快，并且基于直接和简单的方法，这些方法不需要从一次运行调优到下一次运行即可重复使用。

结论

Solexa/Illumina高通量测序已经并将越来越多地产生大量系统规模的基因组学和功能基因组学数据。与其他高通量技术一样，信号处理和数据统计评估的改进将证明是技术成熟的关键一步，也是可靠应用和新发现的进展[29].

方法

样品制备和基因组分析仪测序

使用的phiX174控制库由Illumina（目录号CT-901-001）制备。简单地说，通过雾化作用，病毒DNA的双链共价闭合环状被打破成100–400 bp的片段；Klenow、T4 DNA聚合酶和PNK修复末端；和一个底座一在3英尺末端添加。在连接双链基因组适配器后，对样品进行凝胶纯化，以分离“插入物”约为200 bp的片段，并通过18个PCR周期进行扩增（Illumina协议“为基因组DNA测序准备样品”，第11251892号A版）。该文库通过将等分样本克隆到TOPO质粒并对5-10个克隆进行毛细管测序来进行质量控制。

使用“标准群集生成试剂盒”（目录号FC-103-1001）和“Illumina群集站”流动细胞中35次等温扩增循环，使用10 nM文库的pM稀释液制备DNA集落。在扩增之后，将其中一条链移除；末端转移酶在双脱氧核苷酸存在下阻断自由3'-末端；基因组测序引物杂交。将流动细胞转移至“经典”基因组分析仪，并使用2.0版扫描缓冲液的“36周期测序试剂盒”（目录号FC-104-1003）进行36个周期的测序。

人类细胞的测序

用于附加文件的示例三来自长程PCR扩增获得的混合DNA[30]来自3个不同个体的19号染色体的30kb区域加上来自第四个个体的3号染色体的50kb区域。如上所述对phiX174进行测序。

数据分析

本文的所有数据分析都是使用R统计框架进行的http://www.r-project.org/和Rolexa套装。此包使用麦克卢斯特例行程序[20]以及叉包在多核架构上高效运行。已使用获取GWI工具[24]首先生成phiX174基因组的综合索引，并将每个查询与其索引项匹配。我们使用对齐0[25]从标签到基因组搜索最佳匹配并估计错误率（见图。5A级). 计算错误时，IUPAC代码与其兼容基之一的对齐被视为正确匹配。

原始数据分析（图像分析、初始基本呼叫和快速q分数）使用Firecrest公司图像分析模块和巴斯塔Illumina软件套件中的base-caller（SolexaPipeline-0.2.2.6）。无过滤或分析杰拉尔德已执行。

初步数据转换

我们对测量强度I建模(α,n个,x个) (α=一,C类,G公司,T型是染色通道，n个= 1, ...,36是循环编号和x个表示菌落坐标）作为以下无偏强度的组合J型(α,n个,x个):

我 (α, n个, x个) = \sum_{米 = 1, ..., n个} \sum_{β = 一, C类, G公司, T型} M（M） (α, β) J型 (β, 米, x个) R（右） (米, n个),

其中4×4矩阵M（M）是块对角的混合矩阵，取决于4个参数ϕ_自动控制,θ_自动控制,ϕ_燃气轮机和θ_燃气轮机:

M（M） ({一, C类}, {一, C类}) = (\begin{matrix} c（c） o个 秒 θ_{一 C类} & 罪 θ_{一 C类} \\ 余弦 φ_{一 C类} & 罪 φ_{一 C类} \end{matrix}),

类似地G公司,T型块和退相矩阵R（右）是参数的函数q个具有二项式结构：

R（右） (米, n个) = {\begin{matrix} 0 如果 米 > n个, \\ (\begin{matrix} n个 \\ 米 \end{matrix}) {q个}^{n个 - 米} {(1 - q个)}^{米} 如果 米 \leq n个 . \end{matrix}

参数ϕ_自动控制,θ_自动控制,ϕ_燃气轮机,θ_燃气轮机通过最小化以下函数来确定：

F类_n个(θ_自动控制,ϕ_自动控制,θ_燃气轮机,ϕ_燃气轮机)=cor(M（M）^-1我(一,n个, •),M（M）^-1 我(C类,n个, •))²+cor公司(M（M）^-1 我(G公司,n个, •),M（M）^-1我(T型,n个, •))²,

它定义了一个中间强度矩阵K（K）=M（M）^-1 我。然后将其引入函数

G公司 (q个) = \sum_{α, n个} c（c） o个 第页 {({R（右）}^{- 1} K（K） (α, n个, •), {R（右）}^{- 1} K（K） (α, n个 + 1, •))}^{2},

其被最小化以确定q个.

最后，我们修正了簇坐标函数中的系统偏差，如下所示：我们拟合了一个二维lowess[18]作为的函数（x）,年）坐标，然后减去该拟合与所有四个通道中每个平铺和循环的中值强度之间的差值。

基于模型的聚类和数据拟合

我们使用了电动汽车的模型麦克卢斯特算法[20]拟合用于根据四维强度向量函数分配基本概率的高斯混合，类似于在[12]. 该模型假设具有四个形状和体积相同但方向不同的协方差矩阵的高斯混合。我们通过将每个菌落归因于具有最高（校正）强度的核苷酸来初始化分类。考虑到初始分类麦克卢斯特执行算法，在给定类别属性的情况下估计最大似然参数，其中要估计的参数是全局尺度和形状参数以及每个类别的中心和方向（使用中描述的协方差参数化[20]). 然后是EM算法的E步骤，以估计属于每个类别的每个数据点的条件概率，并给出先前获得的参数估计值。EM算法的完全收敛是一个选项，但由于离群值的影响（与在[12]). 有关实现的更多详细信息，请参阅软件包文档（请参阅可用性部分）。

基本呼叫和标签长度的截止值

Rolexa算法需要两种类型的截止值，这两种截止值都可以在Rolex包中轻松自定义。在所给出的分析中，概率单纯形中不同IUPAC基之间的极限（图2安培)已设置为HT（n）=对数₂(n个+0.5）与n个=1,2,3（图2B型). 其次是长度相关的截止值IT（n）通过选择最长的子标签来过滤不确定的基S公司总熵小于信息技术（n=长度（S））.在图中6我们使用了以下6个选项：常量信息技术_c（c）（n）=c（c）使用常量c（c）设置为2、4、6或8，两个截止值随着标签长度的增加而增加：信息技术_日志(n个)=对数₂(4 + (n个-1）/5）和信息技术_费用(n个) = 2^{(1+(n个-1)/36)}后两个截止值在序列长度上介于2和大约4之间插值，但第一个截止值是凹的（开始时增加得更快），第二个是凸的。

可利用性

我们开发了一个名为Rolexa的R包，可从http://bbcf.epfl.ch/软件。它根据GPL许可证分发，并使用麦克卢斯特属于R分发的一部分的包。

工具书类

Bentley DR：全基因组重新排序。遗传学与发展的当前观点2006, 16(6):545–552. 2016年10月10日/j.gde.2006.10.009
第条中国科学院谷歌学者
Chen W、Kalscheu V、Tzschach A、Menzel C、Ullmann R、Schulz M、Erdogan F、Li N、Kijas Z、Arkesteijn G、，等.：通过下一代测序绘制易位断点。基因组研究2008
谷歌学者
Korbel JO、Urban AE、Affourtit JP、Godwin B、Grubert F、Simons J、Kim PM、Palejev D、Carriero NJ、Du L、，等.：配对基因绘图揭示了人类基因组中广泛的结构变异。科学类2007, 318(5849):420–426. 10.1126/科学.1149504
第条公共医学中心中国科学院公共医学谷歌学者
Hafner M、Landgraf P、Ludwig J、Rice A、Ojo T、Lin C、Holoch D、Lim C、Tuschl T：使用cDNA文库测序鉴定微RNA和其他小调控RNA。方法2008, 44(1):3–12. 2016年10月10日/j.ymeth.2007.09.009
第条公共医学中心中国科学院公共医学谷歌学者
Vera JC、Wheat CW、Fescemyer HW、Frilander MJ、Crawford DL、Hanski I、Marden JH：使用454焦磷酸测序对非模式生物进行快速转录组表征。分子生态学2008, 17(7):1636–1647. 10.1111/j.1365-294X.2008.03666.x
第条中国科学院公共医学谷歌学者
Friedländer MR、Chen W、Adamidi C、Maaskola J、Einspanier R、Knespel S、Rajewsky N：使用miRDeep从深度测序数据中发现微RNA。Nat生物技术2008, 26(4):407–415. 10.1038/nbt1394
第条公共医学谷歌学者
Mikkelsen T、Ku M、Jaffe D、Issac B、Lieberman E、Giannoukos G、Alvarez P、Brockman W、Kim T、Koche R、，等.：多能干细胞和谱系提交细胞染色质状态的全基因组图。自然2007, 448(7153):553–560. 10.1038/性质06008
第条公共医学中心中国科学院公共医学谷歌学者
Barski A、Cuddapah S、Cui K、Roh TY、Schones DE、Wang Z、Wei G、Chepelev I、Zhao K：人类基因组中组蛋白甲基化的高分辨率分析。单元格2007, 129(4):823–837. 2016年10月10日/j.cell.2007.05.009
第条中国科学院公共医学谷歌学者
Hernandez D、François P、Farinelli L、Osterás M、Schrenzel J：新生细菌基因组测序：在台式计算机上组装数百万个非常短的读取。基因组研究2008, 18(5):802–809. 10.1101/gr.072033.107
第条公共医学中心中国科学院公共医学谷歌学者
Margulies M、Egholm M、Altman W、Attiya S、Bader J、Bemben L、Berka J、Braverman M、Chen Y、Chen Z、，等.：微细加工高密度微微立方体反应器中的基因组测序。自然2005, 437(7057):376–380.
公共医学中心中国科学院公共医学谷歌学者
尤因B，格林P：使用phred对自动定序器轨迹进行基线标定。二、。错误概率。基因组研究1998, 8(3):186–194.
第条中国科学院公共医学谷歌学者
Cokus SJ、Feng S、Zhang X、Chen Z、Merriman B、Haudenschild CD、Pradhan S、Nelson S、Pellegrini M、Jacobsen SE：拟南芥基因组的Shotgun亚硫酸氢盐测序揭示了DNA甲基化模式。自然2008, 452(7184):215–219. 10.1038/性质06745
第条公共医学中心中国科学院公共医学谷歌学者
Erlich Y、Mitra PP、Delabastide M、McCombie WR、Hannon GJ：Alta-Cyclic：下一代测序的自我优化基调用者。Nat方法2008
谷歌学者
Dom JC、Lottaz C、Borodina T、Himmelbauer H：高通量DNA测序的超短读数据集中的重大偏差。核酸研究2008
谷歌学者
Smith A、Xuan Z、Zhang M：使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学2008, 9: 128. 10.1186/1471-2105-9-128
第条公共医学中心公共医学谷歌学者
Dolan PC，丹佛DR:TileQC：Solexa数据基于瓷砖的质量控制系统。BMC生物信息学2008, 9(1):250. 10.1186/1471-2105-9-250
第条公共医学中心公共医学谷歌学者
Yakovchuk P、Protozanova E、Frank-Kamenetskii MD：碱基封装和碱基对DNA双螺旋热稳定性的贡献。核酸研究2006, 34(2):564–574. 10.1093/nar/gkj454
第条公共医学中心中国科学院公共医学谷歌学者
Cleveland WS：稳健的局部加权回归和平滑散点图。J Amer统计协会1979, 74(368):829–836. 10.2307/2286407
第条谷歌学者
Banfield JD，Raftery AE:基于模型的高斯和非高斯聚类。生物计量学1993, 49(3):803–821. 10.2307/2532201
第条谷歌学者
Fraley C，Raftery AE:MCLUST：基于模型的聚类分析软件。J分类1999, 16(2):297–306. 2007年10月7日/003579900058
第条谷歌学者
Fraley C，Raftery AE:基于模型的聚类、判别分析和密度估计。J Amer统计协会2002, 97(458):611–631. 10.1198/016214502760047131
第条谷歌学者
Fraley C，Raftery AE:增强的基于模型的聚类、密度估计和判别分析软件：MCLUST。J分类2003, 20(2):263–286. 2007年10月7日/00357-003-0015-3
第条谷歌学者
Cover TM，Thomas JA：信息论要素。约翰·威利；1991
第章谷歌学者
Iseli C，Ambrosini G，Bucher P，Jongeel CV:快速搜索基因组序列中的短词的索引策略。公共科学图书馆2007年，2（6）：e579。10.1371/journal.pone.0000579
第条公共医学中心公共医学谷歌学者
Myers EW，Miller W：线性空间中的最优对准。计算应用程序Biosci1988, 4(1):11–17.
中国科学院公共医学谷歌学者
Smith A、Xuan Z、Zhang M：使用质量分数和更长的读取时间可以提高Solexa读取映射的准确性。BMC生物信息学2008, 9(1):128. 10.1186/1471-2105-9-128
第条公共医学中心公共医学谷歌学者
Ferragina P，Manzini G，Mäkinen V，Navarro G：序列和全文索引的压缩表示。ACM算法事务（TALG）2007., 3(2):
Gräf S、Nielsen FG、Kurtz S、Huynen MA、Birney E、Stunnenberg H、Flicek P：全基因组拼接阵列的优化设计和评估。生物信息学2007年，23（13）：i195-204。10.1093/生物信息学/btm200
第条公共医学谷歌学者
Pop M，Salzberg SL：新测序技术的生物信息学挑战。趋势Genet2008, 24(3):142–149.
第条公共医学中心中国科学院公共医学谷歌学者
Hinds DA、Stuve LL、Nilsen GB、Halperin E、Eskin E、Ballinger DG、Frazer KA、Cox DR：三个人群常见DNA变异的全基因组模式。科学类2005, 307(5712):1072–1079. 10.1126/科学.1105436
第条中国科学院公共医学谷歌学者

下载参考资料

致谢

FN感谢瑞士国家科学基金会（编号3100A0-113617）的资助。我们感谢卡洛·里沃尔塔尽早提供他的数据。部分数据分析是在瑞士生物信息学研究所的Vital-IT高性能计算设施上进行的。

作者信息

作者和附属机构

瑞士洛桑大学生命科学学院（EPFL），1015，洛桑
Jacques Rougemont、Arnaud Amzallag和Felix Naef
路德维希癌症研究所（LICR），瑞士洛桑1015年洛桑大学Bétiment Génopode
克里斯蒂安·伊塞利
瑞士生物信息学研究所（SIB），瑞士洛桑1015年洛桑大学Bétiment Génopode
雅克·罗杰蒙特（Jacques Rougemont）、阿诺德·阿姆扎拉格（Arnaud Amzallag）、克里斯蒂安·伊塞利（Christian Iseli）、艾奥尼斯·塞纳里奥斯（Ioannis Xenarios）和菲利克斯·内夫（Felix Naef）
瑞士洛桑1015年洛桑大学Bétiment Génopode Vital-IT
Ioannis Xenarios公司
Fasteris SA，邮政信箱：28，1228，Plan-les-Oumers，Switzerland
劳伦特·法利内利

作者

雅克·罗杰蒙特
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
阿诺德·阿姆扎拉格
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
克里斯蒂安·伊塞利
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
劳伦特·法利内利
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
Ioannis Xenarios公司
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者
费利克斯·纳夫
查看作者出版物
您还可以在中搜索此作者公共医学谷歌学者

通讯作者

与的通信费利克斯·纳夫.

其他信息

作者的贡献

JR和AA实施了该方法，JR和CI分析了数据，JR与FN撰写了手稿，FN和IX设计并监督了该研究。LF提供了见解和数据，并进行了实验。所有作者阅读并批准了最终手稿。

电子辅助材料

12859_2008_2416_MOESM1_ESM.png

附加文件1：噪声信号随序列周期数衰减。显示了周期5、15、25和35的原始荧光强度直方图。信号和噪声之间的分离越来越模糊一和G公司频道比中的C类和T型频道。红线表示两个高斯分布的混合拟合，蓝色竖线表示混合最高成分的平均值和一个标准偏差。（巴布亚新几内亚17 KB）

12859_2008_2416_MOESM2_ESM.png

附加文件2：位置偏差的校正.一。图像显示了瓷砖区域内荧光强度的局部平均值。瓷砖的中心明显比边缘亮。B类。通过lowess fit进行校正后，整个平铺的平均值在视觉上更加恒定。（巴布亚新几内亚20 KB）

12859_2008_2416_MOESM3_ESM.png

附加文件3：相对于人体样本上的Solexa数据，增加了Rolexa数据的覆盖范围使用Rolexa和Solexa管线分析了完整的测序车道（330块瓷砖）。X轴表示Rolexa碱基标记瓦片序列覆盖的核苷酸数量，Y轴表示与相应Solexa碱基标记的比率，标签限制为25个碱基或36个碱基的全长。（巴布亚新几内亚15 KB）

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

图4的作者原始文件

图5的作者原始文件

图6的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章，根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品，前提是正确引用了原始作品。

重印和许可

关于本文

引用本文

Rougemont，J.、Amzallag，A.、Iseli，C。等。Solexa测序数据的概率基调用。BMC生物信息学 9, 431 (2008). https://doi.org/10.1186/1471-2105-9-431

下载引文

收到:2008年6月4日
认可的:2008年10月13日
出版:2008年10月13日
内政部:https://doi.org/10.1186/1471-2105-9-431