跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2011年11月8日;12(11):R112。
doi:10.1186/gb-2011-12-11-r112。

Illumina HiSeq和基因组分析仪系统产生的基因组高通量测序数据评估

附属机构

Illumina HiSeq和基因组分析仪系统产生的基因组高通量测序数据评估

安德烈·米诺什等。 基因组生物学. .

摘要

背景:高通量测序数据的生成和分析正在成为分子生物学和医学研究中许多研究的主要组成部分。Illumina的基因组分析仪(GA)和HiSeq仪器是目前使用最广泛的测序设备。在这里,我们综合评估了来自两个植物基因组和一个病毒的基因组HiSeq和GAIIx数据的特性,其读取长度为95到150个碱基。

结果:我们为GC偏差、错误率、错误序列上下文、质量过滤的影响以及质量值的可靠性提供量化和证据。通过组合不同的过滤标准,我们将错误率降低了7倍,但代价是丢弃了12.5%的可对齐基。虽然HiSeq数据中的总体错误率很低,但我们观察到了累积错误基址调用的区域。只有3%的错误位置占所有替换错误的24.7%。分别对正向和反向股进行分析,发现错误率高达18.7%。插入和缺失的平均发生率很低,但在均聚物中增加到2%。根据GC含量范围,读取覆盖率和GC含量之间存在正相关。

结论:我们报告的错误和偏差对Illumina测序数据的使用和解释有影响。GAIIx和HiSeq数据集显示的错误配置文件略有不同。质量过滤对于最小化下游分析工件至关重要。支持先前的建议,股特异性为区分测序错误和低丰度多态性提供了一个标准。

PubMed免责声明

数字

图1
图1
的读取覆盖深度分布(a)Bv-95nt读取和(b)Phix-95nt读数。读取覆盖率按基数计算。在三个单独的计算中,我们考虑了参考的所有位置(黑色)、下方区域(红色)和上方区域(蓝色)的位置的平均GC含量(%GC)。区域%GC是根据每个位置上游250个基地和下游250个基地的窗口确定的。与PhiX(b)相比,甜菜样品(a)的覆盖率变化与GC百分比有关。
图2
图2
PhiX参考基因组中低质量碱基的分布对源自Illumina PhiX文库(PhiX-95nt数据集)的读数进行分析。(a)每个位置B-tails内的基数(Q-score的连续基数=读数3'端的2)。(b)未修剪读取中基数的平均Q分数。(c)B-tail修剪读取中基数的平均Q分数。(d)观察到的每基替换错误率。对正向链(绿色)和反向链(红色)分别进行(a-d)的计算。即使在去除B型尾翼后,某些区域仍会累积低质量值。观察到的错误率峰值出现在检测到增加的低质量计数的位置,在大多数情况下,峰值仅出现在一条绞线上。
图3
图3
校准之前的读数(a)以及之后(b)ZR参考的选定区域中的B尾部修剪(位置63633至63662)。使用Tablet浏览器可视化Bv-95nt数据集的独特映射读取[17]。正向匹配读取以灰色显示,反向匹配读取以蓝色显示,不匹配基数以白色显示。长长的白色延伸是不必要的基础。失配累积在一个区域,几乎所有失配都在去除B尾后消除。
图4
图4
按周期观察到的2×95-核苷酸HiSeq读取错误率(所有流式细胞块的平均值).分别分析PhiX-95nt数据的读取1(左)和读取2(右)(a)和Bv-95nt数据(b)PhiX和甜菜DNA在同一条车道上测序,读取数据分别与PhiX或ZR参考序列对应。
图5
图5
在PhiX参考中易出错位置和所有其他位置的正确和错误碱基排序的平均质量分数(PhiX-95nt数据)在PhiX参考中,涵盖161个错误率显著升高的位置(A、B)的基数显示出较其他位置(C、D)基数更低的平均质量分数。正确称为基(A,C)和错误称为基的基(B,D)都是如此。
图6
图6
与观察到的错误率相比,排序错误和质量分数的频率和背景.甜菜样品(黄色)和拟南芥样品(蓝色)和PhiX DNA(分别为红色和绿色)在HiSeq2000测序仪上进行测序。仅PhiX DNA(黑色)在GAIIx上测序。(a)替换错误的序列上下文。显示误差位置上游和下游一个位置的相邻基站的频率。在中心位置(用“e”表示)总结了所有类型碱基替换的序列三联体。我们计算了跨越三元组位置的读取数,并忽略了读取的三元组序列中潜在的进一步替换错误。通过将包含中心替代误差的三联体的出现次数除以具有相同边缘碱基但可变中心碱基的所有三联体出现次数来确定频率。三元组的显示是通过增加HiSeq数据中的平均频率来排序的。(b)碱基替换错误的频率。对于每个样本,显示每个替代的比例(按HiSeq样本中平均频率的增加排序)。(c)由均聚物长度归一化的均聚物束中的插入或删除速率。只有两种植物样品中存在长度超过七个碱基的均聚物。在Bv-95nt数据中,长度为16至19的均聚物和在At-100nt数据中长度为26至29的均聚体均被不到50个读数覆盖。(d)预期与观察到的错误率。根据质量分数(Q)计算Q=2到Q=40(实心对角线)的预期错误率。对于每个样品,根据质量分数对唯一对齐的碱基进行分组,并分别根据每个Q的观察到的替换错误数确定观察到的错误率。

类似文章

引用人

工具书类

    1. 基因组网。http://www.genomeweb.com/
    1. Dohm JC、Lottaz C、Borodina T、Himmelbauer H.高通量DNA测序的超短读数据集存在重大偏差。核酸研究2008;36:e10510。-项目管理咨询公司-公共医学
    1. Hillier LW、Marth GT、Quinlan AR、Dooling D、Fewell G、Barnett D、Fox P、Glasscock JI、Hickenbotham M、Huang W、Magrini VJ、Richt RJ、Sander SN、Stewart DA、Stromberg M、Tsung EF、Wylie T、Schedl T、Wilson RK、Mardis ER。秀丽隐杆线虫的全基因组测序和变异发现。自然方法。2008;5:183–188. doi:10.1038/nmeth.1179。-DOI程序-公共医学
    1. Aird D,Ross MG,Chen W-S,Danielsson M,Fennell T,Russ C,Jaffe DB,Nusbaum C,Gnirke A.分析和最小化Illumina测序库中的PCR扩增偏差。基因组生物学。2011;12:R1810。-项目管理咨询公司-公共医学
    1. Kozarewa I,Ning Z,Quail MA,Sanders MJ,Berriman M,Turner DJ。无扩增Illumina测序文库制备有助于改进(G+C)偏向基因组的定位和组装。自然方法。2009;6:291–295. doi:10.1038/nmeth.1311。-DOI程序-项目管理咨询公司-公共医学

出版物类型

MeSH术语

关联数据