跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2008年9月;36(16):e105。
doi:10.1093/nar/gkn425。 Epub 2008年7月26日。

高通量DNA测序的超短读数据集中的重大偏差

附属公司

高通量DNA测序的超短读数据集中的重大偏差

朱利安·多姆等。 核酸研究. 2008年9月.

摘要

新型测序技术允许快速生成大型序列数据集。这些技术可能会给遗传学和生物医学研究带来革命性的变化,但需要对超短读输出进行彻底的表征。我们生成并分析了两个Illumina 1G超短读数据集,即280万27mer的普通β基因克隆和1230万36mer的不动杆菌基因组。我们发现,错误率从读取开始时的0.3%到读取结束时的3.8%不等。错误的基址调用通常以基址G开头。基址替换错误频率变化10到11倍,其中A>C转换是最频繁的,C>G转换是最不频繁的替换错误。单个碱基的插入和缺失发生率非常低。在模拟重新排序时,我们发现20倍的排序覆盖足以通过正确读取来补偿错误。序列区域的读取覆盖率有偏差;在GC含量升高的时间间隔内,读取密度最高。Solexa高质量分数过于乐观,低分数低估了数据质量。我们的结果显示了不同类型的偏见以及检测它们的方法。这些偏差对Solexa数据的使用和解释、重新测序、单核苷酸多态性和DNA甲基化位点的鉴定以及转录组分析都有影响。

PubMed免责声明

数字

图1。
图1。
使用ELAND进行读取分析的饼图。ELAND类别为:QC:由于读取质量低,未进行匹配(两个以上位置的质量分数=−5),NM,未找到匹配;U0,找到唯一的精确匹配;U1,唯一匹配,一个错误;U2,具有两个错误的唯一匹配;R0,找到多个完全匹配项;R1,多个匹配,一个错误;R2,有两个错误的多次匹配。类别R0、R1、R2显示为单个实体。()27人阅读的ELAND分类普通β克隆ZR-47B15(共2 788 286个)。(b条)32人阅读的ELAND分类不动杆菌(总计12288 791个,由原始36mer数据的最后四个基本调用调整)。
图2。
图2。
Solexa读取覆盖率和GC内容的相关性。()27mer读取生成自普通β美国银行ZR-47B15(b条)32mer数据集来自不动杆菌基因组。每个数据点对应于1-kbp窗口记录的读取次数(移位100 bp in贝塔和1 kbp英寸幽门螺杆菌).
图3。
图3。
Solexa读取沿着参考序列的分布,考虑到ELAND报告的唯一匹配位置(零、一个或两个不匹配的碱基),以及使用Perl脚本检测到的多个匹配位置(无不匹配碱基)的读取。()沿普通βBAC序列(带有克隆载体pBeloBACII)。2 166 892 27mer读取与完成的序列相匹配(包含在克隆载体中,总计约117 kbp)。在200个连续的0.58 kbp窗口中计算读取覆盖率。(b条)沿1.55 Mbp读取分布幽门螺杆菌基因组,基于87001132mer读数。本地覆盖率显示在7.77 kbp的200个连续窗口中。
图4。
图4。
Solexa读取中错误基址调用的频率取决于读取过程中的位置(27mer读取普通β32mer从幽门螺杆菌). ()每个位置的错误频率仅考虑错误的基本呼叫。最大错误频率出现在读取3′端。(b条)超基准错误率(考虑到所有基本呼叫,每个位置的总错误频率)。
图5。
图5。
通过重新排序项目中的深度排序补偿排序错误。显示了不同覆盖级别的每kbp的平均错误数。对于低于2的覆盖范围,读取不太可能重叠,并且很少补偿排序错误(因此,当覆盖范围增加时,排序错误会累积)。对于3倍以上的覆盖范围,未补偿错误的数量随着覆盖范围的增加而迅速下降。
图6。
图6。
中读取的两个错误之间的距离幽门螺杆菌普通β数据集。'“0”表示错误的基调用相邻。
图7。
图7。
Solexa读取中错误基调用的序列上下文不动杆菌普通β,考虑到错误基址调用的上游和下游一个基址。“e”表示被替换的基。散点图显示了两个数据集的相对频率(将误差位置处的3元组的频率与读取中的所有3元组的频率相关)的相关性。
图8。
图8。
中的替换错误频率不动杆菌普通βSolexa读取数据集。
图9。
图9。
所有正确基本调用的基本质量值直方图()和所有错误的基本呼叫(b条)在中贝塔幽门螺杆菌数据集。

类似文章

引用人

工具书类

    1. Kim JB、Porreca GJ、Song L、Greenway SC、Gorham JM、Church GM、Seidman CE和Seidman JG。小鼠肥厚性心肌病基因表达的Polony多重分析(PMAGE)。科学。2007;316:1481–1484.-公共医学
    1. Sanger F、Nicklen S、Coulson AR。链终止抑制剂的DNA测序。程序。美国国家科学院。科学。美国1977年;74:5463–5467.-项目管理咨询公司-公共医学
    1. Mullis K、Faloona F、Scharf S、Saiki R、Horn G、Erlich H。体外DNA的特异酶扩增:聚合酶链反应。冷泉港。交响乐团。数量。《生物》1986;51(第1部分):263–273。-公共医学
    1. Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA、Berka J、Braverman MS、Chen YJ等。微加工高密度微晶反应器中的基因组测序。自然。2005;437:376–380.-项目管理咨询公司-公共医学
    1. Wicker T、Schlagenhauf E、Graner A、Close TJ、Keller B、Stein N.454使用大麦复杂基因组进行测序测试。BMC基因组学。2006;7:275.-项目管理咨询公司-公共医学

出版物类型