跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

政府意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2013年5月1日;41(10):e108。
doi:10.1093/nar/gkt214。 Epub 2013年4月4日。

Subread对齐器:通过seed-and-vote实现快速、准确和可扩展的读取映射

附属公司

Subread对齐器:通过seed-and-vote实现快速、准确和可扩展的读取映射

杨廖等。 核酸研究. .

摘要

读取对齐是测序技术数据分析的一个持续挑战。本文提出了一种简单的多种子策略,称为seed-and-vote,用于将读取结果映射到参考基因组。新策略选择映射的基因组位置,以便直接从种子中读取。它使用从每次读取中提取的相对大量的短种子(称为子读取),并允许所有种子投票选择最佳位置。当读取长度<160 bp时,使用重叠子读取。然后使用更传统的对齐算法来填充构成获胜投票块的子读取之间的详细失配和索引信息。该策略很快,因为在进行详细比对之前,已经选择了整个基因组位置。它是敏感的,因为不需要单独的子读取来精确映射,也不需要将单个子读取约束为映射到其他子读取附近。它是准确的,因为最终位置必须由几个不同的子读取支持。该策略通过定位包含映射到同一基因不同外显子的子阅读集的阅读,很容易扩展到查找外显子连接。它可以有效地扩展以适应更长的读取时间。

PubMed免责声明

数字

图1。
图1。
种子和投票映射范式。(一个)拟议映射范式示意图。子读取(或种子)是从每次读取中提取的短连续序列。绿色的子串是无信息的子串,它们被排除在投票之外。小红色条表示不匹配的基础。读取的映射位置由最大共识集确定。细实线箭头指向最大共识集中包含的每个子读取的映射位置。读取的映射位置,如黑色上指三角形所示,由最大共识集中的所有子读取进行投票。虚线箭头指示子读取的其他映射位置,由于投票数不足,这些位置被忽略。(B类)用一个人工例子来说明这个范例。从人工读取中提取了六个子读取。每个方括号表示一个提取的子读取,其中包含五个连续的基数,嵌入蓝色循环中的数字表示子读取数。每个子读取的基序列编码为0和1的字符串(每个基编码为2位二进制数)。每个子读取的编码值在哈希表中用作其键。该键的值给出了染色体在基因组中的位置,对应的子读取与之完全匹配(不允许不匹配)。为该人工读取找到了四个候选映射位置,分别获得2、5、1和2票(共识子读取数)。获得最多票数的位置(在本例中为五票位置)被选为此人工读取的最终映射位置。(C类)索引检测是在seed-and-vote范式下执行的。(C1类)显示了在读取中找不到索引时子读取的映射结果(为简单起见,假设读取中不存在不匹配)。(指挥与控制)和(C3类)分别显示插入(Ins)和删除(Del)的检测示意图,在读取中发现插入或删除,在插入或删除的两侧发现侧翼子读取。(补体第四成份)给出了在靠近读取末尾的位置检测索引的示意图,在该位置只能在一侧找到侧翼子读取。在(C2)和(C3)中,红色箭头所指的染色体位置分别是子读物8、9和10的真实映射位置,黑色虚线箭头所指染色体位置表示如果它们前面没有索引,它们将映射到的染色体位置。d日是indel长度,等于红色箭头所指的位置与同一子读数中黑色虚线箭头所指位置之间的差值。被绿色虚线包围的区域被发现包含索引[(C2)和(C3)]或是搜索索引(C4)的候选区域。这些区域中的碱基没有被成功投票的子读取所覆盖,它们的映射位置将通过与参考基因组中的相应区域(绿色虚线内)对齐来确定。在(C4)中,沿着未覆盖的基底移动4 bp窗口,以寻找潜在的指数。当窗口中的三个或更多碱基被发现不匹配时,将触发indel检测过程以搜索indel。
图2。
图2。
在种子-标记范式下检测外显子-外显子连接的示意图。使用两次扫描程序来检测外显子-外显子连接,并确定每个读数的映射。使用三个人工读取来说明此过程(读取1、读取2和读取50)。在第一次扫描中,从每次读取中提取一组子读取并映射到参考基因组。从每次读取中选择最佳的两个映射位置,该位置获得两个最大数量的投票,以供进一步考虑。如果在这两个位置和总大小之间发现供体和受体部位(公式图像)参考中两个映射区域的大小等于(L(左))在由投票选出最佳两个映射位置的子阅读跨越的阅读区域中,确定的剪接点将记录在假定的外显子-外显子连接表中。还记录了基因组和读取中每个读取的锚定位置,这分别给出了读取映射到的最佳映射位置以及为该位置投票的一组提取子读取的最左侧基的位置。锚定位置将用于检索假定拼接点和第二次扫描进行的验证。第一次扫描应用于所有读取,完成时生成两个表。这两个表分别包括每个外显子-外显子连接处的假定剪接点的染色体位置和每个读取的锚定信息。第二次扫描的输入包括这两个表以及读取的数据。对于每次读取,第二次扫描使用其锚定位置从第一次扫描的连接表输出中搜索位于读取范围内的假定拼接点,然后检查所有映射可能性(包括将读取映射为外显子读取),以最终确定应如何映射读取。当它被映射为连接读取时,读取序列和映射区域之间的相似性必须大于被映射为外显子读取时的相似性(即。公式图像),如果它被称为连接读取。当假定读取不包含连接时,青色虚线指示读取的第一个基址或最后一个基址的映射位置。如果在第二次扫描完成后发现假定拼接点没有任何支持读取,则从最终结果中删除这些拼接点。此两次扫描程序的最终输出是一个验证的外显子-外显子连接表,其中包括支持读取的数量,以及每个读取的完整映射结果,包括CIGAR字符串,其中描述了每个读取中的每个碱基是如何映射的。
图3。
图3。
对准器在检测不同大小的删除时的性能。横轴给出了累计删除大小。对于每种尺寸,合并删除大小相等或较小的数据集,并用于计算每个对准器该尺寸的召回率和准确性。为了检测不同大小的删除,对齐器以其最佳设置运行。
图4。
图4。
MQS对准器的召回和准确性。()和(c(c))给出从高映射质量到低映射质量的正确映射读取和错误映射读取的累计数量。(b条)和(d日)显示了从高映射质量到低映射质量的累积精度和误差分数。(a) (b)使用表4中的indel数据集,(c)和(d)使用表5中的Mason数据集。每个图中的每个点都对应于对齐器给定的MQS。在(a)和(b)中使用默认设置运行Subread,在(c)和(d)中使用-f 100。

类似文章

引用人

工具书类

    1. Mills RE、Walter K、Stewart C、Handsaker RE、Chen K、Alkan C、Abyzov A、Yoon SC、Ye K、Cheetham RK等。人群规模测序的人类基因组变异图。自然。2010;467:1061–1073.-项目管理咨询公司-公共医学
    1. Marco-Sola S、Sammeth M、Guig R、Ribeca P。GEM绘图器:通过过滤快速、准确和多功能对齐。自然方法。2012;9:1185–1188.-公共医学
    1. Langmead B、Trapnell C、Pop M、Salzberg SL。短DNA序列与人类基因组的超快和高效记忆比对。基因组生物学。2009;10:R25。-项目管理咨询公司-公共医学
    1. Langmead B,Salzberg SL。与Bowtie 2进行快速定距对准。自然方法。2012;9:357–359.-项目管理咨询公司-公共医学
    1. Li H,Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760.-项目管理咨询公司-公共医学

出版物类型