跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
比较研究
.2002年1月;12(1):177-89.
doi:10.1101/gr.208902。

ARACHNE:一个全基因组枪组装器

附属公司
比较研究

ARACHNE:一个全基因组枪组装器

塞拉菲姆·巴佐格鲁等。 基因组研究. 2002年1月.

摘要

我们描述了一种新的计算机系统,称为ARACHNE,用于使用配对全基因组鸟枪读取来组装基因组序列。ARACHNE具有几个关键功能,包括一种高效而敏感的查找读取重叠的程序,一种通过在组装前纠正错误来实现高精度的重叠评分程序,基于前向反向链路的读取合并,以及通过前向反向链路不一致来检测重复重叠群。为了测试花生四烯酸(ARACHNE),我们创建了模拟读数,提供流感嗜血杆菌(H.influenzae)、酿酒酵母(S.cerevisiae)和黑腹果蝇(D.melanogaster)基因组以及人类染色体21和22的约10倍覆盖率。这些模拟读取的集合产生了对各个基因组的几乎完全覆盖,少量的连续体加入到少量的超连续体(或支架)中。例如,对黑腹滨鹬基因组的分析产生了大约98%的覆盖率,N50连续长度为324 kb,N50超连续长度为5143 kb。装配精度很高,但并不完美:小错误发生的频率大约为每1Mb 1次(通常是删除大约1kb的大小),其他错误的数量很少。组装很快:Drosophila组装在一个667 MHz的处理器上只需要21个小时,并且使用了8.4 Gb的内存。

PubMed免责声明

数字

图1
图1
正在更正读取中的错误。显示了五次读取之间多重对齐的一部分。在对齐的突出显示列中,质量为30的基准T仅与质量大于30的基准C对齐。基T更改为质量为0的基C。
图2
图2
使用成对重叠合并读取。(A类)成对重叠。前两个读取是一个插入的结束序列,后两个读取则是另一个插入中的结束序列。两个重叠不得意味着插入长度之间的差异太大。(B类)最初,前两对读取被合并。然后,根据与左上两个读取之一的重叠、与右上两个读之一的重叠以及一致的插入长度,合并第三对读取(从顶部开始)。底部对也会进行类似的合并。
图3
图3
轮廓组件。(A类)合并读取跨越重复边界的方式可能会导致装配错误。区域A、 B类,C类、和D类是独特的区域,和区域R(右)在基因组中重复发生两次。读取次数x个区域重叠R(右)因此,区域A类D类合并读取后错误连接x个(B类)潜在的重复边界。阅读第页重叠两个读取x个,但读取x个不要相互重叠;他们在最右翼的观点上存在分歧。这里,重复一下R(右)开始内部读取x个包括全文第页如图所示。在实践中,排序错误而不是重复往往会导致这种重叠模式。(C类)轮廓是通过合并读取到重复的潜在边界来创建的。潜在的重复边界是指一个读取可以用两个不重叠的读取进行扩展的任何位置。这里显示了基因组中两个区域的读数。一个地区(A-R-D)包含实线读取和第二个区域(C-R-B)用虚线阅读。这两个地区在重复赛中相遇R(右)创建五个Contig:这些是与唯一序列相对应的唯一contigsA、 B、C、和D类,以及与repeat对应的repeat contigR(右),其中读取R(右)被过度坍塌成一个连续体。根据用于构造contig的算法,contig对应于R(右)将具有完全包含在边界中的读取R(右)。所有其他读取将分配给contigsA、 B、C、和D类(D类)排序错误。阅读第页主导阅读因为他的邻居都是的邻居第页。这是由上的排序错误导致的,如图所示。注意,如果表示正确的序列,它可能会被一些没有重叠的读取扩展到右侧第页,因此第页不会占主导地位.
图4
图4
检测重复挫伤。康蒂格R(右)链接到contigsA类B类向右。估计之间的距离R(右)A类R(右)B类是这样的A类B类如果它们之间没有大量重叠,则无法定位。如果没有相应的检测到重叠A类B类(如果它们的读数不重叠),那么R(右)可能是指向右侧两个独特区域的重复链接。
图5
图5
超连续创建和间隙填充。(A类)通过连续链接共享至少两个正向链接的连接字对来构造超级链接。在这里,三个连续体被连接成一个超级连续体。(B类)阿拉伯试图通过使用连续路径来填补空白。这里显示的超连续中的第一个间隙由一个连续填充,第二个间隙由两个连续组成的路径填充。
图6
图6
错误装配的类型。(A类)显示了三种简单的小错误组装:插入、删除和挂起端。在这三种情况下,长度小于10kb的相邻片段(连续体或基因组)与预期位置(与基因组或连续体)不对齐。在大多数情况下,此段可以在其他位置对齐,尽管我们在实践中没有这样做。复合轻微装配错误(例如,有两次插入的连体)被报告为多个装配错误事件。(B类)显示了两种类型的主要错误装配。在第一种类型中,两个连续片段与基因组的遥远部分对齐(如果其中一个片段很短,我们报告的是一个悬垂的末端,如A类). 在第二种类型中,超基因组中相邻的连续序列与基因组的遥远部分对齐。实际上,我们通常遇到的是这两种类型之间的混合:位于超级密码中间的contig会像第一种类型一样被拆分。我们称这种混合动力为标准的重大装配错误。
图7
图7
10倍模拟读数的组件覆盖率。(A类)基因组覆盖率。大于250 kb的轮廓覆盖了基因组的50%-70%。(B类)用超级密码覆盖基因组。大小>1Mb的超连续序列覆盖了所有测试样本中至少65%的基因组。
图8
图8
校准模块中的部分校准。长度的三个部分对齐k个 = 在一对读数之间合并6,以产生一个完整的长度对齐k个 = 19.竖线表示匹配的基数,而x表示不匹配。这说明了扩展k个-mer命中是两次读取之间的完全对齐(k个 = 为了简单起见,图中使用了6)。
图9
图9
检测嵌合读取。读取次数1,2,,第页1,第页2、和第页以及缺少读取n个(在一个点的两侧有长的重叠x个)建议阅读c(c)可能是嵌合的,由两个不同的基因组片段并置组成:一个对应于c(c)之前x个,一个对应于c(c)之后x个。我们打电话给x个这个嵌合点属于c(c)。请注意,内容如下第页略微超出x个就像真实的幻想阅读一样。
图10
图10
轮廓组件。如果(a、b)(a、c)重叠,然后(b、c)预计将重叠。此外,可以计算出移位(b,c) ≈ 移位(a,c) − 移位(a,b)。我们检测到读取右侧的重复边界,如果没有重叠(b、c),也不是任何读取路径x个1,…,xk个这样的话(b,x)1),(x)1,x个2),…,(xk个,c)都是重叠的,并且移位(b,x1) +  + 移位(xk个,c) ≈ 移位(a,c) − 移位(a,b).
图11
图11
前后向链接的一致性。(A类)距离d(A、B)(间隙长度或反向重叠长度)A类B类可以使用它们之间的前向反向链接读取进行估计。(B类)距离d(B、C)在两个侧面之间B、 C链接到同一个contigA类,可以根据它们到连接的连接的各自距离进行估计。
图12
图12
填补超级计数中的空白。(A类)轮廓A类B类通过路径连接第页连续X(X)1、…、Xk个.距离d日第页(A、B)之间A类B类(沿着路径第页)是路径中不重叠的序列的长度A类B类(B类)轮廓Y(Y)1Y(Y)2与supercontig共享前向反向链接S公司这些连接将它们定位在A类B类因此,Y(Y)1Y(Y)2将用作路径中的可能步进点,以缩小距离A类B类.

类似文章

引用人

工具书类

    1. Adams MD、Celniker SE、Holt RA、Evans CA、Gocayne JD、Amanatides PG、Scherer SE、Li PW、Hoskins RA、Galle RF等。果蝇基因组序列。科学。2000;287:2185–2195.-公共医学
    1. 拟南芥基因组计划。开花植物拟南芥基因组序列分析。自然。2000;408:796–815.-公共医学
    1. 计算基因组学:基因组的绘图、比较和注释〉,博士论文。麻省理工学院电气工程与计算机科学系;2000
    1. C.线虫测序联盟。秀丽线虫基因组序列:生物学研究平台。科学。1998;282:2012–2018.-公共医学
    1. Chen,T.和Skiena,S.S.1997年。序列组装的三元数据结构,In:第八届组合模式匹配研讨会论文集,第206-223页。纽约施普林格-弗拉格。

出版物类型

LinkOut-更多资源