跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
比较研究
.2008年11月;18(11):1814-28.
doi:10.1101/gr.076554.108。 Epub 2008年10月10日。

Enredo和Pecan:基于哺乳动物基因组一致性的与Paralog的多重比对

附属公司
比较研究

Enredo和Pecan:基于哺乳动物基因组一致性的与Paralog的多重比对

本尼迪克特·佩顿等。 基因组研究. 2008年11月.

摘要

成对全基因组比对涉及到同源图谱的创建,能够将一个基因组几乎完全转化为另一个基因组。对于多基因组,这个问题被推广到寻找一组一致的同源图,以将一组对齐基因组中的每个基因组转换为其他任何基因组。这个问题可以分为两个主要阶段。首先,将输入基因组划分为一组共线片段,这一过程本质上处理复杂的重排过程。其次,为每个共线线段生成基对级对齐图。我们开发了一个新的全基因组分割程序Enredo,它从处理重排(包括重复)的现有基因组中产生共线片段。然后,我们应用了新的比对程序Pecan,使一致性比对方法在大规模上实用,以创建一组新的全基因组哺乳动物比对。我们使用新的和现有的评估分析对Enredo和Pecan进行了测试,这些评估分析结合了真实的生物数据和模拟,并表明它们无论是独立的还是组合的性能都优于现有的程序。在Ensembl基因组浏览器中,我们的管道中的比对是公开的。

PubMed免责声明

数字

图1。
图1。
Enredo图中显示连接和退火修改的示意图。(A类)初始图形。GPA显示为数字,加号和减号表示其端点。在这个示意图结构中,我们没有显示链接边。相邻边缘由GPA之间的一系列不同的颜色线表示,表示其AESG内的多个物种。(B类,黑圈)图中冗余的GPA,仅与其他两个GPA相连;这些可以在没有效果的情况下删除。平均绩点(橙色圆圈)不是多余的,因为H(H)∗–∗与AESG中的所有段不连续∗–∗J型. (C类)移除的结果。黑色箭头显示编辑距离为1时冗余的子图边缘;然后合并这些边,留下如所示的图形D类.
图2。
图2。
示意图表示Enredo图中的三个二次修改。图形表示反映了图1中的情况。(1)分割小边。(1.答)三个基因组上的一组初始GPA,其中绿色序列包含一个与其他基因组明显同源的小区域。(1.B类)删除冗余GPA后的图形。平均绩点C类D类仅因为绿色序列,才在图中表示断点。(1.C类)将绿色序列从其他序列中分割并删除新的冗余边的效果。(2)去除与同源基因配对的反转录转座子假基因。(二点一)通常,GPA与外显子而不是内含子匹配,因此逆转录转座的假基因可以在GPA水平上与同源基因表现出高度相似性,尽管相邻的边缘会小得多(绿色序列)。(2.B类)删除冗余GPA后的图形。AESGB类∗−(C类,D类)−∗E类包含比第三个段长得多的两个段。(2.C类)将假定的反转录转座子假基因与其他片段分离的效果。通常,这会导致在删除新的冗余边后创建更长的AESG。()移除小的圆形路径。这里的回文圆圈,通常由短串联重复或换位引起,被连接的相邻边所打破A类∗−(B、C)−∗D类.
图3。
图3。
Enredo图中线段长度的密度图。(A类)红线,原始图形中线段长度的分布;绿线,应用连接和退火后的图形,编辑距离为4;蓝线,去除分割小边后的图形;在解析圆段路径、删除逆转录转座子假基因并验证桥接边后,最终图形为品红色线。~10 kb的峰间距离迅速转换为更广泛的节段长度分布,模式稍长(~20 kb)。加权中值(N50)相当长(~230 kb)。(B类)最终Enredo图中人体片段长度的分布,其中人体片段有一个、两个、三个或四个或多个拷贝。因此,该图将人类的单拷贝区域与具有不同程度重复的区域进行了对比。
图4。
图4。
(A类)显示在没有传递锚点的情况下生成的对齐带的编辑纹理。绘制后验概率在0.01和1.0之间的对齐对,并根据其概率进行着色。(B类)显示与中相同区域的对齐带的编辑纹理A类,但使用传递锚。现在,某些边已从对齐中排除,但大多数可能性已被很好地包围。
图5。
图5。
50 50k模拟九向比对中不同比对算法的比较(Blanchette等人,2004)。图中显示了具有代表性的对齐对比较。MAVID的数据(Blanchette等人,2004)、TBA(Blanchete等人,2004年)和Mlagan(Brudno等人,2003年a)使用最新公开发布的数据进行计算。Dialign(Morgenstern等人,1998;Morgenstern 1999)、ClustalW(Thompson等人,1994)和Dialign Chaos(Brudno等人,2004)的数据转载自Blanchette等人(2004)。
图6。
图6。
(A类)显示不同比对对推断的古代重复序列的覆盖范围和准确性的图。覆盖率是指所有古代重复碱基对齐的比例。准确度是指被归类为完全匹配的所有列的比例。(B类)一个条形图,显示不同类型的协议(完全、部分和不匹配)对不同分割和对齐方法组合的重复共识对齐的分布。

类似文章

引用人

工具书类

    1. Altschul S.F.、Gish W.、Miller W.、Myers E.W.、Lipman D.J.基本局部对齐搜索工具。分子生物学杂志。1990;215:403–410.-公共医学
    1. Bafna V.,Pevzner P.A.第34届IEEE计算机科学基础研讨会论文集,IEEE PressPattern Matching。第三届年度研讨会,计算机科学讲稿。1993年基因组重排和反转排序;第148-157页。
    1. Bahr A.、Thompson J.D.、Thierry J.C.、Poch O.BAliBASE(基准比对数据库):重复序列、跨膜序列和循环排列的增强。2001年《核酸研究》;29:323–326.-项目管理咨询公司-公共医学
    1. Batzoglou S.、Pachter L.、Mesirov J.P.、Berger B.、Lander E.S.《人类和小鼠基因结构:比较分析及其在外显子预测中的应用》。基因组研究2000;10:950–958.-项目管理咨询公司-公共医学
    1. Blanchette M.、Kent W.J.、Riemer C.、Elnitski L.、Smit A.F.A.、Roskin K.M.、Baertsch R.、Rosenbloom K.、Clawson H.、Green E.D.等人。用螺纹区块比对仪校准多个基因组序列。基因组研究2004;14:708–715.-项目管理咨询公司-公共医学

出版物类型