跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组生物学。2009; 10(4):R42。
2009年4月24日在线发布。 数字对象标识:10.1186/gb-2009-10-4-r42
预防性维修识别码:项目经理2688933
PMID:19393038

家养奶牛的全基因组集合,Bos金牛

关联数据

补充资料

简短摘要

一种由28.6亿碱基对组成的奶牛全基因组组合,用于填补空白,纠正先前描述的反转和缺失,以及描述Y染色体的一部分。

摘要

背景

家养奶牛的基因组,Bos金牛使用分层和全基因组鸟枪测序方法进行测序。

结果

我们已经组装了3500万个序列读取,并应用了多种组装改进技术,创建了一个由28.6亿碱基对组成的组装,与之前的组装相比有了多项改进:它更完整,涵盖了更多的基因组;数以千计的差距已经缩小;许多错误的反转、缺失和易位都得到了纠正;并且已经纠正了数千个单核苷酸错误。我们使用独立度量进行的评估表明,与其他版本相比,生成的程序集更加准确和完整。

结论

通过使用独立的作图数据和牛与人类基因组之间的保守联系,我们能够构建一个具有良好大规模邻接性的组合,其中绝大多数(约91%)基因组被放置在30个基因组上家牛染色体。我们构建了一个新的牛-人共性图,它扩展了以前的地图。我们还首次确定了家牛Y染色体。

背景

人类基因组首次全基因组组装七年后[1]哺乳动物基因组的测序和组装几乎已成为常规。然而,尽管测序技术不断进步,装配问题远未解决。大型基因组的组装包含许多错误,多年的工作可以致力于纠正错误和改进组装[2]. 与实验室方法相比,计算组装方法的技术进步有可能使许多改进更快、更有效。

准确组装重要物种的基因组为未来研究提供了宝贵的基础。例如,遗传多样性研究需要一个良好的参考基因组,以便编目新菌株或谱系的差异。表达分析是指对来自不同组织的RNA进行序列测定,依靠基因组绘制基因模型并发现选择性剪接等特征。创建一个更完整、准确的参考基因组可以避免因试图使用错误多态性或其他错误而造成的大量浪费。由于这些原因,人类基因组计划花费了大量精力来改进原始人类“草图”装配,该装配有147821个缺口,缺失了10%的常染色质区域,三年后“接近完成”草图,只有341个缺口和不到1%的常染色素仍缺失[]. 正如该研究指出的那样,改进后的组装“大大提高了生物分析的精确度……包括基因数量、出生和死亡的研究”

为了组装家养奶牛的基因组,Bos金牛,我们用额外的后处理算法增强了最新的组装软件,这些算法利用成对的末端序列信息、映射数据和与人类基因组的同源性来检测错误、纠正倒置片段并填补序列中的空白。在大量标记数据的帮助下,我们能够将约91%的组装基因组锚定在染色体上。由此产生的组合为家养奶牛遗传学和比较哺乳动物基因组学的注释和正在进行的研究提供了非常优质的资源。

结果和讨论

我们的装配家牛基因组包含2857605192 bp,其中2612820649 bp位于30条染色体中的一条上(表(表1)。1). 剩下的245 Mbp包含在未定位的连续序列中(contigs)。图11图中显示了29个常染色体和X染色体中每个染色体的序列数量。如图所示,长度与染色体数量呈负相关,只有少数例外,包括11号、20号和24号染色体。

保存图片、插图等的外部文件。对象名称为gb-2009-10-4-r42-1.jpg

染色体(Chr)长度(碱基对)基于家牛放在每个染色体上的集合。

表1

的UMD2程序集的总体程序集统计信息家牛

所有contigs的总尺寸2,857,605,192
所有放置的重叠群的总大小2,612,820,649
未定位contigs的总尺寸244,784,543
N50连接大小(基于2.5 Gb基因组大小)93,156
N50连续计数7,906
连续数>10000 bp44,433
contigs总规模>10000 bp2,563,627,935

N50连续体大小是指X值,即至少一半基因组包含在X或更大的连续体中。N50 contig count是大小为X或更大的contig数。

我们评估了我们的大会(马里兰大学家牛,第2版(UMD2))以多种方式进行完整性和正确性比较,将其与独立的绘图数据、独立测序的mRNA数据以及贝勒医学院人类基因组测序中心(BosTau4.0,BCM4)制作的替代草图汇编进行比较。每个集合都包含已知染色体位置的“放置”序列和“未放置”序列。如表所示表2,2UMD2组装比BCM4大,染色体上的序列大约多150 Mb(6%)。除了总大小外,N50大小是比较基因组组合的一个非常有用的统计数据:它表示大小N个这样,50%的基因组包含在大小不等的连续体中N个或更高。对于UMD2,N50连接大小为93156 bp,而对于BCM4,N50大小为81627,大约小14%。图22显示了从N1到N98的所有值,UMD2组件都大于BCM4。

保存图片、插图等的外部文件。对象名称为gb-2009-10-4-r42-2.jpg

UMD2(蓝色)和BCM4(红色)组件的N统计累积图。图中的每个点(X,Y)显示了连续大小Y,因此对于大小为2.5 Gbp的基因组,X%的基因组包含在长度为Y或更大的连续中。例如,每个组件的N50尺寸对应于X=50时的Y值;对于UMD2,该值为93156,而对于BCM4,该值为81627。

表2

比较家牛根据序列和映射统计数据的UMD2和BCM4组件

装配UMD2型业务连续性4
染色体上的总序列(Gbp)2.612.47
N50连接尺寸(bp)93,15681,627
N50连续计数7,9068,712
映射到放置序列的Cmap标记总数14, 62013,699
映射到错误染色体的Cmap标记11982

N50统计数据基于2.5 Gbp的基因组大小。

BCM4和UMD2组件之间最显著的区别之一是家牛X染色体(BtX)。UMD2为X染色体分配了136 Mbp的序列,而BCM4组件仅分配了83 Mbp。如下所述,我们组装的BtX上的所有序列都与人类X染色体(HsX)同源。

独立生成的映射数据提供了组件质量的另一种度量。打喷嚏. [4]创建了家牛来自三个辐射杂交面板、两个遗传图谱和细菌人工染色体(BAC)末端序列的图谱。我们将合成图(Cmap)中的所有17254个标记(其中17193个是唯一的)与这两个集合对齐。如果90%的标记序列与至少95%的同源性一致,则认为标记与染色体匹配。在Cmap标记中,14620个与UMD2组合的染色体对齐,而BCM4组合的标记为13699个(减少6.3%)。少数Cmap标记(UMD2和BCM4分别为119和82)映射到与Cmap数据中所示不同的染色体。

我们的组装规模更大、基因组覆盖范围更广的一个可能原因是用于构建BCM4的Atlas组装程序所采用的基于BAC的组装策略[5]. 该策略包括将基因组分成BAC大小的片段,使用BAC读取和全基因组鸟枪(WGS)读取来组装这些片段,然后合并结果。该策略未能纳入美国银行覆盖区域以外的读取。我们估计,由于BAC之间的间隙,BCM4中至少有2%的UMD2组件丢失。

我们直接将两个议会对立起来,以便发现任何重大分歧。30条染色体中有10条包含一个或多个较大(>500kb)的差异,主要是反转,但也有缺失和易位。图3图中显示了染色体26和27上两个相对较大的反转,跨越4和2.5 Mbp。在这两种情况下,与所有其他大型差异一样,Cmap数据支持UMD2程序集。所有30条染色体的比对图在附加数据文件2中在线提供。

保存图片、插图等的外部文件。对象名称为gb-2009-10-4-r42-3.jpg

UMD2和BCM4之间的大规模分歧示例。(a)26号染色体15Mbp和25Mbp之间区域的点对点比对显示BCM4与UMD2相比有较大的反转;(b)26号染色体同一区域的Cmap标记的位置,与它们在UMD2(蓝色)和BCM4(红色)中的位置相对应,表明Cmap支持UMD2组装。(c)27号染色体7Mbp的比对显示,BCM4与UMD2相比有较大的反转;(d)27号染色体同一区域的Cmap标记的位置,如(b)所示,Cmap与UMD2组装体的一致性更高。

我们对两个集合进行了比较,以了解明显的节段性重复次数的差异,重点是可能混淆集合的重复类型。我们从两个组装体中收集了长度>5kb且>95%相同的所有染色体内重复片段。我们发现UMD2中这种类型的重复明显较少,BCM4中为662次,而BCM4为3098次。如果这些区域是UMD2中错误折叠的重复,那么WGS读取的覆盖率应该更高(大约是全基因组水平的两倍),区域两侧的配对将显示不一致[6]. 然而,在分析UMD2中的单拷贝区域和BCM4中的重复区域后,我们发现配对对或覆盖率没有实质性差异,这表明这些区域很可能是单拷贝的。BCM4可能无法合并重叠的BAC(来自不同单倍型),这将导致片段重复的出现;需要进一步分析来解决这个问题。

装配完整性及其注释潜力的另一个指标是已知基因序列可以映射到其上的程度。我们使用拼接对齐映射工具将8689个独立验证的全长奶牛mRNA序列与这两个装配对齐(参见材料和方法)。图4a4a类附加数据文件1中的表S1显示了序列数超过分数(f)每个基因组中包含的一系列碱基(f)值。当考虑基因的所有比对时,UMD2包含至少一部分8659个mRNA,而BCM4为8555个。除了两个基因外,所有与BCM4对应的基因都可以在UMD2中找到,而106是UMD2特有的,在BCM4中没有发现。这两个集合包含除28个外的所有mRNA序列,以及其余28个基因中的25个的同源序列。当考虑基因的对齐部分时,两个基因组之间更显著的差异变得明显。例如,8042个基因90%以上的碱基映射到UMD2基因组,而BCM4只有7771个基因。我们还直接比较了两个集合之间的基因覆盖率分布,如图所示图4b。4b个.BCM4具有相对较多的低覆盖率基因,而UMD2具有较多的高覆盖率基因(95-100%)。总的来说,UMD2具有更完整的基因表示,同时包含BCM4中的几乎所有基因,因此为基因注释提供了更全面的资源。

保存图片、插图等的外部文件。对象名称为gb-2009-10-4-r42-4.jpg

通过基因定位进行组装比较。(a)可在不同覆盖截止点(水平轴)与每个基因组集合对齐的RefSeq mRNA序列数量(8689个),序列一致性至少为95%。(b)映射到不同覆盖水平的两个集合的mRNA数量差异,绘制为UMD2减去BCM4。负值表示BCM4在给定水平上有更多的基因,而正值表示UMD2有更多。例如,在0-5%的覆盖率下,BCM4比UMD2多104个mRNA。在95-100%的覆盖率下,275个mRNA映射到UMD2。蓝色,UMD2组件;红色,BCM4组件。

单核苷酸差异

在逐个碱基的比较中,UMD2和BCM4组装体的单核苷酸差异(SND)大于200万。其中一些可能是有效的单倍型差异,其中两个组合都是正确的,而另一些可能是错误的。我们将分析重点放在一个子集位置上,其中基础读取数据表明该位置极有可能是纯合的,因为大多数(或所有)读取结果彼此一致。我们还要求每个SND两侧都有50-bp的精确匹配(参见材料和方法),这将SND集减少到389015。然后,我们查找了这样的情况:只有一个读取确认了一个程序集,而所有其他读取(至少三个)确认了另一个程序集中。UMD2程序集包含这些明显错误的10636个实例,而BCM4程序集中包含30750个实例。因此,BCM4组件中明显错误的SND大约增加了三倍。

查看细粒度准确性的另一种方法是将程序集与独立生成的序列进行比较。我们将这两个组件与六个成品BACS进行了比较,它们来自与全基因组项目来源不同的奶牛。UMD2或BCM4组件中均未使用这些BAC克隆。UMD2中含有96%的BAC序列,而BCM4中含有91%。仅考虑BAC序列中匹配的部分,BAC和UMD2之间的平均差异为0.58%,而BCM4的差异率为0.96%。尽管其中一些不匹配可能是由于真正的多态性造成的,但BCM4中的过度差异可能表示错误的基调用,这表明BCM4的错误率较高。

这个家牛Y染色体

由于三分之二的数据来自母牛,而雄性DNA基于BAC文库(材料和方法),因此只有非常有限的组装体可以分配给Y染色体。(值得注意的是,BCM4组合没有为Y染色体分配任何序列。)我们将所有未定位的contigs与人类Y染色体对齐,以确定家牛Y序列,我们识别出71个与Y对应的contigs。当包含相同支架中的Contig时,总contigs增加到94个,覆盖832527 bp。这些基因包括男性性别决定基因的一部分SRY公司[7]. 因为目前很少有这些连续体是相对排列的,所以需要进一步的工作来构建Y染色体结构的更好图片。

与人类基因组的比较

虽然人类与老鼠的关系比与奶牛的关系更为密切,但奶牛和人类的DNA序列具有足够的相似性,使我们能够将人类基因组几乎完全映射到奶牛身上。先前基于绘图数据的研究表明,人类和奶牛大约有201个同源DNA块[8]. 我们使用灵活的标准(参见材料和方法)将所有奶牛染色体与所有人类染色体对齐,创建了一个新的高分辨率人类和奶牛的同系图。如果人-牛比对延伸了至少250 Kbp,并且没有被倒置或另一染色体上的HSB中断,则该区域被视为同源同系区(HSB)。如果两个HSB被<3 Mbp的间隙中断,并且该间隙中没有其他内容,则两个块被合并。(请注意,如果一个大的同线性区域被一个不同的HSB中断,则中断会产生三个HSB。)修改后的Oxford网格,如表所示表3,,显示了所有人类和奶牛染色体之间共享的同步区的数量。

表3

修改后的牛津网格显示了奶牛每条染色体上的同源联同区的数量(家牛)和人类基因组

人类染色体

奶牛染色体1245678910111213141516171819202122X(X)
144
2141
511
412
565
65
755
81510
9
10455
1181
125
1377
14
156
1610
1754
1844
1920
202
21217
228
23
244
2577
26
27114
286
297
X(X)14

我们新的、更详细的地图基本上与之前确定的区块一致,但有一些重要的差异。在少数情况下,我们的图谱中一对染色体之间的HSB较少,但在更多情况下,发现了以前丢失的新的合成酶块;其中大多数是较大区块中的反转或中断。总的来说,我们的地图将HSB的总数增加到268个。这些是从245个进化断点(268条减去23条人类染色体)创建的,这些断点是自人类和奶牛分化以来出现的。例如,据报道,BtX和HsX共享七个HSB[8]. 图5,5显示了BtX和HsX的比对,显示出五个大的区块覆盖了两条染色体的大部分,另外一个小得多的800 Kbp区块跨越了该区域,从BtX的约24.5 Mbp到25.3 Mbp。然而,在这个尺度上看不到另外七个反转,这使得X染色体的HSB总数达到14个。我们在BtX上没有发现与X以外的任何其他人类染色体对应的HSB。

保存图片、插图等的外部文件。对象名称为gb-2009-10-4-r42-5.jpg

的转让家牛X号染色体到人类X号染色体,显示出大规模同源性的区域。两条染色体中的大多数在图中明显的五个大块中共享。红色:序列以相同的方向排列;蓝色:序列是对齐的,但有一个是反向补码。大约25 Mbp-in的反向(蓝色)块家牛虽然规模很小,但跨度超过800千bp。

我们还考虑了在奶牛基因组中可以找到多少人类基因。对于这项分析,我们只考虑了来自国家生物技术信息中心(NCBI)RefSeq数据库的精选人类基因。我们鉴定了25710个RefSeq蛋白,代表18019个不同的人类基因(许多具有替代亚型),并将其与奶牛基因组进行了比对。在18019个人类基因中,有17253个(95.7%)根据我们的标准映射到了奶牛。剩下766个基因未能映射。其中,111个被注释为“假设”蛋白质,可能代表人类中不准确的基因模型。剩下的655个人类基因未能绘制地图,要么是因为它们太分散,要么是由于奶牛集合太零碎,或者包含这些基因的区域中存在缺口。使用相同的方法,我们发现17107个人类基因映射到BCM4组装体上。在未映射的基因中,693个未能映射到任何一个集合,219个映射到UMD2但未映射到BCM4,73个映射到BCM但未映射至UMD2。

一个令人惊讶的结果是,我们发现最初的组件中含有两种不寻常的污染物,鲍曼不动杆菌粘质沙雷菌。这些细菌不用作测序试剂,在筛选污染物时通常不被检测到;它们似乎代表着环境污染。14个contigs中总计43311 bp的细菌contigs已从UMD2组件中移除,但已在我们的ftp网站上提供[9].

结论

这些结果说明了全基因组测序项目读取数据中包含的信息如何为基因组的持续改进提供了宝贵的资源,以及如何将独立生成的数据合并到WGS数据中以生成更好的组装。由此产生的改进将为研究界带来即时利益,我们希望与他们合作进一步改进组件。在组装真正完成之前——包括人类在内的哺乳动物基因组还没有达到这种状态——我们将继续整合新数据来填补空白,纠正错误定位区域,并在染色体上放置更多序列。目前正在对羊驼和绵羊的基因组进行测序,这将为根据这些密切相关哺乳动物之间的进化保护进行进一步改进提供丰富的来源。

材料和方法

初始装配

我们下载了大约3700万家牛从NCBI跟踪档案中读取。最初的测序是在贝勒医学院进行的,BCM4组装是由Atlas组装项目生产的[5]并于2007年10月向公众发布。BCM4是第四个也是最后一个组件,以前的版本分别出现在2004年、2005年和2006年。对于UMD2组件,除了BCM记录道之外,没有使用其他序列。我们使用Figaro修剪读取以删除矢量序列[10],它通过识别读取中的常见前缀来自动确定矢量序列。我们对读数的3'端进行了修整,以便在任何≥40个碱基的窗口中,平均错误率(根据质量分数计算)小于2.5%。我们的修剪和质量控制程序产生了大约3500万个修剪读取,提供了大约9.5倍的基因组覆盖率。接下来,我们使用UMD覆盖器计算修剪读取之间的序列重叠[11,12],其中包括一个错误纠正步骤,该步骤纠正足够覆盖区域中的排序错误。

的排序策略家牛是WGS方法和BAC-by-BAC方法的混合。在后一种方法中,100-150Kbp的大插入克隆(BAC)被分别测序,然后组装。相比之下,WGS策略对整个基因组进行采样。对于家牛,WGS测序产生了约2400万个读取,约1100万个读取来自BAC。因此,BAC覆盖的基因组区域的覆盖范围比基因组的其他区域要深得多。这一特性反过来又会混淆大多数WGS算法,这些算法使用覆盖统计信息来识别基因组的重复区域。为了避免这个问题,我们修改了Celera Assembler(CelAsm)程序[13]仅使用WGS读取计算覆盖率和重复统计数据。然后,我们对整个数据集运行修改后的CelAsm。

使该项目更加复杂的是,源DNA来自两种动物,一对父子。BAC文库DNA的来源是赫里福德公牛L1 Domino 99375,注册号41170496,血液由迈克尔·麦克尼尔实验室提供,该实验室位于蒙大拿州迈尔斯城美国农业部农业研究所。WGS序列的DNA来自L1 Dominette 01449的白细胞,美国赫里福德协会注册号为42190680(L1 Domino 99375的女儿),由内布拉斯加州克莱中心美国肉类动物研究中心Timothy Smith博士的实验室提供。使用两种动物可以增加单倍型之间的预期多样性。大多数读取是使用配对测序策略产生的,使用两组大小的克隆插入:几个2-5kb的短库和几个150-200kb的BAC大小的库。

附加数据文件1中的表S2总结了首次运行CelAsm后的程序集。初始组装包含2.858 Gbp,最大支架尺寸为15.1 Mbp,共有194643个重叠群。初始连接和支架被映射到染色体上,并进一步改进,如下所述,最终组装统计数据如表所示表11.

将装配映射到染色体上

我们在UMD2的CelAsm支架的初始放置中使用了两组标记:IBBMC指纹图中的BAC末端[4]; 以及斯内林及其同事的17524标记合成图(Cmap)[4].

指纹图(IBMMC)是Hin公司290797个BAC的DIII限制图,组装成655个contigs并固定在家牛染色体[4]. 许多BAC是从一端或两端进行末端测序的,我们从NCBI的GSS数据库中检索到这些序列。我们能够将108100个BAC-end序列与我们的家牛基因组组装,要求每个序列在其长度的85%以上与>90%的一致性对齐。大多数BAC末端与>98%的序列匹配,长度大于99%。MUMmer软件包[14]用于这些比对和Cmap比对。(Cmap数据的BCM4标记位置直接从BCM ftp站点获得[15].) 我们手动检查了FPmap和Cmap之间的一些分歧,发现有时FPmap似乎跳到了错误的染色体上。因为Cmap基于三组独立的地图数据,所以我们使用Cmap来检测和纠正这种脱轨,并创建“校正指纹图”(CFPmap)。然后,我们使用此CFPmap将初始组件放置到30家牛染色体。我们还使用CFPmap校正了54个CelAsm支架,方法是将其拆分为两个或多个片段,然后将这些片段分别放在染色体上。

然后,我们在染色体上放置额外的连接物和支架,如果它们通过三个或更多一致的母体-对链接与放置的支架相连。我们将“一致”定义为:所有配对表示相同的相对方向;每个配对对的隐含位置的标准偏差与库中的标准偏差一致。

使用奶牛-人类比对定位contigs

仅使用单个标记映射到染色体上的支架(一组相连的连体)不能仅根据标记信息确定方向。我们利用牛和人之间的整体保守联系来定向许多这些支架。首先,所有的牛支架都使用细胞核与人类基因组对齐[14]使用其最大唯一匹配(mum)选项,以避免重复序列的对齐。对于之前未定向的脚手架与人的每次对准,每侧100 Kbp以内的所有对准都被拉出进行分析。A分数S公司计算每个无定向脚手架,考虑周围脚手架S公司在牛的两侧被映射到人类的一组一致的位置。如果周围的脚手架S公司如果左右两侧的大多数脚手架都同意方向,则S被指定为该方向。使用该程序,对含有4011个连续骨的1840个支架进行定向。

我们开发了一种类似的程序,将未定位的连续染色体分配给染色体,再次依赖于牛和人之间的保守联系。首先,所有未定位的contigs均如上所述对齐。然后,使用Mummer的“delta-filter”程序计算未定位contig到人类的一对一映射,以便在人类的每个区域只考虑最佳对齐contig。对于每个未定位的contig与人类的最佳对齐,通过我们的人-牛同步图识别奶牛中的匹配区域,并从该区域提取所有contig进行检查。我们只考虑在家牛如果奶牛周围的contigs的顺序和方向与人类的相应区域相匹配,则为染色体。如上所述,我们检查了附近奶牛的连体骨的排列,这些连体骨排列在人类未定位连体骨100 kb范围内。如果牛-人共生性区域不包含重排,则将未放置的contig放置在这些排列指示的位置。使用这个程序,在染色体上放置了1046个contigs。这一过程的一个结果是完成了许多未完全定位的基因(基于mRNA比对)。

单倍型变异去除

在评估组装的正确性时,我们发现了许多沿染色体放置的contigs的例子,这些contigs与附近的Contig几乎一致。当二倍体基因组中每个染色体的两个拷贝充分分化时,基因组组装者将无法将来自两个单倍体的读取合并成一个单一的一致序列。相反,它将读取划分为两个单独的连续。在这种情况下,两个contigs都与周围的contigs有mate-pair链接,汇编程序可以将它们放在程序集中彼此非常接近的位置(通常是相邻的)。虽然这个问题的理想解决方案是为每个染色体制作两个完整的拷贝,每个父母单倍型一个,但在目前的技术下,这个解决方案是不可能的。因此,我们必须保留其中一个单倍型,并删除另一个单倍型。

为了检测和纠正单倍型变异问题,我们将每个重叠群与附近的所有重叠群对齐。那些与>97%的同源性一致且长度>90%的基因从组装中移除,并放入单独的单倍型变体文件中。该程序删除了3010个contigs,总计约6 Mbp的序列。

单核苷酸差异评估

我们使用MUMmer程序套件对齐了程序集,并确定了所有位置,其中1个碱基失配的两侧都有50个碱基,每侧都完全匹配,我们还要求每个程序集至少有4个与这些位置对齐的读取。差异包括替换、插入和删除。请注意,此方法排除了具有多个紧密间隔SND的区域。然后,我们将所有SND区域(每个101 bp)与所有SND区进行匹配家牛读取,用精确的20-mer匹配播种排列。如果整个SND区域与最多五个错误的程序集匹配,则认为SND与读取的对齐有效。

与完成的六个进行比较家牛BAC,从GenBank下载了以下克隆:gi |171461043、gi |1171461042、gi#171461041、gi _171461040、gi=171461039和gi |167744683。所有六个克隆均由BCM测序并完成。

Contig缝合

CelAsm中的scaffolder根据读取之间的mate-pair关系将contigs排序并定向为scaffold。当连拱末端的质量低、顺序错误时,架子工会将连拱放置在相邻的位置,即使连拱实际上重叠,也无法将其合并。为了纠正这个问题,我们对支架进行后处理,用单个连接的连接替换重叠的连接,使用之前描述的连接方法的简化版本阴道毛滴虫[16]. 首先,我们与纽姆结盟[17]连续骨末端之间的间隙估计小于1Kbp。如果比对结果显示,相邻序列重叠至少40 bp,同源性94%,悬垂序列最多20 bp,并且重叠所暗示的间隙大小小于估计间隙大小的3个标准偏差,我们将这对相邻序列缝合在一起。缝合序列由穿过重叠区域的左contig序列组成,与经过重叠区域的右侧翼序列区域相连。缝合按顺序处理每个脚手架,这样可以将多个连体链缝合在一起,形成一个大连体。缝合过程用534个拼接拼接(平均尺寸:91.7 Kbp)替换了1076个拼接(平均大小:45.9 Kbp),闭合了542个间隙(平均间隙大小:-822 bp)。

通过“放炮”方法缩小差距

整个基因组组装中的许多缺口是由于重复序列造成的。对于这些序列,组装者必须非常小心,不要将基因组的两个非相邻区域连接起来。在许多情况下,汇编程序完成后留下的空白可以通过仔细利用Mat-pair信息来解决。我们开发了一种算法来跨越脚手架中的间隙,该算法枚举了重叠图(由重叠读取定义)中的所有可能路径。如果其中一条路径正好与主对距离一致,那么我们可以沿着该路径“拍摄”穿过间隙。使用该算法,我们能够缩小4612个缺口,总跨度约为8.34 Mbp。

人-狼共性图的构建

整个人类基因组与家牛使用MUMmer程序套件,用至少40 bp的精确匹配锚定定线,并要求定线锚的长度至少为100 bp。对齐区域的同源性从82%到94%不等,大多数对齐长度为500-5000 bp,可能与编码区域相对应。

信使RNA比对

已知全长基因序列从NCBI的RefSeq项目下载(发布日期:2008年11月10日)[18]. 在24293个基因中,只有8689个由实验验证的序列产生并用代码“临时”鉴定的mRNA被保留。使用高通量映射工具ESTmapper将序列与BCM4和UMD2基因组比对[19,20]保留所有长度超过100 bp且序列一致性≥95%的拼接比对。该程序对BCM4基因组上8555个基因进行了12069次比对,对UMD2基因组上8659个基因进行12460次比对,用于分析两个基因组的基因含量。还使用另一种绘图工具GMAP进行了定线[21],并用于确认和分类两个集合之间观察到的基因含量差异。对于每个基因,计算每个基因组中的“覆盖”值,作为该基因所有比对中包含的碱基的分数,并绘制出在不同覆盖截止点映射的基因数量。

对于人-牛基因比对,我们使用翻译所有六个框架中基因组的工具,将25710个代表18109个独特基因ID(在NCBI RefSeq数据库中)的人类蛋白质映射到奶牛基因组。通过收集所有经过审查或验证的具有明确染色体坐标的RefSeq蛋白来选择人类基因。我们使用blat、tblastn和exonerate进行级联搜索,将人类蛋白质与DNA序列对齐,如果一个蛋白质至少映射到其长度的40%(相似度至少为70%),我们认为该蛋白质存在。

整个组件已作为加入文件存放在GenBankDAAA00000000美元; 本文描述的版本是第一个版本DAAA01000000。装配也在我们的ftp站点上[9].

缩写

BAC:细菌人工染色体;BCM4:贝勒医学院家牛,第4版;BtX公司:家牛X染色体;CFPmap:校正指纹图;HSB:同源性synteny block;HsX(热释光):智人X染色体;NCBI:国家生物技术信息中心;SND:单核苷酸差异;马里兰大学大会家牛,版本2;WGS:全基因猎枪。

作者的贡献

AVZ、ALD、MCS、DP和MR收集序列数据并运行组件。LF、FH和GP对齐蛋白质和转录序列,并根据注释评估组装完整性。MCS、GM、MR和PS重新组装,以缩小差距并评估SND。CPVT和TSS提供了地图数据,AVZ将地图标记集成到装配中。DAK和SLS对奶牛和人类集合进行校准,以改进定向并评估奶牛和人类的综合征。ALD和DP扫描并删除污染序列。JAY和SLS构思了实验和分析。AVZ、ALD、LF和SLS撰写了手稿。所有作者阅读并批准了最终手稿。

其他数据文件

本文的在线版本提供了以下额外数据。附加数据文件1包含两个表:表S1列出了在不同覆盖水平上映射到两个集合中每个集合的RefSeq基因数量;表S2列出了初始未改进装配的汇总统计数据家牛.附加数据文件2图中显示了所有30条染色体的UMD2和BCM4组合之间的比对。

补充材料

附加数据文件1:

表S1列出了在不同覆盖水平上映射到两个集合中每个集合的RefSeq基因的数量;表S2列出了初始未改进装配的汇总统计数据家牛.

单击此处查看文件(42K,文档)
附加数据文件2:

PDF显示所有30条染色体的UMD2和BCM4组合之间的比对。

单击此处查看文件(1.4M,pdf格式)

致谢

这项工作得到了NIH向SLS提供的R01-LM006845和R01-GM083873赠款以及向JAY提供的R01-HG002945赠款的部分支持,以及美国农业部向SLS和JAY提供了2008-04049赠款。作者感谢贝勒医学院人类基因组测序中心生成原始序列数据并在NCBI追踪档案馆公开。

工具书类

  • Venter JC、Adams MD、Myers EW、Li PW、Mural RJ、Sutton GG、Smith HO、Yandell M、Evans CA、Holt RA、Gocayne JD、Amanatides P、Ballew RM、Huson DH、Wortman JR、Zhang Q、Kodira CD、Zheng XH、Chen L、Skupski M、Subramanian G、Thomas PD、Zhang J、Gabor Miklos GL、Nelson C、Broder S、Clark AG、Nadeau J、McKusick VA、Zinder N等。人类基因组的序列。科学。2001;291:1304–1351. doi:10.1126/science.1058040。[公共医学] [交叉参考][谷歌学者]
  • Celniker SE、Wheeler DA、Kronmiller B、Carlson JW、Halpern A、Patel S、Adams M、Champe M、Dugan SP、Frise E、Hodgson A、George RA、Hoskins RA、Laverty T、Muzny DM、Nelson CR、Pacleb JM、Park S、Pfeiffer BD、Richards S、Sodergren EJ、Svirskas R、Tabor PE、Wan K、Stapleton M、Sutton GG、Venter C、Weinstock G、Scherer SE、Myers EW等。完成全套猎枪:第3版黑腹果蝇常染色基因组序列。基因组生物学。2002;:RESEARCH0079.doi:10.1186/gb-2002-3-12-RESEARCH0079。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 国际人类基因组测序协会完成人类基因组的常染色序列。自然。2004;431:931–945. doi:10.1038/nature03001。[公共医学] [交叉参考][谷歌学者]
  • Snelling WM、Chiu R、Schein JE、Hobbs M、Abbey CA、Adelson DL、Aerts J、Bennett GL、Bosdet IE、Boussaha M、Brauring R、Caetano AR、Costa MM、Crawford AM、Dalrymple BP、Eggen A、Wind A Everts-van der、Floriot S、Gautier M、Gill CA、Green RD、Holt R、Jann O、Jones SJ、Kappes SM、Keele JW、de Jong PJ、Larkin DM、Lewin HA、McEwan JC等。牛基因组的物理图。基因组生物学。2007;8:R165.doi:10.1186/gb-2007-8-8-R165。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Hawlak P、Chen R、Durbin KJ、Egan A、Ren Y、Song XZ、Weinstock GM、Gibbs RA。阿特拉斯基因组组装系统。基因组研究。2004;14:721–732. doi:10.1101/gr.2264004。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Phillippy AM、Schatz MC、Pop M.基因组组装法医学:发现难以捉摸的错误组装。基因组生物学。2008;9:R55.doi:10.1186/gb-2008-9-3-R55。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Whitfield LS,Lovell-Badge R,Goodfellow PN。哺乳动物性别决定基因SRY的快速序列进化。自然。1993;364:713–715. doi:10.1038/364713a0。[公共医学] [交叉参考][谷歌学者]
  • Wind A Everts-van der、Larkin DM、Green CA、Elliott JS、Olmstead CA、Chiu R、Schein JE、Marra MA、Womack JE、Lewin HA。一张高分辨率的全基因组牛-人比较图揭示了哺乳动物染色体进化的细节。美国国家科学院程序。2005;102:18526–18531. doi:10.1073/pnas.0509285102。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • UMD2程序集FTP站点ftp://ftp.bcb.umd.edu/pub/data/Bos_taurus
  • White JR,Roberts M,Yorke JA,Pop M.Figaro:一种新的矢量序列去除统计方法。生物信息学。2008;24:462–467. doi:10.1093/bioinformatics/btm632。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Roberts M、Hunt BR、Yorke JA、Bolanos RA、Delcher AL。大型基因组鸟枪式组装的预处理器。计算机生物学杂志。2004;11:734–752. doi:10.1089/cmb.2004.11.734。[公共医学] [交叉参考][谷歌学者]
  • Roberts M、Zimin AV、Hayes W、Hunt BR、Ustun C、White JR、Havlak P、Yorke J.使用“可靠”重叠改进基于Phrap的大鼠组装。《公共科学图书馆·综合》。2008;:e1836.doi:10.1371/journal.pone.0001836。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Myers EW、Sutton GG、Delcher AL、Dew IM、Fasulo DP、Flanigan MJ、Kravitz SA、Mobarry CM、Reinert KH、Remington KA、Anson EL、Bolanos RA、Chou HH、Jordan CM、Halpern AL、Lonardi S、Beasley EM、Brandon RC、Chen L、Dunn PJ、Lai Z、Liang Y、Nusskern DR、Zhan M、Zhang Q、Zheng X、Rubin GM、Adams MD、Venter JC。全基因组组装果蝇属.科学。2000;287:2196–2204. doi:10.1126/science.287.5461.2196。[公共医学] [交叉参考][谷歌学者]
  • Kurtz S、Phillippy A、Delcher AL、Smoot M、Shumway M、Antonescu C、Salzberg SL。用于比较大型基因组的通用开放软件。基因组生物学。2004;5:R12.doi:10.1186/gb-2004-5-2-R12。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • BCM FTP站点ftp://ftp.hgsc.bcm.tmc.edu
  • Carlton JM、Hirt RP、Silva JC、Delcher AL、Schatz M、Zhao Q、Wortman JR、Bidwell SL、Alsmark UC、Besteiro S、Sicheritz-Ponten T、Noel CJ、Dacks JB、Foster PG、Simillion C、Peer Y Van de、Miranda-Saavedra D、Barton GJ、Westrop GD、Müller S、Dessi D、Fiori PL、Ren Q、Paulsen I、Zhang H、Bastida-Corcuera FD、Simoes-Barbosa A、Brown MT、Hayes RD、,Mukherjee M等人,性传播病原体基因组序列草案阴道毛滴虫.科学。2007;315:207–212. doi:10.1126/science.1132894。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Delcher AL、Phillippy A、Carlton J、Salzberg SL。大规模基因组比对和比较的快速算法。核酸研究。2002;30:2478–2483. doi:10.1093/nar/30.11.2478。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Pruitt KD,Tatusova T,Maglott DR。NCBI参考序列(RefSeq):基因组、转录物和蛋白质的非冗余序列数据库。核酸研究。2007;(35数据库):D61–65。doi:10.1093/nar/gkl842。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Florea L、Di Francesco V、Miller J、Turner R、Yao A、Harris M、Walenz B、Mobarry C、Merkulov GV、Charlab R、Dew I、Deng Z、Istrail S、Li P、Sutton G.Gene和AIR的选择性剪接注释。基因组研究。2005;15:54–66. doi:10.1101/gr.2889405。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • strail S、Sutton GG、Florea L、Halpern AL、Mobarry CM、Lippert R、Walenz B、Shatkay H、Dew I、Miller JR、Flanigan MJ、Edwards NJ、Bolanos R、Fasulo D、Halldorson BV、Hannenhalli S、Turner R、Yooseph S、Lu F、Nusskern DR、Shue BC、Zheng XH、Zhong F、Delcher AL、Huson DH、Kravitz SA、Mouchard L、Reinert K、Remington KA、Clark AG等。全基因组鸟枪组装和人类基因组组装的比较。美国国家科学院程序。2004;101:1916–1921. doi:10.1073/pnas.0307971100。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Wu TD,Watanabe CK。GMAP:mRNA和EST序列的基因组定位和比对程序。生物信息学。2005;21:1859–1875. doi:10.1093/bioinformatics/bti310。[公共医学] [交叉参考][谷歌学者]

文章来自基因组生物学由以下人员提供BMC公司