摘要

背景

戴头盔的食蜜者(黑鳞苔藓)是澳大利亚维多利亚州特有的极度濒危鸟类。为了帮助其保护,种群是基因拯救的对象。为了了解、监测和调节基因拯救对头戴头盔的食蜜鸟基因组的影响,需要染色体长度基因组和高密度连锁图。

结果

我们结合Illumina、Oxford Nanopore和Hi-C测序技术,组装了头戴头盔的食蜜鸟的染色体长度基因组,包括906个长度为1.1 Gb的支架和63.8 Mb的支架N50。注释包含57181个基因模型。利用257只鸟类和53111个单核苷酸多态性的系谱,我们获得了25个常染色体和Z染色体的高密度连锁和重组图谱。总的性别平均连锁图谱长度为1347 cM,男性图谱比女性图谱长6.7%。重组图显示性二型重组率(男性总体较高),平均重组率为1.8 cM/Mb。对比分析显示,头戴头盔的食蜜鸟基因组与3种雀形目鸟类的基因组高度同源(例如,32个Hi-C支架映射到30个斑马雀常染色体和Z染色体)。基因组组装和连锁图表明,戴头盔的食蜜鸟表现出与斑马雀相关的1A号染色体分裂成2条染色体。PSMC分析显示,从中更新世到晚更新世,有效种群数量下降了约15倍,降至约60000。

结论

带注释的染色体长度基因组和高密度连锁图为进化研究提供了丰富的资源,并将在指导戴头盔的食蜜鸟的保护工作中发挥重要作用。

背景

尽管近年来测序技术取得了进步,但在染色体尺度上为非模式物种提供高质量的基因组仍然很少见。例如,截至2021年7月12日,NCBI GenBank中只有83个被分类为染色体长度的鸟类基因组组合。染色体长度组合与支架级组合相比有几个优点。它们有助于识别相关生物之间的大规模重排和共时关系。一旦注释完毕,它们就提供了一个平台,可以告知基因之间的相对位置以及与染色体结构(例如,着丝粒、端粒、重复元件和调控区域)相关的位置,并支持更完整的基因模型,这有助于理解基因组的组织和功能[1]. 染色体长度组合也为估计长基因组区域的连锁不平衡提供了一个模板,从而能够重建最近的人口统计历史,精确量化亲缘关系和近亲繁殖(例如,分别通过血统和纯合子的运行来进行同一性),自然选择下的基因组区域检测[2–5].

一些基因组方法需要将染色体长度基因组组合与其高密度连锁图配对。例如,连锁图允许研究基因组中重组率的变化,包括性别、个体、种群和物种之间的变化[6–8]. 将重组率纳入基因组分析有助于识别进化过程,如遗传漂变、自然选择和基因流动[5,9]. 这也有助于我们理解结构变异和染色体重排对这些过程的影响[9]. 因此,结合染色体长度组装、连锁和重组图谱,为回答生态学、进化和保护生物学中的重要问题提供了强大的资源。然而,获得连锁图需要来自多个已知家族的基因型数据,这是许多物种的一个重要限制因素。目前,很少有鸟类同时拥有染色体长度基因组组合和相关的高密度连锁图(例如家鸡五倍子; 大山雀大山雀; 斑马雀斑胸草雀; 带颈捕蝇草白毛榕; 家雀家雀; 岩鸽哥伦比亚利维亚; 超级仙女鹪鹩壮丽细尾鹩莺) [1,10–15].

戴头盔的食蜜鸟,黑鳞苔藓(NCBI:txid1497555),是嗜热菌总科的一个成员。以其冠羽的特征“盔甲”而著称,它是黄羽食蜜鸟的四个亚种之一(黑纹伊蚊)(图1). 1971年,它被宣布为澳大利亚维多利亚州的鸟类标志。它被归类为极度濒危物种,其唯一的种群由居住在黄陵波自然保护区(YNCR)的约250只个体组成[16]. 这只戴头盔的食蜜鸟受到了严格的保护管理,包括圈养繁殖[17]. 生态数据和遗传样本已经收集了30多年,这使得最近构建了一个涵盖257只戴头盔的食蜜鸟的多代系谱成为可能[18].

图1:

海伦娜,戴着头盔的蜜食者(黑鳞苔藓)在澳大利亚维多利亚州的Yellingbo自然保护区对其基因组进行了测序。Nick Bradsworth拍摄。

尽管进行了大量的综合保护工作,但戴头盔的食蜜鸟种群的有效种群规模较小,遗传变异较小,近亲交配抑制严重[19–20]. 预测表明,如果不采取干预措施,种群的遗传健康将继续下降,2018年开始了一项基因拯救试验,以促进其近亲和近邻亚种的基因流动黑腹滨鹬[19,21]. 遗传拯救旨在降低近亲繁殖水平,增加种群的遗传多样性,以避免灭绝并恢复进化潜力[22–23]. 然而,对基因拯救的全基因组后果的了解有限,阻碍了有效的基因监测[24]. 在这里,我们展示了一个带头盔的食蜜鸟的~1.1 Gb基因组的带注释的染色体长度组合,以及25个常染色体和Z染色体的高密度连锁图。这些资源将为研究提供基础,以期了解、监测和调节基因拯救对戴头盔的食蜜鸟基因组的影响,并将有助于开发其他受威胁物种的管理方法。

数据描述

我们对2010年10月26日捆绑的一只野生成年(>10岁)雌性头盔食蜂鸟的核基因组和线粒体基因组进行了测序和组装(ABBBS金属带043-00510,色带pm:uk,Healesville加入B80296;头盔食蜂人恢复队昵称为“海伦娜”)。这只雌性在YNCR成功繁殖了至少7个繁殖季节,并被纳入3项遗传研究[20,21,18]这表明它具有遗传多样性,寿命比平均寿命长,雏鸟数量高于平均水平。在出现关节周围痛风和肾病症状后,根据Zoos Victoria Research and animal Ethics Committee(批准号:ZV16010)的授权,这只鸟于2018年2月27日在Healesville Sanctuary的澳大利亚野生动物健康中心因动物福利原因被人道安乐死。采用组合测序策略获得了头戴头盔的食蜜鸟基因组和连锁图谱。所有基因组资源、样本ID和登录号的摘要见表1

表1:

本研究中产生的基因组资源概述

基因组资源价值
基因组测序草案
NCBI生物项目项目编号:554936
样本ID基因组B80296型
生物样品DNAseq样本12287370
短载Illumina NovaSeq数据(Gb)220
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
长数据牛津纳米孔MinION数据(Gb)19.9
长期NCBI-SRA材料纳米孔SRX6458354、SRX6458、355、SRX64、58356
Hi-C测序
NCBI生物项目项目编号512907
样本ID基因组样品2749A
生物样品DNAseqSAMN16895762号
Hi-C Illumina NovaSeq数据(Gb)41.6
加入Hi-C NCBI-SRA HiCSRX9606522型
基因组组装草图(HeHo_1.0)
组装基因组大小(Gb)1.1
支架N50(bp)7,973,128
脚手架数量1,912
Contig N50(bp)7,673,876
连续梁数量1,929
NCBI GenBank组件加入通用条款A_008360975.1
全基因组鸟枪式加入VLJF00000000.1美元
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
染色体长度组合(HeHo_2.0)
组装基因组大小(Gb)1.103
脚手架N50(bp)63800663个
脚手架数量906
Contig N50(bp)6,736,108
连续梁数量2,239
NCBI GenBank组件加入通用条款A_008360975.2
全基因组鸟枪式加入VLJF00000000.2型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
线粒体基因组组装
NCBI生物项目项目编号:554936
样本ID基因组B80296型
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
NCBI GenBank组件加入俄克拉荷马州189508
组装基因组大小(bp)16,851
基因组注释
预测蛋白编码基因的数量29,454
功能注释蛋白编码基因的数量18,058
带有GO注释的基因数量12,710
BUSCO完整性99.4%完成,0.2%破碎,0.4%缺失
注释的DOIdoi.org网站/10.26180/16695607
DArT测序
NCBI-SRA材料的DArT测序SAMN25688276-SAMN215688532号
连锁和重组图谱
连锁和重组图的DOIdoi.org网站/10.26180/16695607
基因组资源价值
基因组测序草案
NCBI生物项目项目编号:554936
样本ID基因组B80296型
生物样品DNAseqSAMN12287370号
短载Illumina NovaSeq数据(Gb)220
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
长数据牛津纳米孔MinION数据(Gb)19.9
长期NCBI-SRA材料纳米孔SRX6458354、SRX6458、355、SRX64、58356
Hi-C测序
NCBI生物项目2007年4月5日
样本ID基因组样品2749A
生物样品DNAseqSAMN16895762号
Hi-C Illumina NovaSeq数据(Gb)41.6
加入Hi-C NCBI-SRA HiCSRX9606522型
基因组组装草图(HeHo_1.0)
组装基因组大小(Gb)1.1
支架N50(bp)7,973,128
脚手架数量1,912
Contig N50(bp)7,673,876
连续梁数量1929年
NCBI GenBank组件加入通用条款A_008360975.1
全基因组鸟枪式加入VLJF00000000.1型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
染色体长度组合(HeHo_2.0)
组装基因组大小(Gb)1.103
脚手架N50(bp)63,800,663
脚手架数量906
Contig N50(bp)6,736,108
连续梁数量2,239
NCBI GenBank组件加入通用条款A_008360975.2
全基因组鸟枪式加入VLJF00000000.2美元
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
线粒体基因组组装
NCBI生物项目项目编号:554936
样本ID基因组B80296型
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
NCBI GenBank组件加入俄克拉荷马州189508
组装基因组大小(bp)16,851
基因组注释
预测蛋白编码基因的数量29,454
功能注释蛋白编码基因的数量18058个
带有GO注释的基因数量12,710
BUSCO完整性99.4%完成,0.2%碎片化,0.4%缺失
注释的DOIdoi.org网站/10.26180/16695607
DArT测序
NCBI-SRA材料的DArT测序SAMN25688276-SAMN215688532号
连锁重组图
连锁和重组图的DOIdoi.org网站/10.26180/16695607
表1:

本研究中产生的基因组资源概述

基因组资源价值
基因组测序草案
NCBI生物项目2015年5月54936日
样本ID基因组B80296型
生物样品DNAseqSAMN12287370号
短载Illumina NovaSeq数据(Gb)220
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
长数据牛津纳米孔MinION数据(Gb)19.9
长期NCBI-SRA材料纳米孔SRX6458354、SRX6458、355、SRX64、58356
Hi-C测序
NCBI生物项目项目编号512907
样本ID基因组样品2749A
生物样品DNAseqSAMN16895762号
Hi-C Illumina NovaSeq数据(Gb)41.6
加入Hi-C NCBI-SRA HiCSRX9606522型
基因组组装草图(HeHo_1.0)
组装基因组大小(Gb)1.1
脚手架N50(bp)7,973,128
脚手架数量1,912
Contig N50(bp)7,673,876
连续梁数量1,929
NCBI GenBank组件加入通用条款A_008360975.1
全基因组鸟枪式加入VLJF00000000.1型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
染色体长度组装(HeHo_2.0)
组装基因组大小(Gb)1.103
脚手架N50(bp)63,800,663
脚手架数量906
Contig N50(bp)6,736,108
连续梁数量2,239
NCBI GenBank组件加入GCA_008360975.2型
全基因组鸟枪式加入VLJF00000000.2型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
线粒体基因组组装
NCBI生物项目2015年5月54936日
样本ID基因组B80296型
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
NCBI GenBank组件加入OK189508州
组装基因组大小(bp)16,851
基因组注释
预测蛋白编码基因的数量29,454
功能注释蛋白编码基因的数量18,058
带有GO注释的基因数量12,710
BUSCO完整性99.4%完成,0.2%碎片化,0.4%缺失
注释的DOIdoi.org网站/10月18日/16695607
DArT测序
NCBI-SRA材料的DArT测序SAMN25688276-SAMN215688532号
连锁重组图
连锁和重组图的DOIdoi.org网站/10.26180/16695607
基因组资源价值
基因组测序草案
NCBI生物项目2015年5月54936日
样本ID基因组B80296型
生物样品DNAseqSAMN12287370号
短载Illumina NovaSeq数据(Gb)220
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
长数据牛津纳米孔MinION数据(Gb)19.9
长期NCBI-SRA材料纳米孔SRX6458354、SRX6458、355、SRX64、58356
Hi-C测序
NCBI生物项目项目编号512907
样本ID基因组样品2749A
生物样品DNAseqSAMN16895762号
Hi-C Illumina NovaSeq数据(Gb)41.6
加入Hi-C NCBI-SRA HiCSRX9606522型
基因组组装草图(HeHo_1.0)
组装基因组大小(Gb)1.1
脚手架N50(bp)7,973,128
脚手架数量1912年
Contig N50(bp)7,673,876
连续梁数量1,929
NCBI GenBank组件加入通用条款A_008360975.1
全基因组鸟枪式加入VLJF00000000.1型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
染色体长度组装(HeHo_2.0)
组装基因组大小(Gb)1.103
脚手架N50(bp)63,800,663
脚手架数量906
Contig N50(bp)6736108年
连续梁数量2,239
NCBI GenBank组件加入通用条款A_008360975.2
全基因组鸟枪式加入VLJF00000000.2型
BUSCO完整性97.1%完成,0.7%碎片化,2.2%缺失
线粒体基因组组装
NCBI生物项目项目编号:554936
样本ID基因组B80296型
短阅读NCBI-SRA加入Illumina NovaSeqSRX6469119型
NCBI GenBank组件加入OK189508州
组装基因组大小(bp)16,851
基因组注释
预测蛋白编码基因的数量29,454
功能注释蛋白编码基因的数量18,058
带有GO注释的基因数量12,710
BUSCO完整性99.4%完成,0.2%碎片化,0.4%缺失
注释的DOIdoi.org网站/10月18日/16695607
DArT测序
NCBI-SRA材料的DArT测序SAMN25688276-SAMN215688532号
连锁重组图
连锁和重组图的DOIdoi.org网站/10月18日/16695607

基因组组装草图

短阅读测序对于短读DNA库,使用Qiagen DNeasy Blood&tissue试剂盒从保存在乙醇中的肌肉组织中提取DNA。使用QSonica将总共100 ng的基因组DNA片段化为350 bp,并使用新英格兰生物实验室(NEB)下一代超DNA文库Illumina®制备试剂盒进行处理。该文库与其他项目的文库汇集在一起,并使用2×151 bp运行配置在迪肯基因组中心的NovaSeq 6000测序系统(Illumina)的所有4条S4流式细胞上进行测序。总的来说,我们获得了220 Gb的原始序列数据(GenBank加入SRX6469119型).

长阅读测序。在3个单独的MinION revD流单元上运行了总共1个Nanopore LSK108和2个Nanovore LSK109库,生成了总计19.9 Gb的数据。第一个LSK108库是使用与Illumina运行相同的DNA源构建的,仅生成2.9 Gb数据(GenBank登录SRX6458354型). 切换到LSK109库准备套件后,获得了更高的运行输出。在第二次运行中,为了获得更多的输出(9.9 Gb),但与更短的读取相关,使用Zymo Quick DNA miniprep试剂盒(GenBank加入SRX6458355型). 在第三次运行中,为了实现更长的读取时间但更少的输出(7.1 Gb),使用传统盐析/乙醇沉淀法从没有使用Zymo RNA/DNA屏蔽缓冲液的冷冻肌肉组织中提取DNA[25](GenBank加入SRX6458356型). 基调采用Guppy 3.1.5+781ed57高精度模型(dna_r9.4.1_450bps_hac.cfg)。

从头组装.生成基因组草案(GenBank登录通用条款A_008360975.1)我们组装了Illumina读卡器,使用fastp v0.19.5(fastp,RRID:SCR_016962)修剪适配器[26]和Nanopore长读从头开始使用MaSuRCA v3.3.3(MaSuRCA,RRID:SCR_010691)[27]. MaSuRCA管道错误-更正了短Illumina读取,并使用它们通过de Bruijn图形方法构建连接。这些连接字用于纠正Nanopore长读取的错误,为重叠布局连接字程序集生成“mega read”连接字。这个戴头盔的食蚁兽基因组草图包含1929个连体,连体N50长度为7673876,总长度为1102302466 bp(表1). 使用BUSCO v5.2.1评估基因组完整性(BUSCO,RRID:SCR_015008)[28]使用avesodb10血统和默认设置,显示97.1%的基因完全召回,0.7%片段化,2.2%缺失。

染色体长度基因组组装

Hi-C测序为了产生染色体长度的基因组组装,使用冷冻肝脏样本构建就地中所述的Hi-C库[29]. 使用NovaSeq 6000(Illumina)共生成138592561个双链(150 bp)Hi-C读数。Hi-C文库和读物由DNA动物园联盟生成[30].

染色体长度组合DNA动物园联合会按照第[30]. 使用榨汁机(榨汁机,RRID:SCR_017226)处理Hi-C数据[31]并用作3D-DNA管道的输入(3D DNA管道,RRID:SCR_017227)[32]产生候选染色体长度基因组组合。我们使用Juicebox组装工具(Juicebox,RRID:SCR_021172)对脚手架进行了额外修整[33,34]. 未映射的测序Hi-C读取对的百分比很低(0.81%),75.50%的文库表示唯一的Hi-C接触。通过将Hi-C数据与Hi-C支架前后的基因组组装对齐而生成的接触矩阵可用于在以下位置以多种分辨率进行交互浏览:[35]使用Juicebox.js可视化,这是一个基于云的Hi-C数据可视化系统[36].

总计1102960466 bp被组装到染色体长度基因组中(GenBank登录通用条款A_008360975.2)脚手架N50为63.8 Mb,最长脚手架为152.7 Mb(表1). BUSCO对染色体长度组合的评估(如上所述进行)表明,基因组完整性水平与基因组草图的水平相似(97.1%的基因完全召回,0.7%片段化,2.2%缺失)。

线粒体基因组组装

MITObim v1.6(MITObim,RRID:SCR_015056)[37]利用Illumina短测序数据,使用ND2号机组另一头戴头盔的食蜜鸟的基因序列(GenBank登录KJ586920型) [19]作为迭代映射组装的诱饵。使用MITOS对组装好的基因组进行循环、定向和注释[38,39]. 通过BLASTn分析(BLASTn,RRID:SCR_001598)验证了头戴头盔的食蜜鸟有丝分裂基因组与NCBI核苷酸数据库中Meliphagidae家族其他成员有丝分裂基因的同源性(与噪音矿工最匹配黑色素瘤,GenBank加入KY994587(肯尼亚); 90.25%同一性;补充材料S1). 通用v6.1(通用,RRID:SCR_010519)[40]用于手动检查有丝分裂基因组注释是否存在过早终止密码子,以及编码基因注释与噪声矿工注释的一致性(KY994587);开始密码子被添加到ND6号机组基因来纠正单个差异。

头戴头盔的食蜜鸟有丝分裂基因组长16849 bp,编码13个蛋白编码基因、2个核糖体RNA基因(12S rRNA和16S rRNA)和22个转移RNA基因(补充材料S2; GenBank加入OK189508州). LASTZ v1.04.03(LASTZ,RRID:SCR_018556)[41]使用默认参数将有丝分裂基因组与染色体长度基因组对齐,除了禁用种子转换(--nottransition)、K=4500、L=300和启用链接(--chain)。总共有22个Hi-C支架映射到线粒体序列。其中包括12个短的Hi-C支架,包含16090 bp的有丝分裂基因组,9个与核染色体1、2、3、5、8、11、24、Z和W相对应的长Hi-C脚手架片段(这表明这些染色体上存在线粒体DNA的核拷贝),以及一个未组装到其他染色体上的短Hi-C框架(补充材料S3). 丝裂原基因组与草图基因组的比对没有发现其他发现。

注释

我们使用RepeatModeler v1.0.9(RepeatModer,RRID:SCR_015027)确定了头戴头盔的食蚁兽Hi-C基因组中的重复家族[42]带有“-engine ncbi”选项,并使用RepeatMasker v4.1.2进行软掩码重复(RepeatMasker,RRID:SCR_012954)[43]. 然后我们结合了鸟类的形态预测、蛋白质数据以及从头计算对基因进行预测,以产生一个高质量的蛋白编码基因注释,用于头盔食蚁兽染色体长度组合。

首先,我们使用参数为K=2400、L=3000、Y=9400、H=2000的LASTZ v1.04.03和默认评分矩阵,在头戴头盔的食蜜鸟和鸡、斑马雀和大山雀的参考基因组(GeneBank材料分别为GCA_00002315.5、GCA_003957565.2和GCA_001522545.3)之间生成成对比对链,axt链[44],链条清洁器[45],和RepeatFiller(RepeatFiller,RRID:SCR_017414)[46]. 通过使用生成的排列链和TOGA将3个参考物种注释的转录本投影到戴头盔的食蜜鸟基因组,推断出潜在的同源基因[47]. 采用斑马雀和大山雀的NCBI注释(分别为46022和41530个基因模型)和鸡NCBI与APPRIS主要亚型的组合注释(共64081个基因模式)作为参考注释。

我们结合NCBI上提供的23种鸟类和7种鸟类以外的物种的蛋白质组制备了蛋白质库(补充材料S4)并使用GenomeThreader v1.7.1将该库与头戴头盔的食蚁兽基因组对齐[48]应用贝叶斯拼接位点模型(BSSM)对鸡进行训练。对于蛋白质GenomeThreader比对,使用20个氨基酸的种子和最小匹配长度(预设长度20,prminmatchlen 20)和2个汉明距离(prhdist 2)。为了进行转录比对,使用了32个核苷酸的种子长度和最小匹配长度(种子长度32,minmatchlen 32)。至少70%的蛋白质或mRNA序列需要被比对覆盖(-gcmincoverage 70),并且还计算了潜在的同源基因(-paralogs)。

接下来,我们使用Augustus v3.3.3(Augustu,RRID:SCR_008417)[49]以获得从头开始基因预测,提供TOGA预测和映射的蛋白质数据作为提示。启用了其他剪接位点的预测(--allow_hinded_splicesites=gcag,atac),禁用了未翻译区域的预测(--UTR=off)。使用bedtools intersect筛选产生的一组基因模型,以排除与重复区域重叠>10%的模型。其余的基因模型转换为蛋白质,并使用blastp(blastp,RRID:SCR_001010)查询Swissprot数据库,E值截止值为1e−10。只保留与脊椎动物数据库中序列匹配的点击数或长度大于200个氨基酸的点击数。从头开始基因预测得到33844个基因模型。

最后,我们使用了EVidenceModeler v1.1.1(EVidenceModeler,RRID:SCR_014659)[50]结合TOGA预测、校准蛋白质数据和从头开始基因模型(权重分别为8、2和1)组成一组共18280个基因模型,每个模型由一个转录本表示。这组转录本通过添加TOGA转录本投影进行扩展,TOGA转录物投影与3个参考物种中的≥2个物种相同。最终注释包括57181个基因模型。

为了评估注释的完整性,我们使用BUSCO v5.2.1和8338个保守的单拷贝禽基因集(aves_odb10)。我们的最终注释显示了高度的完整性,99.4%的BUSCO基因是完整的,0.2%是片段化的,0.4%是缺失的。这种完整性水平高于用于比对的鸡、斑马雀和大山雀的基因组(图2).

图2:

比较参考NCBI注释的基因注释完整性和新生产的头盔食蜂鸟注释,作为来自BUSCO(odb10)的8338个鸟类基因的百分比。

同步分析

为了验证基因组组装并将每个Hi-C支架初步分配给一个假定的染色体,我们将其与2021年3月可用的最新雌性斑胸雀基因组组装进行了比对(bTaeGut2.pat.W.v2,GenBank登录通用条款A_008822105.2). 斑马雀是第二个被测序的鸟类基因组[51]因此,它是NCBI中雀形目鸟类的模式基因组。由于该组合中缺少16号染色体,我们使用了最新雄性组合的16号染色体(bTaeGut1.pri.v2,GenBank登录CM012098.1号). 使用LASTZ v1.04.03,我们将所有Hi-C支架与29个常染色体和斑马雀基因组的两条性染色体进行了比对,比对参数与有丝分裂基因组的比对参数相同(参见“线粒体基因组组装”一节)。对每条染色体的比对进行的初步检查显示,32个最大的Hi-C支架与除16条和W条染色体外的所有斑马雀染色体的比对良好(补充材料S5). 16号染色体与Hi-C支架36的49个短片段(长度5–20 kb)对齐,也与21个额外Hi-C脚手架的6个小片段(5–10 kb)对准(补充材料S6). 由于缺乏与单个Hi-C支架的明确对齐,16号染色体被排除在下游连锁图分析之外。基于(i)单倍体读取深度覆盖率,(ii)染色酶DNA-结合蛋白基因的存在,Hi-C支架2没有与斑马雀基因组对齐,但被推断为代表了头戴头盔的食蜜鸟W染色体(CHD1-W公司斑马雀NCBI基因ID 778443),用于鸟类分子性别鉴定[52] (补充材料S7)以及(iii)缺乏由Lep-MAP3模块ParentCall2调用的杂合标记,这与这些标记是半合子一致(参见“与Lep-MAP2构建连锁图”一节)。基于(i)单倍体读取深度覆盖率,(ii)与斑马雀Z染色体的比对,以及(iii)存在CHD1-Z公司基因(斑纹雀NCBI基因ID 778444)(补充材料S7). 用CIRCOS图表示大规模同源性,以定性显示假定染色体的分配并评估染色体重排(图3). CIRCOS图是用R包循环v0.4.12(循环,RRID:SCR_002141)构建的[53]使用长度≥5000bp的对齐序列。我们还分析了头戴头盔的食蜜鸟组合和另外两种雀形目鸟类基因组之间的共有性:有领捕蝇草和超级仙女鹪鹩(FicAlb1.5,GenBank登录一般合同A_000247815.2; mCya_1.0,GenBank加入一般合同A_009741485.1; 分别)。

图3:

头戴头盔的食蜜鸟Hi-C支架(左)和斑马雀染色体(右)之间的同步。

我们观察到,头戴头盔的食蜜鸟支架和斑马雀基因组之间存在很大程度上保守的共性(图3). 这种共线性主要由32个最大的Hi-C支架捕获,这些支架映射到30个斑胸雀常染色体及其Z染色体上。戴头盔的食蜜鸟相对于斑马雀而言,1A号染色体可能分裂为2条假定的染色体,这是显而易见的,因为Hi-C支架8和18都映射到斑马雀1A(图3):较大的Hi-C支架8主要定位于斑马雀1A染色体的第一~50 Mb,较小的Hi-C-支架18定位于最后~20 Mb。与观察到的鸟类类趋势一致[54],在有领捕蝇草和极好的仙女鹪鹩基因组中发现了相同的整体高度保守的联系模式(补充材料S8),Hi-C支架8和18在两者中都映射到染色体1A。

连锁和重组图谱

准备输入Lep-MAP3使用系谱和该系谱中所有个体的基因型后验概率(通过DArT测序获得),使用软件Lep-MAP3 v0.2构建了头戴头盔的食蜜鸟遗传图[55].

血统.使用先前亲子关系分析的结果[18],我们选择了36个有≥3个同胞兄弟姐妹(范围=3–14,平均值=5.69[SD 3.22];总共206个后代)的全同胞家庭(父亲-母亲-母亲)。在可能的情况下,这些家庭的祖父母和同父异母的兄弟姐妹也包括在内。有些鸟类在系谱中出现过多次(例如,无论是作为后代、父母还是祖父母),总共产生257只独特的个体(补充材料S9).

基因型后验概率我们使用DArTseq获得的原始测序数据[56]根据之前的研究[18]选择257名相关人员。简言之,DArTseq是一种还原-再呈现测序方法,它使用PstI和SphI限制酶组合进行DNA消化,使用单读配置在Illumina HiSeq2500上使用PstI-和SphI-兼容适配器对片段进行测序(有关详细信息,请参阅[20]). 我们使用fastp v0.20.0从原始DArTseq读取中修剪了Illumina适配器[26],对其进行多路复用,并使用process_radtags v2.41删除条形码(Stacks,RRID:SCR_003184)[57]. 使用BWA v0.7.17(BWA,RRID:SCR_010910)将修剪后的读数映射到Hi-C基因组[58]. 将单个sam文件转换为bam文件,并使用SAMtools v1.11进行排序(SAMtools/BCFtools,RRID:SCR_005227)[59]不包括MAPQ<20的读取(选项-q 20)。使用基于SAMtools mpileup的流水线获得基因型后验概率(可能性)[60]由Lep-MAP3提供。该管道使用257个个体及其各自的bam文件作为输入,生成每个个体和标记的基因型可能性文件。

利用Lep-MAP3构建连锁图使用以下Lep-MAP3模块构建28个常染色体和Z染色体的头戴式食蜜鸟连锁图:

考虑到家系的基因型信息,使用ParentCall2模块从基因型后验概率中调用个体基因型。筛选出单态位点(removeNonInformative=1)。使用来自同父异母兄弟姐妹的信息(halfSibs=1)来调用常染色体(默认参数)和Z染色体(ZLimit=2)上的单核苷酸多态性(SNP)。基因型调用识别出83628个信息标记(包括2988个Z标记)。

通过将dataTolerance参数设置为0.001,Filtering2模块用于从孟德尔分离中去除高度畸变的SNP。未去除任何SNP。

SeparateChromosomes2模块用于计算每对SNP的成对比值对数(LOD)得分(即对2个基因是否可能位于彼此附近的统计估计[61])并根据用户指定的LOD分数限制将它们划分为连锁组(LGs,可能的染色体)。以下[1],我们使用不同的LOD得分极限(lodLimit=11–23)独立运行该模块,以找到将单核苷酸多态性分组在LG中的LOD,该多态性更好地恢复了与斑马鸟基因组的共线性分析中发现的假定染色体(图3). 我们选择LOD分数限制为21作为最保守的分数,其中来自不同假定染色体的少数SNP被分配给相同的LG,但来自相同假定染色体的SNP没有分裂成不同的LG(补充材料S10,黑色箭头)。我们还指定了最小LG大小为100个标记(sizeLimit=100)。分离染色体2用于将41542个标记分配给29个LG。假定的染色体22、25和29没有被恢复为LGs,因为可用于它们的标记物数量有限(111、68和68个SNPs分别存在于支架31、32和41中;但支架31中的<100个SNPs被分组在22号染色体的相应LG中)。

JoinSingles2All模块用于使用较低的LOD限制将“singles”(即SeparateChromosomes2未分配给任何LG的SNP)迭代分配给现有LG。与前一步类似,我们使用不同的LOD分数限制(lodLimit=10-19)进行了多次迭代,以选择检索到尽可能多的单曲的分数,而不会将它们错误地分配给基于同义词的不同假定染色体,如上所述(补充材料S11). 我们选择了LOD评分为13分,其中分配了16845个单打,总共有58387个单打。

然后,使用OrderMarkers2模块找出每个LG中最可能的SNP顺序,并计算厘米级(cM)的性别特异性遗传距离。对于每个LG,使用默认参数运行该模块10次,并选择可能性最大的映射。对于与假定Z染色体对应的LG,我们将女性重组设置为零(重组2=0)。

利用MareyMap管理连锁图和重组图使用在线软件MareyMap(MareyMap,RRID:SCR_009066)对每个LG的遗传图进行后处理[62].

手动管理.我们制作了马利地图[63]通过绘制每个LG和性别的SNP遗传距离和SNP物理距离。手动删除4766个异常SNPs,这些SNPs破坏了Marey图的单调增长趋势(即它们的遗传位置与它们的物理位置不一致)(补充材料S12). 这些异常SNP可能是由于绘图群体的有限规模(257个个体)、低等位基因频率或绘图群体内的多态性结构变异所致[1,64]. 推测染色体Z、13和26的Marey图包含与单调增加模式不一致的大区域,这表明在Hi-C支架作用期间可能出现错误装配(补充材料S12). 为了进一步检验这一点,我们将最小基本质量分数为7且大于10kb的适配剪裁牛津纳米孔读码映射到这些染色体上,以直观检查预测断点上的读码覆盖率(GenBank登录SRX6458354型,SRX6458355型,SRX6458356型)(Porechop,RRID:SCR_016967;NanoFilter,RRID:SCR_06966;Minimap2,RRID:SCR_018550;集成基因组查看器,RRID:SCR_011793)[65–67]. 对于所有3条染色体,我们在可能的断点处没有发现500-bp拉伸上的映射读取,这支持了错误组装的可能性(补充材料S13). 因此,位于这些区域的SNP被排除在下游分析之外(分别为502、858和143个SNP)。我们建议在使用该装配的染色体Z、13和26时考虑上述信息。

重组图最后一组53225个精选的信息性SNP被用于使用MareyMap在线中跨度参数为0.2的局部加权回归模型(LOESS)计算性别特异性局部重组率。该方法将局部重组率(cM/Mb)估计为描述物理位置(Mb)和遗传位置(cM)之间关系的曲线斜率。可能是由于其遗传图谱的某些区域的SNP密度非常低,我们在与推定染色体26、27和28相对应的LGs的某些区域获得了较大的负局部重组率(范围:−0.57至−8.74)(补充材料S14). 我们认为这些连锁和重组图不可靠,并放弃了它们。对于剩下的25条假定染色体,有一些区域的局部重组率值为负(范围:−0.01至−0.56),这些区域与马雷图中的平坦区域一致,很可能是平滑方法的数学制品,没有生物学意义(L.Guéguen,个人通信)。假设Marey图中那些平坦区域的斜率为零,我们将小的负重组值转换为零。我们绘制了性别特异性重组率与物理位置(Mb)的关系图(图4; 看见补充材料S15对于个别地块)。我们提供了具有原始值和零转换值的映射。

图4:

性别特异重组图谱的比较。所有染色体的重组率在雌性(红色)和雄性(蓝色)图谱之间进行了比较。请注意底行中y轴的比例变化。

总的来说,我们获得了31个假定常染色体中25个的连锁和重组图,我们发现这些常染色体与斑马雀基因组存在共有关系。完整的连锁图是从总共53111个精选SNP中获得的,其中2070个用于Z染色体的连锁图(表2).

表2:

带帽食蜜鸟核染色体计量学及连锁图谱综述

染色体*高碳脚手架染色体物理尺寸(Mb)标记数量遗传距离(cM)
女性男性平均
Z轴174.882,07060.21
W公司224.15
15115.346686年87.963100.91494.44
1安培857.702,41521.6026.5624.32
1安培1811.651,11847.1854.1049.892
23152.685,93768.9164.2465.52
34113.356,04853.4965.7859.63
4671.404,24267.8868.6768.53
4A级1419.121,61855.1747.1452.21
5763.803823年42.7052.0447.36
61135.012,12258.4549.9153.16
7937.862,25060.6254.8060.13
81030.391,75547.5963.5356.54
91224.911,68447.7350.7251.84
101320.331,51856.8257.9557.02
111620.4994348.2659.3053.78
121520.791,50348.1052.2750.24
131718.7186239.2345.2742.25
141916.121,16549.6843.8846.53
152113.5567853.3269.3661.34
172311.0682954.5255.7855.15
182411.9984959.3551.8955.62
192210.8878552.0958.4254.71
202014.361,14952.4652.1551.42
21287.7832026.9030.1727.96
22315.22111
23256.8728655.6265.39959.95
24266.8745646.3148.5547.43
25324.4568
26296.47231
27276.16126
28306.31144
29413.5868
总计1,022.151,680.841,924.171,738.28
染色体*高碳脚手架染色体物理尺寸(Mb)标记数量遗传距离(cM)
女性男性平均
Z轴174.882,07060.21
W公司224.15
15115.346,68687.963100.91494.44
1安培857.702,41521.6026.5624.32
1安培1811.651,11847.1854.1049.892
23152.685,93768.9164.2465.52
34113.356,04853.4965.7859.63
4671.404,24267.8868.6768.53
4A级1419.121,61855.1747.1452.21
5763.803823年42.7052.0447.36
61135.012,12258.4549.9153.16
7937.862,25060.6254.8060.13
81030.391,75547.5963.5356.54
91224.911,68447.7350.7251.84
101320.331,51856.8257.9557.02
111620.4994348.2659.3053.78
121520.791,50348.1052.2750.24
131718.7186239.2345.2742.25
141916.121,16549.6843.8846.53
152113.5567853.3269.3661.34
172311.0682954.5255.7855.15
182411.9984959.3551.8955.62
192210.8878552.0958.4254.71
202014.361,14952.4652.1551.42
21287.7832026.9030.1727.96
22315.22111
23256.8728655.6265.39959.95
24266.8745646.3148.5547.43
25324.4568
26296.47231
27276.16126
28306.31144
29413.5868
总计1,022.151,680.841,924.171738.28年

*染色体是根据与斑马雀的共线性来分配的。

表2:

带帽食蜜鸟核染色体计量学及连锁图谱综述

染色体*高碳脚手架染色体物理尺寸(Mb)标记数量遗传距离(cM)
女性男性平均
Z轴174.882,07060.21
W公司224.15
15115.346,68687.963100.91494.44
1安培857.702,41521.6026.5624.32
1安培1811.651,11847.1854.1049.892
23152.685,93768.9164.2465.52
34113.356,04853.4965.7859.63
4671.404,24267.8868.6768.53
4A级1419.121618年55.1747.1452.21
5763.803823年42.7052.0447.36
61135.012,12258.4549.9153.16
7937.862,25060.6254.8060.13
81030.391,75547.5963.5356.54
91224.911,68447.7350.7251.84
101320.331,51856.8257.9557.02
111620.4994348.2659.3053.78
121520.791,50348.1052.2750.24
131718.7186239.2345.2742.25
141916.121,16549.6843.8846.53
152113.5567853.3269.3661.34
172311.0682954.5255.7855.15
182411.9984959.3551.8955.62
192210.8878552.0958.4254.71
202014.361,14952.4652.1551.42
21287.7832026.9030.1727.96
22315.22111
23256.8728655.6265.39959.95
24266.8745646.3148.5547.43
25324.4568
26296.47231
27276.16126
28306.31144
29413.5868
总计1,022.151,680.841,924.171,738.28
染色体*高碳脚手架染色体物理尺寸(Mb)标记数量遗传距离(cM)
女性男性平均
Z轴174.882,07060.21
W公司224.15
15115.346,68687.963100.91494.44
1安培857.702,41521.6026.5624.32
1安培1811.651,11847.1854.1049.892
23152.685,93768.9164.2465.52
34113.356,04853.4965.7859.63
4671.404242个67.8868.6768.53
4A级1419.121,61855.1747.1452.21
5763.803823年42.7052.0447.36
61135.012,12258.4549.9153.16
7937.862,25060.6254.8060.13
81030.391,75547.5963.5356.54
91224.911,68447.7350.7251.84
101320.331,51856.8257.9557.02
111620.4994348.2659.3053.78
121520.791,50348.1052.2750.24
131718.7186239.2345.2742.25
141916.121165个49.6843.8846.53
152113.5567853.3269.3661.34
172311.0682954.5255.7855.15
182411.9984959.3551.8955.62
192210.8878552.0958.4254.71
202014.361,14952.4652.1551.42
21287.7832026.9030.1727.96
22315.22111
23256.8728655.6265.39959.95
24266.8745646.3148.5547.43
25324.4568
26296.47231
27276.16126
28306.31144
29413.5868
总计1,022.151,680.841924.17年1,738.28

*染色体是根据与斑马雀的共线性来分配的。

我们发现,映射到斑马雀1A号染色体的标记分裂成2个不同的头盔食蜂LG,这证实了头盔食蜂鸟和斑马雀之间的共有分析结果。这种现象并不是所选LOD=21所独有的,因为它早在LOD=13时就出现在LG发现过程中(Lep-MAP3模块SeparateChromosomes2)(参见补充材料S10,星号)。出于这个原因,我们推断相对于斑胸燕雀,头盔食蜜鸟的1A号染色体分裂为2条染色体,并在下文中将其称为推定的1Aa和1Ab号染色体。这种分裂在超级仙女鹪鹩中并没有观察到,它是美利法氏目超家族中唯一的其他物种,具有染色体长度的基因组,可以进行大规模的共系分析,并且具有确认染色体内连锁所必需的高密度连锁图[1]. 其他同时拥有这两种资源的雀形目鸟类(即大山雀、有领捕蝇草和家雀)也未见报道[11,13,14].

性别平均连锁图总长度为1347 cM(表2). 男性遗传图谱比女性长6.7%(1389 cM对1302 cM,不包括Z染色体)。这与超级仙女鹪鹩的结果一致,雄性特异图谱比雌性特异图谱长8%[1]. 有领捕蝇草的基因图谱长度在性别之间存在较大差异(雄性长10%),而斑马雀则相反(雌性长2%)[12,13]. 雄性和雌性头戴头盔的食蚁兽遗传图谱长度的差异在染色体间存在差异:雄性的15个染色体图谱更长,雌性的6个染色体图谱较长,4个染色体图谱相似(表2,图5).

图5:

雄性和雌性头戴头盔的食蜜鸟每条染色体的遗传图长度(以厘米计)的比较。黑色对角线上的染色体在两性中的遗传距离大致相同,线下男性更长,线上女性更长。

在其他雀形目鸟类基因组中发现[1,12,13],大部分头戴头盔的食蜜鸟基因组显示出性二型重组率。戴头盔的食蜜鸟图显示雄性的平均重组率总体较高(雄性:1.86 cM/Mb[SD 3.08],雌性:1.71 cM/Mb[SD 2.78];图4). 男女重组率的总体平均差异为0.19 cM/Mb(SD 1.58),最大的平均差异出现在假定的第23染色体上(3.81 cM/Mb[SD 6.31]),最小的平均差异发生在假定的18染色体上(−0.94 cM/Mb2[SD 1.26])。与鸟类基因组观察结果一致[54]重组率最高的是最短的染色体(因为每个染色体≥1个重组事件是减数分裂期间染色体充分分离所必需的)和染色体末端周围,但最小的染色体1Ab、23和24除外。头戴头盔的食蜜鸟的平均重组率(1.83 cM/Mb[SD 2.9])与斑马雀的相似(1.3 cM/Mb[SD 2.2]),但低于项羽捕蝇草的重组率(3.1 cM/Mb2[SD 4.1])[12,13].

重建人口历史

我们通过估计历史有效人口规模来说明我们优质基因组资源的有用性(N个e(电子))使用两两顺序马尔科夫合并法(PSMC,RRID:SCR_017229)[68]. 原始照明读数(GenBank加入SRX6469119型)通过移除适配器并用fastp v0.20.0(fastp,RRID:SCR_016962)修剪poly-G尾部,处理以与头戴头盔的食蜜鸟染色体长度基因组对齐[26]. 用BWA v0.7.17(BWA,RRID:SCR_010910)将修剪后的读数映射到基因组的常染色体(即,不包括Hi-C支架1和2)[58],并使用SAMtools v1.11对映射的读取进行转换和排序(SAMtools/BCFtools,RRID:SCR_005227)[59]. 我们使用BCFtools mpileup(BCFtool v1.9-80,RRID:SCR_005227)从最小基础和映射质量分数为30的读取中生成了基因型可能性[59],并使用BCFtools调用(选项-c)调用一致序列。将一致序列转换为fastq格式,vcfutils.pl vcf2fq保留读取深度在66×到400×之间的位点(平均深度为200×)。基于之前对鸟类的研究,我们运行了PSMC v0.6.5-r67,参数为p4+30*2+4+6+10和100[69,70]. 假设生成时间为3.17年,绘制结果[71]突变率为3.44×10–9每代(估计为另一种雀形目鸟类,中地雀,强壮地雀[69,72]).

PSMC分析揭示了约2000万年前(Mya)至约20000年前(kya;图6). 这表明上新世的祖先N个e(电子)从更新世开始(~2.5 Mya)到中更新世(~500 kya),400000只个体增加了一倍,然后逐渐减少,到晚更新世达到了~60000只个体(~50 kya。后者通常与历史一致N个e(电子)根据核内含子估计,头戴头盔的食蜜鸟的死亡率为11000(HPD 4000–77000)[19]尽管这里使用了较高的突变率。结合之前估计的头戴头盔的食蜜鸟与其近亲之间的分歧时间L.m.吉普斯兰狄克斯56 kya(范围4–281 kya)[19],我们的PSMC分析表明N个e(电子)戴头盔的食蜜鸟数量的下降可能是从其分化开始的。

图6:

两两顺序马尔科夫合并(PSMC)重建头戴头盔的食蜜鸟的人口统计历史。红线表示PSMC估计值,粉线表示100个引导序列的估计值。该图的构建假设世代时间为3.17年,突变率为3.44×10–9每一代。

结论

戴头盔的食蜜鸟是为数不多的几种鸟类之一,它们的染色体长度基因组组合及其相关的高密度连锁图都已被制作出来。染色体长度组合和连锁图表明,头戴头盔的食蚁兽的祖先染色体1A分裂为2条染色体(染色体1Aa和1Ab),这为鸟类基因组的进化提供了一个视角。这里异常高质量的基因组资源使我们能够重建这一群体的人口统计学历史,并为未来的研究提供了宝贵的机会,使用最先进的工具重建全基因组谱系,以推断突变年龄、分裂时间和正选择(例如,Relate[5]),并对正在进行的头戴头盔的食蜜鸟的基因救援进行基因组监测。基于这些资源的未来研究也将有助于开发其他受威胁物种的基因组工具箱。

源代码的可用性

本文中使用的所有脚本都已存档在Bridges Monash University研究库中[73].

数据可用性

1是本研究中使用的所有基因组资源、样本ID和登录号的摘要。基因组草案可在加入的NCBI GenBank中获得通用条款A_008360975.1和染色体长度基因组(GCA_008360975.2)。原始序列数据已保存在NCBI生物项目PRJNA554936材料SRX6469119(Illumina NovaSeq)、SRX6458354–SRX6458 356(Oxford Nanopore MinION)、SAMN25688276–SAMN256 88532(DArT测序)和NCBI BioProject PRJNA512907加入SRX9606522(HiC)下的NCBI SRA中。通过在Hi-C支架前后将Hi-C数据与基因组组装对齐而生成的接触矩阵可用于以多种分辨率浏览[35]. 系谱、注释数据和最终的连锁和重组图已存档在Bridges Monash University研究库中[73].

其他文件

补充材料S1.完整有丝分裂基因组的邻接树,与头戴头盔的食蚁兽有丝分裂基因紧密匹配(黑苔藓cassidix B80296)基于NCBI核苷酸数据库的BLASTn分析。图中只显示了Meliphagidae及其姊妹分支的子树,包括Pardalotidae和Acanthizidae。图中的比例尺测量了每个站点替换的差异。

补充材料S2.带头盔的食蜜鸟的线粒体基因组注释(GenBank登录OK189508州).

补充材料S3使用LASTZ v1.04.03将头戴头盔的食蜜鸟线粒体基因组(B80296)与草稿和染色体长度(Hi-C)基因组对齐。

补充材料S4.用于头盔食蚁兽染色体长度基因组注释的蛋白质库准备的蛋白质组列表。

补充材料S5.带头盔的食蜜鸟Hi-C支架与雌性斑马雀染色体的对齐(组装bTaeGut2.pat.W.v2,GenBank登录通用条款A_008822105.2)使用LASTZ v1.04.03。正向对齐以黑色显示,反向对齐以红色显示。

补充材料S6.LASTZ v1.04.03头戴头盔的食蜜鸟Hi-C支架与雄性斑马雀16号染色体对齐的输出和枢轴表(汇编bTaeGut1.pri.v2,GenBank登录CM012098.1号).

补充材料S7.使用LASTZ v1.04.03头盔蜜食者对准。(A) 1号高碳脚手架至斑马鸟CHD1-Z型斑马鸟基因和(B)Hi-C支架2CHD1-W公司基因。正向对齐以黑色显示,反向对齐以红色显示。

补充材料S8头戴头盔的食蜜鸟Hi-C支架(左)与(A)有项羽的捕蝇草基因组(右)和(B)超级仙鹪基因组的染色体(右)之间的同步。

补充材料S9.用于构建连锁图的人群谱系。女性用圆圈表示,男性用正方形表示。在血统上延伸的线将个体在多个位置的存在联系起来,这表明了超亲交配。该家系由1个大簇和5个较小的无关簇组成。

补充材料S10不同LOD评分限制将标记分裂为连锁组(假定染色体)的试验。当LOD=21时,标记倾向于位于一个连锁群中,该连锁群对应于一条同源的斑马雀染色体。黑色箭头表示高LOD分数是不够的,因为它们将映射到1条斑马雀染色体的标记分裂成不同的连锁群。红色星号表示,早在LOD=13时,映射到斑马雀Chr 1A的标记就被分成两个不同的连锁群。

补充材料S11不同LOD评分限制的试验,将单个标记加入头戴头盔的食蚁兽的29个连锁群(假定染色体)。LOD=13检索到尽可能多的单体,而不将它们分配给另一个假定的染色体,该染色体对应于不同的同源斑胸雀染色体。

补充材料S12马利图显示了每种带头盔的食蜂人每种性别的假定染色体的标记。干扰连锁图单调增加趋势的异常标记显示为红色,并从最终连锁图中删除。

补充材料S13牛津纳米孔读取(A)Z染色体、(B)13染色体和(C)26染色体中有问题区域的覆盖率。在所有情况下,我们都发现了一个可能的500 bp断点,没有映射读取,这支持了这些染色体中可能存在的组装错误。

补充材料S14头戴头盔的食蚁兽每种性别26、27和28号染色体的重组图。一些区域出现较大的负局部重组率。重组率使用跨度参数为0.2的LOESS回归进行计算。

补充材料S1525个常染色体和头戴头盔食蚁兽Z染色体的重组图谱。男性和女性地图分别以蓝色和红色显示。重组率使用跨度参数为0.2的LOESS回归进行计算。

缩写

APPRIS:注释主要剪接亚型;BLAST:基本局部对齐搜索工具;bp:碱基对;BUSCO:通用单拷贝正交测井基准测试;BWA:Burrows-Wheeler校准器;cM:厘头;DArTseq:DArT测序;Gb:Gb对;kb:千碱基对;千年前;LG:联动组;LOD:几率对数;Mb:兆基对;MAPQ:映射质量;MITObim:线粒体诱饵和迭代映射;mRNA:信使RNA;迈亚:百万年前;NCBI:国家生物技术信息中心;NEB:新英格兰生物实验室;NIH:美国国立卫生研究院;NSF:国家科学基金;SNP:单核苷酸多态性;SRA:序列读取存档;TOGA:从基因组比对推断同源序列的工具;YNCR:黄灵堡自然保护区。

竞争性利益

作者声明,他们没有相互竞争的利益。

基金

这项工作得到了澳大利亚研究委员会向莫纳什大学和拉筹伯大学提供的链接拨款LP160100482的支持,以及堪培拉大学环境、土地、水和规划系(DELWP,维多利亚)、多元化阵列技术、维多利亚动物园、环境、,规划与可持续发展局(澳大利亚首都行政区政府)和生物多样性、保护和景点部(西澳大利亚州)。戴头盔的食蜜鸟的Hi-C数据由DNA动物园联盟创建(网址:www.dnazoo.org). DNA动物园由Illumina公司提供支持。;IBM;和Pawsey超级计算中心。其他支持由Helen Macpherson Smith信托基金会、Zoos Victoria、科学学院(莫纳什大学)、西澳大利亚大学(UWA)、澳大利亚DNA动物园和Holsworth野生动物研究基金会(澳大利亚生态学会)提供。D.A.R.得到了莫纳什科学学院院长研究生研究奖学金(DPRS)和莫纳什学院院长国际研究生研究奖(DIPRS)的支持。H.E.M.由Marie Skłodowska‐Curie(840519号拨款)领导的欧盟地平线2020研究和创新项目资助。A.P.得到了LP160100482和复兴与恢复(催化剂科学基金)的支持。P.K.由西澳大利亚大学资助。E.L.A.获得了韦尔奇基金会(Q-1866)、麦克奈尔医学院学者奖、NIH DNA元素图谱中心百科全书奖(UM1HG009375)、美国-以色列两国科学基金会奖(2019276)、行为可塑性研究所(NSF DBI-2021795)、NSF物理前沿中心奖(NSF PHY-2019745)、,以及NIH基因组科学卓越中心拨款(RM1HG011016-01A1)。

作者的贡献

A.P.、H.M.G.和P.S.参与了最初的项目概念化和设计。A.P.、P.S.和M.J.L.M.协调了遗传样本的收集。H.M.G.进行了短读和长读测序从头开始基因组草图的组装。P.K.、O.D.、R.K.、D.W.和E.L.A.进行了Hi-C测序,并将基因组组装到染色体长度。E.O.和M.H.进行了基因组注释。D.A.R.在H.E.M.、A.P.、P.S.、R.H.C.和M.J.L.M.D.A.R.和A.P.的指导下进行了合成酶分析并构建了连锁和重组图,所有作者都参与了手稿的撰写。所有作者都同意出版这份手稿的最终版本。P.S.、A.P.、M.J.L.M.和D.A.R.获得了该项目的直接资金。

致谢

这里产生的基因组资源支持了由多学科头盔食蜂人恢复团队领导的持续保护工作,其中包括维多利亚动物园、环境、土地、水和规划部(DELWP)、头盔食蜂者之友和墨尔本水务局。我们感谢Zoos Victoria的工作人员Leanne Wicker收集样本,感谢Kim Miller和Karina Cartwright收集圈养繁殖数据,感谢Bruce Quin(DELWP)收集现场数据,感谢Tim Sackton促进基因组注释。计算资源由Monash eResearch Centre(MeRC)、Monash e Solutions-Research Support Services、NeCTAR Research Cloud和Pawsey Supercomputing Centre提供。特别感谢Pasi Rastas指导Lep-MAP3的使用,Aurélie Siberchicot和Laurent Guéguen帮助MareyMap在线,以及澳大利亚DNA动物园团队的Ashling Charles为日常数据处理提供支持。我们感谢周红玲和两位匿名审稿人的意见,他们的意见改进了手稿。

工具书类

1

佩纳尔巴
合资企业
,
Y(Y)
,
澳大利亚标志性鸟类的基因组:优质仙鹪的组装和连锁图(壮丽细尾鹩莺)
Mol Ecol Resour公司
2020
;
20
(
2
)以下为:
560
78

2

圣地亚哥
E类
,
诺沃
,
帕迪纳斯
空军
高分辨率连锁不平衡分析推断的近期人口历史
分子生物学进化
2020
;
37
(
12
)以下为:
3642
53

三。

Broman公司
千瓦
,
韦伯
JL。
Humain多形性研究中心参考家系中的长纯合子染色体片段
美国人类遗传学杂志
1999
;
65
(
6
)以下为:
1493
500

4

塞巴洛斯
常设费用
,
乔希
PK(主键)
,
克拉克
数据仓库
纯合子的运行:人口历史和特征结构的窗口
Nat Rev基因
2018
;
19
(
4
)以下为:
220
34

5

斯皮德尔
L(左)
,
森林
M(M)
,
S公司
数千个样本的全基因组系谱估计方法
自然基因
2019
;
51
(
9
)以下为:
1321
9

6

斯塔普利
J型
,
费尔纳
PG公司
,
约翰斯顿
东南方
真核生物重组频率和分布的变化:模式和过程
Philos Trans R Soc Lond B生物科学
2017
;
372
(
1736
)以下为:
20160455

7

泽尔科夫斯基
M(M)
,
奥尔森
,
M(M)
减数分裂重组景观的多样性和决定因素
趋势基因
2019
;
35
(
5
)以下为:
359
70

8

萨德尔
吉咪
,
柯克帕特里克
M。
重组景观中的性别差异
美国国家
2020
;
195
(
2
)以下为:
361
79

9

佩纳尔巴
合资企业
,
接线盒。
从分子到种群:评估和估计重组率变化
Nat Rev基因
2020
;
21
(
8
)以下为:
476
92

10

Groenen公司
,
HH(小时)
,
布姆斯特德
N个
鸡基因组的一致性连锁图
基因组研究
2000
;
10
(
1
)以下为:
137
47

11

Van Oers公司
K(K)
,
桑图雷
AW公司
,
德考尔
复制的两个大山雀种群的高密度遗传图揭示了精细的基因组偏离性别均等重组率
遗传
2014
;
112
(
3
)以下为:
307
16

12

Backström公司
N个
,
福斯特迈尔
W公司
,
希尔泽斯
H(H)
斑马雀的重组景观斑胸草雀基因组
基因组研究
2010
;
20
(
4
)以下为:
485
95

13

川崎
,
斯梅兹
L(左)
,
Backström公司
N个
高密度连锁图使第二代带颈捕蝇草基因组组装成为可能,并揭示了鸟类重组率变化和染色体进化的模式
分子生态学
2014
;
23
(
16
)以下为:
4035
58

14

黑根
IJ公司
,
留置权
S公司
,
计费
调幅
家雀全基因组连锁图(家雀)为鸟类基因组的进化史提供了见解
Mol Ecol Resour公司
2020
;
20
(
2
)以下为:
544
59

15

霍尔特
C类
,
坎贝尔
M(M)
,
基伊斯
陆军部
岩鸽基因组组装和注释的改进(哥伦比亚利维亚)
G3(贝塞斯达)
2018
;
8
(
5
)以下为:
1391
8

16

加内特
S公司
,
萨博
J型
,
杜特森
G.公司。
2010年澳大利亚鸟类行动计划
加拿大科学与工业研究组织
;
2011

17

门霍斯特
P(P)
,
戴头盔的食蜜者救援队
头盔食蜂人的国家恢复计划黑鳞苔藓
墨尔本
:
维多利亚州政府可持续发展与环境部
;
2008

18

罗布莱多·鲁伊斯
陆军部
,
巴甫洛娃
一个
,
克拉克
右侧
一种新的评估框架就地濒危种群的繁殖管理策略
Mol Ecol Resour公司
2022
;
22
(
1
)以下为:
239
53

19

巴甫洛娃
一个
,
塞尔伍德
P(P)
,
哈里森
灵魂
将系统地理学和形态计量学相结合,以评估一种常见鸟类濒危亚种的保护优点并为保护策略提供信息
生物保护
2014
;
174
:
136
46

20

哈里森
灵魂
,
马格拉思
美赞臣
,
日元
JD公司
濒危鸟类近交和近交的终身适应度成本
当前生物
2019
;
29
(
16
)以下为:
2711
第7版第4节

21

哈里森
,
巴甫洛娃
一个
,
冈萨埃尔夫斯·达席尔瓦
一个
通过与另一亚种重建自然基因流来拯救濒危亚种的范围
分子生态学
2016
;
25
(
6
)以下为:
1242
58

22

拉力赛
K(K)
,
巴鲁
JD公司
,
杜达什
先生
呼吁改变零散种群的遗传管理模式
保留Lett
2018
;
11
(
2
)以下为:
2012年12月

23

法兰克汉姆
对。
小自交系群体的遗传拯救:荟萃分析揭示了基因流的巨大且持续的益处
分子生态学
2015
;
24
(
11
)以下为:
2610
8

24

怀特利
应收账
,
菲茨帕特里克
软件
,
芬克
厕所
基因拯救到拯救
经济发展趋势
2015
;
30
(
1
)以下为:
42
9

25

索科洛夫
欧洲药典。
一种改进的从富含粘多糖的软体动物组织中提取DNA的方法
J软体动物螺柱
2000
;
66
(
4
)以下为:
573
5

26

S公司
,
Y(Y)
,
Y(Y)
fastp:一种超快速一体化FASTQ预处理器
生物信息学
2018
;
34
(
17
)以下为:
i884型
90

27

自民
成人影片
,
普尤
D类
,
国会议员
大基因组和高度重复基因组的杂交组装山羊草是面包小麦的祖先,使用MaSuRCA mega-reads算法
基因组研究
2017
;
27
(
5
)以下为:
787
92

28

Waterhouse公司
马来西亚令吉
,
Seppey公司
M(M)
,
西芒
FA公司
BUSCO从质量评估到基因预测和系统发育学的应用
分子生物学进化
2018
;
35
(
3
)以下为:
543
8

29

不锈钢
,
亨特利
MH公司
,
杜兰德
数控
一张千基分辨率的人类基因组3D图揭示了染色质环的原理
单元格
2014
;
159
(
7
)以下为:
1665
80

30

艾登实验室
DNA动物园
https://www.dnazoo.org/。2022年2月14日访问

31

杜兰德
数控
,
沙米姆
微软
,
马科尔
榨汁机提供了一个一键式系统,用于分析环路分辨率的Hi-C实验
细胞系统
2016
;
3
(
1
)以下为:
95
8

32

杜德琴科
O(运行)
,
巴特拉
不锈钢
,
奥马尔
AD公司
重新组装埃及伊蚊使用Hi-C的基因组产生染色体长度支架
科学类
2017
;
356
(
6333
)以下为:
92
5

33

杜兰德
数控
,
罗宾逊
JT公司
,
沙米姆
微软
Juicebox为Hi-C联系人地图提供了一个无限制缩放的可视化系统
细胞系统
2016
;
3
(
1
)以下为:
99
101

34

杜德琴科
O(运行)
,
沙米姆
微软
,
巴特拉
不锈钢
Juicebox组装工具模块使用染色体长度支架实现哺乳动物基因组的从头组装,花费不到1000美元
生物Rxiv
2018
; 数字对象标识:

35

艾登实验室
戴头盔的食蜜鸟

36

罗宾逊
JT公司
,
特纳
D类
,
杜兰德
数控
Juicebox.js为Hi-C数据提供了一个基于云的可视化系统
细胞系统
2018
;
6
(
2
)以下为:
256
8.电子1

37

哈恩
C类
,
巴赫曼
L(左)
,
谢弗勒
B。
直接从基因组下一代测序读数重建线粒体基因组——诱饵和迭代绘图方法
核酸研究
2013
;
41
(
13
)以下为:
e129(电子129)

38

伯恩特
M(M)
,
多纳思
一个
,
居林
F类
MITOS:改进的新生后生动物线粒体基因组注释
分子系统进化
2013
;
69
(
2
)以下为:
313
9

39

HM公司
,
舒尔茨
MB(MB)
,
奥斯丁
厘米。
综合鸟枪测序和生物信息学管线可实现超快速有丝分裂基因组恢复,并证实澳大利亚淡水小龙虾中存在大量基因重排
BMC进化生物学
2014
;
14
:
19

40

基尔斯
M(M)
,
莫尔
R(右)
,
威尔逊
一个
Genieus Basic:用于组织和分析序列数据的集成和可扩展桌面软件平台
生物信息学
2012
;
28
(
12
)以下为:
1647
9

41

哈里斯
RS.公司。
改进的基因组DNA成对比对【博士论文】
宾夕法尼亚州立大学
;
2007

42

史密特
美国空军协会
,
哈布里
R(右)
RepeatModeler Open-1.0。2008-2015.http://www.repeatmasker.org。2022年2月14日访问

43

史密特
一个
,
哈布里
R(右)
,
绿色
第页。
重复遮罩打开-4.0。2015http://www.repeatmasker.org。2022年2月14日访问

44

肯特
WJ公司
,
贝尔茨
R(右)
,
韩礼士
一个
进化的大锅:小鼠和人类基因组中的复制、缺失和重排
美国国家科学院程序
2003
;
100
(
20
)以下为:
11484
9

45

苏亚雷斯
HG公司
,
兰格
比利时
,
拉德
P(P)
chainCleaner提高基因组比对的特异性和敏感性
生物信息学
2017
;
33
(
11
)以下为:
1596
603

46

奥西波娃
E类
,
赫克
N个
,
希勒
M。
RepeatFiller新识别了对齐重复序列的超大碱基,并改进了保守非离子元素的注释
Gigascience公司
2019
;
8
(
11
)以下为:
吉兹132

47

TOGA:从基因组比对推断同源序列的工具。https://github.com/hillerlab/TOGA网站。2022年2月14日访问

48

荣格(Jung)
S公司
,
保施
H(H)
,
兰根梅尔
国会议员
PLD4无义突变与Fleckvieh牛锌缺乏样综合征相关
BMC基因组学
2014
;
15
(
1
)以下为:
623

49

斯坦克
M(M)
,
舍夫曼
O(运行)
,
摩根斯坦
B类
利用外部来源提示的广义隐马尔可夫模型预测真核生物的基因
BMC生物信息学
2006
;
7
:
62

50

哈斯
BJ公司
,
萨尔茨堡
SL公司
,
W公司
使用EVidenceModeler和拼接比对程序进行真核生物基因结构自动注释
基因组生物学
2008
;
9
(
1
)以下为:
R7级

51

沃伦
厕所
,
克莱顿
DF公司
,
埃勒格伦
H(H)
鸣禽的基因组
自然
2010
;
464
(
7289
)以下为:
757
62

52

格里菲斯
R(右)
,
双重
国会议员
,
奥尔
K(K)
大多数鸟类的DNA测试
分子生态学
1998
;
7
(
8
)以下为:
1071
5

53

Z轴
,
L(左)
,
艾尔斯
R(右)
循环实现并增强了R中的循环可视化
生物信息学
2014
;
30
(
19
)以下为:
2811
2

54

埃勒格伦
H。
鸟类的进化基因组学
年收入生态演变系统
2013
;
44
:
239
59

55

拉斯塔斯
第页。
Lep-MAP3:即使是低覆盖率的全基因组测序数据,也能进行稳健的连锁映射
生物信息学
2017
;
33
(
23
)以下为:
3726
32

56

基里安
一个
,
文茨尔
P(P)
,
赫特纳
E类
多样性阵列技术:开放平台上的通用基因组分析技术
分子生物学方法
2012
;
888
:
67
89

57

卡肯
J型
,
霍恩洛赫
巴基斯坦
,
巴沙姆
S公司
Stacks:人口基因组学分析工具集
分子生态学
2013
;
22
(
11
)以下为:
3124
40

58

H(H)
,
杜宾
对。
使用Burrows–Wheeler变换快速准确地进行短读对齐
生物信息学
2009
;
25
(
14
)以下为:
1754
60

59

H(H)
,
手持设备
B类
,
怀索克
一个
序列比对/地图格式和SAMtools
生物信息学
2009
;
25
(
16
)以下为:
2078
9

60

H。
基于测序数据的SNP调用、突变发现、关联映射和群体遗传参数估计的统计框架
生物信息学
2011
;
27
(
21
)以下为:
2987
93

61

莫顿
氖。
复杂遗传中连锁的优势对数(lods)
美国国家科学院程序
1996
;
93
(
8
)以下为:
3471
6

62

西贝奇科特
一个
,
贝西
一个
,
盖根
L(左)
Mareymap online:一个用户友好的网络应用程序和数据库服务,用于使用物理和遗传图估计重组率
基因组生物进化
2017
;
9
(
10
)以下为:
2506
9

63

查克拉瓦蒂
答:。
遗传和物理地图的图形表示:Marey地图
基因组学
1991
;
11
(
1
)以下为:
219
22

64

利特瑞尔
J型
,
软件
,
波特
一个
实验鼠的高分辨率遗传图谱
G3(贝塞斯达)
2018
;
8
(
7
)以下为:
2241
8

65

De Coster公司
W公司
,
德赫特
S公司
,
舒尔茨
DT公司
NanoPack:可视化和处理长读取测序数据
生物信息学
2018
;
34
(
15
)以下为:
2666
9

66

H。
Minimap2:核苷酸序列的成对比对
生物信息学
2018
;
34
(
18
)以下为:
3094
100

67

罗宾逊
JT公司
,
托瓦尔德多蒂尔
H(H)
,
特纳
D类
igv.js:集成基因组查看器(igv)的可嵌入JavaScript实现
生物Rxiv
2020
; 数字对象标识:

68

H(H)
,
杜宾
对。
从个体全基因组序列推断人类种群历史
自然
2011
;
475
(
7357
)以下为:
493
6

69

Nadachowska-Brzyska公司
K(K)
,
C类
,
斯梅兹
L(左)
全基因组序列揭示更新世鸟类种群的时间动态
当前生物
2015
;
25
(
10
)以下为:
1375
80

70

马提尼
D类
,
杜塞克斯
N个
,
罗伯逊
不列颠哥伦比亚省
“世界上唯一的高山鹦鹉”的进化:基因组适应还是表型可塑性、行为和生态学?
分子生态学
2021
;
30
:
6370
86

71

斯马莱斯
IJ公司
,
奎因
B类
,
门霍斯特
PW公司
头盔食蜜者的人口学特征(黑鳞苔藓)
Emu公司
2009
;
109
(
4
)以下为:
352
9

72

马瑟
N个
,
Traves公司
性虐待
,
SY公司
从基因组数据估计人口统计学历史的顺序马尔可夫合并方法的实用介绍
生态进化
2020
;
10
(
1
)以下为:
579
89

73

罗布利多·鲁伊斯
陆军部
,
巴甫洛娃
一个
,
桑纳克斯
第页。
“一种极度濒危澳大利亚鸟类的染色体长度基因组组装和连锁图:头戴头盔的食蜜鸟”的支持数据
布里奇斯·莫纳什大学研究库
2021
;

作者注释

高级作者。

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。