摘要
基因组学承诺对基因组和宏基因组进行全面调查,但快速变化的技术和不断扩大的数据量使完整性评估成为一项具有挑战性的任务。技术测序质量指标可以通过量化基因组数据集的完整性来补充,基因组数据集是根据基准通用单拷贝正交测井(BUSCO,http://busco.ezlab.org). 最新的软件版本实现了代码的完整重构,使其更加灵活和可扩展,以促进高通量评估。最初的六个谱系评估数据集已经更新,并改进了物种采样,为脊椎动物、节肢动物、真菌和原核生物建立了34个新的亚群,大大提高了分辨率,现在还可以为线虫、原生生物和植物提供数据集。在这里,我们展示了BUSCO v3的示例分析,突出了BUSCO评估的广泛实用性,它超越了基因组学数据集的质量控制,扩展到比较基因组学分析、基因预测训练、宏基因组学和系统发育学中的应用。
基因组学方法在生物研究中发挥着举足轻重的作用,因为它们具有高通量和成本效益,导致产生的数据量不断增加。这使得对测序数据“产品”(例如基因组、基因或转录组)的彻底质量控制变得更加重要。针对这一问题,基准通用单拷贝正交测井(BUSCO,http://busco.ezlab.org)评估工具根据预期的基因含量提供了基因组数据完整性的直观定量测量(Simáo等人。2015). BUSCO识别完整、重复、片段和缺失的基因,并对不同数据集进行类似的质量比较。这些特征意味着BUSCO已经成为一种基本的基因组学工具,它使用了许多物种的最新数据,比流行但现已停止使用的核心真核基因图谱方法(CEGMA)具有更广泛的实用性(Parra等人。2007). 在本次交流中,我们介绍了BUSCO的主要改进,现将在其第三版中详细介绍,其中包括突出BUSCO广泛基因组实用程序的场景:主要用于执行基因组数据质量控制,但也适用于构建基因预测器的健壮训练集,为比较基因组学分析选择高质量的参考物种,并为大规模系统发育学和宏基因组学研究确定可靠的标记。
新方法
BUSCO v3:增强功能和扩展数据集
自BUSCO首次发布以来,开发旨在通过BUSCO v2改进基础分析软件以及更新和扩展的数据集来满足用户需求,这些数据集涵盖了基于OrthoDB v9正交曲线的其他谱系(Zdobnov等人。2017). 例如,除了细菌范围的数据集之外,现在还有15个额外的特定谱系数据集,真菌数据集还包括9个特定谱系的数据集,而后生动物现在由12个子集组成,包括脊椎动物和节肢动物,还为线虫、植物和原生生物建立了额外的数据集。为了促进高通量评估,BUSCO v3现在实现了代码重构,通过简化安装和通过配置文件引入控制,使其更加灵活和可扩展。此外,通过生成易于配置的条形图的绘图工具,可以实现结果的可视化。该软件是通过GitLab发布的,现在也可以作为Ubuntu虚拟机使用,并且已经集成为登录用户的在线服务网址:www.orthodb.org这些和其他新功能、选项、软件设置说明、依赖项,包括BLAST+(Camacho等人。2009)用于序列搜索,HMMER(埃迪2011)用于配置文件搜索的隐马尔可夫模型(HMM)和Augustus(Keller等人。2011)对于基于区块保护的基因预测,以及最佳实践都在更新的用户指南中详细描述(http://busco.ezlab.org). 随着更多新物种的测序,未来的BUSCO版本将侧重于增加新的谱系,物种采样变得足够丰富,以建立可靠的数据集,并用更大的谱系特定数据集提供更高的分辨率。
结果
评估基因组、基因集和转录组完整性
基因组数据质量控制推动了对原始BUSCO数据集的描述(Waterhouse等人。2013)以及随后与分析基因组组装、注释基因和转录组完整性的评估工具的集成(Simáo等人。2015). 将新基因组或基因集与金标准模式生物或密切相关物种的基因组或基因组进行对比,可以提供直观的相似比较。对于转录组,来自多个生命阶段和组织的样本预期具有较高的完整性,而目标样本的较低分数证实了它们的特异性。基准测试也有助于引导迭代重新组装或重新注释,以实现可量化的改进,例如邮差蝴蝶(Davey等人。2016)和大西洋鳕鱼(Törresen等人。2017). 在这里,我们评估了鸡和蜜蜂基因组注释的三个版本(材料和方法),这是广泛增强的主题(Elsik等人。2014;Warren等人。2017)并明确证明BUSCO在量化成功改进方面的效用(图1). 使用高分辨率膜翅目或鸟类数据集和低分辨率后生动物数据集,这两个物种从最初、中期和最新版本的进化显示出更完善的完整性。
图. 1
基因组数据质量控制的BUSCO完整性评估。初步、中期和最新版本的评估(一)蜜蜂和(b条)鸡基因组及其带有后生动物、膜翅目和鸟类谱系数据集的注释基因集。用BUSCO绘图工具绘制的条形图显示的比例分为完整比例(C,蓝色)、完整单副本比例(S,浅蓝色)、完全重复比例(D,深蓝色)、碎片比例(F,黄色)和缺失比例(M,红色)。
用于改进基因预测的高质量训练数据集
基因预测器训练体现了BUSCO超越质量控制的实用性,因为基因组评估期间构建的基因模型代表了参数化的理想输入数据。蛋白质编码基因的准确预测仍然具有挑战性,尤其是在同源物或天然转录物等支持证据不可用且从头开始预测的情况下。这涉及核苷酸特征和内容的统计建模,以构建最适合预处理参数分布的基因模型。这些在物种之间差异很大,因此需要优化,通常使用来自本地转录本的高质量基因注释作为输入数据。BUSCO代表此类训练程序的补充预定义集合,无需执行RNA测序。使用BUSCO训练参数与来自其他物种(材料和方法)的可用预训练参数比较Augustus预测可以显示出实质性的改进,例如BUSCO培训纹状体蜈蚣,水蚤属瀑布,以及达瑙斯蝴蝶的预测比使用果蝇参数要好得多(图2和补充图S1,补充材料在线)。在物种特定训练参数可用的情况下,BUSCO训练表现几乎一样好,例如番茄和水芹,以及果蝇和纳索尼亚黄蜂,甚至更好,例如,Tribolium公司甲虫(图2和补充图S1,补充材料在线)。因此,即使BUSCO基因模型可能不包括所有蛋白编码外显子,例如,如果一些不同的外显子没有预测到,它们也提供了充足的训练数据(自然内含子-外显子边界),以改进从头开始的基因发现。BUSCO使用Augustus进行基因预测,因此评估基因组会自动生成Augustus-ready参数,这些参数是根据确定为完整的基因进行训练的。此外,BUSCO生成的通用特征格式和GenBank格式的基因模型可以用作训练其他基因预测因子(如SNAP)的输入(Korf 2004年). 因此,运行组装评估为用户提供了高质量的基因模型训练数据,可以大大改进基因组注释程序。
图. 2
BUSCO与Augustus一起训练从头开始基因预测。当没有预处理参数集可用时,例如(一)由蜈蚣和BUSCO训练的预测要比使用另一种节肢动物(苍蝇)的Augustus参数要好得多。在有特定种类的训练参数集的情况下,BUSCO训练的预测几乎同样好,例如(b条)例如,番茄也一样好(c(c))比如果蝇,甚至更好(d日)Tribolium公司甲虫。通过计算从头算基因模型与每个物种官方基因集注释的序列长度匹配百分比来评估性能(材料和方法)。
稳健比较基因组学的信息数据集采样
比较基因组学分析通常对不完整的数据敏感,因此从代表物种中选择高质量的数据集是许多研究的关键第一步。随着可用基因组数据量的增长,这变得越来越复杂,尤其是质量可能会有很大差异。量化完整性有助于做出客观的选择,例如调查653链霉菌基因组仅鉴定出63%的完整细菌BUSCO(Studholme 2016年). 选择那些基因最多的基因并不保证质量,因为基因多的基因组不一定最完整,基因少的基因组也不一定完整(2015年Waterhouse). 毫无疑问,选择将受到分类学取样、相关功能基因组数据可用性、功能注释的范围和/或准确性,或仅仅是历史用法等因素的影响。然而,在其他条件都相同的情况下,与BUSCO进行的定量评估提供了合理的选择标准,以帮助专注于可用的最完整的基因组资源。例如,评估135乳酸杆菌和35曲霉属基因组,并将其与邻近度量和总基因计数(材料和方法)进行比较,表明RefSeq指定的参考并不总是最佳的可用代表(补充图S2,补充材料在线)。因此,以这种方式比较这些度量允许在知情的情况下选择用于后续比较分析的最佳质量代表。
系统基因组学和宏基因组学的可靠标记选择
系统基因组学利用全基因组或转录组数据重建绘制生物体之间关系的系统发育,这几乎是任何进化研究的先决条件。最近值得注意的例子包括全基因组测序,以建立一个支持良好的鸟类系统发育(Jarvis等人。2014)探索蚊子的基因流动(Fontaine等人。2015)以及广泛的转录组学,以增加物种采样来检查昆虫的进化(Misof等人。2014;Peters等人。2017)和蜘蛛(Fernández等人。2014). BUSCO是近通用的单拷贝基因,代表了预定义的可靠标记集,评估可以从不同类型的基因组数据中识别共享的亚群。例如,利用昆虫基因组和转录组中的BUSCO来确认蜻蜓目与新翅目的关系(Ioanidis等人。2017),并从近100个真菌基因组中重建酵母菌系统发育(Shen等人。2016). 对7个啮齿动物基因组和5个转录组的分析说明了使用BUSCO恢复基因以进行系统发育推断(图3). 鉴定出的基因被用于构建一个超排列,从中估计物种系统发育(材料和方法),这与以前的研究一致(Huchon等人。2007;Blanga-Kanfi等人。2009). 使用高分辨率真古生物或哺乳动物数据集进行评估需要更长的时间,但它们识别的通用单拷贝标记数量是低分辨率后生动物数据集的三倍多。这说明了BUSCO评估的实用性,可以相对快速且容易地从不同类型的基因组数据中识别可靠的单拷贝标记,用于系统发育学分析。通用分子标记在宏基因组学研究中也是必不可少的,用于所调查微生物群的系统发育分类,如果标记是单拷贝的,估计相对丰度将大大简化(Sunagawa等人。2013). 因此,BUSCO也是宏基因组学应用的理想标记。
图. 3
基因组和转录组BUSCO评估,以确定用于系统发育学研究的通用单拷贝标记。使用Euarchontogliers结果生成系统发育,以确定在所有物种中发现的完整单拷贝直系图,用于构建用于最大似然树重建的超对齐(材料和方法)。哺乳动物和后生动物的结果产生了相同的树拓扑。BUSCO结果下方的条形图显示评估数据集的大小如何影响超对齐长度和分析运行时间。该树以兔子为根,所有节点都有100%的引导支持,每个站点的分支长度以替换为单位(s.s.)。
讨论
BUSCO数据集包含在“单拷贝控制”下进化的基因(Waterhouse等人。2011)也就是说,在每一个谱系中,它们几乎普遍存在于单拷贝直系中。虽然允许罕见的基因复制或丢失,但这种特性是进化期望的基础,即它们应该在一个完整的集合或基因集中出现,并且只出现一次。通过使用BUSCO序列图谱评估预测基因的正形状态,根据预期基因含量量化完整性。这些HMM图谱是根据直系同源序列的多重序列比对构建的,并捕获了物种集合中的保守可比对氨基酸(即使某些直系同源是不完整的注释)。BUSCO是经过仔细挑选的,具有微调的分数和长度切分,可最大限度地提高准确度和召回率,但由于基因预测和正畸分配都是具有挑战性的任务,评估可能仍达不到100%的正确分类。例如,一些被分类为缺失的BUSCO可能过于分散,或者具有复杂的基因结构,使其难以正确定位和预测,甚至部分难以定位和预测;或者,一些被归类为重复的BUSCOs可能是组装过程未能崩溃的杂合等位基因(参见补充材料在线进一步讨论BUSCO结果)。此外,虽然输入物种选择明确避免过采样密切相关的物种,但必须从当前可用资源中进行选择,这些资源在系统发育上分布不均匀。考虑到这些警告,BUSCO为基因组数据质量控制提供了类似的评估,这在与其他测量方法的定性比较中表现良好。例如,基于基因组比对的指标通过比较20种脊椎动物和人类来量化超保守元素和蛋白质编码外显子的完整性(Seemann等人。2015)总体上与BUSCO结果非常一致。此外,评估12种植物(Veeckman等人。2016)与BUSCO、CEGMA、核心植物基因家族和表达序列标签图谱也显示出良好的一致性。因此,BUSCO提供了与替代方法一致的可靠完整性度量,适用于不同的基因组数据类型,并提供类似的比较。该实用程序扩展到其他基因组学应用,包括定义用于训练基因预测因子的数据集,促进比较研究代表的客观选择,以及识别系统发育学和宏基因组学的可靠标记。
材料和方法
新的和更新的沿袭数据集以及构成BUSCO v3的新软件开发的详细信息见补充材料在线和用户指南在线http://busco.ezlab.org.BUSCO已经在Linux上开发和测试,代码库是为Python编写的,并与标准Pythons包一起运行。BUSCO是根据麻省理工学院许可证获得许可并自由分发的。BUSCO v3源代码可通过GitLab项目获得,https://gitlab.com/ezlab/busco,并构建为预先安装了依赖项的虚拟机。
作为本研究的一部分,BUSCO评估的所有基因组集合、注释基因集或转录组的版本和来源详见补充材料在线,以及用于每个分析的设置。Augustus从头开始基因预测分析在补充材料在线计算覆盖率得分时,使用BLASTp将预测的蛋白质序列与各自的参考注释对齐(例如,100%的覆盖率得分意味着在预测蛋白质中发现参考蛋白质的每个氨基酸,没有插入、缺失或替换)。系统发育学研究的啮齿动物数据集的预处理、BUSCO完整性分析和后处理的详细信息都在补充材料在线,使用MAFFT对选择用于超对齐的蛋白质进行对齐(2013年加藤和斯坦德利)并用trimAl过滤(Capella-Gutiérrez等人。2009),并使用RAxML构建了最大似然树(斯塔马塔基斯2014).
补充材料
补充数据可在分子生物学与进化在线。
致谢
作者要感谢Zdobnov实验室的所有成员和我们热情的用户,他们提出了改进代码库的建议,请求了新的血统特定数据集,并对BUSCO更新进行了beta测试,以及匿名评审员的有用反馈。一些计算是在Vital-IT进行的(http://www.vital-it.ch网站)瑞士生物信息学研究所高性能计算中心。这项工作得到了瑞士生物信息学研究所SER基金、日内瓦大学基金和瑞士国家科学基金会(31003A_143936至E.M.Z.,PP00P3_170664至R.M.W.)的部分支持。开放获取费用的资金来源:瑞士生物信息学研究所。
作者贡献
E.M.Z.、E.V.K.和R.M.W.构思了这项研究。F.A.S.、G.K.、M.S.和R.M.W.开发了软件,整理了数据集,并进行了分析。M.M.和P.I.为数据集整理和软件测试做出了贡献。E.M.Z.、E.V.K.、F.A.S.、M.S.和R.M.W.根据所有作者的意见撰写了手稿。
参考文献
布兰加-坎菲
S公司
,米兰达
H(H)
,佩恩
O(运行)
,普普科
T型
,德布莱
RW公司
,胡冲
D。
2009
.修订的啮齿动物系统发育:所有主要啮齿动物分支六个核基因的分析
.BMC进化生物学
.9
:71
卡马乔
C类
,库洛里斯
G公司
,阿瓦吉安
五
,妈妈
N个
,帕帕佐普洛斯
J型
,比勒
K(K)
,马登
土耳其。
2009
.BLAST+:体系结构和应用程序
.BMC生物信息学
10
:421
卡佩拉·古铁雷斯
S公司
,西拉马丁内斯
吉咪
,Gabaldón公司
T。
2009
.trimAl:大规模系统发育分析中自动校准的工具
.生物信息学
25
(15
):1972
–1973
.
戴维
JW公司
,乔托
M(M)
,巴克
SL公司
,马罗哈
我
,巴克斯特
软件
,辛普森
F类
,乔伦
M(M)
,锤子
J型
,达斯马哈帕特拉
KK公司
,吉金斯
CD。
2016
.对红带袖蝶基因组组装用于确认600万年蝴蝶进化中的10个染色体融合事件
.G3(贝塞斯达)
6
(三
):695
–708
.
埃迪
SR.公司。
2011
.加速配置文件HMM搜索
.公共科学图书馆计算生物学。
7
(10
):e1002195。
埃尔西克
CG公司
,沃利
KC公司
,贝内特
阿拉斯加州
,贝耶
M(M)
,卡马拉
F类
,儿童
人物配对关系
,德格拉夫
直流
,德比塞
G公司
,邓
J型
,Devreese开发
B类
等
2014
.寻找缺失的蜜蜂基因:基因组升级的经验教训
.BMC基因组学
15
(1
):1
–29
.
费尔南德斯
R(右)
,霍尔米加
G公司
,希里韦特
G.公司。
2014
.蜘蛛的系统发育分析揭示了圆织物的非单体性
.当前生物
.24
(15
):1772
–1777
.
方丹
国会议员
,豌豆
接线盒
,斯蒂尔
A类
,Waterhouse公司
马来西亚令吉
,Neafsey公司
判定元件
,沙拉霍夫
四、
,江
X(X)
,霍尔
AB公司
,卡泰鲁恰
F类
,卡卡尼语
E类
等
2015
.系统发育学揭示的疟疾媒介物种复合体中的广泛渗入
.科学类
347
(6217
):1258524
–1258524
.
胡冲
D类
,雪佛莱
P(P)
,乔丹
U型
,基尔帕特里克
顺时针
,兰韦兹
五
,詹金斯
局部放电
,布罗修斯
J型
,施密茨
J。
2007
.活哺乳动物化石的多重分子证据
.美国国家科学院程序
.104
(18
):7495
–7499
.
约安尼迪斯
P(P)
,西芒
FA公司
,Waterhouse公司
马来西亚令吉
,曼尼
M(M)
,Seppey公司
M(M)
,罗伯逊
HM公司
,米索夫
B类
,聂惠斯
O(运行)
,兹多布诺夫
他们。
2017
.豆娘的基因组特征红萼代表大多数昆虫目的姐妹分支
.基因组生物进化
.9
(2
):415
–430
.
贾维斯
预计起飞时间
,米拉拉布
S公司
,阿贝勒
AJ公司
,锂
B类
,胡德
P(P)
,锂
C类
,霍
SYW公司
,Faircloth公司
不列颠哥伦比亚省
,纳布霍尔兹
B类
,霍华德
JT公司
等
2014
.全基因组分析解决了现代鸟类生命树的早期分支
.科学类
346
(6215
):1320
–1331
.
加藤
K(K)
,斯坦德利
DM公司。
2013
.MAFFT多序列比对软件版本7:性能和可用性的改进
.分子生物学进化
.30
(4
):772
–780
.
凯勒
O(运行)
,科尔马尔
M(M)
,斯坦克
M(M)
,瓦克
美国。
2011
.一种基于蛋白质多序列比对的杂交基因预测新方法
.生物信息学
27
(6
):757
–763
.
科尔夫
一、。
2004
.新基因组中的基因发现
.BMC生物信息学
5
:59
米索夫
B类
,线路接口单元
S公司
,梅塞曼
K(K)
,彼得斯
RS系列
,多纳思
A类
,迈耶
C类
,弗兰森
PB(聚丁二烯)
,器皿
J型
,弗洛里
T型
,贝特尔
RG公司
等
2014
.系统基因组学解决了昆虫进化的时间和模式
.科学类
346
(6210
):763
–767
.
帕拉
G公司
,布拉德纳姆
K(K)
,科尔夫
一、。
2007
.CEGMA:准确注释真核基因组中核心基因的管道
.生物信息学
23
(9
):1061
–1067
.
彼得斯
RS系列
,克罗格曼
我
,迈耶
C类
,多纳思
A类
,贡克尔
S公司
,梅塞曼
K(K)
,科兹洛夫
A类
,波德西亚多夫斯基
我
,彼得森
M(M)
,兰费尔
R(右)
等
2017
.膜翅目进化史
.当前生物
.27
(7
):1013
–1018
.
泽曼
S公司
,戈罗德金
J型
,安东
C类
,帕拉斯卡
O。
2015
.家畜基因组组合的质量评估
.生物信息生物洞察力
9(补充4)
:49
沈
X-X
,周
X(X)
,科米尼克
J型
,库兹曼
人物配对关系
,廷格尔
计算机断层扫描
,罗卡斯
答:。
2016
.利用基因组尺度数据重建酵母菌系统发育主干
.G3(贝塞斯达)
6
(12
):3927
–3939
.
西芒
FA公司
,Waterhouse公司
马来西亚令吉
,约安尼迪斯
P(P)
,克里文特斯娃
电动汽车
,兹多布诺夫
相对长度单位。
2015
.BUSCO:使用单拷贝同源序列评估基因组组装和注释完整性
.生物信息学
31
(19
):3210
–3212
.
斯塔马塔基斯
答:。
2014
.RAxML版本8:用于大型系统发育分析和后期分析的工具
.生物信息学
30
(9
):1312
–1313
.
斯图德霍姆
DJ(DJ)。
2016
.基因组更新。让消费者注意:链霉菌基因组序列质量
.Microb生物技术
.9
(1
):三
–7
.
Sunagawa公司
S公司
,门德
博士
,泽勒
G公司
,伊兹基尔多·卡拉斯科
F类
,伯杰
沙特阿拉伯
,库蒂马
年少者
,科埃略
有限合伙人
,阿鲁姆甘
M(M)
,轻触
J型
,尼尔森
HB公司
等
2013
.利用通用系统发育标记基因进行宏基因组物种分析
.Nat方法
10
(12
):1196
–1199
.
托勒森
好 啊
,星星
B类
,Jentoft公司
S公司
,雷纳尔
工作分解结构
,树林
H(H)
,米勒
年少者
,瓦伦茨
英国石油公司
,骑士
J型
,Ekholm公司
吉咪
,佩卢索
P(P)
等
2017
.一个改进的基因组组装揭示大西洋鳕鱼的多产串联重复序列
.BMC基因组学
18
(1
):95
.
韦克曼
E类
,鲁廷克
T型
,范德佩莱
英国。
2016
.我们到了吗?可靠估计植物基因组序列的完整性
.植物细胞
28
(8
):1759
–1768
.
沃伦
厕所
,希利尔
LW公司
,汤姆林森
C类
,明克斯
P(P)
,克雷米茨基
M(M)
,坟墓
T型
,马科维奇
C类
,Bouk公司
N个
,普鲁特
杜兰特
,蒂波·尼森
F类
等
2017
.一种新的鸡基因组组合提供了对鸟类基因组结构的深入了解
.G3(贝塞斯达)
7
(1
):109
–117
.
Waterhouse公司
RM。
2015
.对昆虫基因库组成的成熟理解
.Curr Opin昆虫科学
.7
:15
–23
.
Waterhouse公司
马来西亚令吉
,特根费尔特
F类
,锂
J型
,兹多布诺夫
相对长度单位
,克里文特斯娃
企业价值。
2013
.OrthoDB:动物、真菌和细菌同源序列的层次目录
.核酸研究。
41
(数据库问题
):D358号
–D365号
.
Waterhouse公司
马来西亚令吉
,兹多布诺夫
相对长度单位
,克里文特斯娃
企业价值。
2011
.脊椎动物、节肢动物和真菌中基因保留、序列差异、重复性和重要性的相关特征
.基因组生物进化
.三
:75
–86
.
兹多布诺夫
相对长度单位
,特根费尔特
F类
,库兹涅佐夫
D类
,Waterhouse公司
马来西亚令吉
,西芒
FA公司
,约安尼迪斯
P(P)
,Seppey公司
M(M)
,勒切尔
A类
,克里文特斯娃
企业价值。
2017
.OrthoDB v9.1:编目动物、真菌、植物、古生物、细菌和病毒同源基因的进化和功能注释
.核酸研究。
45
(第1页
):D744号
–D749号
.
作者注释
作者2017。牛津大学出版社代表分子生物学与进化学会出版。