跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2004年5月;14(5): 925–928.
数字对象标识:10.1101/gr.1860604
预防性维修识别码:项目经理479121
PMID:15078858

合奏概述

摘要

合奏(http://www.ensembl.org(英语)/)是一个围绕大基因组序列组织生物信息的生物信息学项目。它是单个基因组的稳定自动注释以及它们之间的共线性和正态关系的综合来源。它也是一个框架,用于整合任何可以映射到基因组序列衍生特征的生物数据。Ensembl可以作为一个交互式网站、一组平面文件和一个完整的、可移植的开放源码软件系统来处理基因组。所有数据都是免费提供的,代码也是免费的。Ensembl的目标是继续“扩大”这种生物整合,以包括与了解人类生物学相关的其他模式生物;“深化”这一整合,以在不同物种的等效成分之间提供更加无缝的联系;并提供以前难以实现的基因组功能元件的进一步分类。

物种基因组序列代表了生物学中第一个封闭的数据集。生物发育和维持所需的几乎所有信息都被认为是编码在其基因组中的,由于一系列技术创新,基因组现已常规确定。然而,基因组作为DNA的长聚合体,简单地表示为四个字母的字符串,其优雅之处是有欺骗性的。要实现这种新的生物学描述的潜力,首先必须克服三大挑战。

首先,从基因组中解码它所代表的一组功能元件是一项科学挑战。不幸的是,对于基因组来说,尤其是对于大基因组来说,并没有一种简单的解码机制,因为大基因组的非功能序列的“噪音”水平明显要高得多。

其次,在存储、操作和使用大型基因组方面存在一系列固有的软件工程挑战,必须解决这些挑战,才能使第一个科学挑战变得容易处理。

最后,提供对海量数据的直观而全面的访问是一项挑战。大多数基因组用户希望能够忽略(如果需要)解决前两个挑战时固有的细节,特别是工程方面的细节,并使用用户友好的Web显示或用户友好的数据集。

Ensembl的目标是尽可能解决这三个挑战,重点关注哺乳动物基因组,尤其是我们自己的基因组。

恩森布尔的起源是为了响应1999年公众对人类基因组测序工作的加速。当时,很明显,如果要及时获得草图序列的注释,就必须自动生成,并且需要新的软件系统来处理比以前处理过的任何基因组都大得多、碎片更大、变化更快的基因组。ACeDB系统的经验(Stein和Thierry-Mieg 1998年)用于秀丽隐杆线虫项目(后来成为WormBase;Stein等人,2001年)在Ensembl数据模型的设计中,其他方面是非常宝贵的。在Ensembl开发的同时,FlyBase的GadFly系统也在开发中(Mungall等人,2002年),我们也从思想交流中受益。

在过去四年中,Ensembl已经发展成为一家大型企业,拥有大量的计算资源,能够处理和提供对当前九个不同基因组的实时数据库访问,并每月更新其频繁使用的网站。它在工业界和学术界都有一个庞大的用户社区,将其用作自己组织基于实验和计算基因组的调查的基础,其中一些组织维护自己的本地设备。

Ensembl是注释和显示基因组信息的三个主要系统之一,另外两个是UCSC基因组浏览器系统(Karolchik等人,2004年)和NCBI基因组资源(Wheeler等人,2004年). 这些论文的目的不是对这三个网站进行比较。合奏团与这两个团体都有协作的方法。特别是,对于所有基因组来说,使用哪种底层组件进行注释是有协调的,并且在所有三个位点之间提供了互连。

在本期基因组研究有一系列的论文详细介绍了合奏系统,其中包括许多在这种努力中固有的隐藏细节。本文的其余部分对系统各个方面背后的动机进行了一些透视,并介绍了其他论文。

观众

合奏是为三个主要观众创作的。

最大的受众是来自传统分子生物学和临床背景的研究人员,他们正在湿式实验室专注于一系列集中的实验。这些研究人员通常需要良好的Web访问、运行相似性搜索的能力以及下载小型本地化数据集的能力,尤其是DNA序列。The Ensembl网站(Stalker等人,2004年)为该组提供了大多数传递机制。

第二个受众是实力派研究人员,他们经常从事跨基因组区域(如位置克隆人)或其他分类(如内部表达分析)的基因类实验。这些用户需要用于操作基因组或基因子集部分的工具。我们有两个主要的交付工具来为这样的受众提供服务:首先,Ensembl网站上的几个视图是为这些用户量身定制的;第二,EnsMart系统(Kasprzyk等人,2004年)是一个专门针对该受众的基于Web的数据挖掘系统。

最后的观众是生物信息学家,他们要么在进行生物信息学研究,要么用重要的数据集支持实验实验室。该组的一个有用资源是一系列标准的可下载数据集,这些数据集表示Ensembl中的处理,例如,所有基因的蛋白质fasta文件。此外,由于Ensembl本身是一个(广泛的)生物信息学项目,我们发现,简单地说,我们的开放文化,下文将进一步概述,为这些受众提供了良好的服务。当然,这三个受众并不明显;许多生物信息学家将使用该网站,数据开放性使所有用户受益。

可交付成果

Ensembl的目标是向这三个受众提供有用的信息,而不仅仅是代表基因组序列。合奏以两种方式为序列增加价值。首先,我们对基因组中功能元件的位置进行注释。这就是Ensembl从人类基因组开始的地方。其次,我们生成一个预先计算的组织,并集成不同类型的生物数据和不同基因组之间的数据。随着基因组数量的不断增加和不同类型的数据变得可用,这种集成方面的增长特别快,而且随着它的增长,每一条数据的累积价值也在增加。

只要有可能,Ensembl都会尽量避免重复生成主要数据集的外部组的工作,并尽量与它们的发布保持同步。例如,Ensembl并不直接组装任何基因组项目,而是与测序中心或产生组装的联盟合作。集成还与更“传统”的模式生物资源进行协调,例如人类基因命名委员会(HUGO;Wain等人,2004年)和Jackson实验室协调的鼠标资源(Bult等人,2004年). 类似地,基因组保持高质量注释,例如秀丽线虫通过WormBase,Ensembl直接导入,不创建自己的自动注释。

注释

迄今为止,识别基因组编码的全套功能元件的工作主要是定义全套蛋白质编码基因。合集也不例外,当随后使用术语“注释”时,重点是基因转录本的定义。然而,随着其他算法的开发和部署,“注释”中包含的功能范围开始扩大。例如,集成自动注释已经开始包括假基因和一些RNA基因。

对于没有现有高质量注释的基因组项目,Ensembl提供了自动注释。波特等人(Potter et al(2004),Curwen等人(2004)和Eyras等人(2004)论文。值得注意的是生成的注释的三个特定方面。

  1. 。虽然Ensembl确实存储和显示了用于生成信息的所有计算过程,但我们也会随时调用我们认为正确的注释。对于被认为是决定性的功能,例如重复序列,许多人看不到计算和最终调用之间的区别。然而,对于存在相当多争议的特征,例如基因结构,通过计算生成和显示一些可行的基因结构相对容易;困难的问题是用哪一个进行进一步的分析。Ensembl确实对基因组上的特征做出了最终决定;我们还为希望自己评估证据的用户提供了所有有助于做出该决定的信息。因为我们调用任何区域的特征,如果用户愿意,他们可以忽略基因结构预测中固有的细节,并进行“最佳猜测”。这对于那些希望专注于衍生特征,特别是基因结构和蛋白质序列的人来说是非常宝贵的,并有效地忽略了基因组的复杂性。
  2. Ensembl倾向于以牺牲敏感性为代价,生成一组具有高特异性(即很少有预测是错误的)的集合:我们宁愿错过一些特征,也不愿过度预测。有两个原因,我们认为这是正确的平衡。首先,已经有几个程序以牺牲特异性为代价产生了高灵敏度,大多数计算程序可以简单地进行调整,以提供外显子、基因等“所有可行”列表。Ensembl确实在显示器上和作为可下载数据集提供了这些高覆盖率集合。第二,根据我们的经验,高特异性数据集几乎总是对下游工作最有用的(尽管也有一些例外,例如需要位置克隆人列出该地区所有可能的外显子)。这也许是我们专注于使用高特异性基因预测工具进行最终特定基因结构调用的主要原因,例如Genewise(Birney等人,2004年)尽管它也是在小组中写的,这也是一个很大的好处。
  3. 。我们及时提供注释。Ensembl项目的一个驱动因素是,我们知道,人工干预的更精确的注释方法无法扩展。自1999年以来,我们一直在预测大基因组上的基因,并在这段时间内提供了许多数据集。一开始,我们经常不得不在产品质量和发布速度之间做出妥协,就像许多其他涉及人类基因组的小组一样。回顾过去,我们发现这些早期的数据集几乎令人尴尬,但我们确实及时地生成了它们,如果不生成数据集,情况会更糟。随着项目的成熟,我们对自己的系统有了更好的了解,而且来自外部团体的即时发布压力通常会更小。目前,一次注释运行需要1到2个月的时间,这取决于基因组的细节,大部分时间用于检查管道中不同启发式的效果。一旦数据被冻结,就有一个定义明确的三周Web发布过程,在这个过程中,数据和代码将接受广泛的质量控制检查。

我们不认为自动注释可以用额外的人工干预完全取代注释作为黄金标准。首先,如果没有人检查数据,自动化方法将成为一个循环过程,因为它们被用于越来越多的基因组,而无法找到“新类别”的场景。人们常说,更广泛的实验证据将消除人类干预的必要性,但我们的经验是,尽管有用,但广泛的实验证明并不是万能药。尽管在大多数情况下,更好的实验证据(例如长cDNA信息)可以增强自动注释,在许多情况下,额外的实验证据具有复杂的冲突信号(例如,由于cDNA信息接近剪接位点的个体的多态性)。对于这些情况,最好的自动方法是在引用人类注释器时尽可能最好地提供所有证据。更务实地说,我们发现解决自动化工具中的下一组系统错误所需的启发式水平越来越详细,因此越来越不通用。换言之,通过明确列举该基因组特定规则的所有例外并在自动系统中提供例外,人们可能能够“自动注释”特定基因组,但该脚本无法自动注释任何其他基因组。强制“自动”方法以某种方式处理每一个任意的异常是很诡辩的,在这种详细程度上,只需通过手动干预来升级自动注释,以适应这些情况,就更容易了。

Ensembl无法提供注释的最后一步,这听起来可能有点失败,但事实上,我们致力于尽可能地帮助这个人工注释循环,这既是因为这是高投资基因组注释的最终终点,也是因为它有助于我们理解自动化过程。水獭系统(Searle等人,2004年)是Ensembl的一系列扩展,用于明确支持此过程。

整合与比较基因组学

集成系统的第二个可交付成果是预先计算的数据集成。

作为基因构建步骤的一部分,许多类型的序列数据与基因组对齐。其他(如SNP)根据外部提供的坐标映射进行定位。对于有助于理解其他特征的数据集,例如SNP,我们然后计算SNP的特征,例如它是否是编码SNP。对于其他更独立的数据集(例如,特定BAC克隆集的读对放置),我们的策略是导入在基因组上唯一命名和定位相关特征所需的最少信息,然后包含一个到主源的链接。

基因组也是相互关联的,我们提供了三种主要的预计算资源,重点放在这方面:(1)基因组之间的基线水平比对;(2) 基因组间同源基因对的配对;(3)长程同步块的推导。我们预计,在未来几年,这种比较信息将变得越来越有用。

技术实施

提供这些可交付成果的存储、操作和计算需求是需要克服的巨大挑战。大型基因组的存储需要有效、可扩展的持久性系统。我们选择使用基于开源MySQL系统的关系数据库系统。Ensembl也是一个庞大的程序员团队,为了确保协调开发,一个通用的API将大多数代码与模式的绝对细节隔离开来,并统一了常用的、潜在复杂的代码,例如坐标映射。Ensembl API文件,Stabenau等人(2004),详细介绍了模式和API,它为Ensembl代码库的其余部分提供了核心支持。

所有系统还必须在系统架构之上工作。由于主要基因组数据库的数据需求和计算需求都很大,因此必须与Ensembl主要团队合作设计该系统架构,以提供可靠的计算和存储系统。集成计算体系结构文件(Cuff等人,2004年)详细介绍了该设计。

管道中也有许多实施细节(Potter等人,2004年),基因构建(Curwen等人,2004年)和EST(Eyras等人,2004年)论文。

文化

从Ensembl一开始,我们就采用了开放性原则,这些原则很好地服务于人类基因组项目。我们确保Ensembl使用的所有数据都是完全开放的,并且提供的所有附加注释对所有人都是免费的。我们的软件是在开放许可证下免费提供的,仅坚持由使用它的团体进行归属;我们提供关系数据库的完整原始转储(允许轻松远程安装),并积极鼓励和响应用户的建议、反馈和错误报告。

除了原始转储和标准平面文件(例如,fasta格式的肽转储)之外,一个有用的开放资源是托管当前Ensembl数据库的可上网的MySQL服务器,位于ensembldb.ensembl.org这允许编程访问Ensembl的底层数据,而无需下载整个数据集。可以从MySQL客户端以及提供的Perl和Java API访问服务器(Stabenau等人,2004年). 例如,Apollo浏览器可以通过ensembldb从任何联网机器访问Ensembl。

Ensembl开放性的另一个例子是采用分布式注释系统(DAS)。该系统最初由Lincoln Stein和Sean Eddy提出(Dowell等人,2001年)提供了一个轻量级协议来交换序列上的注释。Ensembl同时充当DAS客户端(在其网页中)和DAS服务器。Ensembl是DAS客户端的事实为其他组提供了一种简单的方法,可以在Ensemb提供的所有基因组数据的背景下查看自己的数据。本日历年有500多名用户利用了DAS系统,该系统广泛用于网站的本地安装,以集成其他特定于站点的数据。

最后,我们与基因组有关的立场意味着我们与具有不同生物焦点的生物学家(例如,从位置克隆人到原位杂交专家)或研究不同物种的生物学家进行互动。对我们来说,不断学习生物学的新知识并整合它们的信息是非常愉快的。此外,我们可以充当这些不同社区的桥梁;例如,我们在人类和小鼠基因组方面的经验帮助制定了分析按蚊(Mongin等人,2004年)这将很快用于鸡基因组的研究。

未来

在实用层面上,基因组为许多分子生物学提供了自然索引。有机体的所有序列信息都应该以某种方式与基因组序列相协调,而一份全面的基因列表为进一步分析提供了一种原始材料,无论是表达阵列、原位探针、群体遗传学研究还是蛋白质相互作用图。Ensembl为大型复杂的后生动物基因组提供了基础设施,这样研究人员就可以将精力集中在研究的新方面,而不必仅仅为了跟踪、整理和管理基线信息而耗尽精力。Ensembl提供了所有级别的基础设施,从用户友好的Web显示到对底层数据的完整、开放访问。目前的系统确实提供了许多方面,但我们知道有许多具体的改进是可以实现的。例如,我们希望处理没有放在任何大规模地图上的全基因组霰弹枪组件,因此它们只是一组contigs。其中许多都列在论文的讨论部分。

更普遍地说,Ensembl的进化将由目前正在收集的生物数据集将生物学的不同方面联系在一起并跨越相关基因组的方式驱动。目前的情况允许我们调查和提供这种双重集成的信息,并为其他小组集成自己的数据提供资源。例如,在不同基因组中的功能元件之间提供更加全面的正交映射将有助于设计利用不同系统优势的实验。我们还希望这样的综合信息能够可靠地调用新类别的功能元素,例如,顺式-控制基因表达的调控基序。

基因组生物学是世界范围内理解生命系统的一大事业的一部分。由于基因组的快速测序以及数据集即将完成的事实,它一直是将生物理解视为一项主要是高通量数据生成以及信息集成和分析的任务的主要驱动力。它还培养了在分发原始数据、分析和方法方面的强大协作方法,例如生成Ensembl等信息基础设施的能力。Ensembl为生命科学的信息学方法做出了贡献,我们期待着在未来几年将基因组生物学的用途进一步扩展到分子生物学研究和临床研究中。

致谢

乐团主要由Wellcome Trust提供资金,另外还有EMBL和NIH-NIAID提供的资金。整个合奏团队感谢合奏用户社区,特别是合奏邮件列表的贡献者,感谢他们的贡献和评论。

笔记

文章和出版物位于http://www.genome.org/cgi/doi/10.1101/gr.1860604。文章于2004年4月在网上发表,然后印刷。

工具书类

  • Birney,E.、Clamp,M.和Durbin,R.,2004年。基因和基因组。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Bult,C.J.、Blake,J.A.、Richardson,J.E.、Kadin,J.A.,Eppig,J.T.、Baldarelli,R.M.、Barsanti,K.、Baya,M.、Beal,J.S.、Boddy,W.J.等人,2004年。小鼠基因组数据库(MGD):将生物学与基因组相结合。核酸研究。 32:476-481.[PMC免费文章][公共医学][谷歌学者]
  • Cuff,J.A.、Coates,G.M.P.、Cutts,T.J.R.和Rae,M.,2004年。集成计算架构。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Curwen,V.、Eyras,E.、Andrews,D.T.、Clarke,L.、Mongin,E.,Searle,S.和Clamp,M.,2004年。Ensembl自动基因注释系统。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Dowell,R.、Jokerst,R.,Day,A.、Eddy,S.和Stein,L.,2001年。分布式注释系统。BMC生物信息学 2:7.[PMC免费文章][公共医学][谷歌学者]
  • Eyras,E.、Caccamo,M.、Curwen,V.和Clamp,M.,2004年。ESTGenes:Ensembl中ESTs的选择性剪接。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Karolchik,D.、Hinrichs,A.S.、Furey,T.S.、Roskin,K.M.、Sugnet,C.W.、Haussler,D.和Kent,W.J.,2004年。UCSC表浏览器数据检索工具。核酸研究。 32:493-496.[PMC免费文章][公共医学][谷歌学者]
  • Kasprzyk,A.、Keefe,D.、Smedley,D.、London,D.、Spooner,W.、Melsopp,C.、Hammond,M.、Rocca-Serra,P.、Cox,T.和Birney,E.,2004年。EnsMart—快速灵活访问生物数据的通用系统。基因组研究。200414:160-169.[PMC免费文章][公共医学][谷歌学者]
  • Mongin,E.、Louis,C.、Holt,R.A.、Birney,E.和Collins,F.H.,2004年。这个冈比亚按蚊基因组:更新。寄生虫趋势。 20:49-52. [公共医学][谷歌学者]
  • Mungall,C.J.、Misra,S.、Berman,B.P.、Carlson,J.、Frise,E.、Harris,N.、Marshall,B.、Shu,S.,Kaminker,J.S.、Prochnik,S.E.等人,2002年。支持全基因组序列注释的集成计算管道和数据库。基因组生物学。 :研究0081。[PMC免费文章][公共医学]
  • Potter,S.C.、Clarke,L.、Curwen,V.、Keenan,S.、Mongin,E.、Searle,S.M.J.、Stabenau,A.、Storey,R.和Clamp,M.,2004年。信号群分析管道。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Searle,S.M.J.、Gilbert,J.、Iyer,V.和Clamp,M.,2004年。Otter注释系统。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Stabenau,A.、McVicker,G.、Melsopp,C.、Proctor,G.,Clamp,M.和Birney,E.,2004年。集成核心软件库。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Stalker,J.、Gibbins,B.、Meidl,P.、Smith,J.,Spooner,W.、Hotz,H-R.和Cox,A.V.,2004年。Ensembl网站——基因组浏览器的机制。基因组研究。(本期)。[PMC免费文章][公共医学]
  • Stein,L.D.和Thierry-Mieg,J.1998年。秀丽隐杆线虫基因组序列和其他ACEDB数据库。基因组研究。 8:1308-1315.[PMC免费文章][公共医学][谷歌学者]
  • Stein,L.、Sternberg,P.、Durbin,R.、Thierry-Mieg,J.和Spieth,J.,2001年。蠕虫库:秀丽隐杆线虫基因组和生物学的网络访问。核酸研究。 29:82-86.[PMC免费文章][公共医学][谷歌学者]
  • Wain,H.M.、Lush,M.J.、Ducluzeau,F.、Khodiyar,V.K.和Povey,S.,2004年。基因:人类基因命名数据库,2004年更新。核酸研究。 32:D255-D257。[PMC免费文章][公共医学][谷歌学者]
  • Wheeler,D.L.,Church,D.M.,Edgar,R.,Federhen,S.,Helmberg,W.,Madden,T.L.,Pontius,J.U.,Schuler,G.D.,Schriml,L.M.Sequeira,E.等人,2004年。国家生物技术信息中心的数据库资源:更新。核酸研究。 32:D35-D40。[PMC免费文章][公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社