跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2004年1月1日;32(数据库问题):D468–D470。
数字对象标识:10.1093/nar/gkh038
预防性维修识别码:项目经理308772
PMID:14681459

2004年合奏

摘要

合奏(http://www.ensembl.org(英语)/)数据库项目提供了一个生物信息学框架来围绕大基因组序列组织生物学。它是大型基因组序列注释的综合集成来源,可通过交互式网站、web服务或平面文件获得。作为基因组注释的主要来源之一,Ensembl是一个开源软件工程项目,旨在开发能够处理超大基因组和相关需求的便携式系统。该系统的设施范围从序列分析到数据存储和可视化,在世界各地的公司和学术网站都有安装。Ensembl共提供了九个基因组序列,还有更多基因组可供使用,最近的发展主要集中在基因组和外部数据之间的更紧密集成上。

简介

基因组序列提供了组织生物数据的自然框架。在基因组数据库可用的短时间内,基因组数据库已被证明是研究人员的宝贵资源。Ensembl提供了最受欢迎的大基因组序列数据自动分析和整合来源之一,是EBI和桑格研究所的联合项目。它现在包含九个基因组:五种脊椎动物:人类、小鼠、大鼠、河豚、斑马鱼;两个蠕虫:线虫秀丽隐杆线虫和两种昆虫:黑腹果蝇冈比亚按蚊Ensemble一直参与人类数据的持续分析,小鼠基因组的分析(1),分析冈比亚A.gambiae基因组(2)和C.briggsae公司基因组。集合基因预测也构成了即将进行的大鼠基因组分析的核心注释集。Ensembl仍然是一个完全开放的项目,所有数据都可以免费获得,代码也可以公开授权。Ensembl已经在学术界和工业界建立了强大的开发人员网络,正在安装该网络,以镜像Ensemb生成的数据,并用作用户项目的软件基础。最近提交了几篇描述合奏具体方面的论文(6). 本文简要概述了自去年报告以来该项目的一些进展(7).

新发展

定期更新周期

为了简化对不断变化和不断增加的数据量的处理,从2003年2月起,Ensembl采用了每月发布周期,允许每月发布对web界面和数据库模式的改进,并在新数据可用时加入新数据。数据库转储和平面文件与网站更新同步发布。

预装配网站

基因组的完整集成注释需要几个星期才能完成。为了让用户能够立即访问最新发布的基因组集合,Ensembl现在提供了一个预先集合的网站(http://pre.ensembl.org/)功能有限。这只能在基因组释放后几天内提供,并提供BLAST和SSAHA搜索、所有已知蛋白质的放置、重复掩蔽和从头算基因预测。

Otter:基因管理的扩展集成模式

在这一年里,Ensembl开发了一种新的软件组件,名为Otter。Otter是一个Ensembl数据库,但有一个扩展模式和一个相关的客户机/服务器系统来支持手动基因注释。桑格研究所脊椎动物注释系统正在迁移到使用Otter,Otter将自动(Ensembl)和手动注释放在单个软件框架下,大大有助于后续数据集成。Otter服务器通过XML格式与注释客户端通信,这使得可以轻松交换和验证不同系统生成的注释。

阿波罗基因组浏览器(4),GMOD组件(http://www.gmod.org/)由Ensembl和Berkeley联合开发果蝇属基因组计划(网址:http://www.bdgp.org/),可以用作Otter的注释客户端。Apollo还被扩展为显示来自DAS(分布式注释系统)服务器的数据。作为一名编辑,阿波罗的优势是能够在比较基因组的背景下查看和编辑注释:通过连接到两个Otter服务器(例如人类和老鼠)和一个包含两个基因组之间预先计算的合成酶信息的Ensemble比较数据库,可以查看两个基因组的注释,并在与另一个基因组的同步上下文中编辑每个基因组。

增强功能

除了这些新的发展之外,今年还不断增强了Ensembl的现有功能。建议用户阅读每个版本附带的What’s new页面,因为用户界面的改进通常很微妙,但可以节省研究人员大量的时间。这里列出了一些更重要的改进。

Ensembl基因组注释与比较分析

核心自动基因构建系统生成的注释质量不断提高,在这一年中,在七个基因组集合上进行了构建。最近的一个版本是4月份宣布的第一个完整的人类基因组序列(NCBI33),其中也有自动预测假基因。在进行基因构建的同时,现在对每个新组装进行常规的比较分析。人类、小鼠和大鼠之间产生DNA同步,所有五种脊椎动物之间以及两种蠕虫和昆虫之间的假定基因同源性自动生成。

合奏网站

去年向新模式的转变使Ensembl网络视图得到了显著增强。其中包括在Contigview中添加第四个碱基对水平面板,显示核苷酸、六框架氨基酸翻译和限制性内切酶位点特征。在构建Ensembllite数据库(一个加速网络访问的非规范化数据库)的过程中,对SNP数据进行了额外的预处理,相对于其他注释,Contigview、Transview和Protview得以扩展,以显示针对转录物及其蛋白产物的SNP,包括同义和非同义编码SNP的标记。Contigview的其他增强功能包括概览面板上显示的带标签的同步块,以及从详细视图面板上的DNA保护轨迹访问新界面Dotterview。Dotterview是Dotter程序的web界面,默认情况下,在两个基因组的10kb窗口上显示DNA相似性的点图,带有Ensembl注释。添加DAS的接口(8)Contigview的源代码仍在开发中,使用户可以更好地控制每个源代码的显示。

EnsembMart:基因组数据挖掘

Ensembl继续将新的外部生成的数据集和资源导入其系统。这些经常通过DAS源菜单在contigview中提供;然而,许多数据挖掘指标也被纳入EnsembMart中。示例包括STACK表达式数据库eVOC命名法(与SANBI合作);Affymetrix等人的大鼠QTL和微阵列标识符。所有这些数据类型都可以通过Mart数据挖掘界面进行查询,该界面的功能在过去一年中大幅增加,现在有自己的“新增功能”网页,包括与EBI的ArrayExpress微阵列存储库集成等功能。

集成软件系统

Ensembl软件系统组件的灵活性正日益导致它们在其他地方的重用。仅在桑格研究所内部,Ensembl管道就被用于支持Wormbase和Havana(脊椎动物注释)团体的基因管理。哈瓦那也在利用水獭数据库来存储其基因注释。Ensembl网站代码已被重新用于Vega网站(网址:http://vega.sanger.ac.uk/)显示了从多个注释组收集的脊椎动物基因组到单个数据库中的精心注释。Ensembl数据也通过DAS服务器提供服务(8)鼓励以新颖的方式组合数据,以提供专业数据显示。该网站代码已经被重用,用于构建完全由不同DAS源组成的虚拟数据库的类Contigview Web视图。

未来发展方向

Ensembl仍然专注于为许多研究人员提供可使用的基因组信息基础设施,主要是通过网络。除了为许多基因组提供基线注释外,Ensembl还不断尝试改进其工作的各个方面,从软件工程到数据分析。2004年有望出现一些新的基因组(例如鸡、黑猩猩和蜜蜂),但也会继续改进技术和呈现方式,例如跨物种数据的新观点,这些都是围绕比较分析管道预测的假定基因同源序列组织的。

接触网

Ensembl是欧洲生物信息学研究所(EBI)和Wellcome Trust Sanger Institute(WTSI)的联合项目,两者均位于英国剑桥WellcomeTrust Genome Campus。要接收有关更新的公告,请订阅“公告”邮件列表:ku.ca.ibe@omodrojam“订阅合奏-公告”。要关注Ensembl的日常发展,请订阅“发展”邮件列表:ku.ca.ibe@omodrojam“订阅信号群-dev”。信息和支持请求可发送至gro.lbmesne@ksedpleh公司,这是一个完全支持的帮助台。在Ensembl网站上可以找到更多关于使用软件系统和web界面的文档,包括安装指南和教程。

致谢

我们非常感谢我们网站的用户和邮件列表上的开发人员提供了大量有用的反馈和讨论。合奏项目主要由Wellcome信托基金提供资金,EMBL和NIH-NIAID提供额外资金。

参考文献

1Waterston R.H.、Lindblad-Toh,K.、Birney,E.、Rogers,J.、Abril,J.F.、Agarwal,P.、Agalwala,R.、Ainscow,R.,Alexandersson,M.、An,P。(2002)小鼠基因组的初始测序和比较分析。自然,420, 520–562. [公共医学][谷歌学者]
2Holt R.A.、Subramanian、G.M.、Halpern、A.、Sutton、G.G.、Charlab、R.、Nusskern、D.R.、Wincker、P.、Clark、A.G.、Ribeiro、J.M.、Wides,R。(2002)疟疾蚊子的基因组序列冈比亚按蚊.科学类,298, 129–149. [公共医学][谷歌学者]
三。Birney E.,Clamp,M.E.和Hubbard,T.J.(2002),浏览基因组的数据库和工具。每年。基因组学评论。嗯,遗传学。,, 293–310. [公共医学][谷歌学者]
4Lewis S.E.、Searle S.M.、Harris N.、Gibson M.、Lyer V.、Richter J.、Wiel C.、Bayraktaroglir L.、Birney E.、Crosby M.A。(2002)Apollo:序列注释编辑器。基因组生物学。,,研究0082。[PMC免费文章][公共医学][谷歌学者]
5Hoon S.、Ratnapu,K.K.、Chia,J.M.、Kumarasamy,B.、Juguang,X.、Clamp,M.、Stabenau,A.、Potter,S.、Clarke,L.和Stupka,E.(2003)《生物管道:基于协议的生物信息学分析的灵活框架》。基因组研究。,13,1904年至1915年。[PMC免费文章][公共医学][谷歌学者]
6Clamp M.(2003)Jalview Java Alignment Editor。生物信息学,正在印刷中。[公共医学][谷歌学者]
7Clamp M.、Andrews D.、Barker D.、Bevan P.、Cameron G.、Chen Y.、Clark L.、Cox T.、Cuff J.、Curwen V。(2003)Ensembl 2002:容纳比较基因组学。核酸研究。,31, 38–42.[PMC免费文章][公共医学][谷歌学者]
8Dowell R.D.、Jokerst R.M.、Day,A.、Eddy,S.R.和Stein,L.(2001)《分布式注释系统》。BMC生物信息学,2,7。[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社