摘要
Ashbya基因组数据库(AGD)是一个涵盖丝状真菌基因的综合在线信息源棉蚜Ashbya gossypii。数据库内容基于以下两种基因的比较基因组注释棉蚜和密切相关的芽殖酵母酿酒酵母同时考虑序列相似性和共线性(保守顺序和方向)。AGD的释放2包含4718个蛋白质编码基因座,位于7条染色体上。可以使用系统或标准的基因座名称从棉蚜以及芽殖和分裂酵母。基因组中约90%的基因棉蚜与芽殖酵母的基因座同源且共有。因此,AGD不仅是各种酵母群落的有用工具,而且也是对基因组研究和比较基因组注释的进化方面感兴趣的生物学家的有用工具。该数据库为科学家提供了一个方便的图形用户界面,其中包括各种基因座搜索和基因组浏览选项、数据下载和导出功能,以及到外部数据库(包括SGD、MIPS、GeneDB、KEGG、GermOnline和Swiss-Prot/TrEMBL)的大量相互链接。AGD可在以下网址访问:网址:http://agd.unibas.ch/.
收到日期:2004年7月23日;修订并接受2004年9月14日
简介
自从第一个出芽酵母的真核基因组序列酿酒酵母于1996年出版(1),已完成其他酵母品种的类似项目,包括葡萄裂殖酵母和棉蚜Ashbya gossypii(2–7). 比较基因组学极大地促进了开放阅读框(ORF)和编码RNAs的基因座的识别,因为这种方法利用了几个相关基因组中的基因顺序和方向(synteny)的保守性。因此,有可能区分真正的ORF和注释伪影,并以更可靠的方式分配起始密码子和内含子/外显子边界。此外,来自密切相关物种的启动子序列的比对产生了可能参与转录调控的新的保守元件(2,3)。
的基因组序列棉蚜已被证明对完善芽殖酵母基因组注释极为有用(8)最重要的是,它提供了最终的证据面包酵母经历了一次全基因组复制事件(5). 因此,从进化的角度来看,序列和注释数据非常有趣,因为它们允许在芽殖酵母中重建基因组重排和基因缺失。此外,棉蚜是利用遗传、生物化学和基因组实验方法研究诸如极地生长等重要生物问题的优秀模型系统(9–13). 应该强调的是,高密度寡核苷酸微阵列将用于棉蚜在未来,这将为广泛剖析这种有趣的丝状真菌生命周期中的转录程序开辟一条途径(P.Philippsen,未发表的数据)。存储在Ashbya基因组数据库(AGD)中的注释信息不断经过实验验证和更新。鼓励使用该数据库的研究人员提供错误和不一致的反馈,以进一步提高AGD条目的可靠性。
在这里,我们描述了AGD的第2版,这是一个全面和交叉引用的人工验证基因组注释数据源,可在http://agd.unibas.ch/.
数据库开发和交叉连接
数据库和网站是使用Ensembl应用程序编程接口(API)和基础web代码版本14构建的(14–16). 有关创建集成开发环境所需的硬件和软件的详细信息,请访问http://www.ensembl.org/Docs/wiki/html/EnsemblDocs/InstallEnsemblyWebsite.html。MySQL数据库架构和结构被创建为包含棉蚜符合集成格式的数据。MySQL数据库的创建和数据填充是通过一系列Perl完成的(http://www.perl.org/)使用源GenBank序列数据和注释文件的脚本棉蚜由Dietrich提供等. (5). 当更新的GenBank文件可用时,加载脚本也有助于快速无缝地重新填充数据库。棉蚜AGD Release 1的GenBank文件目前可在补充下载页面上访问http://agd.unibas.ch/Ashbya_gossypii/download_Ashbya。使用Ensembl API和基本网站结构专门为AGD创建自定义网页。数据库模式和脚本可根据要求提供。
可以通过统一资源定位器(URL)从外部源超链接到AGDhttp://agd.unibas.ch/Ashbya_gossypii/unisearch?type=Gene&q=[关键字]其中[KEYWORD]可以是芽殖或裂变酵母基因的系统名称(例如。175瓦,SPBP8B7.14C型)或标准名称(DPB2型)或一个棉蚜系统名称(例如。AEL267C型)。
AGD的范围和质量
AGD Release 2的目标是覆盖来自棉蚜基于给定ORF的最上游ATG启动三元组。该数据库提供了从芽殖酵母和裂变酵母中获得的同源基因注释信息的方便访问。请注意,注释方法在极少数情况下会导致开始密码被错误分配。这部分是由于GC-含量较高棉蚜比芽殖酵母(53%对38%)(5). 我们正在对ORF的注释进行实验验证,并在一些可疑案例中启动密码子,包括用户报告的一些案例。这项正在进行的工作的结果包括DNA重新测序和/或RACE–PCR对转录起始位点的验证,将立即纳入提交给Genbank和AGD的更新文件中。可通过AGD的补充下载页面访问数据库版本之间可用更新ORF和/或起始密码子的基因座列表。
信息和数据检索
搜索选项
目前,可以使用搜索AGD棉蚜的系统位置名称(例如。ADR058C标准)以及分别来自芽殖酵母或裂变酵母的系统或标准名称(图1A). 请注意,裂变酵母基因与棉蚜基因座可以直接通过自动BLAST相似性搜索(S.Brachat和P.Philippsen,未发表的数据),也可以通过其发芽酵母同源物(V.Wood,个人通信)。弹出菜单包括几个精细的选项,如基因、信使核糖核酸、肽或重叠群/克隆。此外,使用截断的基因名称进行通配符搜索(例如。疾病预防控制中心*,无线电频率*,SRB公司*和SPO公司*)允许从棉蚜它们与来自芽殖酵母和裂变酵母的假定同源物一起显示。也可以通过定义染色体数目和基坐标来显示染色体区域(图1B)。
图1。
AGD中的搜索和浏览选项。(A类)搜索表单和(B类)染色体浏览功能。(C类和D类)概述和详细视图的轮廓视图第页。
基因组浏览和各种级别的视图
欢迎页面通过七个人的互动图像提供了一个完整的视图棉蚜使科学家能够定位任何感兴趣的区域的染色体。通过单击染色体,用户可以访问地图视图页面,其中提供了有关染色体的一些一般信息和统计数据(基因含量和染色体长度)。从地图视图页面中,用户可以单击染色体象形图上的任意位置,跳转到棉蚜当时的特点。对于特定染色体区域的选择,用户可以点击锚定视图页面,它允许选择染色体上的两个特征作为定位点,以显示它们之间的邻接区域。这两种浏览方法都会导致轮廓视图第页,包括四个部分:染色体,概述(图1C),详细视图(图1D)和基对视图。单击−勾选框可以隐藏这些部分中的每一个。这些视图是完全交互式的,用户可以点击任何指示的基因、转录本和图例,调出相应的基因座报告页面。这个详细视图和基对视图部分包括缩放、图像大小和窗口跳转功能,允许灵活的基因组导航。
AGD报告页面
这个AGD基因报告页面以显示基因名称、数据库ID和基因组位置的部分开始(图2A). 这个描述部分包含有关同源的信息面包酵母和S.pombe公司位点(表示系统和标准名称)和外部链接部分提供了对芽殖酵母注释数据库的访问(17)、MIPS(18)],裂变酵母(19)]以及涵盖多个物种的数据库的相关部分(20),德国在线(21–23),Swiss-Prot/TrEMBL(24)]. 这些链接使用户能够访问有关相关物种中可能与基因座相关的同源基因的信息棉蚜也。这个预测成绩单部分包含目标基因染色体定位的图形显示以及与转录本、外显子和蛋白质报告页面的链接。这个成绩单/翻译摘要部分还提供了对转录本、外显子和蛋白质信息的访问,并包含mRNA和蛋白质结构的图形显示(图2B-D). [查看成绩单信息]链接将用户引导到AGD成绩单报告页面,其中包含有关mRNA序列的附加信息。mRNA序列显示中可以添加各种标记,向用户显示转录本的基本外显子、蛋白质密码子和肽序列。这个AGD外显子报告page添加了有关该基因外显子/内含子结构的详细信息,并显示了侧翼的5′和3′非翻译区域。这个AGD蛋白质报告页面可以通过调用[查看蛋白质信息]链接并显示肽序列和属性信息。
图2。
AGD的基因座报告页面。(A类和B类)基因报告和成绩单/翻译的部分基因报告的页面棉蚜同系物金28(面包酵母)和SPBC19F8.07标准(S.pombe公司). (C类和D类)示例成绩单和肽视图,以及(E类)数据导出视图可通过欢迎页面中的链接访问的界面基因报告第页。
数据导出
从下载AGD Release 2欢迎页面中的链接和导出数据AGD中的链接基因报告页面,单个mRNA或肽序列可以通过适当的形式以FASTA格式检索(图2E). 用户还可以下载棉蚜基因组完整,带有EMBL、GenBank或FASTA格式的注释,或以GFF、制表符分隔和逗号分隔格式上传到其他数据库的区域特征列表。最后,可以将完整的源AGD数据库内容作为GenBank文件、FASTA格式的完整ORF翻译集和棉蚜和面包酵母点击补充下载页面的链接,即可获得基因座名称。
未来发展
我们目前正在实现BLAST功能,该功能将允许用户查询棉蚜基因或基因产物对抗面包酵母基因组。在稍后阶段,这一特征还将包括其他物种的基因组。此外,我们计划提供一个双向交互式的同步查看器,显示来自棉蚜和它们的对应物来自芽殖酵母。AGD的未来版本将包含许多附加功能,包括非编码RNA和GeneOntology分配,以改进注释和查询选项。覆盖整个基因组的高密度寡核苷酸微阵列将在可预见的未来可用,因此我们打算扩展数据库的功能,以覆盖高通量表达数据。最后,还将纳入功能基因组学产生的大规模基因缺失研究的结果,以及有关BAC克隆和含有棉蚜基因将变得可用。
结论
AGD是一个非常有用的在线信息源,用于广泛的芽殖和裂变酵母社区,也面向对基因组进化感兴趣的科学家。AGD的内容基于比较基因组注释面包酵母和它的进化祖先棉蚜通过自动注释识别的每个位点都是手动检查的。通过持续努力实验验证所有可疑病例,特别是使用AGD的研究人员报告的病例,基因注释得到了进一步改进。
我们感谢R.Jenni、R.Poehlmann(BioPhIT)、N.Brown([BC])2)D.Flanders(FMI)获得了出色的IT支持,M.Aslett和V.Wood(桑格研究所)获得了对手稿的批判性阅读。L.H.由瑞士生物信息学研究所支持。
参考文献
1Goffeau,A.、Barrell,B.G.、Bussey,H.、Davis,R.W.、Dujon,B.、Feldmann,H.,Galibert,F.、Hoheisel,J.D.、Jacq,C.、Johnston,M。等. (
1996
)生活中有6000个基因。科学类
,274
,546
, 563–547. 2Kellis,M.、Patterson,N.、Endrizzi,M.,Birren,B.和Lander,E.S(
2003
)酵母物种的测序和比较,以确定基因和调控元件。自然
,423
,241
–254. 三。Cliften,P.、Sudarsanam,P.,Desikan,A.、Fulton,L.、Fultan,B.、Majors,J.、Waterston,R.、Cohen,B.A.和Johnston,M(
2003
)在中查找功能特征酵母菌属基因组的系统发育足迹。科学类
,301
,71
–76. 4Wood,V.、Gwilliam,R.、Rajandream,M.A.、Lyne,M.、Lyne(R.)、Stewart,A.、Sgoros,J.、Peat,N.、Hayles,J.和Baker,S。等. (
2002
)的基因组序列葡萄裂殖酵母.自然
,415
,871
–880. 5Dietrich,F.S.,Voegeli,S.,Brachat,S。等. (
2004
)棉蚜Ashbya gossypii基因组作为绘制古代地图的工具酿酒酵母基因组。科学类
,304
,304
–307。 6Dujon,B.、Sherman,D.、Fischer,G.、Durrens,P.、Casaregola,S.、Lafontaine,I.、De Montigny,J.、Marck,C.、Neuveglise,C.、Talla,E。等. (
2004
)酵母的基因组进化。自然
,430
,35
–44. 7Kellis,M.、Birren,B.W.和Lander,E.S(
2004
)酵母古老基因组重复的证明和进化分析酿酒酵母.自然
,428
,617
–624. 8Brachat,S.、Dietrich,F.S.、Voegeli,S.,Z.、Stuart,L.、Lerch,A.、Gates,K.、Gaffney,T.和Philippsen,P(
2003
)重新调查酿酒酵母通过与相关真菌基因组的比较进行基因组注释:棉蚜Ashbya gossypii.基因组生物学。
,4
,R45(兰特)
. 9M.C.Wright和P.Philippsen(
1991
)丝状真菌的复制转化棉蚜Ashbya gossypii质粒含有酿酒酵母ARS元素。基因
,109
,99
–105. 10Steiner,S.、Wendland,J.、Wright,M.C.和Philippsen,P(
1995
)同源重组是丝状子囊菌DNA整合的主要机制和重排原因棉蚜Ashbya gossypii.遗传学
,140
,973
–987. 11Wendland,J.、Ayad-Durieux,Y.、Knechtle,P.、Rebischung,C.和Philippsen,P(
2000
)基于PCR的丝状真菌基因打靶棉蚜Ashbya gossypii.基因
,242
,381
–391. 12Knechtle P.、Dietrich F.和Philippsen P(
2003
)最大极性生长潜力取决于丝状真菌中的极性组分AgSpa2棉蚜Ashbya gossypii.分子生物学。单元格
,14
,4140
–4154。 13Bauer,Y.、Knechtle,P.、Helfer,H.、Wendland,J.和Philippsen,P(
2004
)一种Ras-like GTPase参与丝状真菌的菌丝生长引导棉蚜Ashbya gossypii.分子生物学。单元格
,15
,4622
–4632. 14Stabenau,A.、McVicker,G.、Melsopp,C.、Proctor,G.,Clamp,M.和Birney,E(
2004
)集成核心软件库。基因组研究。
,14
,929
–933. 15Curwen,V.、Eyras,E.、Andrews,T.D.、Clarke,L.、Mongin,E.,Searle,S.M.和Clamp,M(
2004
)Ensembl自动基因注释系统。基因组研究。
,14
,942
–950. 16Birney,E.,Andrews,T.D.,Bevan,P.,Caccamo,M.,Chen,Y.,Clarke,L.,Coates,G.,Cuff,J.,Curwen,V.,Cutts,T。等. (
2004
)合奏概述。基因组研究。
,14
,925
–928. 17Christie,K.R.,Weng,S.,Balakrishnan,R.,Costanzo,M.C.,Dolinski,K.,Dwight,S.S.,Engel,S.R.,Feierbach,B.,Fisk,D.G.,Hirschman,J.E。等. (
2004
)酵母菌基因组数据库(SGD)提供了用于识别和分析来自酿酒酵母以及其他生物的相关序列。核酸研究。
,32
,第311天
–D314。 18Mewes,H.W.,Amid,C.,Arnold,R.,Frishman,D.,Guldener,U.,Mannhaupt,G.,Munsterkotter,M.,Pagel,P.,Strack,N.,Stumpflen,V。等. (
2004
)MIPS:全基因组蛋白质的分析和注释。核酸研究。
,32
,D41号机组
–D44。 19Hertz-Fowler,C.、Peacock,C.S.、Wood,V.、Aslett,M.、Kerhornou,A.、Mooney,P.、Tivey,A.、Berriman,M.,Hall,N.、Rutherford,K。等. (
2004
)GeneDB:原核生物和真核生物的资源。核酸研究。
,32
,D339号
–D343。 20Kanehisa,M.、Goto,S.、川岛S.、Okuno,Y.和Hattori,M(
2004
)用于破译基因组的KEGG资源。核酸研究。
,32
,D277型
–D280。 21Wiederkehr,C.、Basavaraj,R.、Sarrauste de Menthiere,C.、Koch,R.和Schlecht,U.、Hermida,L.、Masdoua,B.、Ishii,R.,Cassen,V.、Yamamoto,M。等. (
2004
)基于生殖细胞分化的跨物种群落注释知识GermOnline Release 2.0的数据库模型和规范。生物信息学
,20
,808
–811. 22Primig,M.、Wiederkhr,C.、Basavaraj,R.、Sarrauste de Menthiere,C.、Hermida,L.、Koch,R.和Schlecht,U.、Dickinson,H.G.、Fellous,M.和Grootegoed,J.A。等. (
2003
)GermOnline是一个关于生殖系发育和配子发生的新的跨物种社区注释数据库。自然遗传学。
,35
,291
–292. 23Wiederkehr,C.、Basavaraj,R.、Sarrauste de Menthiere,C.、Hermida,L.、Koch,R.、Schlecht,U.、Amon,A.、Brachat,S.、Breitenbach,M.、Briza,P。等. (
2004
)GermOnline是一个基于生殖细胞分化的跨物种社区知识库。核酸研究。
,32
,D560型
–D567。 24Boeckmann,B.、Bairoch,A.、Apweiler,R.、Blatter,M.C.、Estreicher,A.、Gasteiger,E.、Martin,M.J.、Michoud,K.、O'Donovan,C.、Phan,I。等. (
2003
)2003年的SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。
,31
,365
–370.
作者注释
瑞士巴塞尔CH-4056 Klingelbergstrasse 50-70,Biozentrum和1Swis生物信息研究所应用微生物学系
©2005,作者核酸研究,第33卷,数据库版©牛津大学出版社2005;保留所有权利