MIPS: a database for genomes and protein sequences

H. W. Mewes; D. Frishman; C. Gruber; B. Geier; D. Haase; A. Kaps; K. Lemcke; G. Mannhaupt; F. Pfeiffer; C. Schüller; S. Stocker; B. Weil

doi:10.1093/nar/28.1.37

核酸研究。2000年1月1日；28(1): 37–40.

数字对象标识：10.1093/nar/28.1.37

预防性维修识别码：第1024页

PMID：10592176

MIPS：基因组和蛋白质序列数据库

H.W.Mewes先生,^一 D.弗里希曼,C.格鲁伯,B.盖尔,D.哈斯,A.卡普斯,K.伦克,G.曼哈普特,F.普菲弗,C.舒勒,S.斯托克、和B.韦尔

作者信息文章注释版权和许可信息 PMC免责声明

摘要

慕尼黑蛋白质序列信息中心（MIPS-GSF）位于德国慕尼黑附近的马丁斯里德（Martinsried），继续其开发和维护高质量精选基因组数据库的悠久传统。此外，已经加紧努力，以系统、全面的形式涵盖丰富的完整基因组序列。生物信息学支持国家和欧洲的测序和功能分析项目，已经产生了几个最新的面向基因组的数据库。本报告描述了反映测序进展的不断增长的数据库拟南芥（MATDB）和粗糙脉孢菌基因组（MNCDB）、由功能分析数据扩展的酵母基因组数据库（MYGD）、注释人类EST-聚类（HIB）数据库和来自DHGP（德国人类基因组项目）的完整cDNA序列数据库。它还包含关于完整基因组最新数据库（PEDANT）、蛋白质序列分类（ProtFam）以及在PIR-国际蛋白质序列数据库框架内收集蛋白质序列数据的信息。可以通过MIPS WWW服务器访问这些数据库(网址：//www。mips.biochem.mpg.de）。

描述

的数据库拟南芥基因组（MATDB）

近年来低调的十字花科植物拟南芥由于其需求量低、生命周期短、基因组封装紧密，已成为一种成熟的模式植物。由于开花植物之间的进化距离较小拟南芥也适用于其他植物。因此拟南芥被认为是植物基因组的基本工具箱。

基因组大小拟南芥估计为120 Mb。与其他植物基因组相比，基因密度高，例如在第4号染色体上，平均每4.2kb编码一个基因。总的来说，大约25000个基因预计将由拟南芥基因组。其中很大一部分（约90%）编码的蛋白质尚未从拟南芥而>50%在其他生物体中没有紧密同源物。

国际的总体目标拟南芥基因组计划（AGI）是完成整个序列拟南芥到2000年年中实现基因组(1). 在这项工作中，对拟南芥4号染色体最近由欧洲ESSA联盟、冷泉港实验室和华盛顿大学合作完成。MIPS负责数据采集、分析和染色体序列的编译。使用几种先进的基因预测和基因建模算法对序列进行了广泛的分析。因此，该分析结合了几条证据线，并将内在和外在分析数据合并为基因预测的关键过程。协作小组提交的数据已集成到MATDB中。所有编码在4号染色体上的3800个基因都通过各种生物信息学方法进行了表征，并使用PEDANT分析软件手动分配到监督功能类别。除了提取基因外，tRNA、转座子和重复区域也在进行相应的分析和注释。

根据特定的兴趣和查询字符，我们提供不同的路径，用户可以在其中导航到所需的信息。MATDB允许按功能基序或类别浏览数据，或查看是否存在传递到叶绿体或线粒体所需的信号序列。面向地图的查询可提供包含物理和遗传距离以及特定标记位置的图形化染色体概览。这允许用户以自上而下的方式导航到子区域、单个克隆，最后导航到特定基因。

酵母基因组数据库（MYGD）

基于基因组结构酿酒酵母，MIPS酵母基因组数据库（MYGD）(2)提供有关开放阅读框（ORF）、RNA-基因和其他遗传元素的信息。除了特定ORF或元素的特征外，例如自动标注的功能属性、同源性和结构，MYGD还显示了从文献中提取的遗传、生物化学和细胞生物学知识。相关引文和相应摘要同时集成到MIPS参考数据库中。由MIPS（EUROFAN I，SCDEGEN）共同协调的多个系统功能分析项目的数据(三)已于1999年向公众开放，结果显示在特定项目的WWW页面上。

已经实施了一个检索系统，提供系统功能分析项目所表征的不同突变表型的信息。MYGD提供了遗传元素和蛋白质功能描述的概要。酵母基因按功能、蛋白质复合物、蛋白质类别、突变表型、相互作用模式及其亚细胞定位进行分类。通过通用的MYGD搜索工具，使用基因名称、系统代码、登录号或免费文本，可以获得任何特定酵母蛋白或遗传元素的详细信息。除了关于特殊主题的表格外，MYGD网页还提供了生理和遗传途径的模型以及酵母科学界成员提供的精选评论。MIPS汇编了许多使用受控词汇的目录，并提供有关蛋白质遗传和生理背景的信息。与去年相比，MIPS复合物目录又扩展了38个新复合物。MIPS功能类别目录现在由两倍多的子类别和子子类别（总计400个）组成，可以对感兴趣的基因进行精确的标准化功能描述。

MIPS公司粗糙脉孢菌数据库

真菌代表着一组多样的真核生物，就像动植物一样，被现代分类学家置于自己的王国。真菌最大的单一分类单位是子囊菌，而研究最深入的真菌是酵母面包酵母然而，即使对于在更广的生态范围内具有更多基因、更大基因组和更多或不同发育、分解代谢或合成代谢能力的丝状真菌来说，酵母也不是一个合适的范例。例如，酵母不会形成次生代谢产物。除了面包酵母和葡萄裂殖酵母两种丝状真菌粗糙链孢霉和巢状曲霉是重要的遗传模型。

粗糙神经孢子虫50多年来一直是模式生物，制作了详细的遗传图谱和数百个突变株(4). 在美国和德国实验室的合作下，将对由大小在4.0到10.9 Mb之间的七条染色体组成的整个基因组进行测序。基因组总大小约为43 Mb。

MIPS负责分析德国境内II号染色体（4.6 Mb）和V号染色体（9.2 Mb）的数据、基因建模和注释预测蛋白质和其他遗传特征粗糙链孢霉测序项目。基因产物的注释由PEDANT软件执行（见下文）。将建立一个与我们在酵母和拟南芥基因组数据库。

人类信息库（HIB）和DHGP的cDNA数据库

与cDNA或基因组DNA相比，目前对人类基因的功能分析更多地反映在大量EST序列（1999年9月，150万）和不断增加的数量（每周多达4万）上。相比之下，在蛋白质序列数据库（PIR-International）中发现的注释人类蛋白质不到10000个。

HIB是一个自动标注人类基因簇的数据库，包括基于系统同源性和模式分析的人类蛋白质功能分类。这项工作的一个重要先决条件是一组符合高质量标准的数据(5)在质量检查（如去除污染物）后，从中形成非冗余簇，代表假定的人类转录物。然而，这些簇并没有在UniGene中进行系统组装或进一步表征。在HIB数据库中，使用CAP3程序组装每个集群(6). cDNA或完整cds的碱基质量值高于EST序列。HIB的当前版本包含64 056个条目，这些条目来自50 458个UniGene集群，其中至少包含两个成员。

每个组装的EST簇的最长ORF自动提交给PEDANT分析，用于预测蛋白质序列的功能和结构特征（见下文）。使用面向WWW的图形用户界面可视化数据。与MYGD类似，可以通过选择各种类别来访问数据库，例如关键字、超家族、PROSITE模式、PFAM域和结构分类。

所选视图允许表示有趣的方面，并易于解释结果。例如，集群与各种其他物种的同源性以表格形式表示。正如预期的那样，与其他哺乳动物物种的显著匹配率几乎相同(Bos金牛45%，大鼠43%，小鼠42%；E值<1e–35），而较远的真核生物只显示6%到10%的密切相关蛋白质(线虫,面包酵母,拟南芥). 对于原核生物，例如。大肠杆菌，这一比率降至2%。

作为德国人类基因组计划（DHGP）的一部分，德国cDNA项目的主要目标是分离、分析和应用新的全长cDNA。所有EST和完整的cDNA数据都存储在面向对象的数据库中。此数据库的用户界面提供了一种依赖于平台的方式来访问数据。已完成排序和注释的克隆将通过几个特定于客户端的步骤，直到发布到公共数据库。

PEDANT基因组分析服务器

撰写本文时，PEDANT(7)包含26个完全测序的和25个未完成的基因组序列中超过140 000个ORF的功能分配和结构预测。单个蛋白质的报告页面包含一组丰富的自动生成的链接，这些链接指向许多外部数据库，包括MIPS的酵母功能目录、KEGG代谢途径数据库、蛋白质结构域的SCOP分类、NCBI网站和几个蛋白质基序集合（PFAM、PROSITE、BLOCKS）（参考文献见本期NAR）。高级DNA查看器可从每个报告页面访问，它提供了所分析的连续性的图形概览，显示了遗传元素（基因、外显子、tRNAs等）的位置，定位限制位点、起始密码子和终止密码子，允许缩放到特定的感兴趣区域，检查DNA序列并提供六帧翻译。蛋白质查看器将通过各种搜索方法发现的结构预测和相似性匹配可视化。

一个新的基因组比较页面允许查询PEDANT分析的所有基因组。例如，用户可以从所有51个基因组中发现的所有此类域的列表中选择一个PFAM域，包含此类域的ORF列表将与单个基因组相应页面的链接一起生成。

蛋白质序列同源性数据库（ProtFam）

ProtFam项目是同源簇（蛋白质超家族、蛋白质家族和同源域）的精心策划的数据库(8). 分类结果直接复制到PIR-International Protein Sequence Database（PIR-国际蛋白质序列数据库）的条目中（本卷其他地方有所描述）。

具有相同结构域结构的同源蛋白质被划分为蛋白质超家族。高度同源的超家族成员进一步聚集成蛋白质家族。对于家族分类，使用50%序列身份的任意截断。其他无关蛋白质中的局部同源区域被注释为同源域。蛋白质的结构域序列在PIR-International protein sequence Database中表示为一个结构域特征注释，每个结构域及其代表都是HOMOL蛋白质序列数据库中的条目。后一个数据库截至1999年9月包含32000个条目。

对于每个同源簇（家族、超家族、域），我们提供了生物信息的综合视图，例如蛋白质名称、EC编号或关键字。作为一个强大的工具，显示了大约20000个多序列比对（4500个超家族比对，15000个家族比对，374个域比对）。对于每一个多重序列比对，都可以访问基于序列的生物信息（例如域、序列基序、活性位点、翻译后修饰）。

在PIR-International框架内收集蛋白质序列数据

群件系统为蛋白质序列数据库提供数据输入和注释支持。PrIAn（Protein Input and Annotation，蛋白质输入和注释）是一个工作流系统，允许新蛋白质序列的全自动或半自动输入。PrIAn处理从EBI核酸序列数据库条目的相关信息开始(9). 然后，可以在手动过程中对每个编码区域进行注释。该程序允许检查原始EBI条目，并通过与MIPS FastA数据库的链接，检查同源条目中的生物信息。由于实施了PrIAn数据输入，截至1999年9月，PIR-International Protein Sequence数据库已增加到142000个条目。

蛋白质序列数据库的MIPS部分已迁移到一套基于商业OODBMS ObjectStore的面向对象数据库组件。每个数据库组件的底层对象模型表示数据管理的生物学或组织方面的部分。不同类型的引文存储在文献数据库中。该数据库是MIPS的一个中心服务，由多个项目同时使用。最后，注释和规范序列在第三个数据库组件Annotation database中进行管理。

软件系统的体系结构基于层模式，实现了不同层次的抽象。数据库位于底部。持久存储和对象的管理由另一层实现。在顶部，对数据库组件的访问由包含服务器提供的服务的接口层提供。为了实现数据库互操作性，通用通信层是MIPS基础设施的一部分。作为通信技术，CORBA和专有的RPC机制与通用编程语言一起使用。

MIPS互联网资源

所有描述的项目都可以通过互联网访问。表中总结了提供详细材料的最新描述以及直接访问各个项目页面的链接表11.

表1。

项目描述	WWW链接
项目概况	http://www.mips.biochem.mpg.de/desc
的数据库拟南芥基因组（MATDB）	http://www.mips.biochem.mpg.de/desc/thal
酵母基因组数据库（MYGD）	http://www.mips.biochem.mpg.de/desc/yeaste
这个粗糙脉孢菌数据库（MNCDB）	http://www.mips.biochem.mpg.de/desc/neurospora网站
人类信息库（HIB）	http://www.mips.biochem.mpg.de/desc/human网站
DHGP的cDNA数据库	http://www.mips.biochem.mpg.de/desc/cDNA
蛋白质序列同源性数据库（ProtFam）	http://www.mips.biochem.mpg.de/desc/protfam网站

在单独的窗口中打开

资源	WWW链接
拟南芥（MATDB）	http://www.mips.biochem.mpg.de/desc/thal
粗糙脉孢菌（MNCDB）	http://www.mips.biochem.mpg.de/desc/yeaste
酵母基因组数据库（MYGD）	http://www.mips.biochem.mpg.de/desc/neurospora网站
注释人类EST-聚类（HIB）	http://www.mips.biochem.mpg.de/proj/human
完整cDNA数据库（DHGP）	http://www.mips.biochem.mpg.de/desc/cDNA
完整基因组（PEDANT服务器）	http://pedant.mips.biochem.mpg.de/
蛋白质序列数据库（PIR-International）	网址：http://www.mips.biochem.mpg.de/project/pir_int
蛋白质序列同源性数据库（ProtFam）	http://www.mips.biochem.mpg.de/proj/protfam网站

在单独的窗口中打开

如何联系MIPS

慕尼黑蛋白质序列信息中心，GSF Forschungszentrum，马克斯·普朗克生物化学研究所，D-82152 Martinsried，德国；电话：+49 89 8578 2656；传真：+49 8578 2655；电子邮件：w.mewes@gsf.de

致谢

这项工作得到了联邦教育、科学、研究和技术部（BMBF，FKZ 03311670，01KW9703/7）、Max-Planck-Society和欧洲委员会（BIO4-CT96-0110，0338，0558）的支持。

参考文献

1Bevan M.、Bancroft，I.、Mewes，H.W.、Martienssen，R.和McCombie，R.（1999）生物论文,21, 110–120. [公共医学][谷歌学者]

2Dolinski K.、Ball，C.A.、Chervitz，S.A.、Dwight，S.S.、Harris，M.A.、Roberts，S.、Roe，T.、Cherry，J.M.和Botstein，D.（1998）酵母,14, 1453–1469.[PMC免费文章][公共医学][谷歌学者]

三。Oliver S.G.（1997）货币。操作。遗传学。开发。,7, 405–409. [公共医学][谷歌学者]

4Radford A.和Parish，J.H.（1997）真菌。遗传学。生物。,21, 258–266. [公共医学][谷歌学者]

5Schuler G.D.（1997年）《分子医学杂志》。,75, 694–698. [公共医学][谷歌学者]

6黄霞（1996）基因组学,33, 21–31. [公共医学][谷歌学者]

7Frishman D.和Mewes，H.W.（1997）趋势Genet。,13, 415–416.[谷歌学者]

8Barker W.C.、Pfeiffer，F.和George，D.G.（1996）方法酶制剂。,266, 59–71. [公共医学][谷歌学者]

9Stoesser G.、Tuli，M.A.、Lopez，R.和Sterk，P.（1999）核酸研究。,27, 18–24. 本期更新文章：核酸研究（2000年），28, 19–23.[谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社