摘要

日本DNA数据库(DDBJ)于1986年开始与欧洲的EMBL和美国的GenBank合作开展活动。DDBJ开发了一种名为Sakura的数据提交工具,研究人员可以通过该工具在WWW上提交来自世界各地的新测序数据。该数据库还构建了一个数据库管理系统(大和II),结合了面向对象数据库的技术和功能,以便有效地处理它收集的数据。DDBJ也正在开展信息生物学方面的一些研究活动。本报告还简要介绍了两项此类活动。

介绍

日本DNA数据库(DDBJ)于1986年正式开始与EMBL和GenBank合作开展活动。在开始之前,日本分子生物学家和生物物理学家就应该建立数据库的组织进行了一系列讨论。讨论最终导致了一项在国家遗传学研究所(NIG)建立数据库的提议,该研究所由教育、体育、科学和文化部(MESSC)管理。该提案在MESSC的支持下很快得到实施。自那时以来,MESSC的持续支持使DDBJ活动得以维持,并于1995年在NIG建立了一个新的中心。它被称为信息生物学中心(CIB),由四个研究实验室组成。这四个实验室不仅致力于运营DDBJ,还致力于各自的信息生物学研究项目,重点关注分子进化。

CIB的成立或许反映了我们对信息生物学这门新兴学科重要性的认识。顺便说一句,比起生物信息学,我们更喜欢信息生物学,因为前者意味着生物学比信息学更重要,而后者则相反。我们坚信,国际DNA序列数据库(DDBJ/EMBL/GenBank)为全球研究人员提供了DNA序列数据以及相关信息和软件,为信息生物学的发展做出了巨大贡献。应该注意的是,这三个数据库每天都会交换它们收集和处理的数据,因此这三个数据库基本上是同步的。DDBJ的活动现在包括数据收集、处理和传播以及软件开发,将在以下章节中报告。

数据收集

有两种方法可以通过Authorin和Sakura向DDBJ提交序列数据(1). 前者是在GenBank中开发的,用于提供软盘,后者是最近在DDBJ中设计的,用于在WWW上运行。我们预计Authorin很快将被GenBank新开发的Sequin取代。然而,随着WWW的使用在全球迅速普及,我们特别鼓励可能的数据提交者使用樱花。

樱花有两种版本(http://sakura.ddbj.nig.ac.jp)目前有日文版和英文版。两者都有以下六种资源:(i)一种页面资源,用于调节浏览器中输入数据的页面流;(ii)描述每页上数据项的类型和数量的表格资源;(iii)包含将出现在弹出菜单和列表框中的列表的菜单资源;(iv)错误检查资源,用于解析输入的数据;(v) 定义数据项之间相互依赖关系的项依赖资源;以及(vi)包含不同语言中数据项名称的单词资源。这些资源使樱花能够配备具有三个主要功能的网关脚本:(i)检查提交者提供的数据,参考错误检查和项依赖资源;(ii)使用HTML创建页面,参考页面、表单、菜单和单词资源;以及(iii)制作事务文件以将数据安装到数据库中。

特别是使用第一个函数,提交者可以在提交之前对输入的数据进行严格的错误检查。如果提交人没有提供提交人的姓名和地址、向公众发布数据的日期、序列的源组织以及序列数据,樱花会向提交人发出强制性错误。如果要提交的数据描述了一个编码区域,则还应按照樱花指南提供该区域及其产品的结构信息。如果不包括此类信息,则该序列将被视为EST数据(2)在数据处理和传播中被视为EST。这是目前三个国际数据库(DDBJ/EMBL/GenBank)的常见做法,以保持其维护和向公众发布的数据的质量。当然,大多数EST数据都是由提交者事先指定为EST的。这些数据库将普通序列数据与EST区分开来,以便数据库用户不会混淆它们。由于正在进行的基因组项目提交的EST数据在国际数据库中以惊人的速度积累,目前已占总数据的63%,如图所示图1,这种做法将对用户越来越重要。

提交给国际DNA序列数据库(DDBJ/EMBL/GenBank)的分类数据比例。该比例以提交数据数量的百分比表示。数据取自DDBJ最新发布的(DDBJ 1996年7月26日发布)。此次发布的提交总数为83552。
图1

提交给国际DNA序列数据库(DDBJ/EMBL/GenBank)的分类数据比例。该比例以提交数据数量的百分比表示。数据取自DDBJ最新发布的(DDBJ 1996年7月26日发布)。此次发布的提交总数为83552。

图2我们展示了向DDBJ提交数据的最新统计数据。自从樱花于1995年12月向公众开放以来,通过该工具提交数据的数量急剧增加。图中的最新统计数据表明,73%的提交是通过樱花提交的。因此,我们相信,未来提交给DDBJ的大多数文件都将以这种方式提交,这鼓励我们不断改进樱花。我们现在正在考虑的一种改进方法是将樱花以其他亚洲语言(如韩语和汉语)显示在屏幕上。通过使用上述单词资源,可以与相应国家的人们合作实现这一点。(当然,无论提交者选择何种语言,数据本身都应仅以英语提供。)

数据处理

近五年来,我们一直依靠洛斯阿拉莫斯国家实验室开发并善意提供的AWB(注释器工作台)来处理提交的数据。虽然该工具非常有用,但我们无法对其进行处理所需的修改。因此,我们决定自己开发一个数据处理系统,并在1996年1月的数据处理实践中用新开发的系统取代AWB。我们把它命名为大和二号(). 大和II是用C++编写的,因为它必须处理数据库中的许多对象(表),并根据需要进行修改和扩展。与C和Pascal等其他语言相比,这种计算机语言在合并这些情况方面具有优势。

最近向DDBJ提交的数据。白色条表示通过Authorin提交的每月数量,黑色条表示通过樱花提交的数量,樱花于1995年12月公开。
图2

最近提交给DDBJ的数据。白条表示通过Authorin提交的每月数量,黑条表示通过Sakura提交的数量,Sakura于1995年12月公开。

大和二期DDBJ的新数据管理系统。这显示了大和II中从数据提交到数据分发的数据流。该系统的核心是阴影框中的面向对象数据库库。
图3

大和二期DDBJ的新数据管理系统。这显示了大和II中从数据提交到数据分发的数据流。该系统的核心是阴影框中的面向对象数据库库。

大和II的外形如所示图3。此图中的注册和注释(R&A)工具大致对应于AWB,这意味着大和II比AWB涵盖更多的数据库操作。R&A工具通过Authorin和Sakura接收提交的数据,并对其进行初步检查,如果提交者通过了该过程而没有造成错误,则向其颁发加入号。这些步骤并非完全自动化,但还需要有经验的人工解释、解析和决策。关于加入号,这三个数据库最近同意将目前的形式扩展为新的形式,新的形式由两个字母和六个数字组成,例如AB123456。当然,这是因为提交数量以惊人的速度增长,这给三个数据库发出了明确的警告,即它们将很快用完所有可能的加入数量。如前所述,这一增长率主要归因于许多正在进行的基因组项目提交的EST数据。因此,如果要使用或开发直接涉及登录号的软件,必须了解新的登录号并进行适当的调整或修改。

WWW上访问DDBJ的次数。开放的正方形表示每月访问FASTA的次数,封闭的正方形表示访问BLAST的次数,开放的圆圈表示其他WWW访问的次数。FASTA和BLAST的编号参见左纵坐标,其他WWW访问的编号参见右纵坐标。
图4

WWW上DDBJ的访问次数。开放方块表示FASTA的月访问次数,封闭方块表示BLAST,开放圆圈表示其他WWW访问次数。FASTA和BLAST的编号参见左纵坐标,其他WWW访问的编号参见右纵坐标。

Yamato II的一个新特性是它包含了我们最初的面向对象数据库库,该数据库库用作R&A工具和基于Sybase构建的数据库之间的接口。面向对象的库为大和II提供了以下三个优点:(i)R&A工具中的应用程序开发可以独立于数据库的结构和同化过程;(ii)由于图书馆中对象的描述与数据库中的定义一一对应,因此大和ii的维护和扩展可以在图书馆而不是数据库上进行,在人力和时间方面效率很高;以及(iii)可以在不指定数据库中表格的格式的情况下执行数据的浏览、编辑和检索。这三个功能使大和II不仅可以灵活地更改和扩展其功能,而且可以高保真地运行。

数据传播

用大和II处理过的提交数据现在可以向公众发布了。然而,发布过程不一定是自动的,因为我们必须遵守提交者指定的发布日期。如果提交者需要立即发布数据,那么发布数据是没有问题的。当报告序列数据的论文发布时,我们会覆盖指定的日期并立即发布数据。然而,有时提交者要求我们推迟发布数据,即使在这种情况下,也有人敦促我们发布数据。我们可以推测,提交者及其同事正在同一领域与其他团队竞争。无论如何,我们对卷入此类案件不承担任何责任,并在不联系提交人的情况下继续发布数据。这也是国际数据库中的常见做法。

DDBJ的用户数。闭合方框显示DDBJ每月的用户数。
图5

DDBJ的用户数。闭合方框显示DDBJ每月的用户数。

即使我们这样做,我们也必须在相关论文发表之前保留大量未发布的数据。这些数据称为HUP(发布前保持)数据。由于国际合作,论文出版信息由GenBank提供,GenBank与MEDLINE服务紧密相连。然而,如果提交者提示我们在论文出版期间发布数据,数据将在论文发表前向公众开放。此外,如果提交的数据不打算发表在论文中,那么提交者向我们提供提示的责任将更大。值得注意的是,大多数EST数据都属于这一类。在这方面,提交人必须在提交时在合理范围内指定发布日期。主要负责数据内容和发布的不是我们,而是提交者。

DDBJ在WWW上提供以下数据检索服务;关键词搜索,FASTA(4,5),爆炸(6,7),恶意(8)、Clustal W(9). 如所示图4DDBJ的WWW服务已广泛用于各种目的,包括樱花提交的数据、我们数据库中的数据检索以及与全球其他数据库的链接。FASTA和BLAST搜索也经常进行。虽然大多数访问都是由日本用户进行的,但另一个不小的部分是来自国外的访问。图5代表DDBJ用户数量的每月增长。他们中的大多数还是日本研究人员。这一数字稳步增长,已超过2000人。我们还提供了NIG开发的其他数据库,如表1。如果您对这些服务感兴趣,请参阅URLhttp://www.ddbj.nig.ac.jp/.

研究活动

我们认为,为了提供高质量的数据,数据库本身应该参与使用它们处理的数据进行研究。如上所述,我们还开展了一些分子进化方面的研究项目。在下文中,我们将简要介绍其中两个特别需要大规模数据分析的项目。

DDBJ服务的其他数据库
表1

DDBJ服务的其他数据库

首先,我们对原核生物基因组在进化过程中是如何组织的感兴趣。为了解决这个问题,我们比较了流感嗜血杆菌(10),生殖支原体(11),大肠杆菌枯草芽孢杆菌关注四个基因组共有的同源基因(12). 我们提取的同源基因的位置比较表明,同源基因的排列具有很强的物种特异性,表明目前观察到的基因排列是在四个物种之间发生分歧之后发生的。特别是,每个物种的基因排列都是如此动态,以至于即使在流感嗜血杆菌大肠杆菌.虽然很少,但我们也可以找到几个保守区域;最长的区域包括S10、spc和alpha操纵子,它们是四个物种共同的连接单位。我们认为,在这些特殊地区进行了强有力的选择。

其次,如果我们进一步扩展上述讨论,我们将面临的问题不是基因组而是基因;基因是如何从其亚区进化构建的。为了研究这个问题,我们从尽可能多的蛋白质序列中提取进化基序(13). 实际上,我们从当时最新的国际DNA序列数据库中选择了完整的DNA序列。我们获得了107 041个这样的序列,并将其翻译成氨基酸序列。根据序列同源性将这些翻译的序列分为亚组。然后根据进化关系对每个亚组的序列进行比对。对于每组对齐的氨基酸序列,通过窗口分析搜索并提取进化上保守的氨基酸位点区域。我们把每个区域称为进化基序,它们的长度为20–200个氨基酸,其中60个是最常见的长度。我们注意到许多功能基序和结构域,例如同源结构域、POU特异结构域和bZIP基序的大小为~60个氨基酸。我们推测,与这个大小范围相对应的DNA序列被用作当前基因的构建块。

我们相信,信息生物学将是下个世纪生物学、医学和农业中最重要的领域之一,分子进化将成为信息生物学的核心。如前所述,大量基因和其他DNA区域已被测序,并已积累在国际DNA序列数据库中。然而,许多序列的生物学功能尚未阐明。这些基因和区域的起源和功能将通过信息生物学,特别是使用高性能计算机进行大规模数据分析来寻找和解决。我们现在不仅可以分析DNA和蛋白质体内体外而且生物信息学.

工具书类

1
山本
H。
阿克苏
T。
1996年基因组信息学研讨会论文集
 
出版中
2
亚当斯
医学博士。
科学类
1991
,卷。 
252
(第
1651
-
1656
)
小池
T。
阿克苏
T。
1996年基因组信息学研讨会论文集
 
出版中
4
利普曼
D.J.公司。
皮尔逊
W.R.公司。
科学类
1985
,卷。 
227
(第
1435
-
1441
)
5
皮尔逊
W.R.公司。
利普曼
D.J.公司。
程序。国家。阿卡德。科学。美国
1988
,卷。 
85
(第
2444
-
2448
)
6
阿尔特舒尔
S.F.公司。
吉什
西。
米勒
西。
迈尔斯
E.W.公司。
利普曼
D.J.公司。
分子生物学杂志。
1990
,卷。 
215
(第
403
-
410
)
7
吉什
西。
D.J.公司。
自然遗传学。
1993
,卷。 
(第
266
-
272
)
8
海因
J。
杜立德
钢筋混凝土。
酶学方法
1990
,卷。 
183
 
纽约
学术出版社
(第
626
-
645
)
9
汤普森
J.D.(医学博士)。
希金斯
D.G.公司。
吉布森
总工程师。
核酸研究。
1994
,卷。 
22
(第
4673
-
4680
)
10
弗莱什曼
注册资本。
科学类
1995
,卷。 
269
(第
496
-
512
)
11
弗雷泽
客户经理。
科学类
1995
,卷。 
270
(第
397
-
403
)
12
瓦塔纳贝
H。
莫里
H。
戈霍博里
T。
《分子进化杂志》。
,卷。 
新闻界。
第页。 
215
 
13
楯野
Y。
《分子进化杂志》。
 
出版中
14
中村
Y。
瓦达
英国。
瓦达
Y。
Doi公司
H。
卡纳亚
美国。
池村
T。
戈霍博里
T。
核酸研究。
1996
,卷。 
24
(第
214
-
215
)

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。