摘要

TRANSFAC是一个关于转录因子及其基因组结合位点和DNA结合图谱的数据库(http://transfac.gbf.de/transfac公司/)。它的内容得到了加强,特别是通过有关用于构建核苷酸矩阵的训练序列的信息以及关于植物位点和因子的数据。此外,TRANSFAC还扩展了两个新模块:PathodDB提供了调节区和转录因子基因的病理相关突变数据,而S/MARt DB则编辑了支架/基质附着区(S/MARs)及其结合蛋白的特征。此外,TRANSPATH数据库(关于信号转导)和CYTOMER数据库(关于器官和细胞类型)已被扩展,并日益与TRANSFAC数据源集成。

收到日期:1999年9月30日;1999年10月7日接受。

简介

基因调控仍然是分子生物学的一个主要问题,一些新的方法使我们能够在现象学水平上对基因表达模式和图谱进行全球表征。然而,器官/细胞类型、发育阶段和条件因素的数量如此之大,我们无法指望它们的所有组合都能通过特定的实验装置得到详尽的描述。因此,非常需要用于生物信息学识别控制基因调控事件的基因组信号,这一要求随着基因组数量的增加而增加,这些基因组已被完全测序,目前正被用于生物技术、制药、农业或其他目的。

由于这些原因,十多年前,我们开始收集有关顺式-调控DNA序列和反式-影响因素(1). 该汇编被转换为计算机可读格式,并作为一个类似EMBL的ASCII平面文件发布,作为TRANSFAC数据库供公众使用(2). 从那时起,它被重新组织为层次数据库,随后又被重新组织成关系数据库(,4)与其他数据库的链接越来越多,允许其集成到DBGET中(5)和SRS(6,7). 通过将其与TRRD(转录调控区数据库)链接,实现了重大突破(8)并通过连接复合监管元素上的数据库COMPEL(9). 最近还开发了其他数据库模块,专门研究信号转导途径和器官/细胞类型(10). 在本稿中,将概述这些模块以及TRANSFAC的状态,并描述另外两种TRANSPAC补充剂,它们提供有关病理相关基因调节成分(PathodDB)和支架/基质附着区域S/MAR(S/MARt DB)的数据。

TRANSFAC数据库

TRANSFAC的内容

底层关系数据库系统内部包含两个主要表,SITE和FACTOR。几乎所有其他表(总共50个表)都直接或间接链接到这两个表中的一个或两个(例如REFERENCES)。特别重要的是矩阵表,它表示单个或组转录因子的DNA结合谱,因此与因子表正确关联。关系系统的数据结构略有变化,因为引入了一个附加表,将矩阵条目与其对应的训练序列链接起来。这些序列已纳入SITE表(10)、和现在也明确列在扁平文件版本的单个矩阵条目中。

表中总结了各个表中的条目总数1.已采取特别措施来改进植物王国的数据内容。因此,植物因子条目的数量增加了两倍,目前达到266个条目(截至1999年9月)。将此数字与SWISS-PROT数据库中显示关键字“转录调控”的136个植物(Viridiplanate)条目进行比较,可能表明覆盖率令人满意。然而,这一比较应考虑到,一方面,TRANSFAC可能应用稍微更严格的标准来将蛋白质作为“转录因子”包括在内,但另一方面,与SWISS-PROT相比,单个剪接变异体在TRANSPAC中表现为不同的条目;此外,多聚转录因子复合物在TRANSFAC中被描述为自己的因子条目,但在SWISS-PROT中当然不是。

SITE表中植物转录因子的结合位点数量增加了一倍多,目前包括104个基因组和208个人工结合位点。后者主要来自随机选择研究,以确定单个因子的DNA结合特异性,并用于生成结合图谱。相应地,矩阵表中植物转录因子结合图谱的数量增加了一倍多(从8个矩阵增加到19个矩阵;截至1999年9月的状态)。这些矩阵以及SITE表中存储的总共18个一致性字符串,可以作为使用TRANSFAC服务器提供的搜索例程识别基因组序列中潜在植物转录因子结合位点的基础(见下文)。除了数量上的增加外,我们还特别注意提高单个条目的质量,因为其他数据库也使用了部分信息(11).

与其他数据库的交叉链接

与先前列出的外部数据库的链接已得到维护和扩展。CELL表与HyperCLDB(细胞系数据库;http://www.biotech.ist。unige.it/cldb/indexes.html),这是一个关于细胞系的一般信息集合,包括美国典型培养物保藏中心(ATCC)、德国微生物和细胞培养物保藏中心(DSMZ)的数据,以及七个额外的来源。截至目前,CLDB的URL已直接包含在154个CELL条目的注释/描述字段中。目前,正在尝试将到GeneCard的链接包含到GENE表中。为了便于将转录因子条目链接到GeneCard中的相应基因,所有转录因子基因都将包含在TRANSFAC的GENE表中,即使尚未描述其调节区域中的转录因子结合位点。

转录因子分类

目前(上次更新于1999年5月),转录因子的总体分类方案提供了1160个因子的链接,嵌入了1321个分类群的系统中(参见参考文献10,12以获取更详细的描述)。最近的变化包括从植物中引入APETALA2/EREBP相关因子和Dof(DNA-binding with One Finger)因子作为新类别。

连接的工具

如前所述,两个程序使用TRANSFAC数据扫描DNA序列以寻找潜在的转录因子结合位点。PatSearch使用SITE表的序列信息,该表分为六个库:脊椎动物、昆虫、植物、真菌的基因组位点,15个字母的IUPAC代码中的一致字符串,或TRRD中的位点信息,而MatInspector(13)与主要来自TRANSFAC矩阵表的绑定配置文件(用于脊椎动物、昆虫、植物、真菌或其他生物的因子)的编译库一起工作。同样,Frech开发的FastM模块(14)在搜索转录因子结合位点的用户定义组合时使用相同的矩阵库。作为一项新功能,MatInspector的输出列表可用于建议所分析基因的表达模式(见下文CYTOMER)。

另一个专门用于检测NFAT类型复合元素的程序(S_Comp 1.0)已在TRANSFAC服务器上提供,并在其他地方进行了更详细的描述(http://transac.gbf.de/dbsearch/funsitep/s/_comp.html ) (15).

病态数据库

已发表的大量案例表明,由于正常基因调控受到损害,有缺陷的转录因子或转录因子结合位点会导致病理缺陷。新开发的数据库PathodDB的目的是收集突变因子和结合位点的数据。此外,还考虑了潜在的遗传缺陷和由此导致的疾病。PathodDB是TRANSFAC数据库系统在转录调控病理方面的扩展。

数据库的结构

PathoDB是一个关系数据库,由50个链接表组成。数据库模式是根据条目类型的各种相互依赖性设计的。例如,由于选择性剪接,一个突变基因可能编码多个突变蛋白,而特定的基因型可能根据倍性导致不同的表型。另一方面,不同基因型通过不同的机制敲除相同的基因,从而导致相同的病理表型。

数据库由10个主表和40个链接表组成。四个最重要的表格包含关于突变转录因子(MuFactor)、突变DNA结合位点(MuSite)、分子基因结构(Genotype)和调控障碍(Phenotype。为了访问PathoDB主要关注点以外的数据,表型和基因型条目连接到重要的外部数据库,如OMIM(网址:http://www.ncbi.nlm.nih.gov/omim/ ) (16)、MGI(http://www.informatics.jax.org/ ) (17)和HGMD(网址:http://www.uwcm。ac.uk/uwcm/mg/hgmd0.html?)(18).

当前内容和观点

目前,PathoDB原型包含80个突变转录因子和20个突变结合位点的详细信息(每个位点都与TRANSFAC中指定的野生型有关),约100种基因型和15种特定疾病的表型。在当前状态下,主要考虑了开发缺陷。例如,就因子而言,突变的垂体特异性正转录因子1(Pit-1)和突变的垂体先知1(PROP1)都会导致垂体发育受损(19,20),突变的配对盒蛋白3和8(Pax-3,Pax-8)分别导致早期神经管缺陷或先天性甲状腺功能减退(21,22).

PathoDB中允许的微生物范围计划几乎与TRANSFAC中的一样广泛。然而,目前只考虑人类和小鼠的缺陷,特别强调其遗传疾病可能是医学研究最感兴趣的人类有机体。特别是广泛的癌症领域将受到关注。该数据库将很快通过互联网以扁平版本访问。

S/MARt数据库

真核基因的转录激活与染色质结构的显著变化有关。主要变化是从压缩结构过渡到“开放”或“活动”结构。有人认为,核基质可能在基因增强和基因组组织中发挥作用。这些功能被认为是由支架或基质附着区域(S/MAR)介导的。因此,我们开发了一个新的数据库S/MARt DB(scaffold/matrix attached region transaction database),它与TRANSFAC紧密相连。该数据库收集关于S/MARs和核基质蛋白的信息,这些蛋白被认为参与这些元素与核基质的相互作用。S/MARt DB可通过WWW公开获取,网址为http://transac.gbf.de/SMARtDB/index.html . 另一份出版物(Liebich,I.,Bode,J.,Frisch,M.,Reuter,I.和Wingender,E.,手稿正在准备中)对S/MARt DB进行了详细描述。

TRANSPATH(传输路径)

TRANSPATH(传输路径)(http://transac.gbf.de/TRANSPATH(传输路径)/)专注于参与转录因子调控的信号转导网络,旨在提供可用于模拟网络动力学的数据集合。在我们的模型中,信号网络由受体、酶、转录因子和基因等组成,所有这些都通过反应连接。虽然机械反应表示模拟所需组件之间的微小物理交互,但语义反应描述了意义的流动,如文献中通常显示的“激活”。组件可以聚集在显示类似信号行为的系列中,以降低冗余级别。反应可以聚集在通路中。对于任何信号组件,用户都可以搜索连接路径的交互式图形树表示。搜索可以考虑家庭信息以扩大结果范围。TRANSPATH是使用来自CSNDB(细胞信号网络数据库)的语义数据集(1514个成分和827个反应)开发的(23,24). 由于我们的目标是更精细的反应粒度,以使模拟可行,因此开始了第二次数据集检索,其中还包括机械反应(截至1999年9月,120个成分和80个反应位于从SWISS-PROT导入的一组1073个成分之上)。然而,TRANSPATH接口也可用于查看CSNDB数据的子集。

细胞器®

关系数据库CYTOMER包括人体器官、细胞类型、生理系统和发育阶段的表格(10). 器官表本身是层次结构的,因为对于列出的每个解剖结构,父(子)器官被表示为一个附加属性。所有四个表都通过一个中央“中心”表链接,该表列出了这四个类别的具有生物学意义的组合。该表提供了一个通用框架,用于绘制表达模式(Chen,X.,Dress,a.和Wingender,E.,手稿正在编制中),用于表示人类转录因子的表达模式,并根据所选器官表达的转录因子来组装其表达谱。单个转录因子的表达模式可以从那些分别包含CP和/或CN线内表达和非表达源信息的TRANSFAC因子条目中调用。

从转录因子列表开始,可以以比较的方式展示它们的表达模式,以直观地评估它们全部或大部分可能表达的器官。使用此功能,输出列表(如MatInspector生成的列表)(见上文)将用于选择性地显示一个表,该表包含所分析基因的潜在调节因子的表达模式,从而表明该基因本身的可能表达模式。

使用考夫曼建立的鼠标词汇表(25)并通过基因表达数据库(GXD)实现(26)CYTOMER数据库将扩展到小鼠系统,并在不久的将来扩展到其他深入研究的“模型”生物。

可利用性

TRANSFAC以及本文中提到的其他数据资源可供非营利组织的用户免费使用http://transfac.gbf.de/transfac公司/以及许多镜像站点。商业组织的用户被要求许可使用功能增强的用户界面和主要通过人工结合位点和转录因子DNA-结合图谱的附加数据扩大的数据集的数据库版本。当然,学术机构也可以许可此版本。

致谢

作者感谢M.Ashburner(EBI)定期提供与FlyBase的链接。我们也很高兴地感谢T.Takai-Igarashi和T.Kaminuma(东京国立卫生科学研究院)在提供CSNDB数据集方面提供的慷慨帮助。最后,我们感谢A.Bischoff女士在几乎所有上述领域提供的技术帮助。这项工作的一部分得到了德国教育和研究部(BMBF,拨款编号0311640和01 KW 9629/7)以及BMBF的科技合作拨款(CHN-305-97)的支持。

*

信件应寄给谁。电话:+49 531 6181 427;传真:+49 531 6181 266;电子邮件:电子邮箱:ewi@gbf.de

表1。

TRANSFAC数据库的内容(截至1999年9月的状态)

条目
现场8390
基因1302
系数2765
类别  38
矩阵356
细胞978
方法  67
参考文献b条6570
条目
现场8390
基因1302
系数2765
类别  38
矩阵356
细胞978
方法  67
参考文献b条6570

在FACTOR条目中,1596个被分配到其中一个因子类。

b条SITE、FACTOR、CLASS和MATRIX中引用的文章总数超过21000篇。

表1。

TRANSFAC数据库的内容(截至1999年9月的状态)

条目
现场8390
基因1302
系数2765
类别  38
矩阵356
细胞978
方法  67
参考文献b条6570
条目
现场8390
基因1302
系数2765
类别  38
矩阵356
细胞978
方法  67
参考文献b条6570

在FACTOR条目中,1596个被分配到其中一个因子类。

b条SITE、FACTOR、CLASS和MATRIX中引用的文章总数超过21000篇。

工具书类

1 Wingender,E(

1988
)
核酸研究。
,
16
,
1879
–1902年。

2 Wingender,E.、Heinemeyer,T.和Lincoln,D(

1991
)在Collins,J.和Driesel,A.J.(编辑)中,基因组分析——从序列到功能;生物技术论坛——分子遗传学进展Hüthig Buch Verlag,海德堡,第4卷,第95–108页。

3 Knüppel,R.、Dietze,P.、Lehnberg,W.、Frech,K.和Wingender,E(

1994
)
J.计算。生物。
,
1
,
191
–198.

4 Wingender,E.、Dietze,P.、Karas,H.和Knüppel,R(

1996
)
核酸研究。
,
24
,
238
–241.

5 Fujibuchi,W.、Goto,S.、Migimatsu,H.、Uchiyama,I.、Ogiwara,A.、Akiyama,Y.和Kanehisa,M(

1998
)
太平洋交响乐团。生物成分。
,
,
681
–692.

6 Etzold,T.、Ulyanov,A.和Argos,P(

1996
)
方法酶制剂。
,
266
,
114
–128.

7 Etzold,T.和Verde,G(

1997
)
太平洋交响乐团。生物计算机。
,
2
,
134
–141.

8 Kel,O.V.、Romachenko,A.G.、Kel,A.E.、Naumochkin,A.N.和Kolchanov,N.A(

1995
)第28届夏威夷国际系统科学年会论文集[HICS],生物技术计算第5卷,IEE计算机社会出版社,加利福尼亚州洛斯阿拉米托斯,第42-51页。

9 Kel,O.V.、Romaschenko,A.G.、Kel,A.E.、Wingender,E.和Kolchanov,N.A(

1995
)
核酸研究。
,
23
,
4097
–4103。

10 Heinemeyer,T.、Chen,X.、Karas,H.、Kel,A.E.、Kel、O.V.、Liebich,I.、Meinhardt,T、Reuter,I.,Schacherer,F.和Wingender,E(

1999
)
核酸研究。
,
27
,
318
–322.

11 Rombauts,S.、Déhais,P.、Van Montagu,M.和Rouzé,P(

1999
)
核酸研究。
,
27
,
295
–296.

12温根德·E(

1997
)
分子生物学。英语。事务处理。
,
31
,
483
–497.

13 Quandt,K.、Frech,K.,Karas,H.、Wingender,E.和Werner,T(

1995
)
核酸研究。
,
23
,
4878
–4884.

14 Frech,K.、Danescu-Mayer,J.和Werner,T(

1997
)
分子生物学杂志。
,
270
,
674
–687.

15 Kel,A.、Kel Margoulis,O.、Babenko,V.和Wingender,E(

1999
)
分子生物学杂志。
,
288
,
353
–376.

16 V.A.麦库西克(

1998
)人类的孟德尔遗传。人类基因和遗传疾病目录,第12 版本。 约翰·霍普金斯大学出版社,马里兰州巴尔的摩。

17 Blake,J.A.、Richardson,J.E.、Davisson,M.T.和Eppig,J.T(

1999
)
核酸研究。
,
27
,
95
–98.本期更新文章:核酸研究. (2000),28, 108–111.

18 Cooper,D.N.,Ball,E.V.和Krawczak,M(

1998
)
核酸研究。
26
,
285
–287.

19 Li,S.、Crenshaw,E.B.,III、Rawson,E.J.、Simmons,D.M.、Swanson,L.W.和Rosenfeld,M.G(

1990
)
自然
,
347
,
528
–533.

20 Deladoey,J.、Flück,C.、Büyükgebiz,A.、Kuhlmann,B.V.、Eblé,A.,Hindmarsh,P.C.、Wu,W.和Mullis,P.E(

1999
)
临床杂志。内分泌。代谢产物。
,
84
,
1645
–1650.

21 Fortin,A.S.,Underhill,D.A.和Gros,P(

1997
)
嗯,分子遗传学。
,
6
,
1781
–1790.

22 Macchia,P.E.,Lapi,P.,Krude,H.,Pirro,M.T.,Missero,C.,Chiovato,L.,Souabni,A.和Baserga,M(

1998
)
自然遗传学。
,
19
,
83
–86.

23 Takai-Igarashi,T.、Nadaoka,Y.和Kaminuma,T(

1998
)
J.计算。生物。
,
5
,
747
–754.

24 Takai-Igarashi,T.和Kaminuma,T(

1998
)
硅生物。
,
1
,
0012
.

25考夫曼医学博士(

1992
)小鼠发育图谱。学术出版社,英国伦敦。

26 Ringwald,M.、Mangan,M.E.、Eppig,J.T.、Kadin,J.A.和Richardson,J.E(

1999
)
核酸研究。
,
27
,
106
–112.本期更新文章:核酸研究. (2000),28, 115–119.

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。