摘要
Operon结构在原核生物的协同调控中起着重要作用。尽管现在有200多个完整的基因组序列可用,但提供全基因组操纵子信息的数据库仅限于某些特定基因组。因此,我们开发了一个ODB(Operon数据库),它提供了许多完整基因组中已知操纵子的数据检索系统。此外,还提供了根据已知操作子保守的假定操作子。我们数据库的当前版本包含50多个基因组中约2000个已知操纵子信息,200多个基因组约13000个推测操纵子。该系统整合了四种类型的关联:基因组背景、从微阵列数据中获得的基因共表达、生物途径中的功能联系以及基因组中基因顺序的保持。这些关联是组织操纵子的基因的指标,这些指标的组合使我们能够预测更可靠的操纵子。此外,我们的系统使用从文献中获得的已知操纵子信息验证了这些预测。该数据库集成了已知的基于文献的信息和基因组数据。此外,它还提供了一个操纵子预测工具,使该系统对生物信息学研究人员和实验生物学家都有用。我们的数据库可访问http://odb.kuicr.kyoto-u.ac.jp/.
简介
随着全测序基因组的日益可用,比较基因组方法在破译基因功能方面变得越来越重要。使用基因组上的基因邻近性保护(即确定潜在的操纵子)的强大方法可以理解基因之间的功能关联(1–三). 操纵子中的基因在原核生物中在功能上相互关联;因此,人们开发了各种操纵子预测方法来理解功能关系和注释基因(4–13). 积累实验验证的操纵子信息的数据库应该有助于验证这种预测方法,也有助于理解基因之间的功能关联。然而,提供全基因组操纵子信息的数据库仅限于某些特定基因组(14,15). 虽然STRING数据库是为了识别多个基因组的基因之间的功能关联而开发的,但它使用基于基因组上下文方法的基因邻域(16). 在这里,我们介绍了称为ODB(Operon database)的数据库,该数据库提供了文献中记录的操纵子数据以及根据已知操纵子保守的假定操纵子。此外,为了表征操纵子,它整合了基因组背景、从微阵列数据获得的基因共表达、生物途径中的功能链接以及基因组间基因顺序保守性的数据。ODB还提供了基于这些不同类型数据的操纵子预测,作为我们数据库的应用程序。这些数据集是完全预先计算的,以便可以快速访问所有信息。ODB数据库集成了已知的基于文献的信息和基因组数据。此外,它还提供了一个操纵子预测工具,使该系统对生物信息学研究人员和实验生物学家都有用。
OPERON数据源
我们从文献中收集了多基因组已知操纵子的信息。我们注意到,我们收集的经实验验证的操纵子已经通过多种方法进行了验证,从引物延伸和northern blots等直接测量到基因敲除实验等不太直接的方法。我们的数据库代表了一项持续不断的努力,以增加操纵子的覆盖面。我们数据库的当前版本包含了从825篇文献中获得的50多个基因组中约2000个已知操纵子信息(表1). 请注意,尽管其中一些操纵子重叠,但我们使用术语“操纵子”单独指代“转录单位”,而不是通常理解的术语用法,该术语可能包括多个重叠转录单位。这些数据还包括秀丽隐杆线虫在原核生物中经常观察到操纵子结构,但线虫也有类似的转录系统(17,18). 因此,我们将真核操纵子添加到我们的数据库中。请注意,来自枯草芽孢杆菌包含从BSORF中存储的转录图获得的操纵子(http://bacillus.genome.jp/). 因为这些图谱来自northern印迹实验的结果,所以我们将这些操纵子添加到我们的数据库中。请注意,这些条目可以与从文献中获得的操作子区分开来,因为源(BSORF)的来源在数据库中进行了注释。
表1还显示了根据已知操作子保守的假定操作子。当我们计算这些保守性时,我们使用KEGG OC作为正交基因集(19)这是基于Smith–Waterman序列相似性得分的正交基因聚类。如果一个已知操纵子中的基因在另一个基因组中有直系基因,并且这些直系基因连续地位于基因组的同一条链上,我们认为它们是假定的但高度可靠的操纵子。注意,这并不适用于已知的单顺反子基因。此外,还从同源基因的角度探讨了推测的操纵子。这些假定的操纵子也在真核生物中被发现。通常,我们不使用“操纵子”这一术语来表示真核基因簇,但我们在数据库中使用这一术语。因此,在200多个基因组中观察到13000多个假定的操纵子。
数据库概述
ODB使用关系数据库管理系统(MySQL、,http://www.mysql.com/)存储和管理所有信息,不仅包括已知和假定的操纵子,还包括原始数据,如基因位置和定义,以及基因之间的关联。该系统包含决定操纵子的基因之间的四种关联:(i)基因间距离,(ii)生物路径中的功能链接,(iii)从微阵列数据获得的基因共表达,以及(iv)跨多个基因组的基因顺序保持。这四种关联被认为是指示物,它们连接的基因可以组织操纵子。因此,我们预先计算了所有可用基因组中所有基因之间的这些关联,以表征操纵子。与非操纵子之间的基因相比,操纵子中的基因通常位于基因组上。因此,这是表征操纵子特征的指标之一。基因间距离是指基因的末端位置和基因组上下一个基因的起始位置之间的碱基数目。
此外,操纵子中的基因通常在功能上相关。例如,代谢途径中出现的基因通常聚集在基因组上以进行共转录(20). 这些功能链是从KEGG途径获得的(19). 我们计算了路径图中基因之间的步数。步骤数表明,当两个基因连接在一个化合物上时,步骤数为一。通过这种方法,我们不仅计算了同一路径图中的步骤数,还计算了不同路径图之间的步骤数。
KEGG EXPRESSION数据库包含来自四种生物体微阵列的基因表达数据,枯草杆菌,大肠杆菌K-12 W3110,协同孢子虫特殊PCC6803和酿酒酵母(19). 我们使用了数据库中的共表达基因信息。我们计算了从这些微阵列数据获得的基因表达谱之间的皮尔逊相关系数。因为人们认为微阵列数据反映了实际的基因转录,并且它们是预测操纵子的有力工具,所以基因组上的共表达基因簇可能是操纵子。然而,由于实验条件和实验质量的限制,仍存在某些操纵子未转录以及基因共表达水平不均匀的问题。因此,在某些情况下,即使基因是已知操纵子中的基因,也不会同时表达。
操纵子中的基因顺序在进化史上经常被打乱和崩溃(21,22). 因此,跨基因组保持基因顺序是相当罕见的,尤其是在远缘相关基因组中。如果观察到这种守恒,它们可能与物理相互作用有关,例如分子复合物(23). 因此,这一特征在表征操纵子方面也很重要。我们计算了基因对之间的步长数。也就是说,给定一对基因,我们从所有基因组中提取它们的每个同源基因,称之为“同源基因对”。然后我们计算了这两个同源基因之间的步长数。当基因对在基因组上相邻时,步长被视为一。这里,我们忽略了KEGG中定义的同一分类群中的基因组(http://www.genome.jp/kegg/catalog/org_list.html).
对这些基因之间的关联进行了全面的分析。预计算的结果存储在表中,允许根据用户指定的查询进行快速检索。我们系统中的每个表都对应于一个特定的基因组,以便于高效访问和检索信息。
当用户搜索感兴趣的基因或操纵子时,包含它的基因簇可以通过其名称和标识符进行识别。然后,向用户提供基因组上该区域的基因和基因之间关联的摘要(图1). 主要数据如基因名称、基因ID、定义、作为功能类的KO ID、KEGG途径ID和EC编号。如果可用,这些链接到KEGG数据库。此外,还介绍了感兴趣区域的基因组视图。该视图包括操纵子、基因、途径和EC编号的图形符号,每个符号也链接到KEGG数据库。用户还可以滚动和缩放基因组上感兴趣的区域。最后,这四种类型的关联显示为单独的表。对于生物路径表,给出了基因之间的最短步长。对于正交基因表,显示了正交基因对之间的最短步长数。在这些表中,可以访问显示信息详细信息的其他页面。对于基因表达表,显示了基因表达谱之间的相关系数,并通过从蓝色到红色的颜色梯度说明了共同表达的强度。
OPERON预测
由于确定假定操纵子的条件非常严格,并且不是全基因组的,ODB还提供了一个使用四个关联预测操纵子系统。给定一个特定物种,返回该物种中可能存在的预测操纵子。有两个可用选项:简单预测模式和高级预测模式。对于简单模式,用户可以根据已知操作数验证过的默认参数值获得预测结果。然而,在高级预测模式中,用户可以根据上述四种关联类型自由更改这些参数值。当这些关联关联的基因聚集在基因组上时,它们很可能是一个操纵子。因此,我们基于不同的基因间距离值、同源基因之间的步数和具有在特定步数范围内链接的保守同源基因的基因组数的组合,对预测的准确性进行了基准测试。因此,在简单预测模式(补充数据)中,提供了预测最大操作数同时保持高精度的最佳值作为默认值。当一个基因组中几乎没有或几乎没有已知的操纵子信息时,同一分类群中另一个基因组的默认值和足够的操纵符信息被用作基因组的替代物。如果这些基因组也不可用,我们使用枯草杆菌(详见补充资料)。
结束语
ODB提供了一个平台,用于搜索已知操作子和推论操作子,并通过基于文献的操作子数据验证了预测操作子的高精度。它包括50多个基因组中约2000个基于文献的操纵子和200多个基因组的约13000个假定操纵子。此外,来自KEGG通路的数据和提供的相关资源不仅允许基于特定基因组背景,还允许跨基因组进行分析。因此,这是第一次从各种基因组中整合操纵子数据,提供广泛的操纵子覆盖范围。这个基于已知文献和基因组数据的集成系统对于生物信息学研究人员和实验生物学家来说是一个有用的系统。
补充数据
补充数据可在NAR Online上获得。
物种. | 操纵子数量. | 假定操作数. |
---|
真核生物:7种 |
秀丽隐杆线虫 | 628 | 149 |
酿酒酵母 | – | 7 |
原核生物:177种 |
枯草芽孢杆菌 | 711 | 60 |
大肠杆菌 | 389 | 61 |
铜绿假单胞菌 | 33 | 156 |
根癌农杆菌 | 15 | 172 |
协同孢子虫特殊PCC6803 | 12 | 26 |
慢生型大豆根瘤菌 | 10 | 190 |
古生菌:19种 |
乙酸甲烷八叠球菌 | – | 44 |
火球菌属 | 2 | 13 |
总数:203种 | 1957 | 13 258 |
物种. | 操纵子数量. | 假定操作数. |
---|
真核生物:7种 |
秀丽隐杆线虫 | 628 | 149 |
酿酒酵母 | – | 7 |
原核生物:177种 |
枯草芽孢杆菌 | 711 | 60 |
大肠杆菌 | 389 | 61 |
铜绿假单胞菌 | 33 | 156 |
根癌农杆菌 | 15 | 172 |
协同孢子虫特殊PCC6803 | 12 | 26 |
慢生型大豆根瘤菌 | 10 | 190 |
古生菌:19种 |
乙酸甲烷八叠球菌 | – | 44 |
火球菌属 | 2 | 13 |
总计:203种 | 1957 | 13 258 |
物种. | 操纵子数量. | 假定操作数. |
---|
真核生物:7种 |
秀丽隐杆线虫 | 628 | 149 |
酿酒酵母 | – | 7 |
原核生物:177种 |
枯草芽孢杆菌 | 711 | 60 |
大肠杆菌 | 389 | 61 |
铜绿假单胞菌 | 33 | 156 |
根癌农杆菌 | 15 | 172 |
聚回声囊炎特殊PCC6803 | 12 | 26 |
慢生型大豆根瘤菌 | 10 | 190 |
古生菌:19种 |
乙酸甲烷八叠球菌 | – | 44 |
火球菌属 | 2 | 13 |
总计:203种 | 1957 | 13 258 |
物种. | 操作次数. | 假定操作数. |
---|
真核生物:7种 |
秀丽隐杆线虫 | 628 | 149 |
酿酒酵母 | – | 7 |
原核生物:177种 |
枯草芽孢杆菌 | 711 | 60 |
大肠杆菌 | 389 | 61 |
铜绿假单胞菌 | 33 | 156 |
根癌农杆菌 | 15 | 172 |
协同孢子虫特殊PCC6803 | 12 | 26 |
慢生型大豆根瘤菌 | 10 | 190 |
古生菌:19种 |
乙酸甲烷八叠球菌 | – | 44 |
火球菌属 | 2 | 13 |
总计:203种 | 1957 | 13 258 |
我们感谢Kiyoko F.Aoki-Kinoshita对我们手稿的批判性阅读。这项工作得到了教育、文化、体育、科学和技术部、日本科学促进会和日本科学技术署的资助。计算资源由京都大学化学研究所生物信息中心和东京大学医学科学研究所人类基因组中心超级计算机系统提供。本文的开放获取出版费用由教育部的科研拨款提供。
利益冲突声明。未声明。
参考文献
1Tamames,J.、Casari,G.、Ouzounis,C.、Valencia,A。
1997
两种细菌基因组中功能相关基因的保守簇J.摩尔进化
.44
66
–73 2Overbeek,R.、Fonstein,M.、D'Souza,M.,Pusch,G.D.、Maltsev,N。
1999
利用基因簇推断功能耦合程序。美国国家科学院。科学。美国
96
2896
–2901 三Huynen,M.、Snel,B.、Lathe,W.、III、Bork,P。
2000
通过基因组背景预测蛋白质功能:定量评估和定性推断基因组研究
.10
1204
–1210 4Bockhorst,J.、Craven,M.、Page,D.、Shavlik,J.和Glassner,J。
2003
一种用于操纵子预测的贝叶斯网络方法生物信息学
19
1227
–1235 5Bockhorst,J.、Qiu,Y.、Glassner,J.,Liu,M.、Blattner,F.、Craven,M。
2003
利用序列和表达数据预测细菌转录单位生物信息学
19
补充1,i34型
–i43 6Craven,M.、Page,D.、Shavlik,J.、Bockhorst,J.、Glasner,J。
2000
全基因组操纵子预测的概率学习方法程序。国际竞争情报。系统。分子生物学
.8
116
–127 7Ermolaeva,医学博士,White,O.,Salzberg,S.L。
2001
微生物基因组中操纵子的预测核酸研究
.29
1216
–1221 8Sabatti,C.,Rohlin,L.,Oh,M.K.,Liao,J.C。
2002
DNA微阵列实验中的共表达模式作为操纵子预测工具核酸研究
.30
2886
–2893 9Yada,T.、Nakao,M.、Totoki,Y.、Nakai,K。
1999
建模和预测大肠杆菌使用隐马尔可夫模型的基因生物信息学
15
987
–993 10Zheng,Y.、Szustakowski,J.D.、Fortnow,L.、Roberts,R.J.、Kasif,S。
2002
微生物基因组操纵子的计算鉴定基因组研究
.12
1221
–1230 11M.J.De Hoon、S.Imoto、K.Kobayashi、N.Ogasawara、S.宫野。
2004
预测的操纵子结构枯草芽孢杆菌利用操纵子长度、基因间距离和基因表达信息派克靴。交响乐团。生物计算机
.276
–287 12de Hoon,M.J.、Imoto,S.、Kobayashi,K.、Ogasawara,N.、Miyano,S。
2003
从时序基因表达数据推断基因调控网络枯草芽孢杆菌使用微分方程派克靴。交响乐团。生物计算机
.17
–28 13Price、M.N.、Huang、K.H.、Alm、E.J.、Arkin、A.P。
2005
一种精确预测所有测序原核生物操纵子的新方法核酸研究
.33
880
–892 14Makita,Y.、Nakao,M.、Ogasawara,N.、Nakai,K。
2004
DBTBS:转录调控数据库枯草芽孢杆菌及其对比较基因组学的贡献核酸研究
.32
D75型
–D77 15Salgado,H.、Gama-Castro,S.、Martinez-Antonio,A.、Diaz-Peredo,E.、Sanchez-Solano,F.、Peralta-Gil,M.、Garcia-Alonso,D.、Jimenez-Jacinto,V.、Santos-Zavaleta,A.、Bonavides-Martinez,C.等人。
2004
RegulonDB(4.0版):转录调控、操纵子组织和生长条件大肠杆菌K-12型核酸研究
.32
D303号
–D306 16von Mering,C.,Jensen,L.J.,Snel,B.,Hooper,S.D.,Krupp,M.,Foglierini,M.、Jouffre,N.、Huynen,M.A.、Bork,P。
2005
字符串:已知和预测的蛋白质-蛋白质关联,在生物体内整合和转移核酸研究
.33
D433号
–D437 17Blumenthal,T.、Evans,D.、Link,C.D.、Guffanti,A.、Lawson,D.、Thierry-Mieg,J.、Thiery-Mieg,D.、Chiu,W.L.、Duke,K.、Kiraly,M.等人。
2002
全球分析秀丽隐杆线虫操纵子自然
417
851
–854 18M.J.勒彻、T.布卢门塔尔、L.D.赫斯特。
2003
中相邻基因的共表达秀丽隐杆线虫主要是由于操纵子和重复基因基因组研究
.13
238
–243 19Kanehisa,M.、Goto,S.、Kawashima,S.,Okuno,Y.、Hattori,M。
2004
解译基因组的KEGG资源核酸研究
.32
D277型
–D280型 20Ogata,H.、Fujibuchi,W.、Goto,S.、Kanehisa,M。
2000
一种启发式图比较算法及其在功能相关酶簇检测中的应用核酸研究
.28
4021
–4028 21Teichmann,S.A.和Babu,M.M。
2002
原核生物和真核生物中基因共调控的保护生物技术趋势
.20
407
–410讨论410 22Itoh,T.、Takemoto,K.、Mori,H.、Gojobori,T。
1999
完整微生物基因组序列比较揭示操纵子结构的进化不稳定性分子生物学。进化
.16
332
–346 23Dandekar,T.、Snel,B.、Huynen,M.、Bork,P。
1998
基因顺序的保护:物理相互作用的蛋白质指纹生物化学趋势。科学
.23
324
–328
©作者2006。牛津大学出版社出版。版权所有本文的在线版本是在开放访问模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者是正确且完全归属的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并给出了正确的引文细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系journals.permissions@oxfordjournals/org