核酸研究。2005; 33(17): 5691–5702.

2005年10月7日在线发布。数字对象标识：10.1093/nar/gki866

预防性维修识别码：项目经理1251668

基因组注释的子系统方法及其在1000个基因组注释项目中的应用

罗斯·奥弗贝克,¹ 塔德格·贝格利,¹⁶ 拉尔夫·巴特勒,¹⁰ 乔穆纳·V·乔杜里,^三庄寒玉,¹⁷ 马修·科洪,¹² 瓦莱里·德·克莱西·拉加德（Valérie de Crécy-Lagard）,¹³ 纳里塔扎·迪亚兹,^三特里·迪斯,¹² 罗伯特·爱德华兹,^1,^7,⁸ 迈克尔·丰斯坦,^1,¹⁸ 埃德·D·弗兰克,² 斯维特兰娜·格德斯,¹ 伊丽莎白·M·格拉斯,² 亚历山大·戈斯曼,^三安德鲁·汉森,¹⁴ 德克·岩瓦塔·鲁伊尔（Dirk Iwata-Reuyl）,¹⁵ 罗伊·延森,⁵ 内玛·贾姆什迪,¹⁷ 卢茨·克劳斯,^三迈克尔·库巴尔,¹² 尼尔斯·拉森,¹¹ Burkhard Linke公司,^三艾丽斯·麦克哈迪,^三福克·梅耶,^三海科·诺维格,^三加里奥尔森,⁹ 罗伯特·奥尔森,¹² 安德烈·奥斯特曼,^1,⁸ 血管性Portnoy,¹⁷ 戈登·D·普施,¹ 德米特里·罗迪奥诺夫,⁶ 克里斯蒂安·吕克特,⁴ 杰森·斯坦纳,¹⁷ 里克史蒂文斯,^2,¹² 伊内斯·蒂勒,¹⁷ 奥尔加·瓦西瓦,¹ 叶玉珍,⁸ 奥尔加·扎格尼特科,¹和维罗妮卡·冯斯坦^1,^*

作者信息文章注释版权和许可信息 PMC免责声明

摘要

1000的发布^第个完整的微生物基因组将在未来两三年内完成。为了实现这一里程碑，基因组解释研究金（FIG）启动了注释1000个基因组的项目。该项目围绕着这样一个原则构建：提高高通量注释技术准确性的关键是让专家在整个基因组集合中注释单个子系统，而不是让注释专家尝试注释单个基因组中的所有基因。使用子系统方法，实现子系统的所有基因都由该子系统的专家进行分析。创建了一个注释环境，在该环境中，填充的子系统被管理并投影到新的基因组。可移植的概念填充子系统定义了，并开发了用于交换和管理这些对象的工具。还开发了工具来解决填充子系统之间的冲突。SEED是第一个支持这种注释模型的注释环境。在这里，我们描述了子系统方法，并提供了我们不断增长的填充子系统库的第一个版本。最初发布的数据包括180 177个不同的蛋白质，具有2133个不同的功能作用。这些数据来自173个子系统和383种不同的生物体。

引言

自1995年第一个完整的细菌基因组发布以来的10年里(1)已测序的完整基因组数量呈指数级增长。已经发布了200多个完整的基因组，根据过去的增长，我们预计1000个^第个基因组将在2007年的某个时候进行测序(图1). 数据的快速发布加强了对高吞吐量注释系统的需求，该系统能够提供可靠和准确的结果。

在单独的窗口中打开

图1

1994-2004年NCBI上完整古生物和细菌基因组序列的积累，以及到2010年基因组释放的预测。数据来自http://www.ncbi.nlm.nih.gov/genomes/lproks.cgi提取并按年份绘制，如十字所示。2004年至2010年的数据由幂律预测，并以开放圆圈表示。按照目前的增长速度，1000人^第个完整的微生物基因组将于2007年末或2008年初发布。

为了应对这些挑战，基因组解释研究金（FIG）启动了“1000个基因组注释项目”。该项目体现了如何实现高通量注释的特定战略观点：该工作围绕子系统专家组织，这些专家掌握特定子系统的细节，然后在整个基因组集合中分析和注释构成该子系统的基因。

我们认为，与更传统的基因组注释技术相比，基于子系统的方法具有许多优点：

在大量基因组集合上对单个子系统进行分析，比在单个生物体内注释基因的常见方法产生更准确的注释。事实上，通常的“逐基因”方法确保了在大多数情况下，注释整个基因组的个体缺乏与每个基因的作用相关的特定专业知识。
蛋白质家族而非生物体的注释一次带来了专业知识，因此导致了对一个基因组的“逐个基因”注释的改进。正如对家族的分析对单个基因的注释提供了重大改进一样相关蛋白家族的集合（即那些包含构成单个生物子系统的基因的基因）比孤立分析单个家族的效率更高。事实上，“代谢途径和结构的存在或缺失为蛋白质注释提供了更可靠的背景”(2)现已明确确立。
与使用现有的自动化管道投影单个注释相比，从一组覆盖不同生物体的已填充子系统自动投影注释更简单，也不容易出错。这导致了基于规则的扩展系统的开发，该系统很可能会达到更高的准确性(http://www.ebi.ac.uk/swissprot/Publications/dagstuhl.html).
围绕涵盖大量不同生物体的特定子系统组织的注释集合是其他生物信息学工作的中心资源，例如代谢重建、化学计量模型和基因发现(三).

本文描述了基于子系统的高通量基因组注释方法。本文描述了这种方法的广泛概念，并提供了几个带注释的子系统示例。由173个子系统组成的补充在线材料已经发布。此外，我们还提供了用于创建和管理它们的开源软件。

什么是子系统

A类子系统是一组职能角色共同实现特定生物过程或结构复合物(表1). 子系统可以被认为是该术语的泛化通路因此，正如糖酵解由一组功能作用（葡萄糖激酶、葡萄糖-6-磷酸异构酶和磷酸岩藻激酶等）组成一样，类似核糖体或转运系统的复合物可以被视为功能作用的集合。在实践中，我们不限制策展人如何选择他们希望分组为子系统的功能角色集，我们发现创建子系统是为了表示组成致病岛、原噬菌体、，运输盒和复合物（尽管许多现有的子系统确实对应于代谢途径）。概念填充子系统是子系统基本概念的延伸&它相当于一个子系统，以及描述在特定基因组中实现子系统功能作用的确切基因的电子表格。填充子系统指定了哪些生物体包含子系统的操作变体，以及这些生物体中的哪些基因执行构成子系统的功能角色。电子表格中的每一列对应于子系统中的一个功能角色，每一行代表一个基因组，每个细胞识别基因组中编码蛋白质的基因，这些蛋白质在指定基因组中实现特定的功能角色(图2).

在单独的窗口中打开

图2

子系统和填充子系统。以组氨酸降解子系统为例演示相关术语。(A类)该子系统由7个功能角色组成（例如组氨酸氨解酶（酶代码EC4.3.1.3）、尿酸水合酶（酶号EC4.2.1.49）等）。它与电子表格一起成为“填充子系统”。(B类)子系统电子表格由8个生物体的基因组成（从原始子系统简化而来），其中每行代表一个生物体，每列代表子系统的功能角色。在各自有机体中发挥特定功能作用的基因填充各自的细胞。细胞的灰色阴影表明染色体上各个基因的接近程度。(C类)子系统图说明了填充的子系统：关键中间体（罗马数字圆圈），由酶连接（带有与电子表格缩写匹配的缩写的方框）和反应（箭头）。在这个人口稠密的子系统中，有三种不同的组氨酸降解变体。变量1（绿色阴影）出现在新月形尾蚴，恶臭假单胞菌和野油菜黄单胞菌.N-甲醛-我-谷氨酸（IV）转化为我-N-甲酰谷氨酸（VI）-我-谷氨酸（V）通过甲亚氨基谷氨酸亚氨基水解酶（酶代码EC3.5.3.13）（ForI）和N-甲酰谷氨酸脱甲酰酶（酶号EC3.5.1.68）（NfoD）的酶活性。变量2（黄色阴影）出现在盐杆菌属，耐辐射球菌和枯草芽孢杆菌在该变体中，中间产物IV转化为VI由Formiminoglutamase（酶代码EC3.5.3.8）（HutG）完成。变量3（蓝色阴影）出现在拟杆菌和嗜冷脱硫菌在这里，谷氨酸甲酸氨基转移酶（EC 2.1.2.5）（GluF）执行从中间体IV到VI的转换。

表1

词汇表

注释	与特定基因和/或蛋白质相关的非结构化文本字符串。
票据交换所	以独立于系统的方式进行子系统的发布-请求型对等交换的站点。
职能角色	蛋白质的抽象功能。子系统开发人员指定单个精确的文本字符串来表示每个功能角色。
功能变体	代表子系统不同操作形式的功能角色的不同组合。
基因缺失	一种基因，预计存在于生物体基因组中，但尚未鉴定。
填充的子系统	子系统和电子表格，其中每列代表子系统的功能角色，每行代表特定的基因组，每个细胞包含来自特定生物体的基因，这些基因与特定的功能角色有子系统连接。
产品名称	用于表示基因编码的蛋白质功能的短文本字符串。在用作产品名称的字符串上没有任何约束，常见的是，相同的抽象函数由许多类似的表达式表示。
蛋白质家族	由馆长分类的蛋白质集合。蛋白质可以根据结构域结构、相似性或其他一些特征进行分组。一个家族中的蛋白质可能发挥相同或多种功能作用。
子系统	子系统是功能角色的集合，它们共同实现特定的生物过程或结构复合体。代谢子系统和非代谢子系统之间没有区别。
子系统连接	将蛋白质编码基因与不同子系统联系在一起的一组功能角色。目前，大多数蛋白质编码基因都有一个单一的子系统连接。
变量代码	用于区分不同功能变体的数字代码。

在单独的窗口中打开

填充子系统的行为相当于在电子表格中添加行（即基因组）。

由于这些概念是我们讨论的基础，我们在图2.

请注意，电子表格中的每一行都有一个关联的变量代码。构成示例子系统的角色集包括编码路径的三个常见变体所需的所有功能角色。变种代码区分了转换N-甲酰胺的三种替代方法-我-谷氨酸到我-谷氨酸。

我们坚持这样的立场，即编码子系统的专家必须准确地决定包括哪些功能角色（以及如何表达每个功能角色），以及使用哪些变体代码。我们限制使用两个变量代码：0表示正在进行的工作和-1表示无操作变量.

开发功能角色精确词汇的框架

计算机辅助注释和数据挖掘中经常提出受控词汇(4,5). 子系统技术支持定义基因功能的受控词汇。领域专家通过定义组成他们管理的子系统的功能角色，为实现子系统的基因分配功能强加了精确的词汇表。由于“基因功能”一词具有多种含义，区分以下四个概念非常重要：

A类职能角色是一种抽象功能，如“天冬氨酸激酶（EC 2.7.2.4）”。子系统是这些抽象函数的集合。
概念产品名称指某人用来表示基因编码的蛋白质功能的短文本字符串。对用作产品名称的字符串没有限制，通常可以看到相同的抽象功能由许多类似的表达表示，如“天冬氨酸激酶、天冬氨酸激酶II、天冬氨酸激酶”等。
按期限计算蛋白质家族我们指的是一些由策展团队分组的蛋白质集合。UniProt正在制作一个特别有价值的家庭收藏。在这项工作中，蛋白质家族代表了一组共享共同结构域的蛋白质。也就是说，他们实际上可能实现相同或多个功能角色。在我们的工作中，没有明确的蛋白质家族概念；最接近的概念是“填充子系统中电子表格中单个列中的一组基因”。然而，单个柱通常包含具有不同结构域的蛋白质（例如，单一功能和多功能蛋白质通常出现在单个柱中），在某些情况下，编码实现单一功能的非同源蛋白质的基因包含在单个柱内。我们已经开发了工具来支持来自不同来源的蛋白质家族和由基因编码的蛋白质之间的比较。这些比较很有价值，但重要的是要认识到，我们正在生产一组编码蛋白质的基因，这些蛋白质能够实现单一功能，而组成蛋白质家族的潜在限制通常与这一概念显著不同。
符号注释通常用于指与特定基因和/或蛋白质相关的非结构化文本字符串。

为了说明这些术语的用法，请考虑产品名称“赖氨酸敏感天冬氨酸激酶III”。它实现了“天冬氨酸激酶（EC 2.7.2.4）”的功能角色，该功能角色由管理员包含在子系统“赖氨酸生物合成_DAP_Pathway”中。馆长可能很好地附上了注释“卡桑等.，1986年编码赖氨酸敏感天冬氨酸激酶III的lysC基因的核苷酸序列大肠杆菌K12.导致三种同工酶的进化途径，生物学杂志。化学.，261，1052–1057’，证明使用该特定产品名称的合理性。

在这个混合概念中，我们添加了以下概念子系统连接一个基因可以连接到一个或多个功能角色，从而诱导与特定子系统（包含特定功能角色的子系统）的连接。在上例中，它是与子系统“赖氨酸生物合成_DAP_Pathway”的连接。

尽管产品名称通常包括特殊性质（例如“耐热”或“赖氨酸敏感”），偶尔也会包含功能线索（例如类似于死亡相关蛋白激酶'），子系统连接明确引用子系统定义中包含的特定功能角色。

最初，人口密集的子系统数量迅速增长，包括许多代谢途径，以及包括鞭毛在内的非代谢子系统(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Flagellum&request=show_ssa致病岛，http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Mannose网站-sensitive_hemaglutin_type_4_pilus&request=显示_ssa)和分泌系统[http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=General_secretory_pathway_（Sec-SRP）_复杂_（TC_3.A.5.1.1）&请求=显示_ssa]通过核糖体和蛋白质体等复合物。随着子系统和随后的子系统连接的成熟，子系统之间有相当大的重叠。用户在自己的机器上开发子系统并通过票据交换所共享，加剧了风格上的差异，从而加剧了子系统之间的冲突。例如，与乌头糖存在于至少三个不同的子系统中：TCA循环(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=TCA_Cycle&request=show_ssa)，甲基化循环(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Methylcitrate_cycle&request=show_ssa)和乙醛酸合成(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Glyoxylate_Synthesis&request=show_ssa)由不同的策展人独立开发。至少有一次，馆长希望仔细区分三种不同形式的酶。最初，每位策展人都用不同的功能角色注释了相同的蛋白编码基因，但这很快就无法实现，即出现了冲突。为了支持统一的术语，需要检测冲突，并通过将功能角色重命名为所有三个子系统一致使用的一致词汇表来解决冲突。没有强加一个集中的机制来解决这种冲突，而是使用了一种完全分散的方法。

为了促进终端用户之间的协调和通信，帮助解决冲突，并消除冗余，使用Wiki技术开发了一个多作者网站(http://www-unix.mcs.anl.gov/SEEDWiki/moin.cgi/MoinMoin). 子系统公告栏(http://www.these.dorg/wiki/moin.cgi/SubsystemBulletinBoard)提供了子系统的概述，并强调了单个研究人员的努力。为了更详细地讨论每个子系统，使用vBulletin技术开发了一个论坛(网址：http://www.vbulletin.com/). 论坛(http://www.subsys.info网站)有按类划分的子系统，每个子系统都有一个讨论场所，用于存放评论、问题、建议和想法。除这些资源外，还开发了交互式冲突检测和解决软件，用于在SEED数据库中安装子系统。

最终，我们的方法之所以成功，是基于善意和共同愿望，即为职能角色制定一致、准确的词汇表，我们觉得这很有效。它产生了一种情况，在任何特定的时间，由于正在开发新的子系统或扩展现有的子系统，可能存在冲突。但是，馆长们正通过开发指向冲突的工具来关注这些实例。没有使用中央集权机构（尽管事实上，有时馆长确实会通过咨询外部专家来解决分歧）。冲突可以有多种类型，从功能角色拼写上的简单差异到与特定性和许多其他问题相关的分歧。在所有情况下，馆长都是通过讨论达成和解的，讨论的结果要么是共识名称，要么是扩展名称。一旦达成一致并建立了一致性，在稍后的某个时间点更改描述功能角色的精确文本字符串是很容易的。

其结果是为功能角色提供了一个精确、合理一致且快速改进的词汇表。我们将此词汇与广泛应用的本体论（如GO）耦合的策略是将GO术语附加到每个功能角色（通过子系统连接诱导与基因的连接）。

子系统：一种独立于技术的通告系统

本文所述的子系统技术是基于两个主要目标开发的。

第一个目标是定义填充子系统的简单、可移植的文本表示。这允许通过互联网交换、存档和更新填充的子系统。

第二个目标是票据交换所管理员可以在其中发布填充的子系统，以便与其他用户交换。票据交换所可用于从程序内直接查询(http://clearinghouse.thesed.org/)或通过网络浏览器(http://clearinghouse.these.dorg/clearinghouse_browser.cgi).

该技术的发展确保了子系统信息可以以平台相关的方式共享，而不需要任何集中资源（例如路径收集）。可以开发或修改任何注释环境，以支持使用票据交换所（或本地票据交换所，如果需要）作为存储库的子系统的创建和管理。

支持子系统的种子技术

SEED注释环境是第一个支持子系统的创建、管理、填充和交换的注释环境。它支持向票据交换所发布子系统，以及下载和安装在其他站点开发的子系统。

SEED由FIG和阿贡国家实验室成员领导的国际合作开发(6). 该软件作为开放源码软件从ftp站点以GNU公共许可证（GPL）发布ftp://ftp.these.dorg/SEED.

任何现有注释系统都只需添加一些增强功能，以支持子系统分析，并且此功能将扩展现有软件。该软件必须进行扩展，以将填充的子系统作为对象进行编码，并在从票据交换所检索到填充子系统时对其进行解码。需要包含软件，以便从票据交换所发布和请求填充的子系统。该软件必须能够定义初始子系统中的功能角色，并在蛋白质编码基因、功能角色和子系统之间建立子系统连接。

流行子系统示例

我们填充的子系统被组装成一个单独的集合，具有一致的功能角色公式，并通过web发布(http://www.these.org/Release1_Subsystems/index.html). 通过FTP发布了一系列开源软件工具ftp://ftp.these.dorg/SEED。为了说明基于子系统的注释相对于“传统”注释系统的优势，下面描述了几个子系统：

亮氨酸降解与HMG-CoA代谢(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Leucine_Degradation_and_HMG-CoA_代谢和请求=show_ssa)

呈现亮氨酸分解代谢/HMG-CoA合成的填充子系统如所示图3该子系统某些部分的早期分析在其他地方进行了介绍(7).

在单独的窗口中打开

图3

亮氨酸降解和HMG-CoA代谢子系统。路径图中的功能角色、缩写、关键中间体和反应使用与图2. (A类)子系统中的功能角色。(B类)子系统图显示了分配有相应功能的基因的存在布鲁氏菌和G.金属还原剂，使用面板中说明的彩色高亮显示。(C类)显示具有功能的基因存在的子系统电子表格通过基因名称显示枯草杆菌或对所有其他基因组使用“+”（根据显示所有基因ID的常规SEED显示修改）。用匹配的颜色高亮表示染色体上的邻近。(天)子系统中涉及的基因的染色体上的聚类（大的黄色聚类）通过在特征通路基因yngG周围排列相应基因组的染色体重叠群来证明。同源基因用箭头表示，箭头的颜色和数字与面板A中的功能角色相对应。枯草杆菌基因用基因名称标记。其他基因（簇内不保守）为灰色。

在人类中，亮氨酸分解代谢通过羟甲基戊二酰辅酶a（HMG-CoA）中间体与甾醇生物合成耦合。该途径具有很好的特征，因为单个步骤中的缺陷会导致遗传性代谢紊乱，如异戊酸血症、甲基巴豆酰甘氨酸血症、甲基戊二酸尿和3-羟基-3-甲基戊二酸尿(8,9,10). 此外，人酶HMG-CoA还原酶是心血管疾病治疗的靶点，因为它在甾醇生物合成中具有速率控制作用(11). 相比之下，只有早期的分解代谢步骤在细菌基因组中被描述出来，没有任何基因与异戊酰辅酶A（代谢产物II）以外的酶步骤直接相关图3B). 仅基于同源性搜索从已知真核生物基因投射的尝试产生了模棱两可的结果，因为此途径中的大多数酶都是Paralog大家族的成员。

功能和基因组背景分析的组合，如填充子系统电子表格所示(图3C)为许多不同细菌中亮氨酸分解代谢的整个途径提供了令人信服的证据(图3D). 基因yngH公司存在于芽孢杆菌其他细菌是人类甲基巴豆酰辅酶A羧化酶羧基转移酶亚基（酶代码EC6.4.1.4）的同源基因，而相邻基因yngG公司是HMG-CoA裂解酶的同源序列（酶代码EC4.1.3.4）。这一观察使同一集群中另外两个细菌基因的功能注释得以细化(yngJ公司异戊酰基-CoA脱氢酶（EC 1.3.99.10）和yngF公司甲基巴豆酰辅酶A羧化酶含生物素亚基的直系同源物（酶代码EC6.4.1.4）。由于这些都是弱同源物，如果不考虑染色体邻域，就无法准确表征。预测（当时既没有对甲基戊二酰辅酶A水合酶的细菌版本也没有对其真核版本进行测序）yng公司G执行此功能是从芽孢杆菌与人类同源。后来，这一预测被两份独立的出版物证明是正确的，这两份出版物对这种人类基因编码的功能进行了实验验证(12,13).

该子系统分析的另一个功能推断是亮氨酸分解代谢和乙酰乙酸代谢之间的联系（如图3B). 这一观察表明HMG-CoA子系统在生理学上超出了其传统边界。两种形式的yngF公司（编码甲基巴豆酰基-CoA羧化酶的含生物素亚基（EC 6.4.1.4）是最常见的形式，是生物素羧化酶和C末端生物素羧酸酶载体蛋白结构域的融合，也是一种罕见的形式，其中生物素羧基酶和下游生物素羧化酶载体蛋白编码基因是分开的（如枯草杆菌). 子系统方法允许酶的不同变体，如图3.

面板B和C英寸图3说明了对功能变体子系统的。大多数编码子系统蛋白的基因在具有功能性（“非零”）变体的物种中是保守的。然而，大肠杆菌和金黄色葡萄球菌没有功能性变体导致他们不能利用此途径分解亮氨酸。因此，它们在子系统电子表格中被标记为“-1”(图3C). 根据子系统的下游成分对功能变体1–3进行了区分：乙酰乙酸转化为琥珀酸的替代途径（中间产物V图3B). 这是通过琥珀酰辅酶A：3-酮酸辅酶A转移酶亚基A和B（酶代码EC2.8.3.5）（变体2；例如。羊布鲁氏菌)或通过乙酰乙酰辅酶A合成酶（EC 6.2.1.16）（变体3；例如。金属还原地杆菌和欧氏Shewanella oneidensis). 这两种路线在变体1中都是可能的，人类和枯草杆菌尽管染色体上的聚类表明，在后一种物种中，AACS依赖反应可能是首选的，或与子系统的其他成分共同调节。

这个例子说明了原核染色体聚类如何影响路径的解释、缺失基因的预测以及原核基因和真核基因之间注释的投影。这些观察结果也有助于解释一大类多样化蛋白质的进化历史。其他地方也出版了更多这样的例子(三,14).

辅酶A生物合成子系统(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Coenzyme_A_Biosynthesis&request=show_ssa)

辅酶A（CoA）在所有形式的细胞生命中都是一种普遍且必不可少的辅酶(15). 早期对辅酶a生物合成的生物信息学分析揭示了物种之间的一些有趣的变异(三,16,17). 在相应的SEED子系统中（请参见图4)该分析扩展到了250多个不同的基因组。泛酸（维生素B）的五步途径₅)CoA是大多数物种中保守的子系统的普遍组成部分。该途径中最可变的方面是泛酸激酶（PANK）。目前已知PANK的三种非同源形式，在某些情况下，同一生物体中存在两种替代形式。最近鉴定和表征的类CoaX（III型）泛酸激酶（PANK3）在细菌世界中似乎比“经典”PANK1更常见(18). 然而，在大多数基因组中，PANK3的同源物具有误导性注释（例如“BVG辅助因子”）。填充子系统允许人们在许多细菌基因组中对这些蛋白质提出可靠的注释，这得到了PANK对CoA生物合成的严格要求的有力支持。预测真核生物样PANK2(19)并随后验证(20)作为唯一的PANK葡萄球菌物种。

在单独的窗口中打开

图4

CoA生物合成子系统。路径图中的功能角色、缩写、关键中间体和反应使用与图2图中的背景色通过突出显示两种生物体中的功能角色来说明子系统变体的比较：大肠杆菌（黄色）和智人（蓝色）。共享功能角色以绿色突出显示。下面的面板是对子系统电子表格的修改。它显示了主要子系统变体的分类，代表了由半自动图分析揭示的截然不同的反应拓扑，如(21). 与每个变体明确相关的选定基因组显示在变体描述之后（例如。从头开始，完整/100）。构成每个功能变体的功能角色模式概括为：“+”，需要存在一个基因（对于给定的角色）±'，可选；'？'，通过通路分析推断功能，但基因未知或“缺失”（即无法通过相似性定位）。以下基因组说明了具有相同拓扑结构但依赖特定酶（例如PANK）的替代（非同源）形式的典型亚变体：大肠杆菌K12[NCBI分类ID 83333.1]，D.耐辐射药物R1[243230.1]，金黄色葡萄球菌第（b）小节。金黄色葡萄球菌N315[158879.1]，oneidensis链球菌MR-1[211586.1]，G.金属还原剂[28232.1],酿酒酵母[4932.1],嗜气芽孢杆菌街道IM2[178306.1]，肺炎链球菌R6[171101.1]，由嗜热菌[119072.1],智人[9606.2],蚜虫双歧杆菌街道APS(雌蕊棘吸管) [107806.1],梅毒螺旋体第（b）小节。苍白球斯特·尼科尔斯[243276.1]和沙眼衣原体D/UW-3/CX[272561.1]。被赋予各自功能作用的基因通过SEED唯一ID显示所有图示基因组（除了大肠杆菌其中使用了常见的基因名称）。匹配的背景色突出了染色体上彼此靠近的基因。

从古菌的分析可以推断出PANK的第四种可能的非直向同源形式。缺失古生菌PANK的候选基因是GHMP激酶家族的一员，该家族与一些古生菌的其他CoA生物合成基因聚集在染色体上（即PAE3407嗜气热杆菌). 另一个保守的家族（由嗜气芽孢杆菌)可能履行去磷酸辅酶A激酶（DPCK）的作用，而这在所有古生菌中仍然“缺失”。这一推测基于与细菌和真核生物酶的长距离序列相似性（正如NCBI对COG0237的初步注释所建议的那样http://www.ncbi.nlm.nih.gov/COG/old/palox.cgi？COG0237).

两种功能预测[也由(17)]需要实验验证。在这个子系统中的其他问题中，有一个缺失的天冬氨酸脱羧酶存在于许多基因组中，这些基因组中还有一套完整的天冬酰胺脱羧酶基因从头开始合成。

中概述了几个说明子系统主要功能变体的示例图4最近出版了一种半自动变体分类算法和对辅酶a生物合成关键操作变体的简要分析(21). 大多数物种都会实现完成从头开始生物合成（变体1-3）或五步泛酸盐打捞（变体4）。相对较小的一组细菌，最显著的是专性细胞内病原体和共生体，显示出各种截短的途径。例如，在蚜虫布氏杆菌暗示了一种可能性代谢交换在这种内共生体和蚜虫寄主细胞之间。根据这个假设，泛酸盐是由蚜虫双歧杆菌可以直接进入宿主的普遍途径。后者可能偿还通过提供CoA合成最后两个步骤所需的磷酸泛乙烯中间体蚜虫双歧杆菌补充材料中讨论了该子系统的其他几个有趣的方面(http://www.these.org/Release1_Subsystems/index.html).

核糖体蛋白(http://www.these.org/SubsystemStories/Ribosomal_protens/abstract.htm)

历史上，核糖体蛋白在几个重要的实验生物中被鉴定，包括大肠杆菌,芽孢杆菌种、酵母、老鼠和盐杆菌属在每种情况下，都制定了一个独特的命名法。最近，考虑到如此多序列的可用性，几个小组寻求统一的命名。在细菌和真核生物方面，这些努力取得了巨大成功。公约中最有问题的方面是（i）未能统一指出给定的标签是基于细菌还是真核编号，以及（ii）等效的真核和细菌术语的联系。只有两种蛋白质（S3和L3）的细菌数和真核数相同。当细菌命名法应用于古生菌时，这造成了一种特别令人困惑的情况，除非没有细菌同源物，在这种情况下，使用的是真核生物标签。

为了解决这些问题，应用了双重标记，其中细菌蛋白被给予细菌标记（总是明确地包括“p”，例如S5p），然后在括号中指定相应的真核蛋白（总是带有明确的“e”，例如S2e）。同样，在真核生物的情况下，首先给出真核生物蛋白质的名称，然后是括号中的细菌标签。就古生菌而言，除少数情况外，所有蛋白质都明显属于真核细胞类型，并且首先给出了真核细胞术语。这种命名法最重要的结果之一是，基于文本的搜索对于是否需要细菌或真核生物编号始终是明确的。例如，搜索L11p将返回细菌L11和真核细胞L12，但不返回细菌L5（相当于真核细胞L11）。第二个关键决定是使用术语LSU和SSU来区分亚单位，而不是30S、40S、50S和60S。除了进一步统一术语外，它还避免了两个主要的混淆来源。一些真核核糖体（尤其是细胞器核糖体）被指定为“非标准”大小。因此，寻找50S和/或60S不足以确保区分所有核糖体。但更重要的是，它避免了使用50S来指定真核生物线粒体核糖体的LSU的诱惑。相反，我们通过“线粒体”或“叶绿体”明确鉴定了所有细胞器蛋白质。

该命名法的发展证明了子系统方法在编码非代谢途径方面的威力，以及功能角色在描述基因产品功能的受控词汇中的作用。

流行子系统的影响

如上例所示，填充子系统可用于支持两大类研究：推进填充子系统本身的研究和解决生物信息学中的许多基本问题。

重要的是要注意到，有大量正在进行的努力来解决类似的目标，其中最引人注目的是KEGG(http://www.genome.jp/kegg/kegg2.html) (22,23)，开始(http://www.geneontology.org/) (5)和MetaCyc(http://metacyc.org/) (24)项目。这些都是实质性的项目，我们在许多方面都建立在他们的工作基础上。也许，我们的工作与这些项目之间最明显的区别是，我们使所有研究人员都有可能立即对他们的特定专业领域进行详细编码，将这些新编码提供给研究社区，并导入其他人的工作，以构建满足其特定需求的定制子系统集合。这种完全分散的工作为领域专家的参与提供了一套不同的激励机制，这正是改进现有注释所需要的。

注释子系统的主要用途与这样一个事实有关，即填充子系统通常支持对基因进行更准确的功能分配。

此外，通过对填充子系统的分析，人们可以得出一个精确的概念，即子系统的哪些形式（即哪些变体）存在于哪些生物体中。

此外，包含在填充子系统中的电子表格通常清楚地表明，实现特定功能角色的基因很可能存在，尽管尚未确定。这些所谓的缺失基因问题发生的频率出奇地高。在本文中介绍的两个代谢实例中，以及在补充材料中发布的各种实例中，我们详细展示了一些实例，在这些实例中，一旦确定了缺失基因的实际存在，就可以很容易地进行推测。

最后，广泛的注释子系统的存在为准确描述每个生物体中的代谢网络奠定了基础。

填充子系统集合的存在也对生物信息学中的许多重要主题产生了影响：

在我们进行分析的过程中，我们一次又一次地发现，注释子系统中实际缺失的基因实际上存在于开放阅读框架（ORF）中，但无法通过基因标注算法进行识别。对于在填充子系统中表示的功能性角色，在有理由相信这种基因必须存在的情况下，可以直接搜索这些角色的实例。
一旦包含基因的ORF被识别出来，准确识别基因起点的问题仍然存在。最成功的尝试是基于对齐。我们认为，使用相似且被认为具有相同功能作用的基因将导致现有估计值的显著改进。田纳西州中部州立大学的一个团队建立了一个网站(http://torvalds.cs.mtsu.edu/cgi-bin/starts/starts.cgi)初步结果。
在相关基因的上游区域寻找调控位点往往会取得成功(25). 调控子分析与比较基因组学的其他技术相结合，可以改进解释，并在许多代谢子系统中生成功能预测(26,27). 随着我们最初一组注释子系统的发布，我们正在提供数据来支持这种分析。对于每个带注释的子系统，我们为每个原核基因组提供上游区域的序列。每个序列包含300 bp的上游序列，描述相邻基因的边界（划定基因间间隙），以及100 bp的基因序列本身。
由于明显的原因，开发精心策划的蛋白质家族在历史上一直是生物信息学的关键目标。现有公式的局限性与功能分配的模糊性有关，这是一个由带注释的子系统直接解决的问题。我们已经使用这个初始集合创建了UniProt注释的细化列表，并且我们将努力确保我们的分析直接支持UniProt和其他生成干净、全面的蛋白质家族集合的工作。
生物信息学技术的一些最成功应用与上下文分析(三,28,29). 在许多情况下，导致功能推测的线索是基于这样一个事实，即相关基因倾向于在原核染色体上聚集，倾向于融合和共现。带注释的子系统为建立有效利用这些趋势所需的统计特性提供了一个框架。
子系统方法的长期目标是使每个子系统达到由给定子系统编码的生物过程中的一名或多名专家精心策划的程度。这种方法将导致为子系统内的每个蛋白质构建准确的系统发育背景，从而能够准确追踪组成每个子系统的催化域的进化历史[有关这种分析方式的详细说明，请参阅参考文献(30)].
子系统还提供了一种了解环境样品代谢的方法。对不同大型环境（元基因组）样本中存在的统计上显著不同的子系统进行比较，对这些环境的生物学产生了前所未有的见解，并产生了新的假设，将由野外生物学家进行测试（R.Edwards，未发表的数据）。

发布

在本文发表的同时，我们对已填充的子系统集合（它是SEED交换所可用子系统的子集）进行了初步快照发布。此子集的格式使数据易于在其他系统中使用或作为原始数据使用。173个填充子系统的当前版本可通过web免费获得。补充在线子系统材料包括三个主要部分：

一组48个示例子系统。这些都是一些更为详细的例子，并在许多案例中引发了有趣的猜测或研究结果。对于这些示例中的每一个，我们都包括发布时“冻结”的完整子系统、摘要、演示或摘要，提供了有关子系统的更多详细信息，适合课堂使用或讲座。
一组173个人口密集的子系统在释放时“冻结”，覆盖了大量的中央代谢和其他细胞过程。
链接到每个子系统的当前状态。随着新的基因组被添加到SEED和新的比较变得可用，每个子系统都在不断地被管理和填充。这些链接提供了对最新注释的访问。

每个提供的序列都打包了尽可能多的ID。例如，包括来自FIG、UniProt、KEGG和NCBI的标识符（包括GI编号、基因编号、UI或RefSeq ID），以及来自测序实验室的标识符，以确保可移植性。SEED版本本身就是开源软件，可以通过FTP获得ftp://ftp.thesed.org/SEED该系统是为在Mac OSX系统和Linux系统上运行而开发的。

结论

在2到3年内，我们都将获得1000多个测序基因组。这些数据将成为现代生物学的核心资源。注释这个集合是现代生物信息学的核心挑战。在本文中，我们描述了一种基于子系统思想的注释新方法，该方法有望显著提高注释的质量和实用性。该方法是注释1000个基因组项目的核心，并已在一套基因组注释工具中实现。该方法和技术提供了一种让许多领域专家参与基因组注释过程的方法。开发这些子系统的技术现在已经存在，支持将新基因组自动添加到填充子系统集合中的技术正在开发中，初始集合正在向研究界提供。

鸣谢

本文的开放获取出版费用由基因组解释研究金提供。

利益冲突声明。未声明。

参考文献

1Fleischmann R.D.、Adams M.D.、White O.、Clayton R.A.、Kirkness E.F.、Kerlavage A.R.、Bult C.J.、Tomb J.F.、Dougherty B.A.、Merrick J.M.等人流感嗜血杆菌路。科学。1995;269:496–512.[公共医学][谷歌学者]

2Haft D.H.、Selengut J.D.、Brinkac L.M.、Zafar N.和White O.《基因组属性：微生物、基因组注释和比较基因组学原核遗传内容调查系统》。生物信息学。2005;21:293–306.[公共医学][谷歌学者]

三。Osterman A.，Overbeek R.代谢途径中的缺失基因：比较基因组学方法。货币。操作。化学。生物。2003;7:238–251.[公共医学][谷歌学者]

4Overbeek R.，Larsen N.，Smith W.，Maltsev N.，Selkov E.函数表示：下一步。基因。1997;191：一般条款1–一般条款9。[公共医学][谷歌学者]

5Ashburner M.、Ball C.A.、Blake J.A.、Botstein D.、Butler H.、Cherry J.M.、Davis A.P.、Dolinski K.、Dwight S.S.、Eppig J.T.等人。基因本体：生物学统一的工具。基因本体联盟。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]

6Overbeek R.、Disz T.、Stevens R.《SEED：用于基因组注释的对等环境》。Commun公司。ACM公司。2004;47:46–51. [谷歌学者]

7Overbeek R.、Devine D.和Vonstein V.治疗是永恒的：功能注释的比较基因组学方法。目标。2003;2:138–146. [谷歌学者]

8Tanaka K.，Ikeda Y.，Matsubara Y.，Hyman D.B.异戊酸血症和中链酰基辅酶A脱氢酶缺乏的分子基础。酶。1987;38:91–107.[公共医学][谷歌学者]

9Weyler W.，Sweetman L.，Maggio D.C.，Nyhan W.L.甲基巴豆酰甘氨酸患者丙酰辅酶A羧化酶和甲基巴豆基辅酶A缺乏。临床。蜂鸣器。《学报》。1977;76:321–328.[公共医学][谷歌学者]

10Gibson K.M.、Lee C.F.、Hoffmann G.F.支链氨基酸代谢缺陷筛查。《欧洲儿科杂志》。1994;153：第62至67章。[公共医学][谷歌学者]

11Marz W.，Wieland H.HMG-CoA还原酶抑制：除降脂外的抗炎作用？赫兹。2000;25:117–125.[公共医学][谷歌学者]

12Loupatty F.J.、Ruiter J.P.、L I.J、1st、Duran M.、Wanders R.J.在培养的人类皮肤成纤维细胞中直接非同位素测定3-甲基谷氨酰-CoA水合酶，以特异性鉴定3-甲基谷胺酸尿I型患者。临床。化学。2004;50:1447–1450.[公共医学][谷歌学者]

13Ly T.B.、Peters V.、Gibson K.M.、Liesert M.、Buckel W.、Wilcken B.、Carpenter K.、Ensenauer R.、Hoffmann G.F.、Mack M.等。AUH基因突变导致3-甲基戊二酸尿I型。嗯，变种人。2003;21:401–407.[公共医学][谷歌学者]

14Jordan I.K.、Henze K.、Fedorova N.D.、Koonin E.V.、Galperin M.Y.肠道贾第鞭毛虫转羧化酶的系统发育分析揭示了生物素依赖酶进化中的多个结构域融合和裂变实例。微生物分子杂志。生物技术。2003;5:172–189.[公共医学][谷歌学者]

15Begley T.P.、Kinsland C.、Strauss E.细菌中辅酶A的生物合成。维塔姆。霍姆。2001;61:157–171.[公共医学][谷歌学者]

16Gerdes S.Y.、Scholle M.D.、D’Souza M.、Bernal A.、Baev M.V.、Farrell M.，Kurnasov O.V.、Daugherty M.D.、Mseeh F.、Polanuyer B.M.等人。从基因足迹到抗菌药物靶点：辅因子生物合成途径中的示例。《细菌学杂志》。2002;184:4555–4572. [PMC免费文章][公共医学][谷歌学者]

17Genschel U.辅酶A生物合成：古生菌途径的重建和基于比较基因组学的进化场景。分子生物学。进化。2004;21:1242–1251.[公共医学][谷歌学者]

18Brand L.A.，Strauss E.幽门螺杆菌新泛酸激酶亚型的表征。生物学杂志。化学。2005;280:20185–20188.[公共医学][谷歌学者]

19Daugherty M.、Polanuyer B.、Farrell M.、Scholle M.、Lykidis A.、de Crecy-Lagard V.、Osterman A.通过比较基因组学完全重建人类辅酶A生物合成途径。生物学杂志。化学。2002;277:21431–21439.[公共医学][谷歌学者]

20Choudhry A.E.、Mandichak T.L.、Broskey J.P.、Egolf R.W.、Kinsland C.、Begley T.P.、Seefeld M.A.、Ku T.W.、Brown J.R.、Zalacain M.等。泛酸激酶抑制剂：葡萄球菌感染的新型抗生素。抗微生物。代理Chemother。2003;47:2051–2055. [PMC免费文章][公共医学][谷歌学者]

21Ye Y.，Osterman A.，Overbeek R.，Godzik A.基因组分析中子系统/通路变异的自动检测。生物信息学。2005;21:478–486.[公共医学][谷歌学者]

22Kanehisa M.后基因组分析数据库。趋势Genet。1997;13:375–376.[公共医学][谷歌学者]

23Kanehisa M.，Goto S.KEGG：基因和基因组京都百科全书。核酸研究。2000;28:27–30. [PMC免费文章][公共医学][谷歌学者]

24Krieger C.J.、Zhang P.、Mueller L.A.、Wang A.、Paley S.、Arnaud M.、Pick J.、Rhee S.Y.、Karp P.D.MetaCyc:代谢途径和酶的多生物数据库。核酸研究。2004;32：D438–442。 [PMC免费文章][公共医学][谷歌学者]

25Gelfand M.S.、Novichkov P.S.、Nevichkova E.S.、Mironov A.A.细菌基因组调控模式的比较分析。简要生物信息。2000;1:357–371.[公共医学][谷歌学者]

26Rodionov D.A.、Vitereschak A.G.、Mironov A.A.、Gelfand M.S.原核生物中硫胺素生物合成的比较基因组学：新基因和调控机制。生物学杂志。化学。2002;277:48949–48959.[公共医学][谷歌学者]

27Rodionov D.A.、Mironov A.A.、Gelfand M.S.真细菌和古细菌中生物素调节子和BirA调节信号的保存。基因组。物件。2002;12:1507–1516. [PMC免费文章][公共医学][谷歌学者]

28Koonin E.V.、Galperin M.Y。序列进化功能：比较基因组学中的计算方法。波士顿：第一家Edn Kluwer学术出版社；2002. [公共医学][谷歌学者]

29Huynen M.A.、Snel B.、von Mering C.、Bork P.功能预测和蛋白质网络。货币。操作。单元格。生物。2003;15:191–198.[公共医学][谷歌学者]

30Xie G.，Keyhani N.O.，Bonner C.A.，Jensen R.A.色氨酸操纵子的古代起源和进化变化动力学。微生物。分子生物学。版次。2003;67:303–342. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社

基因组注释的子系统方法及其在1000个基因组注释项目中的应用

罗斯·奥弗贝克

塔德格·贝格利

拉尔夫·M·巴特勒

乔杜里（Jomuna V.Choudhuri）

庄寒玉

马修·科霍恩

瓦莱里·德·克莱西·拉加德（Valérie de Crécy-Lagard）

纳里塔扎·迪亚兹

特里·迪斯

罗伯特·爱德华兹

迈克尔·丰斯坦

埃德·D·弗兰克

斯维特兰娜·格德斯

伊丽莎白·M·格拉斯

亚历山大·戈斯曼

安德鲁·汉森

德克·岩瓦塔·鲁伊尔（Dirk Iwata-Reuyl）

罗伊·延森

内玛·贾姆什迪

卢茨·克劳斯

迈克尔·库巴尔

尼尔斯·拉森

Burkhard Linke公司

艾丽斯·麦克哈迪

福克·梅耶

海科·诺维格

加里奥尔森

罗伯特·奥尔森

安德烈·奥斯特曼

血管性Portnoy

戈登·普施

德米特里·罗迪奥诺夫

克里斯蒂安·吕克特

杰森·斯坦纳

里克史蒂文斯

伊内斯·蒂勒

奥尔加·瓦西瓦

叶玉珍

奥尔加·扎格尼特科

维罗妮卡·冯斯坦

摘要

引言

什么是子系统

表1

开发功能角色精确词汇的框架

子系统：一种独立于技术的通告系统

支持子系统的种子技术

流行子系统示例

亮氨酸降解与HMG-CoA代谢(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Leucine_Degradation_and_HMG-CoA_代谢和请求=show_ssa)

辅酶A生物合成子系统(http://www.theseed.org/annocopy/FIG/subsys.cgi？ssa_name=Coenzyme_A_Biosynthesis&request=show_ssa)

核糖体蛋白(http://www.these.org/SubsystemStories/Ribosomal_protens/abstract.htm)

流行子系统的影响

发布

结论

鸣谢

参考文献