跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
数据库(牛津)。2011; 2011年:bar036。
2011年8月27日在线发布。 doi(操作界面):10.1093/数据库/bar036
预防性维修识别码:项目经理3162744
PMID:21873645

ppiTrim:构建非冗余的最新交互

摘要

交互组分析的稳健发展需要全面、无冗余和一致注释的数据集。所谓非冗余,我们的意思是,对每一个交互作用的证据的解释应该是可信的:每个独立的实验支持只计算一次,不多不少。虽然公共存储库之间共享了许多交互,但其中没有一个包含任何模型有机体的完整已知交互组。此外,不同存储库对相同实验结果的注释往往不一致。这就提出了一个问题,即在合并相同的证据时,要保留哪个注释。iRefIndex数据库,包括来自具有标准化蛋白质命名法的最流行存储库的交互,代表了所有方面的重大进步,特别是在全面性方面。然而,iRefIndex旨在维护来自原始来源的所有信息/注释,并要求用户执行额外处理以完全实现上述目标。另一个问题与蛋白质复合物有关。一些数据库将实验观察到的复合物表示为与两个以上参与者的交互,而其他数据库则使用辐条或矩阵模型将其扩展为二进制交互。为了避免未经测试的相互作用信息积累,最好用一个简单的复合物成员列表来替换辐条或矩阵模型中的扩展蛋白质复合物。

为了解决这些问题并实现我们的目标,我们开发了ppiTrim,这是一个处理iRefIndex以生成非冗余、一致注释的物理交互数据集的脚本。我们的脚本分三个阶段进行:将所有交互作用映射到基因标识符,并删除所有不需要的原始交互作用,缩小潜在的扩展复合体,以及协调不同源数据库之间的每个交互注释标签。举例来说,我们已经处理了三个最大的生物体数据集:酵母、人类和果蝇。虽然ppiTrim可以解决不同标签之间最明显的冲突,但我们也发现了一些无法解决的分歧,主要是由于存储库之间的注释策略不同造成的。

数据库URL: http://www.ncbi.nlm.nih.gov/CBBresearch/Yu/downloads/ppiTrim.html

介绍

在当前的十年中,人们付出了大量努力,以发现许多模式生物中的蛋白质-蛋白质相互作用(相互作用体)网络。这些努力导致了数十万对蛋白质之间的相互作用被报道(1). BioGRID等存储库(2),国际法案(),薄荷色(4),下倾(5),绑定(6,7)和HPRD(8)已建立用于存储和分发从高通量扫描以及个人出版物管理中收集的交互集。根据其目标,由世界各地不同的策展人团队维护的每个交互数据库都包含不同的交互,并对交互进行不同的注释。因此,虽然特定交互体的许多交互是在数据库之间共享的(1,9),没有人包含任何模型生物的完整已知交互组。因此,构建一个全覆盖的蛋白质-蛋白质相互作用网络需要从许多数据库中检索和合并条目。

这项任务是由蛋白质组学界多年来开发的若干倡议推动的。IMEx财团(10)形成的目的是通过使用标准化格式,促进不同主要数据库之间的信息交换。蛋白质组学标准倡议分子相互作用(PSI-MI)格式(11)允许以标准方式表示蛋白质相互作用信息。它的一个显著特点是受控词汇表,可用于描述蛋白质相互作用的各个方面,包括源数据库、相互作用检测方法、相互作用蛋白质的细胞和实验角色等。PSI-MI词汇表被组织为一个本体,一个有向无环图(DAG),其中节点对应于术语,链接到术语之间的关系。这使得术语能够以高效且算法友好的方式关联。

一致注释的数据集对于开发和评估交互预测工具很有用(12–15). 此外,这些数据集还构成了交互网络的基础,为此开发了许多分析工具(16,17). 根据工具的生物目的,可能首选不同的实体(节点)和潜在的加权交互(边)。通过从忠实地表示所有可用证据的一致注释数据集开始,可以减少不同工具的预测发生冲突的可能性。这样的数据集应该是全面的,但也应该是非冗余的:关于交互作用的相同实验证据应该只出现一次。为了保持生物理解的连贯发展,必须保持参考数据集的最新。

我们检查了几个主要的相互作用数据库,目的是为几个模型生物构建非冗余(在证据方面)、一致注释和最新的物理相互作用参考数据集。不幸的是,大多数主数据库使用的通用标准格式仍然不允许直接编译完整的非冗余交互。这主要是因为不同的初级数据库可能使用不同的标识符来表示相互作用的蛋白质,以及使用不同的约定来表示和注释每个相互作用。合并来自BIND的交互数据(6,7)(在称为“BIND”和“BIND_Translation”的两个版本中),BioGRID(2)、CORUM(18),下倾(5)、HPRD(8),国际法案(),薄荷(4),MPact(MPact)(19)、MPPI(20)和OPHID(21)、iRefIndex(22)该数据库代表着在所有公开可用的蛋白质相互作用的完整和一致集合方面取得了重大进展。iRefIndex除了具有全面性和相对最新性之外,其主要贡献在于通过将每个相互作用物的序列映射为一个唯一的标识符来解决蛋白质标识符的问题,该标识符可用于比较不同源数据库中的相互作用物。在进一步的“规范化”过程中(23),同一蛋白质的不同亚型映射到同一典型标识符。通过坚持PSI-MI词汇表和文件格式,iRefIndex为交互和交互提供了基本标准化的注释。iRefIndex的构建导致了iRefWeb的开发,这是一个交互式访问iRefIndexe数据的web界面(23). iRefWeb允许轻松可视化与用户选择的蛋白质或出版物相关的交互证据。最近,iRefIndex和iRefWeb的作者发布了一份详细的分析,分析了主要数据库之间共享的iRefIndexe中的管理交互之间的一致性(24).

然而,为了维护来自原始来源的所有信息,iRefIndex要求用户执行额外的处理以完全实现上述目标。特别是,iRefIndex考虑到了交互作用体对(无序)的冗余性,而不是与交互作用相关的实验证据。因此,有些功能可能不适合iRefIndex的范围。例如,人们可能希望按照指示处理酶反应产生的相互作用,并能够选择性地包括/排除某些类型的反应,例如乙酰化。在许多情况下,有关翻译后修改的信息可以直接从源数据库获得,但不会集成到iRefIndex中。另一个从源数据库传播到iRefIndex的问题与蛋白质复合物有关。一些数据库将实验观察到的复合物表示为与两个以上参与者的交互,而其他数据库则使用辐条或矩阵模型将其扩展为二进制交互(1). 图林斯基. (24)最近发现,这种对复合物的不同表示导致了管理同一出版物的主要数据库之间的大量分歧。来自我们早期的工作(25)我们发现,这种扩展的复合体可能会导致节点具有非常高的程度,并且经常在网络中引入不希望出现的快捷方式。为了公平地对待蛋白质复合物提供的信息而不夸张,最好用一个简单的复合物成员列表来取代辐条模型或矩阵模型中扩展的相互作用。此外,我们发现,通过iRefIndex将每个蛋白质映射到一个典型组有时会将明确源自同一基因的蛋白质序列(例如,一个或两个氨基酸不同)放入不同的典型组。

为了实现构建非冗余、一致注释和最新参考数据集的目标,我们开发了一个名为ppiTrim的脚本,该脚本处理iRefIndex并生成单个生物体内物理蛋白质-蛋白质相互作用的综合数据集。

材料和方法

我们的脚本名为ppiTrim,是用Python编程语言编写的。它采用iRefIndex PSI-MI TAB 2.6格式的数据集作为输入,包含54个TAB分隔列(36个标准列,18个由iRefIndexe添加)。经过三个主要的处理步骤后,它输出一个PSI-MI TAB 2.6格式的合并数据集,其中只包含36个标准列(补充表1). 三个处理步骤是:(i)将所有交互作用体映射到NCBI基因ID,并删除所有不需要的原始交互作用;(ii)压缩潜在扩张的综合体;以及(iii)将来自单个出版物的所有原始交互收集到一个合并交互中,这些交互具有相同的交互和兼容的实验检测方法注释。在每个步骤中,ppiTrim都会从公共存储库下载所需的文件,并将其中间结果作为临时文件写入。

第一阶段:初始过滤和映射交互

在第一阶段,ppiTrim采用原始iRefIndex数据集,并将每个原始交互作用(要么是与输入文件中单行对应的二进制交互作用,要么是由多行支持的复合体)划分为四个不同类别之一:移除(未进一步检查)、生化反应、复合体或复合体的潜在部分,和其他(直接二进制绑定交互)。它删除了标记为遗传的相互作用,源于通过命令行参数指定的出版物,或具有来自输入数据集的主要物种以外的生物体的相互作用者(可以明确提供允许的物种,或删除与具有不同分类ID的相互作用者的任何相互作用)。此外,ppiTrim从OPHID和“原始”BIND中删除了所有交互。前者被删除,因为它包含计算预测的交互或使用文本挖掘从文献中验证的交互(即没有人工管理)。后者被删除,因为它处理与BIND_Translation相同的原始数据集(7).

作为第一步,脚本试图将每个交互对象映射到NCBI Entrez基因(26)标识符。对于大多数交互程序,它使用iRefIndex已经提供的映射。在iRefIndex仅提供Uniprot的情况下(27)加入知识库时,脚本尝试以三种不同的方式获取基因ID。首先,它搜索iRefIndex mappings.txt文件(在ftp.no.embnet.org/irefindex/data/current/Mappingfiles文件/用于任何其他映射。此部分是可选的,因为mappings.txt(映射.txt)即使是压缩后的文件也非常大,每次运行ppiTrim时都无法执行自动下载。其次,对于所有未映射的Uniprot ID,它使用EBI中的dbfetch工具检索相应的完整Uniprot记录(www.ebi.ac.uk/Tools/dbfetch). 如果作为DR字段的一部分,记录中存在到基因ID的直接映射,则使用该映射。否则,使用标准基因名称(字段GN)通过Eutils接口查询NCBI Entrez gene数据库中的匹配基因记录。如果找到一个明确的匹配,则记录的基因ID将用于交互对象。如果获得多个匹配项,则不执行映射。每个映射的基因ID都会与过时的基因ID列表进行核对,这些基因ID不再被认为存在蛋白质产品体内。将删除无法映射到有效(非过时)基因ID的交互作用体及其参与的所有原始交互作用。

在分配基因ID后,脚本考虑与交互检测方法、交互类型和交互者的生物学角色相关的PSI-MI本体术语。使用Open Biomedical ontology(OBO)格式的完整PSI-MI本体文件(28),它将这些字段中的任何非标准术语(标记为MI:0000)替换为相应的有效PSI-MI本体术语。PSI-MI海外建筑运营管理局文件中标记为过时的术语被替换为其推荐的替代品(补充表2). 唯一的例外是HPRD“体外”(MI:0492,从iRefIndex中的MI:0045标签翻译而来)和“体内”(MI:0493)相互作用的相互作用检测方法术语,它们在整个过程中都保持不变。

以术语MI:0415(酶研究)的后代作为检测方法或以术语MI:0414(酶反应)的后代为相互作用类型的源相互作用被归类为候选生化反应。这一类别还包括任何相互作用(包括具有两个以上相互作用物的相互作用),其中一个相互作用物具有MI:0501(酶)或MI:0502(酶靶)的生物作用。最近几个月,BioGRID数据库开始提供与“生化活性”相互作用相关的翻译后修饰的额外信息,如磷酸化、泛素化等。该信息可从新TAB2格式的BioGRID数据集中获得,但尚未反映在PSI-MI 2.5格式或iRefIndex中提供的交互类型的PSI-MI术语中。由于BioGRID注释的翻译后修改可以直接与标准PSI-MI术语匹配(补充表3),脚本下载TAB2格式的最新BioGRID数据集,提取该信息,并为来自BioGRIDiRefIndex的候选生化反应分配适当的PSI-MI交互类型术语。

任何未被归类为候选生化反应的源相互作用都被考虑分配到候选复合物类别。这一类别包括所有真正的复合物(在iRefIndex中具有边缘类型“C”)、检测方法术语为MI:0004(亲和色谱)的后代或交互类型为MI:0403(共定位)的交互作用,以及与BioGRID的“共纯化”类别相对应的交互作用。与交互类型MI:0407(直接交互)的交互从未被视为复合物的候选。所有不属于候选生物化学反应或候选复杂类别的源相互作用都被认为是普通的二元物理相互作用。

第二阶段:收缩辐条扩张复合物

第二阶段脚本试图从“候选复合体”交互中检测辐条扩展复合体,并将其缩小为与多个交互体的交互。首先,根据发布内容(Pubmed ID)、源数据库、检测方法和交互类型对所有候选交互进行分组。每组源交互被转换为一个图,并分别考虑合并为一个或多个复合体。当一组交互的一部分被压缩时,我们用包含所有参与者的复合体来替换这些源交互。每个折叠的复合体在输出MITAB文件中使用二部表示法表示(与iRefIndex中的原始复合体相同,但使用新生成的复数ID),并保留对原始源交互的引用(补充表1). 合并使用两个过程:模式检测和模板匹配(图1). 每个新复合体的通缩算法通过其边缘类型在输出文件中指示(表1).

保存图片、插图等的外部文件。对象名称为bar036f1.jpg

ppiTrim使用两个程序进行复杂的放气:模式检测(顶部)和模板匹配(底部)。例如,假设左侧显示的图形ABCDEFG可以由BioGRID从单个出版物中注释的复杂候选交互构造而成。箭头表示诱饵与猎物之间的关系,A–D的相互作用重复两次,一次用A,另一次用D作为诱饵。模式检测算法(顶部)将A和D识别为潜在辐条扩展复合体的中心,从而用复合体ABCDEF和ACDEFG替换左侧的所有成对交互。假设复杂的ACDEF是由不同的数据库从同一出版物中报告的。然后,模板匹配程序(底部)将生成复杂的ACDEF(带有所有其他注释,如实验检测方法,保留在原始交互中),并删除除D–G和A–B之外的所有原始交互。在执行这两个过程后,ppiTrim将合并结果,以便整体结果将分别用边缘类型代码“R”、“A”和“A”的复数ACDEF、ABCDEF和ACDEFG替换原始交互。交互A–B和D–G将不会保留,因为它们包含在收缩复合物ABCDEF和ACDEFG中。

表1。

ppiTrim使用的边类型代码

代码描述
X(X)无方向二进制交互(物理绑定)
D类定向二元相互作用(生化反应)
B无方向性指示的生化反应
C类原始复合体(来自iRefIndex)
G公司辐条扩展复合体;通过BioGRID的“共净化”和“共分馏”类别的模式匹配进行缩减(可靠)
R(右)潜在辐条膨胀复合物;通过“C”-复合体的模板匹配缩小
A类潜在辐条膨胀复合物(仅BioGRID);通过模式检测放气
N个潜在辐条膨胀复合物;通过“G”或“a”复数的模板匹配缩小

模式检测程序仅用于BioGRID的交互作用。与DIP的交互作用不同,这些交互作用是固有的,因为一个蛋白质总是标记为诱饵,另一个标记为猎物(在许多情况下,这种标记与蛋白质的实际实验作用无关)。这种模式表明可能存在辐条膨胀复合物,由一个诱饵与多个猎物相连组成。由于BioGRID的“共纯化”和“共分馏”类别中的所有相互作用都是由使用任意蛋白质作为诱饵的辐条膨胀复合物产生的(BioGRID管理团队,私人通信),在这种情况下,与两个或多个猎物相连的诱饵始终可以被视为扩展复合物和收缩复合物。这种收缩的复合体被指定为边缘类型代码“G”。BioGRID中剩余的复合物候选相互作用是通过亲和色谱获得的,在大多数情况下,也来自复合物。在这里,我们采用了一种启发式方法,即与至少三个猎物相连的诱饵可以被视为复杂的诱饵。显然,一些实验涉及将单个诱饵与许多独立的猎物一起使用,在这种情况下,这种过程会产生虚假的复杂情况。因此,以这种方式生成的复合体被分配了不同的边缘类型代码(“a”),用户可以指定要排除在考虑范围之外的特定出版物以及复合体的最大尺寸。

第二个过程基于将每组候选相互作用与其他数据库(模板)指示的复合物匹配,这些数据库主要来自IntAct、MINT、DIP和BIND。在这种情况下,脚本检查组中的每个蛋白质及其所有邻居是否是模板复合物的超集。如果是这样,那么复合物中蛋白质之间的所有候选相互作用都会被排除。除BioGRID外,所有源数据库的邻域图都是无向的。以这种方式生成的新复合体被赋予代码“R”。该脚本还试图通过模式检测程序使用BioGRID交互生成的复合体作为模板,在这种情况下,新生成的复合体的代码为“N”。对于第三阶段,任何不能缩减为复合物的源相互作用都将保留。

第三阶段:规范化交互类型注释

概述

ppiTrim最后阶段的目标是将从单个实验中获得的交互作用的所有证据合并为一个合并交互作用记录。每个源出版物都包含一个或多个导致报告交互作用的实验的描述。不幸的是,除了IntAct和MINT的交互,每个出版物中的不同实验没有在所有源数据库中进行注释,这些交互似乎使用“作者”字段中作者姓名的数字后缀来区分实验。因此,有必要依赖实验检测方法术语来确定来自不同数据库、具有相同交互作用者和源发布的源记录是否代表相同交互作用的证据。理想情况下,具有相同检测方法的所有此类记录都可以分解为一个合并的交互,尽管这可能会低估通过不同实验从同一出版物中获得的多个证据。然而,不同的数据库具有不同的注释策略,不一定使用相同的PSI-MI术语来注释给定的实验方法。为了解决检测方法术语分歧,我们使用PSI-MI本体结构(图2). 由不同源数据库分配的两个兼容术语被视为代表出版物中的相同实验方法。这些带注释的记录因此被合并。

保存图片、插图等的外部文件。对象名为bar036f2.jpg

图中显示了PSI-MI本体图的一部分,该本体图用于交互检测方法,该方法与假设的源交互集群相关,涉及来自同一出版物的相同交互者。蓝色的术语与集群内的源交互相关联,而黄色和绿色的术语存在于本体中,但不标记集群中的任何源交互。如图所示,整个集群是一致的,术语MI:0401是最大元素。它最好的一致术语是MI:0004(绿色),因为小于它的集群成员之间不具有可比性。从集群中删除标记为MI:0401的源交互将导致三个不同的子集群。如果两个子集群不包含来自同一源数据库的交互,则会报告为冲突。

第三阶段算法进行如下。所有源相互作用和复合物(原始的以及在第二阶段缩小的)被划分为“簇”。共享相同交互对象的交互和源发布放在同一集群中。相互作用物的顺序只对生化反应有意义,生化反应被视为定向相互作用(只有当方向可以确定时)。每个簇被独立处理,并根据PSI-MI术语对交互检测方法的兼容性划分为子簇。来自每个子集群的交互被收集到单个合并交互中,并输出到最终数据集。合并记录保留对所有原始交互的引用。每个合并的交互都为交互检测方法分配了一个PSI-MI术语,该方法最具体地描述了子集群中注释术语的整个集合。为了便于参考,每个合并的交互都有一个唯一的ppiTrim ID,类似于iRefIndex中的RIGID。这是其交互物(基因ID)、出版物、检测方法、交互类型和边缘类型的点分隔连接的SHA1散列。每个复合体都使用其ppiTrim ID作为其主ID。

对账注释

本体的DAG结构自然会导致术语之间的偏序:对于两个术语u个v(v),我们这么说u个精制v(v)(u个较小v(v),u个先于v(v))如果DAG中存在来自的定向路径u个v(v)如果两个PSI-MI项是可比较的,也就是说,一个对另一个进行细化,则可以认为它们是兼容的。每个非空术语集合U型可以唯一地拆分为不相交集U型,这样每U型具有单个最大元素(与任何其他成员相当且不小于任何其他成员的元素),并且包含以下所有成员U型与它的最大元素相比。每个子集合U型然后是一致的,因为其中至少存在一个可以描述其所有成员的术语,而来自不同子集合的任何两个成员都是不可比较的。子集合的“最佳一致术语”U型是的最小成员U型它可以与它的所有成员相比较(它也可以定义为所有成员的传递闭包交集的最小成员U型.).如果U型是一个全序,其中所有成员都是可比较的两两,最好的一致项是最小项。另一方面,最小条件不必存在(图2),以便最精细的一致术语在层次结构中处于较高位置,并表示可以分配给的最具体的注释U型作为一个整体。

为了从单个集群产生整合的交互,其每个成员(交互)都用其PSI-MI术语来标识信息检测方法。对于每个集群成员,计算具有兼容注释的所有其他成员的集合(“compatible set”)。作为一种特殊情况,以下检测方法标签被视为小于任何其他方法:“未指定方法”(MI:0686)、“体内”和“体外”(后两者仅来自HPRD)。通过这种方式,非特异性注释被认为与所有其他更具体的证据兼容。相容集根据其最大元素进一步分组。在每个组中,兼容集的并集产生一个子集群。通过考虑从子集群成员到其最大值的路径上的所有PSI-MI项,可以找到每个子集群的最佳一致项-搜索不限于子集群中的那些项(图2).

冲突

如果同一集群的两个子集群之间没有共享源数据库,我们认为它们之间存在无法解决的冲突。此定义考虑到源数据库可能会使用相同或不同的交互检测方法多次报告同一发布的交互。如果两个数据库使用不兼容的术语注释相同的交互,这很可能是由于错误或有关适当标签的特定分歧,而不是因为每个数据库报告的是来自同一出版物的不同实验。合并后,无法解决的冲突交互记录使用“置信度”字段中的ppiTrim ID相互指向。

ppiTrim还在其临时输出文件中收集有关可解决冲突的统计信息。可解决的冲突是指单个子集群内的源交互具有兼容但不同的实验检测方法标签。

脚本的评估

为了测试ppiTrim,我们将其应用于酵母(酿酒酵母),人类(智人)和果蝇(黑腹果蝇)2011年1月19日发布的iRefIndex 8.0-beta数据集。该脚本于2011年6月13日运行,使用了Uniprot和NCBI基因数据库的当前版本。我们将蛋白质相互作用因子限制为允许NCBI分类ID:酵母为4932和559 292,人类为9606,果蝇为7227。在处理酵母数据集时,我们考虑了两种特殊情况。首先,我们特别删除了Tong报告的遗传交互作用. (29)因为它们在所有源数据库中都没有被标记为基因。其次,我们排除了柯林斯的数据集. (30)从第二阶段开始,并将其所有相互作用保留为二进制无向。该数据集仅存在于BioGRID中,可被视为计算衍生的部分冗余数据。柯林斯. (30)重新处理了加文的数据. (31)和克罗根. (32)以获得一组改进的成对交互。柯林斯. (30)使用层次聚类来恢复蛋白质复合物,但BioGRID中不存在这些复合物。尽管存在冗余,但我们决定不完全删除此数据集,也不尝试缩小其潜在复合物,因为在这种情况下,诱饵/猎物分配可能没有意义。

结果和讨论

将ppiTrim应用于处理iRefIndex 8.0的结果如所示表2-5.ID映射的统计(表2和3))这表明,在人类和果蝇数据集中,可以将相当数量的交互作用体额外映射到基因ID,从而使我们能够考虑数千个原始交互作用,否则将被过滤。这在iRefIndex RIGID方面也很明显(补充表4),将所有原始交互与具有相同序列的交互者关联到单个记录。对于酵母来说,通过映射到基因ID获得的交互数量很少,因为大多数映射的ID都是无效的。

表2。

处理源交互

物种首字母远离的无基因ID保留带有映射的基因ID
酿酒酵母400 449173 8153608223 026880
智人382 094148 7242738230 632161 87
黑腹果蝇154 770324 779476112 8173427

iRefIndex原始交互的初始处理统计信息。显示的是初始数量、由于筛选标准而删除的总数、由于缺少基因ID而删除的数量、保留的总数以及包含至少一个与映射的基因ID交互作用的保留数量。

表3。

将iRefIndex中的CROGID映射到基因ID

物种初始CROGID
脂肪映射
最终
总计已映射孤儿总计有效CROGID公司基因ID
酿酒酵母615955526074334755995618
智人14 04711 4322615126112611269311786
黑腹果蝇93797810156956656683467846

将CROGID映射为基因ID的统计信息。第2列至第4列显示了考虑的CROGID总数、可直接映射到GeneID的数量以及与iRefIndex文件中的基因ID无关的“孤儿”数量。第5列和第6列显示了额外映射到GeneID的CROGID的数量,而最后两列显示了最终接受的CROGIDs数量以及相应的GeneID数量。一个CROGID可以映射到多个基因ID(如果多个基因编码相同的蛋白质序列),也可以映射到一个GeneID(如果我们的额外映射将它们链接到同一个基因)。

表4。

放气辐条膨胀复合物

物种出版物
复合物
首字母剩下的C类G公司R(右)A类N个
酿酒酵母3924118 81928 6437729323538431901311
智人10 31756 11135 650838218111431443304
黑腹果蝇39817221053220168233

显示了作为实验方法,用亲和色谱法(或相关色谱法)缩小二元相互作用得到的配合物数量。复合体的类型由中描述的单字母代码表示表1。显示的配对数包括来自交互次数少于三次(每个数据库)的出版物的配对数,这些交互次数决不能缩减为复数。

表5。

最终合并数据集

物种出版物输入对
加固的
冲突
生物化学其他复合物导演无方向性可解决的无法解决
酿酒酵母63035780119 32910 778552563 64819 344454
智人22 6602446199 0946483204285 48026 4781333
黑腹果蝇56451111 8622273327 98119 43011

对于每个物种,显示了输入对的数量(输入复合物是来自表4)分类为生物化学反应(潜在定向)或其他反应;还显示了合并相互作用的最终数量(分为复合物、定向或无定向)。“其他”列仅说明那些在第二阶段未缩减为复合物的相互作用。最后两列显示了合并交互之间可解决和不可解决冲突的总数。无法解决的冲突是指两个来自同一出版物的合并交互使用不同数据库的不兼容实验检测方法标签进行报告的情况。可解决冲突是指单个合并交互中的源交互具有不同(但兼容)的实验检测方法标签的情况。

出于几个原因,我们选择使用NCBI基因标识符而不是iRefIndex提供的规范ID(CROGID)来标准化蛋白质。NCBI基因记录不仅将每个基因与一组参考序列相关联,还包括大量附加数据(例如同义词列表)和到其他数据库(例如基因本体)的链接(33)这在实际使用交互数据集时非常重要。此外,基因记录定期更新,并根据新证据评估其状态。因此,如果一个基因记录对应于一个已知不产生蛋白质的开放阅读框(ORF),则该基因记录可能会被拆分为多个新记录或标记为过时。对于网络分析应用程序,只需要在网络中表示细胞中实际表达的蛋白质,因此NCBI基因提供的基因状态是一个有价值的筛选标准。我们在酵母中的结果(表3)支持这一前提:大多数没有基因ID的CROGID与ORF衍生的序列相关,ORF随后被解密为基因。然而,与NCBI基因ID相比,CROGID确实有一个优势,因为它们是基于蛋白质的,因此几个基因(如组蛋白)的相同蛋白质产物聚集在一起。

我们的算法能够引入许多CROGID与基因ID的额外关联,这有几个原因。首先,iRefIndex仅为具有与NCBI RefSeq记录中的序列完全匹配的序列的交互器提供到基因ID的映射(Ian Donaldson,private communication)。通过对一些可以映射到基因ID的孤立酵母序列的逐案检查,我们发现它们是孤立的,因为它们在RefSeq中与该蛋白质的参考代表在一个或两个氨基酸上不同,但与该代表的基因记录不聚类。其他映射可以通过Uniprot记录中指向基因ID的数据库交叉引用来找到。iRefIndex规范化过程在mappings.txt(映射.txt)但它们在iRefIndex MITAB主文件中不可用。我们已经发现(补充表5)通过在mappings.txt(映射.txt)文件。值得注意的是,ppiTrim访问的是更新版本的Uniprot,而不是iRefIndex,因此可以通过直接访问Uniprot交叉引用来查找更多映射。最后,有大量Uniprot记录没有与NCBI基因的交叉引用,但可以通过其规范基因名称链接到基因记录。最后一种方法可以作为iRefIndex规范化处理的改进建议。

即使使用ppiTrim算法进行处理,大约10%的CROGID也无法映射到基因ID。一些互动者(补充表5)只有PDB材料作为它们的主要ID,因为它们的相互作用来源于晶体结构。在这种情况下,通常只有参与蛋白质的部分序列可用。这些部分序列不能与任何Uniprot或RefSeq记录完全匹配,因此被分配了一个单独的ID。因此,我们的程序得到了改进,这将解释这种情况,以及那些与规范序列只有少数氨基酸不同的未映射蛋白质,将使用直接序列比较来找到最接近的有效参考序列。这项任务在技术上可能并不困难(Alves采用了类似的程序. (34)构建用于质谱数据分析的蛋白质数据库),但超出了ppiTrim的范围,ppiTrim是一个相对较短的独立脚本。我们认为,这种额外的映射最好在参考序列数据库(如Uniprot或RefSeq)的级别上执行,这些数据库包含管理员解决模糊案例的专业知识。

通过色谱技术获得的蛋白质复合物为直接的二元相互作用提供了补充信息。虽然通常很难确定内部复杂成对相互作用的确切布局,但使用质谱鉴定几种蛋白质的结合是以下方面的证据体内该协会的存在。不幸的是,尽管iRefIndex非常重要,但由于不同源数据库对复合体的不同处理,iRefIndexe中当前可用的信息仍然不足。我们的结果(表4)研究表明,通过尝试折叠辐条膨胀复合物,可以大大降低交互数据集明显膨胀的复杂性。对于酵母来说,这导致候选相互作用的数量减少了近四分之三。大多数新复合体分为“G”和“R”两类,可以认为是最可靠的。对于人类数据集,减少的比例很小,尽管按绝对值计算,新复合物的数量超过3000个。果蝇数据集不包含许多候选相互作用或复合物,因此没有获得许多新的复合物。

一般来说,很难评估新生成的“A”和“N”类复合物是否具有生物合理性,也就是说,它们是否代表一个功能实体。如果一个诱饵和它的猎物真正来源于一次实验,那么它们肯定会形成一种物理联系,可能是功能复合体的一部分或整个功能复合体。由于ppiTrim保留了实验角色标签和原始交互标识符,因此将这些关联压缩到单个记录中几乎不会丢失信息。另一方面,对于一些出版物,特别是那些涉及以泛素样蛋白作为诱饵的实验的出版物,每个诱饵-猎物关联可能代表一个单独的实验,并且它没有证实不同的猎物蛋白可能在细胞中共存。例如,BioGRID提供了汉尼奇论文中的158个物理关联. (35),每个都涉及酵母Smt3p(SUMO,一种泛素样)蛋白作为诱饵。在这种情况下,并非所有涉及的猎物一起与诱饵形成一个大型综合体。ppiTrim通过不缩小可能过大的复合物来避免这种特殊情况(最大缩小的复合物大小由用户使用默认的120个蛋白质进行调整),但可以假设一些缩小的“复合物”不存在体内.

为了更深入地研究生成的复合物的保真度,我们从ppiTrim的最终输出中随机抽取25个“A”和“N”缩小的酵母复合物,并检查其原始出版物。在这25个复合体中,有15个来源于高通量出版物[主要是Gavin. (31)和克罗根. (32) —补充表6],而10个来自小实验(补充表7). 在所有高通量的情况下,放气复合物代表了真正的实验关联。在作者提出自己的衍生复合物的情况下(在许多情况下可以在“C”类别下单独找到),我们的收缩复合物形成较大衍生复合物中的一部分。事实上,这种衍生复合物是通过组合几个诱饵-猎物实验的结果获得的,每个实验都形成一个单一的收缩复合物。低吞吐量出版物的结果差异更大。在大多数情况下,收缩复合物明显对应于功能复合物,尽管有时很难将作者的结论与其报告的结果完全联系起来。在两种情况下,由于原始数据库中的管理错误,推断的关联不正确。我们还发现了一个案例,在该案例中,出版物作者直接声明收缩复合物中的蛋白质不会形成稳定的复合物。

虽然我们的样本非常小,但它确实表明了诱饵-猎物关系通缩引起的几个问题。在大多数情况下,放气的复合物形成了被认为是功能复合物的一部分。与我们的主要假设相比,策展错误或模棱两可可能是错误推断关联的更重要来源,即一份出版物中包含多个猎物的诱饵代表一个单位。总的来说,我们认为减少交互组复杂性的好处大于潜在过度收缩交互的缺点。解决蛋白质复合物不同表现形式问题的最佳方法是在源数据库(尤其是BioGRID)层面,通过重新检查原始出版物。我们的‘R’类复合体,其中缩小的复合体与来自不同数据库的注释复合体完全一致,在这种情况下可以作为指导。

总体而言,我们的处理显著减少了所考虑的三个数据集中每一个数据集的交互次数(表5). 这表明存在显著的冗余,尤其是对于蛋白质复合物,原始的和收缩的(比较表4具有表5)和二进制交互。在这个阶段,定向相互作用(生化反应)相对较少,且基本上没有冗余。鉴于它们在阐明生物功能方面的重要性,预期随着时间的推移,定向相互作用将被更充分地发现。然而,应该注意的是,PSI-MI格式只能表示同一事件中涉及的一组物理实体之间的静态关系,而不能实际表示反应的两个方面,例如。保存图片、插图等的外部文件。对象名称为bar036i1.jpg某些对PSI-MI生物作用术语可以组合起来表示相互作用的方向,例如酶和酶靶,但与传递数据库(如Reactome)的丰富方式相比,这些方法较弱(36)表示事件。

为了证明我们的冲突解决方法的实用性,我们在表5。可解决的冲突远远超过无法解决的冲突。检查可解决冲突的最常见示例(补充表8)可以看出,它们中的大多数确实代表了同一个实验。可能的例外是HPRD注释的人类交互,其检测方法标签不明确。为了解决这个和类似的问题,ppiTrim提供了maxsources置信度得分(补充表1),这是对有助于巩固相互作用的最大独立实验数量的估计。中一个可解决冲突的有趣例子补充表8是444个合并相互作用实例,其中包含与检测方法标签MI:0004(亲和层析技术)、MI:0007(抗银免疫沉淀)和MI:0676(串联亲和纯化)的源相互作用。这种情况与图2:最后两个术语是不相容的,但第一个术语作为最好的一致术语解决了冲突。

在对少数无法解决的冲突进行更仔细的检查后(表6)可以看出,大多数常见的冲突都是由于数据库之间很少出现特定标签不一致的情况而产生的。在许多情况下,这种分歧是由于使用亲和色谱的不同子术语引起的(图2)并且可以通过分配一个更通用的术语来解决这两个冲突术语。在许多其他情况下,冲突是由于BioGRID内部使用的检测方法词汇比IMEx数据库(DIP、IntAct和MINT)更受限制。然而,在一些罕见的情况下,当不同的数据库注释来自同一出版物的不同实验时,会出现无法解决的冲突。例如,DIP、BioGRID和IntAct报告了Blaiseau和Thomas论文中的几个原始交互作用(37)(pubmed:9799240),其中酵母Met4p蛋白与Met28p、Met31p和Met32p中的每一个以二元相互作用方式相互作用。本文报道了几种使用不同技术的实验,包括northern印迹、酵母双杂交和电泳迁移率变化分析。对于Met4p和Met28p之间的相互作用,BioGRID和IntAct仅报告MI:0018(酵母双杂交)方法,而DIP仅报告MI:0404(非变性凝胶电泳中的混合),导致无法解决的冲突。因此,在这种情况下,每个数据库本身都为这种交互提供了不完整的证据。

表6。

最常见的交互检测方法PSI-MI术语冲突

术语A资料来源A术语B来源B计数
MI:0007(抗标签共免疫沉淀)M(M)MI:0676(串联亲和纯化)设计院132
MI:0004(亲和色谱法)BMI:0363(作者推断)60
MI:0018(双混合)DIMN公司MI:0096(下拉)43
MI:0071(分子筛)德国工业标准MI:0096(下拉)B32
MI:0030(交叉链接研究)DIMN公司MI:0096(下拉)B22
MI:0007(抗抗原联合免疫沉淀)感应电动机MI:0676(串联亲和纯化)设计院1227
MI:0018(双混合)BDHIM公司MI:0096(下拉)BM公司17
MI:0096(下拉)BMI:0107(表面等离子体共振)糖尿病6
MI:0008(阵列技术)MI:0049(滤波器绑定)M(M)5
MI:0019(联合免疫沉淀)感应电动机MI:0096(下拉)5

显示了酵母(顶部)和人类(底部)数据集的前五种最常见的交互检测方法PSI-MI术语不可解决冲突。源数据库由单字母代码B(BioGRID)、D(DIP)、I(IntAct)、H(HPRD)、M(MINT)和P(MPPI)表示。

如果交互检测方法、发布和交互类型的准确且完全填充的字段在其输入数据集中可用,则ppiTrim算法的工作效果最佳。基本满足了这一要求。然而,我们注意到两个小的不一致。第一个问题将在iRefIndex(Ian Donaldson,private communication)的后续版本中修复,涉及CORUM交互和复合物交互检测方法的PSI-MI标签。iRefIndex中缺少这些,尽管它们存在于原始CORUM源文件中。第二个问题涉及某些交互的Pubmed ID丢失或无效。我们发现许多缺少Pubmed ID的交互来自MINT。在检查原始MINT文件后,我们发现在许多情况下,MINT为出版物提供数字对象标识符(DOI)作为其标识符,而不是Pubmed ID(尽管可以从MINT web界面获得相应的Pubmed ID)。为了确保与iRefIndex中的其他源数据库保持一致,最好也为这些交互提供Pubmed ID。

在本文中,我们确定了使用iRefIndex提供的组合交互数据集作为构建参考网络的基础所需的任务,并开发了一个脚本将其处理为一致的组合数据集。我们认为ppiTrim解决了对整合数据库的临时需求,并希望大多数需要处理的问题最终将在上游数据库中得到解决,并通过IMEx联盟进行分发。在这个阶段,我们还没有解决交互质量的问题,尽管一些出版物的数据库中有此类信息(23). 在合并数据集时利用质量信息需要一种目前还不存在的通用数据质量度量。

补充数据

补充数据可在数据库在线。

基金

这项工作得到了国立卫生研究院国家医学图书馆校内研究项目的支持。开放获取费用的资金来源:美国国立卫生研究院。

利益冲突。未声明。

致谢

我们感谢Donaldson博士批判性地阅读了这份手稿,并为我们提供了用于ppiTrim初始开发的iRefIndex 7.0数据集的专有版本。

工具书类

1De Las Rivas J,Fontanillo C.蛋白质-蛋白质相互作用要点:构建和分析相互作用组网络的关键概念。公共科学图书馆计算。生物。2010;60:e1000807。 [PMC免费文章][公共医学][谷歌学者]
2Stark C、Breitkreutz B-J、Chatr-Aryamontri A等。BioGRID交互数据库:2011年更新。核酸。物件。2011;39(数据库问题):D698–D704。 [PMC免费文章][公共医学][谷歌学者]
三。Aranda B、Achuthan P、Alam-Faruque Y等。2010年IntAct分子相互作用数据库。核酸。物件。2010;38(数据库问题):D525–D531。 [PMC免费文章][公共医学][谷歌学者]
4Ceol A、Chatr-Aryamontri A、Licata L等,MINT,分子相互作用数据库:2009年更新。核酸。物件。2010;38(数据库问题):D532–D539。 [PMC免费文章][公共医学][谷歌学者]
5Salwinski L、Miller CS、Smith AJ等。相互作用蛋白质数据库:2004年更新。核酸。物件。2004;32(数据库问题):D449–D451。 [PMC免费文章][公共医学][谷歌学者]
6Alfarano C、Andrade CE、Anthony K等。生物分子相互作用网络数据库和相关工具2005年更新。核酸研究。2005;33(数据库问题):D418–D424。 [PMC免费文章][公共医学][谷歌学者]
7Isserlin R、El-Badrawi RA、Bader GD。PSI-MI 2.5中的生物分子相互作用网络数据库。数据库。2011doi:10.1093/database/baq039。[PMC免费文章][公共医学][谷歌学者]
8Keshava Prasad TS、Goel R、Kandasamy K等。人类蛋白质参考数据库–2009年更新。核酸。物件。2009;37(数据库问题):D767–D772。 [PMC免费文章][公共医学][谷歌学者]
9Cusick ME,Yu H,Smolyar A,等。文献报道的蛋白质相互作用数据集。自然方法。2009;6:39–46. [PMC免费文章][公共医学][谷歌学者]
10Orchard S、Kerrien S、Jones P等。以IMEx方式提交交互数据:无故障沉积的逐步指南。蛋白质组学。2007;7(补充1):28–34。[公共医学][谷歌学者]
11Kerrien S、Orchard S、Montecchi-Palazzi L等。拓宽HUPO-PSI格式分子相互作用的范围–2.5级。BMC生物。2007;5:44. [PMC免费文章][公共医学][谷歌学者]
12Markowetz F,Spang R.推断蜂窝网络——综述。BMC生物信息学。2007;8(补充6):S5。 [PMC免费文章][公共医学][谷歌学者]
13.Gomez SM,Choi K,Wu Y.蛋白质-蛋白质相互作用网络的预测。生物信息学的当前协议。2008;22:8.2.1–8.2.14.[公共医学][谷歌学者]
14Kanaan SP、Huang C、Wuchty S等。从多个蛋白质域组合推断蛋白质-蛋白质相互作用。方法分子生物学。2009;541:43–59.[公共医学][谷歌学者]
15.Lewis ACF、Saeed R、Deane CM。蛋白质进化背景下的蛋白质-蛋白质相互作用预测。分子生物晶体。2010;6:55–64.[公共医学][谷歌学者]
16Chautard E,Thierry Mieg N,Ricard Blum S.相互作用网络:从蛋白质功能到药物发现。回顾。病态。生物。2009;57:324–333.[公共医学][谷歌学者]
17Przytycka TM、Singh M、Slonim DK。走向动态交互组:是时候了。简介。生物信息。2010;11:15–29. [PMC免费文章][公共医学][谷歌学者]
18Ruepp A、Waegele B、Lechner M等,《珊瑚:哺乳动物蛋白质复合物的综合资源》,2009年。核酸研究。2010;38(数据库问题):D497–D501。 [PMC免费文章][公共医学][谷歌学者]
19Gldener U,Mnsterktter M,Oesterhold M,等。MPact:酵母上的MIPS蛋白质相互作用资源。核酸研究。2006;34(数据库问题):D436–D441。 [PMC免费文章][公共医学][谷歌学者]
20Pagel P、Kovac S、Oesterhold M等。MIPS哺乳动物蛋白质相互作用数据库。生物信息学。2005;21:832–834.[公共医学][谷歌学者]
21Brown KR,Jurisica I.在线预测人类交互数据库。生物信息学。2005;21:2076–2082.[公共医学][谷歌学者]
22.Razick S、Magklaras G、Donaldson IM。iRefIndex:具有来源的整合蛋白质相互作用数据库。BMC生物信息学。2008;9:405. [PMC免费文章][公共医学][谷歌学者]
23Turner B、Razick S、Turinsky AL等。iRefWeb:整合蛋白质相互作用数据的交互分析及其支持证据。数据库。2010doi:10.1093/database/baq023。[PMC免费文章][公共医学][谷歌学者]
24Turinsky AL、Razick S、Turner B等。蛋白质相互作用的文献管理:跨主要公共数据库的一致性测量。数据库。2010doi:10.1093/database/baq026。[PMC免费文章][公共医学][谷歌学者]
25StojmirovićA,Yu Y-K。ITM探针:分析蛋白质网络中的信息流。生物信息学。2009;25:2447–2449. [PMC免费文章][公共医学][谷歌学者]
26Maglott D、Ostell J、Pruitt KD等。Entrez基因:NCBI以基因为中心的信息。核酸研究。2011;39(数据库问题):D52–D577。 [PMC免费文章][公共医学][谷歌学者]
27UniProt财团。2010年的Universal Protein Resource(UniProt)。核酸研究。2010;38(数据库问题):D142–D148。 [PMC免费文章][公共医学][谷歌学者]
28Smith B、Ashburner M、Rosse C等,《海外建筑运营管理局铸造厂:支持生物医学数据集成的本体论协调进化》。自然生物技术。2007;25:1251–1255. [PMC免费文章][公共医学][谷歌学者]
29Tong AHY,Lesage G,Bader GD,等。酵母遗传相互作用网络的全球映射。科学。2004;303:808–813.[公共医学][谷歌学者]
30Collins SR、Kemmeren P、Zhao X-C等。酿酒酵母物理相互作用组的综合图谱。分子细胞。蛋白质组学。2007;6:439–450.[公共医学][谷歌学者]
31Gavin A-C、Aloy P、Grandi P等。蛋白质组调查揭示了酵母细胞机械的模块性。自然。2006;440:631–636.[公共医学][谷歌学者]
32Krogan NJ、Cagney G、Yu H等。酿酒酵母蛋白质复合物的全球景观。自然。2006;440:637–643.[公共医学][谷歌学者]
33Ashburner M、Ball CA、Blake JA等。基因本体论:生物学统一的工具。基因本体联盟。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]
34Alves G,Ogurtsov AY,Yu Y-K.RAId_DbS:基于质谱的肽识别网络服务器,具有知识集成。BMC基因组学。2008;9:505. [PMC免费文章][公共医学][谷歌学者]
35Hannich JT、Lewis A、Kroetz MB等人通过酿酒酵母中的多种方法定义相扑修饰的蛋白质组。生物学杂志。化学。2005;280:4102–4110.[公共医学][谷歌学者]
36Croft D、O'Kelly G、Wu G等。反应组:反应、途径和生物过程数据库。核酸研究。2011;39(数据库问题):D691–D697。 [PMC免费文章][公共医学][谷歌学者]
37Blaiseau PL,Thomas D.多重转录激活复合物将酵母激活物Met4连接到DNA。EMBO J。1998;17:6327–6336. [PMC免费文章][公共医学][谷歌学者]

文章来自数据库:《生物数据库与治疗杂志》由提供牛津大学出版社