摘要
简介
了解细胞内分子之间的物理和功能相互作用是现代生物学的主要目标之一。在过去的几十年里,已经发展了几种强大的技术,从不同的角度揭示生理交互网络的动态和复杂性。对这些相互作用的检索、组织和分析是理解细胞机制的基础。
在蛋白质相互作用领域,一些数据库已着手捕获科学文献中报告的信息,并将其组织为结构化格式,以便用户执行自动分析。然而,没有一个数据库有足够的资源来捕获和组织所有已发布的信息,用户只剩下查询多个数据库的任务,希望查询尽可能大的数据集。
整合来自不同数据库的蛋白质相互作用数据一直是一项挑战,直到2004年,HUPO蛋白质组学标准倡议(HUPO-PSI)发布了蛋白质组学规范倡议(PSI-MI)XML格式的分子相互作用本体(当前版本PSI-MI2.5)(1),表示分子相互作用数据的社区标准。迄今为止,PSI-MI格式已被30多个数据库广泛接受和实施,并得到软件工具的支持。交互作用的详细描述可以用这种格式获取,例如,相互作用蛋白质的生物和实验作用以及动力学参数。
PSI-MI标准允许公共数据库之间进行更好的合作,最终形成了国际分子交换(IMEx)联盟(http://imex.sourceforge.net/) (2)旨在分散收集大量交互数据的工作,避免重复工作。科学家现在可以使用单一数据格式从多个数据库下载并合并数据。薄荷(三)是IMEx联合体和IntAct的积极成员(4),下倾(5),矩阵数据库(6)、MPIDB(7)和InnateDB(8).
数据增长和统计
多年来,MINT数据库作为一种重要的科学资源得到了发展。平均每月向我们的服务器提交4000个查询,每年通过我们的网站下载数千条PPI记录。当前版本的MINT(2011年9月)包含从4786份手动管理的出版物和125 358个交互证据(IE)(235 635个非冗余交互对)中提取的记录。在过去的两年里,互动证据的数量稳步增加,策划出版物的数量也稳步增加(图1).
![薄荷生长。条形图显示了自2009年最新更新以来,MINT条目(A)和策展手稿(B)数量的增加。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/40/D1/10.1093_nar_gkr930/2/m_gkr930f1.jpeg?Expires=1722503351&Signature=A~7TAkt99rem3hktyBSWXvTOO57aSr4YyRxDcdPhB7Oo~YOudq~zdP8rjadMCOqU4vcD8GlpPFN~rxiTT3h-AmcEWDmjAdZWWTO08UrAsPpeNZyII2fG7CO~G5ItWi8EcoAfS4y5WdErECNyNDBjNeMitNj7BIEV0lAdPo4uMBGIyCaRx9bUdyosJr-r-grcmdBXKFpCAwZv2xWuB2oDWlME~OmtvCQVxKZ2naV0QdcWvxxTTEjRhiu1CGxmOKE411Shx-m68ZVEUjDS~c8NSIBIu5A9XodtuZkabQNh40Eqsr0d6fhyKp3qqWWDD2C28sATZF9CL3tI7MxYHyDUYw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
MINT增长。条形图说明了MINT条目数量的增加(A类)和策划的手稿(B类)自2009年最新更新以来。
MINT不专门研究选定的模式生物,在目前的版本中包含来自30多种不同物种的蛋白质之间的相互作用,例如智人(28 283 IE),小家鼠(4808 IE),褐家鼠(2804即),黑腹果蝇(23 534即),秀丽隐杆线虫(7402 IE),酿酒酵母(48 979 IE),大肠杆菌(4188 IE)和幽门螺杆菌(1635 IE)。
新型结构数字摘要
从2006年开始,MINT与FEBS Letters和FEBS Journal编辑委员会合作,旨在开发一种编辑程序,将蛋白质相互作用的每个手稿报告实验证据与结构化数字摘要(SDA)相结合。本文附在传统摘要之后,通过使用受控词汇表中预定义的单词总结了本文中描述的交互信息。此外,结构化句子被超链接到相关数据库(9).
这一开创性举措最初是基于让作者填写报告分子相互作用实验(MIMIx)所需的最低信息,从而在数据库记录中正确注释其实验证据的想法而构思的(10)电子表格。然而,这项任务并没有被证明是切实可行的,因为编辑们认为不应该给作者增加额外的“负担”,也因为稿件接受后与作者的通信导致出版过程延迟。因此,在最初的实验阶段之后,现在只要求作者检查并在必要时更正馆长的条目。
SDA旨在促进计算机自动检索蛋白质相互作用信息。同时,我们选择维护一个人类可读的结构。最近,通过从结构化句子中删除对数据库标识符的引用,同时维护到数据库的超链接,进一步增强了这一特性。与最初版本相比,新结构的数字摘要(补充图S1)对人类读者更友好,同时保持必要的严格性和受控词汇,以实现高效的自动检索。
货币政策
IMEx联盟成员不断审查注释政策,以满足蛋白质相互作用技术的发展和PSI-MI标准的演变。IMEx数据库开发并采用了通用的管理手册(http://imex.sourceforge.net/doc/imex-curationManual.doc),指定应捕获哪些信息以及如何表示这些信息。
根据该标准,所有条目都用丰富的实验细节进行注释,例如,交互所需的最小区域、影响交互的突变和修改、与实验中交互伙伴融合的标签。受控词汇(CV)的使用,主要是PSI-MI(1)允许捕获大多数相关的实验细节并标准化交互数据。这种标准化工作有助于交换已完成的记录和用户的分析。通过引入新术语、改进现有术语的描述和升级术语层次结构,定期维护和调整受控词汇。
IMEx数据库管理员在年会和大露营期间或通过使用跟踪器进行维护(https://sourceforge.net/tracker/?group_id=65472&atid=612426). 随着跟踪器的使用,有可能引入几个新术语。
作为IMEx成员,MINT致力于定期按照这一高标准策划FEBS Letters、FEBS Journal、EMBO Journal和EMBO Reports中发布的所有文章。按照IMEx标准整理的记录很容易识别,因为它们的出版物分配了IMEx ID。值得注意的是,MINT还包含不符合IMEx标准的记录,即注释过程中没有捕捉到所有交互证据或实验细节。这些记录大多与支持MINT的实验组感兴趣的主题相关的交互作用(域肽交互作用、病毒-宿主交互作用、磷酸酶交互作用等)。根据MIMIx标准,这些文章中的大多数都以较低的细节级别进行了注释。对于某些项目,记录只包含有关交互伙伴和用于支持交互的方法的信息。这种浅层管理标准被称为“快速管理”。为了避免混淆,所有新条目都标有一个标签,描述策划的覆盖范围(是否所有报告的交互都是策划的)和深度(捕获的实验细节数量)。由于描述管理深度的不同标签是IMEx、MIMIx或“快速管理”,而描述覆盖范围的标签是“完全”或“部分覆盖”(图2).
![“Curation-depth”和“Curation-coverge”。饼图显示了根据管理深度(A)和管理覆盖率(B)用不同标签标记的MINT条目的比例。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/40/D1/10.1093_nar_gkr930/2/m_gkr930f2.jpeg?Expires=1722503351&Signature=Z-1V6Mq~bsQmIC5wxkeHATCqJ~es70UC~DJDDJsAtoLA9qhoubqfWculS7TuzTTob0XGQwL8xpczKEvo87elld5uCWvbLw63Ipoj~mF95xuxsz7dOwwxyxpmzh8PK-NqXCynsV5WSCWlM6PhvHZ9upqX7Se1ge6xYbepYNPI3B7pH2wzLt5egM98oZIEt~NtfElQzvJa-cfXmS5ycNGtSyCRz2iSQ2BckJvvKHYXXu9XWdbtD7MG1pHU7pPXlUON4anUjDykvCTsXkPm6NilbwrEp2ImibAKTuS5O0nLRzZtD7iOUz59vvDtDb0Or0oWKXT-9V-lEYWYFU2Jz0LVWQ__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
‘Curation-depth和Curation-coverge.饼图显示了根据管理深度用不同标签标记的MINT条目的比例(A类)和策展报道(B类).
用户可以根据这些标记进行筛选,从而选择要用于分析的记录。在IMEx出现之前已经策划过的条目在等待审查并分配到正确的策划标准类别时可能仍然是未分类的
需要指出的是,标记为“快速管理”和/或“部分覆盖”的条目原则上与IMEx条目一样准确,并使用PSI-MI联盟推荐的相同受控词汇。
新功能
蛋白质组学标准倡议公共查询接口(PSICQUIC)(11)是一个旨在标准化对分子相互作用数据库的编程访问的项目。MINT已经实现了PSICQUIC服务。此外,自一年以来,在薄荷搜索页面上的任何蛋白质查询,除了生成mint数据库中注释的所有交互之外,还返回通过查询其他IMEx数据库的PSICQUIC web服务获得的结果(补充图S2).
如前所述,MINT包含针对不同注释深度和覆盖范围的条目。
为了在可下载的MITAB2.6文件中明确这一点,我们现在包含了一个“currion-depth”列,可以使用值“IMEx”、“MIMIX”或“rapid currion”。
评分系统
MINT是第一个将分数与每个交互关联起来的PPI数据库之一,该分数评估了交互的可靠性,给出了可用的实验证据(三,12).
最初的MINT分数是基于对可用证据进行启发式整合,形成“综合实验证据”x个然后通过公式Score=1−a将其映射到0–1区间−x个.
x个通过根据公式将所有证据相加来计算哪里我是一个遍历所有实验证据的索引,e(电子)是一个系数,取值为1表示直接交互作用的证据,取值为0.5表示只有两个伙伴之间的支持和关联(可能是间接的),而d反映了实验的规模。如果报告实验的文章描述了50多个交互作用,则实验被定义为大规模,否则被定义为小规模。对于小规模实验,该系数设置为1,对于大规模实验,设置为0.5。最后n个表示支持交互的报告证据的手稿数量。 我们最近决定修改评分算法,以纠正原始算法的一些偏见,并纳入考虑“社区认可/信任”的权重。
在新版分数中,我们引入了综合支持证据的概念年定义为j个支持给定交互的手稿。 每个支持手稿的重量S公司我R(右)我将两个系数相乘,每个系数从0到1不等,并反映实验证据的“有效性”(S)或评估科学界的认可度/信任度(R(右))分别。
为了获得S公司和R(右)我们首先计算s和第页定义为第页 = 规范化引用。在哪里?e(电子)与原始分数中的相同系数类似,根据支持交互作用的实验类型具有不同的值,并强调直接交互作用的证据(e(电子) = 1) 关于没有提供直接相互作用(即co-ip、下拉等)明确证据的实验支持(e(电子) = 0.5)或共同本地化(e(电子) = 0.1). 相反,第页是根据谷歌学者(Google Scholar)的数据,手稿收到的引文数量与手稿中报告的独立交互数量之比,再加上20(社区信任)。后一种标准化是考虑到描述大量交互的手稿具有较高的引用次数,这一数字会误导人们去衡量所报告的大量交互的信任度。 S和R是通过将实验支持S和支持手稿的归一化引文数R映射到0-1区间得到的。映射函数为类型一和b条根据经验设置为1.2。与原始MINT中使用的策略类似,对综合支持证据进行评分年根据函数在间隔0–1中映射 由于标准化参数是任意设置的,分数的绝对值不应解释为概率。然而,我们正计划制定可信交互的黄金标准,以支持概率方法。两种评分系统的密度分布如所示图3。旧分数和新分数都基于相同的实验证据,因此它们高度相关(0.7皮尔逊相关)也就不足为奇了。然而,将这两种评分系统应用于不同的交互,产生的排名列表可能会有很大差异。蛋白质相互作用领域的生物学家专家通过审查两个分数排名不同的一些相互作用,注意到新的分数倾向于对大量独立证据支持的高相互作用进行排名。此外,正如公式中所暗示的那样,低吞吐量高引用论文所报告的交互作用会提升到排名列表的更高级别。可以从网站下载的MITAB文件将旧分数和新分数关联到每个交互,而旧分数仍显示在网站上。
![评分系统。根据原始算法(a)或此处提出的算法(B),这两个条形图说明了作为分数函数的交互次数。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/40/D1/10.1093_nar_gkr930/2/m_gkr930f3.jpeg?Expires=1722503351&Signature=hPcFdY7UNwHdxjOidYYQT4uQiA4rSM58FSYNAONpaKZCBO5X8GQ6OK7G5677ytGfDFLzRVRr3-AIeIIiJw-jKuo9enLilPxh93stv3cehN4Apv1uX4tcYLKskWGeffWr40EMZRdoKBZBAk-c2Mnz5HlXFnnTcxRchW0nPPzgnnHPJ49pNt9faKqWt506tV8mVVui6d75bZ-dFk53NY4ZKfyGymLvPbYZ-G5xCROC8bR3kYtSnY~MvESWWqJQ8b7BQAge3c4IdjvZ8rcsd-EIfrVofs6UymVa8UF5cheKv5QIbOlr22D9aleavk90yuRbSn1cjHEuu5o3fjX0u5laOw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
评分系统.根据原始算法(a)或此处提出的算法(B),这两个条形图说明了作为分数函数的交互次数。
视角
MINT策展团队除了负责管理IMEx联盟指定的四种期刊(FEBS Letters、FEBS Journal、EMBO Journal和EMBO Reports)之外,还将继续负责管理报告模块域和/或蛋白质磷酸酶介导的相互作用的论文。
目前在MINT中注释的记录的一个局限性是,它们没有捕捉到交互作用的动态性质或一些其他复杂性,例如仅在特定上下文中发生或由变构效应介导的交互作用。MINT致力于扩展PSI-MI 2.5 XML格式,以充分捕获这种信息丰富性。
所有MINT条目都由专家馆长进行注释。然而,我们越来越意识到,鉴于目前的资金水平,这一策略不太可能成功获取所有公布的PPI信息。为了克服这一局限性,MINT有兴趣监控文本挖掘方法在自动捕获PPI信息中的性能。过去几年,MINT参与了BioCreAtIvE(生物学信息提取系统的关键评估)挑战(13)通过为评估活动提供手动管理的数据集。
结果表明,自动标注的覆盖范围和精度正在稳步提高(14). 在不久的将来,MINT可能会包含与另一个管理级别相对应的条目,在该级别中,自动提取的PPI信息在存储到数据库之前由专家管理员进行过滤和验证。
基金
开放获取费用的资金来源:意大利癌症研究协会(AIRC)项目编号10360,Telethon GGP09243和PSIMEx合同编号223411,属于FP7-HEALTH-2007B项目。
利益冲突声明。未声明。
参考文献
1, , , , , , , , , 等拓宽HUPO-PSI格式分子相互作用的范围–2.5级
, BMC生物。
, 2007
,卷。 5
第页。 44
2, , , , , , , . 以IMEx方式提交交互数据:无故障沉积的分步指南
, 蛋白质组学
, 2007
,卷。 7
补充1
(第28
-34
) 三, , , , , , , . MINT,分子相互作用数据库:2009年更新
, 核酸研究。
, 2010
,卷。 38
(第D532型
-D539型
) 4, , , , , , , , , 等2010年IntAct分子相互作用数据库
, 核酸研究。
, 2010
,卷。 38
(第D525型
-D531型
) 5, , , , , . 相互作用蛋白质数据库:2004年更新
, 核酸研究。
, 2004
,卷。 32
(第D449号
-D451号
) 6, , , , . MatrixDB,细胞外基质相互作用数据库
, 核酸研究。
, 2011
,卷。 39
(第D235型
-D240型
) 7, , , , , . MPIDB:微生物蛋白质相互作用数据库
, 生物信息学
, 2008
,卷。 24
(第1743
-1744
) 8, , , , , , , , , 等InnateDB:促进哺乳动物先天免疫反应的系统级分析
, 摩尔系统。生物。
, 2008
,卷。 4
第页。 218
9, , , . 将蛋白质相互作用数据库中的条目链接到结构化文本:FEBS Letters实验
, FEBS信函。
, 2008
,卷。 582
(第1171
-1177
) 10, , , , , , , , , 等报告分子相互作用实验(MIMIx)所需的最少信息
, 自然生物技术。
, 2007
,卷。 25
(第894
-898
) 11, , , , , , , , , 等PSICQUIC和PSISCORE:评估和评分分子相互作用
, 自然方法
,卷。 8
(第528
-529
) 12, , , . 蛋白质相互作用:整合导致信念
, 生物化学趋势。科学。
, 2008
,卷。 33
(第241
-242
) 13, , , . BioCreAtIvE概述:生物学信息提取的关键评估
, BMC生物信息学
, 2005
,卷。 6
补充1
第页S1(第一阶段)
14, , , , , , , , . FEBS Letters/BioCreative II.5实验:使生物信息可访问
, 自然生物技术。
,卷。 28
(第897
-899
)
作者注释
©作者2011。牛津大学出版社出版。
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。