摘要
蛋白质磷酸化是一种可逆的翻译后修饰,其中蛋白激酶向蛋白质中添加磷酸基团,可能调节其功能、定位和/或活性。磷酸化可以影响蛋白质-蛋白质相互作用(PPIs),消除与先前结合伴侣的相互作用或实现新的相互作用。从科学文献中提取磷酸化信息和PPI信息将有助于建立激酶、底物和相互作用伙伴的磷酸化相互作用网络,从而发现蛋白质磷酸化的功能结果。PPI数据库对捕捉相互作用伙伴的磷酸化状态越来越感兴趣。我们之前开发了eFIP(提取磷酸化的功能影响)文本挖掘系统,用于识别磷酸化蛋白和磷酸化依赖性PPI。在这项工作中,我们为eFIP系统提供了几个增强功能:(i)从PubMed Central开放存取集合中挖掘全文;(ii)RLIMS-P2.0系统的集成,用于提取磷酸化事件与激酶、底物和位点信息;(iii)使用描述交互的新触发词/短语扩展PPI模块,以及(iv)添加用于句子简化的iSimp工具,以帮助匹配句法模式。我们增强了网站功能以:(i)支持基于蛋白质角色(激酶、底物、相互作用伙伴)或使用关键字的搜索;(ii)如果映射,将蛋白质实体链接到相应的UniProt标识符,以及(iii)支持使用Cytoscape可视化探索磷酸化相互作用网络。eFIP对全长文章的评价在100篇文章中达到了92.4%的准确率、76.5%的召回率和83.7%的F-measure。为了证明eFIP用于知识提取和发现,我们构建了磷酸化依赖性相互作用网络,涉及从癌症相关和糖尿病相关文章中识别的14‐3‐3蛋白。通过eFIP搜索获得的激酶、磷酸蛋白和相互作用物的磷酸化相互作用网络的比较,以及蛋白质集的富集分析,揭示了几种共享的相互作用,突出了在这两种疾病的背景下讨论的共同途径。
数据库URL:http://proteininformationresource.org/efip
介绍
蛋白质磷酸化是一种可逆的翻译后修饰(PTM),通过蛋白激酶将磷酸基团添加到蛋白质中。涉及磷酸化蛋白质的蛋白质相互作用数据对于理解蛋白质网络和预测功能结果至关重要。蛋白质可以在不同的残基上磷酸化,从而激活或下调其活性、替代亚细胞位置和/或与不同的结合伙伴相互作用。策划蛋白质-蛋白质相互作用(PPI)的知识库对捕获上下文信息越来越感兴趣,例如相互作用物的磷酸化状态。特别是,蛋白质本体(PRO)正在进行管理工作(1)为磷酸化蛋白质组创建本体术语并管理其属性,包括PPI。为了促进这一点,我们以前开发了一个文本挖掘工具,称为eFIP-提取磷酸化的功能影响(2). 我们注意到,涉及磷酸化蛋白质的蛋白质相互作用数据在科学文献中非常丰富,并且可以使用基于模式的规则高精度地自动提取。eFIP的肯定句示例如下:
“这些数据表明Bax Thr167被磷酸化对细胞因子治疗的反应,以及Thr167磷酸化便利Bax绑定到Pin1’(PMC 2847832)
磷酸化和相互作用以粗体强调,磷酸化对相互作用的影响以斜体强调。从这句话中,eFIP提取‘Bax’作为底物(磷酸化蛋白),‘Thr167’作为磷酸化位点,‘Pin1’作为相互作用蛋白,‘促进’作为磷酸化对PPI的影响。eFIP的工作原理是首先检测到涉及磷酸化蛋白的磷酸化和PPI。eFIP捕获的PPI类型包括两个蛋白质之间的相互作用,或蛋白质与蛋白质复合体、蛋白质区域或蛋白质类之间的相互影响。一旦检测到磷酸化和PPI,第二步是确定这两个事件之间的可能关系。
本文中所报告的工作是由eFIP系统参与BioCreative-2012研讨会轨道III-交互式文本挖掘期间收到的反馈激发的(三). eFIP测试扩展到研究人员和科学家,而不是公共科研机构的信息管理人员(2).
针对用户的反馈,这项工作的主要贡献是:(i)全面处理PubMed Central开放存取(PMC OA)数据库中的全长文章;(ii)PPI模块的增强,以包括用于PPI的附加单词/短语;(iii)将句子简化器iSimp纳入管道(4,5)在提取磷酸化-PPI关系时提高召回率;(iv)合并最新版本的RLIMS-P系统[RLIMS-P2.0(6,7)]磷酸化事件提取;(v) 增强网站功能,允许用户搜索特定激酶、底物、相互作用蛋白、关键字或文档ID列表;(vi)通过Cytoscape软件包可视化相互作用蛋白质网络(8); (vii)通过GenNorm系统纳入基因标准化(9); (viii)对eFIP系统的全长文章进行评估,以及(ix)从全长文件中随机选择的100个章节中的注释数据语料库,其中包含272个独特的注释。
我们将首先描述eFIP系统,然后根据从PMC OA全文文章中提取的信息给出系统评估结果。最后,我们将重点介绍用户界面的各个方面,并提供一个基于与14‐3‐3蛋白家族成员相互作用的磷酸蛋白的用例场景。
相关工作
据我们所知,没有其他系统可以提取与eFIP整体相同的信息。然而,不同的系统处理单个任务。
为了检测磷酸化事件,我们确认了MinePhos(10),维西的作品等。(11)萨里奇的作品等。(12)以及参与BioNLP 2011共享任务的系统(13). 我们选择了RLIMS-P系统(6,7)因为它已经用涵盖描述磷酸化事件的各种表达的语料库进行了评估;它从多个句子中提取信息;最近,它通过新的通用规则进行了改进,提高了其性能,并允许扩展到其他翻译后修改。
对于PPI事件的检测,我们认可Papanikolaou描述的系统等。(14)以及AkaneRE系统(15)和铃木(16). 其中四个系统目前可作为独立系统使用[BioRAT(17),打开DMAP(18),PPI萃取器(19)和PPLook(20)],其中两个在我们开始创建eFIP系统时可用。然而,我们无法轻易地将它们整合到我们的管道中,以满足我们的需求,因为我们需要寻找特定类型的相互作用蛋白质PPI。为此,我们开发了自己的内部系统,该系统基于触发器并使用基于模式的规则。
为了检测事件之间的时间和因果关系,我们承认拉帕塔和拉斯卡里德斯的工作(21),马尼等。(22)、Girju(23)、布兰科等。(24)拉加万等。(25)、Miwa等。(26),范德霍恩等。(27)和Mihăilă等。(28). 由于eFIP侧重于磷酸化和涉及磷酸化蛋白的PPI事件之间的特定类型的时间和因果关系,因此如果不考虑特定于此情况的其他规则,就无法使用这些更通用的方法。
材料和方法
本节描述了eFIP方法的三个不同方面:(i)eFIP提取系统;(ii)在线界面和(iii)用例的开发。前两个步骤如所示图1MEDLINE摘要和PMC OA文章用于全面挖掘磷酸化和PPI事件。首先检测到磷酸化事件,然后检测到涉及磷酸化蛋白的PPI。由于eFIP旨在提取磷酸化对涉及底物的PPI的影响,我们接下来确定了这两个事件的时间顺序,然后提取了潜在的因果关系。参与磷酸化和PPI事件的所有蛋白质均归一化为UniProt知识库,信息存储在本地数据库中。为了搜索、浏览、可视化和下载文本搜索结果,我们创建了一个公开网站:http://proteininformationresource.org/efip.
![eFIP文本挖掘系统的管道:检查摘要和开放获取的全长文章的磷酸化(P)提及(1)、PPI事件(2)以及这两个事件之间的时间/因果关系(3,4)。参与磷酸化和PPI事件的所有蛋白质均归一化为UniProtKB(5),信息存储在本地数据库中(6)。用户可以通过web界面(7)搜索和浏览信息,在Cytoscape视图(8)中查看结果,或以CSV(逗号分隔值)文件格式(9)下载信息。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f1p.gif?Expires=1722487593&Signature=ew8nIoIK8vwBgglewOvB9YP4SCOKARzciDRjXzuTIakWyDMAVodbjeiOFA4jouGKQoJjxbgimWjaiFh31ApH28lDEFfN~oMws4qT3zqex1XBIWx0gM1FJRDoCcm7kRmvbx-aUdPK06a4x5PORk~J~n4NZFRYYzO3P0GFrVicU4qyfGlwB2IMiXeU1sPkXsO3y-hnf0Hbmgm4u~5xTmVN3tzfRtau0iXaPb0I1bUNyAbXQiB~ryGrC-0p69EYkz0whtScZXEqftuAHpX9NtmBQ~GsyOV1NzQSDl1b8SF1w7arHtbNYfRbD995nicY08ljiQRiulGtGiuVQfWGHwht0A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
eFIP文本挖掘系统的流水线:对摘要和开放存取的全文文章进行了磷酸化(P)提及(1)、PPI事件(2)以及这两个事件之间的时间/因果关系(3,4)检查。参与磷酸化和PPI事件的所有蛋白质均归一化为UniProtKB(5),信息存储在本地数据库中(6)。用户可以通过web界面(7)搜索和浏览信息,在Cytoscape视图(8)中查看结果,或以CSV(逗号分隔值)文件格式(9)下载信息。
提取磷酸化事件
在这个步骤中,我们使用了RLIMS-P2.0系统(6,7). RLIMS-P是一个基于规则的磷酸化信息提取系统,用于识别形式<激酶、底物、位点>的元组。例如,元组<Akt、Chk1、Ser280>由RLIMS-P从以下句子中提取:
‘[检查1]_基底是直接的[磷酸化的] [阿克特]_激酶在[Ser280系列]_网站,导致细胞质隔离的修饰。(PMC 3317191)
RLIMS-P使用了结合不同句子中信息的技术,因为很少在同一个句子中发现三个宾语(激酶、底物和位点)。该系统本身是一个独立的文本挖掘工具,位于以下URL:http://research.bioinformatics.udel.edu/rlmsp.
提取PPI事件
对于PPI事件的提取,我们使用内部基于规则的工具,该工具提取蛋白质之间的相互作用,以及蛋白质与蛋白质复合体、蛋白质区域或蛋白质类之间的相互影响。PPI工具提取格式为<first_interactant、second_interactent、type_of_PPI>的元组。例如,<BIMEL公司,BAX,交互>由PPI工具从以下句子中提取:
'BSO诱导[相互作用]_PPI类型磷酸化的[比姆EL公司]_相互作用的带有[行李]_相互作用的’.(PMC 4029189)
该工具是基于触发器的,这意味着只有包含特定类型交互作用的句子才被考虑用于提取结合蛋白。尽管之前,PPI的提取基于以下触发词:“结合”、“相互作用”、“复合物”、“关联”、“分离”、“二聚体”及其文本变体,但在这项工作中,我们增强了PPI工具,以提取使用其他触发词描述的PPI:“亲和力”、,“沉淀”、“招募”、“释放”和“隔离”,以及它们的文本变体。有关此工具的更多信息,请读者参阅我们以前的工作(2). 提取磷酸化→PPI影响
在eFIP系统的前一份出版物中详细描述了碰撞模块(2). 在这里,我们将通过示例进行简要总结,并重点介绍iSimp的添加(4,5)用于句子简化。
影响模块的目标是找到有关磷酸化蛋白质与其他蛋白质相互作用能力的信息。为此,我们首先需要在同一句话中找到提及磷酸化事件和提及涉及磷酸化蛋白的PPI事件。下一步是检测磷酸化事件是否发生在PPI事件之前(时间关系),如果是,磷酸化事件能否引起PPI事件的任何变化(因果关系)。在下面的句子中可以看到一个简单的时间关系:
‘磷酸化BIM公司EL公司是分离的从MCL1公司和相互影响的具有行李’(下午4029189)
关于磷酸化BIM的一个更复杂的句子EL公司显示了MCL1磷酸化后与MCL1的相互作用被破坏,而与BAX的相互作用在磷酸化后增加:‘添加BSO通过磷酸化属于BIM公司EL公司和MCL-1型,导致他们的离解、和增加这个相互作用之间BIM公司EL公司和行李’(PMC 4029189)
上述句子很复杂,有两个原因:(i)离解的蛋白质由代词“their”表示,这要求在“their(他们)”和“BIM(BIM)”之间进行参照解析EL公司‘和’MCL-1’;和(ii)一个磷酸化事件影响连接中提到的两个PPI事件(即通过连接“和”连接的解离和相互作用)。我们可以设计一个句法模式,寻找影响句子中两个PPI事件的磷酸化事件。然而,这并不是最好的解决方案,因为每个独特的复杂句子都需要设计一个独特的句法模式来从句子中提取信息,并且考虑到写作风格的多样性,这种模式的数量可能会成倍增长。出于这个原因,我们决定只关注一些简单的句法模式,这些模式在简单的句法结构上具有很高的精确度,并将复杂的句子分解为多个简单的句子,以提高回忆能力。当运行上述句子时,我们的工具iSimp生成以下三个简单的句子。
添加BSO诱导线粒体损伤介导的细胞凋亡磷酸化属于BIM公司EL公司和MCL-1型.
这个磷酸化属于BIM公司EL公司和MCL-1型中的个结果他们的离解.
这个磷酸化属于BIM公司EL公司和MCL-1型增加这个相互作用之间BIM公司EL公司和行李.
使用简单的模式,影响模块将从第二句中提取磷酸化导致分离,从第三句中提取磷酸化增加相互作用。iSimp不仅检测连词,还检测列表、关系子句、同位语以及这些结构嵌套的某些情况。彭等人的作品对此进行了详细解释。(4,5).
将蛋白质名称链接到UniProtKB
使用GenNorm系统对蛋白质名称(激酶、底物和相互作用物)进行标准化(9). 此步骤在此版本的eFIP中是新增的。GenNorm被评为生物创意III的一部分,排名第二。结果显示,金标准组的F测量值为46.56,银标准组为55.09,共有507篇文章。我们还对GenNorm进行了本地评估。在一组100个随机选择的摘要中,我们获得了与BioCreative III中报告的结果非常相似的结果。然而,当从提到磷酸化信息的摘要中随机选择100个摘要进行评估时,GenNorm表现得更好,精确度为93.5,召回率为66,F-measure为77.4。
大规模加工
MEDLINE摘要和PMC OA文章在本地编入索引,以便使用Lucene索引器的内部改编进行快速检索(29). 本文中的数字反映了截至2014年9月的语料库。共有21 900 340篇非空摘要和576 494篇非空全文文章被成功索引。PMC文章被进一步拆分为多个子部分,如中所示图2,共产生了12357367个小节(或每篇21.5个小节),类型不同(例如,引言vs.结果vs.图片标题)。
![文章中的章节和小节示例。一篇文章中的节点和标题一样多。然而,如果在两个标题之间找不到文本,则文章中实际小节的数量可能会更低(例如,由于结果标题下和“PP1与PLN的关联和PKA的影响”标题之前没有文本,因此结果小节不存在)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f2p.gif?Expires=1722487593&Signature=e5-9TfpVvjI9nzKWz-o4fD4DpBxzTiqPqa2L9Uqf8EBBtyTsjN9XSFZKWIAQvVHJtGB0vvBXh8xwKRQqHr6kqbC8eZ-kAY6HsZv47aN4tXyppM~~q6AiD7xalMQVUZU2AbtWGFPhpq94UaPQry0smao8R-X5ITwR9mvFFSigc~eED86x1f2AZXzNVTjWH3z-2xvBNnl04ransAOXd20fOJ8Is03zYiYWtw15Hm2mMKkXq7tlmPdzIAR0Z-bu5qSi-V9xpKLrglFEKThi19DeylRgNnb4Shx4JouEktffWmTyfxEftvwoxQoz7luDMh~1XNlh4RB1ZlL60UV7qXzGyg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
文章中的章节和小节示例。一篇文章中的节点和标题一样多。然而,如果在两个标题之间找不到文本,则文章中实际小节的数量可能会更低(例如,由于结果标题下和“PP1与PLN的关联和PKA的影响”标题之前没有文本,因此结果小节不存在)。
我们编写了一个内部XML解析器,将文章分为几个小节,因为我们用于提取磷酸化事件的模块是为摘要编写的(或者,通常是包含磷酸化事件所有必要信息的简短部分)。因此,我们希望将我们的代码从摘要推广到文章中的其他类型的部分。我们注意到将一篇文章拆分为多个小节的其他优点,主要与从各种类型的小节中提取的信息相关联的信心和确定性有关。例如,从来自结果小节的句子中提取的信息可能被标记为具有比从来自引言部分的句子中提取的信息高得多的置信度分数。然后,这些置信度得分可用于显示从排名列表中的一篇文章中提取的信息,或用于解决论文之间的潜在冲突。在不久的将来,我们将继续分配信心分数。
在我们的工作中,小节被视为任何标题以及文章中紧接着下一个标题之前出现的文本。例如,“摘要”小节由摘要标题和“简介”标题之间的文本组成。同样,标题“GST下拉分析”以及中“GST拉下分析”和“Blot overlay分析”标题之间的文本图2构成一个小节。对于每个小节,我们还将父节点的标题/标题关联起来,因为这些标题/标题可能包含补充实际文本的重要信息。因此,文章本身的标题总是与每个小节一起列出,而主要章节的标题,如“结果”也会在小节中进行。根据子节父级的标题或原始XML文件中指定的子节类型,为每个子节分配一个类型。如果无法确定类型,或者因为在XML文件中找不到注释,或者因为父节的标题不是典型的“简介”、“结果”、“讨论”等,则会将“其他”类型指定给该子节。在当地PMC指数中,分部的类型及其分布如下:摘要(8%)、介绍(4.2%)、背景(1.5%)、方法和材料(24%)、结果(16.5%)、讨论(6%)、结论(1.6%)、图(21%)和其他(17.2%)。这可以在中看到图3.
![eFIP结果(蓝色)、RLIMS-P结果(红色)和整个PMC OA收集(绿色)中的小节分布。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f3p.gif?Expires=1722487593&Signature=HbRw41Z0gyBXAw7hU7EC7Zkdhq7yf3ys7gz0q54kEqeC~9Qy-s1RJIFKeuornlcBfYMYFLZYxpRjTZR009NOiH2vJ2sHea5Wk8QYAUrD7ns209IalO7AnU2-AtfAMZvjUA4FFwLSB~f33fh-rKOwvDmuMF9CMIJANrmAcjtJW~ZrnOp5d666bLm-CsnkE0Qhq-rsLFqVd9bH5diJPh8e4lnKA2HkMLr5f4ZS1GTKh5NbIETf1ASPOQmZE45FtlPJgqroEd6YqqXFqFYCtZ7WdkOQgZbrFBowArrSpsGE~x-FZWAm3MR2dEI73GLkxtpNFrK5waMQczfNo1MqVBUFoQ__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
eFIP结果(蓝色)、RLIMS-P结果(红色)和整个PMC OA收集(绿色)中的小节分布。
创建评估语料库
为了评估全长文档,我们从PMC OA文章中选择了100个子部分。分段是以随机的方式一个接一个地选择的。一些小节被过滤掉了,因此剩下的100个小节跨越了2000年至2014年的文章,在一定程度上遵循了eFIP结果的分段分布。这个选择过程产生了24个结果、21个讨论、18个其他、17个图片说明、13个简介、5个背景和2个方法和材料部分。本次评估未考虑抽象部分,因为它们在之前的工作中进行了评估。
向PRO数据库的三位生物验证器展示了这些子部分,他们熟悉eFIP系统的输出格式。这三位生物化学家都拥有生物科学博士学位。为了避免任何潜在的偏差,生物验证器没有获得系统的结果,也不允许他们查看eFIP结果。对所有三种生物清除剂进行的初始测试表明,吸入剂之间的一致性为100%。因此,注释者被赋予不同的小节进行注释,但鼓励他们在有疑问时相互讨论结果。两个生物固化器分别注释了25个小节,另一个注释了50个小节。平均而言,每个生物固化器每10个子部分花费2小时。整个语料库累计花费了20小时。金标准语料库包含有关磷酸化事件(激酶、底物位点)和每个小节中发现的相互作用事件(底物的相互作用伙伴、PPI类型、关系类型)的信息,可以从http://research.bioinformatics.udel.edu/eFIPonline/Corpus.zip.
14‐3‐3蛋白质用例
eFIP通过eFIP web界面使用搜索/查询词“14-3和癌症”和“14-3与糖尿病”进行查询。结果由受试者查看,受试者为14‐3或其中一种14‐3isoforms(例如,14-3‐3beta)的结果通过手动检查附带的文本证据进行验证。合并了冗余结果。独特交互列表见补充表S1使用Cytoscape 3.1.1创建网络视图(30). KinBase用于鉴定激酶家族(31). 使用DAVID web界面执行功能注释聚类(http://david.abcc.ncifcrf.gov/) (32)具有“高”分类严格性和所有其他默认设置参数。选择富集分数>2.5的聚类和Benjamini–Hochberg分数<0.05的聚类中的术语显示在树状图中。根据对集群中术语中主要过程/途径的手动评估,选择集群名称。树映射是使用R创建的(版本3.0.3;http://www.r-project.org/)树映射函数。有关丰富术语的信息,包括对值和相关基因,见补充表S2.
评估指标
eFIP在文档级别和信息提取方面的准确性根据精确度进行了评估(对),召回(R(右))和F-measure(F类). 我们在这里定义这些度量:其中,真阳性(TP)是eFIP正确发现为阳性的文档/信息的数量,真阴性(TN)是eFIP正确发现的为阴性的文档/消息的数量,假阳性(FP)是eFIP错误标记为阳性和假阴性(FN)的文档/信息的数量eFIP未能标记为正数的文档/信息数。 结果和讨论
在本节中,我们将介绍以下内容:(i)eFIP中处理的全长文章的统计数据;(ii)eFIP对全长文章的评估结果;(iii)增强eFIP网络界面的描述和(iv)在两种疾病背景下探索14-3-3蛋白及其磷酸化结合伙伴的用例。
eFIP统计结果为全文文章
大约67 084篇PMC文章和220 628篇MEDLINE摘要包含磷酸化触发因子。其中,77.6%的PMC文章和74.7%的MEDLINE摘要使用RLIMS-P系统发现含有磷酸化事件。大约5866篇PMC文章(或19 341小节)和7441篇MEDLINE摘要包含了涉及磷酸化蛋白质的PPI信息,共产生了23 244个含有磷酸化PPI信息的句子。使用GenNorm系统,我们能够将蛋白质与PMC文章中的6861个独特的UniProtKB条目(2610个独特的激酶、6281个独特的底物和2469个独特的相互作用蛋白)以及MEDLINE摘要中的16195个独特的UniProtKB条目(5516个独特的激酶、15086个独特的底物和6040个独特的相互作用蛋白)联系起来。
图3显示了eFIP从不同类型子部分的全文文章中提取的结果的分布。共有7877个小节(涵盖5866篇不同文章)包含与eFIP相关的磷酸化-PPI关系:2098(26%)讨论小节,1784(23%)结果小节,1166(15%)介绍小节,646(8%)图片标题,292(4%)背景小节,85(1%)摘要,64(1%)方法和材料小节、34(<1%)结论小节和1708(22%)其他小节。在5866篇eFIP阳性的全长文章中,5789篇(98.7%)在摘要部分没有包含任何信息,这表明如果有全长文章可用,MEDLINE中还有更多的文章是eFIP阴性。RLIMS-P阳性的文章也观察到类似的结果,52 063篇文章中有47 822篇(91.9%)摘要中缺乏磷酸化信息。
PMC子章节评估
共有272个注释被生物验证器标记为eFIP阳性,即包含与eFIP相关的磷酸化-PPI关系,其中77个注释包含时间关系,195个注释包含因果关系。在所有272个元组中注释底物和相互作用蛋白信息。然而,只有118个注释包含激酶信息,只有134个注释含有磷酸化位点信息。我们进行了两次评估,如表1.
评估类型. | 全部. | TP(转移定价). | TN公司. | FP公司. | FN公司. | 对. | R(右). | F类. |
---|
分段级别 | 100 | 89 | 4 | 7 | 0 | 92.7 | 100 | 96.2 |
信息级别 | 289 | 208 | 不适用 | 17 | 64 | 92.4 | 76.5 | 83.7 |
评估类型. | 全部. | TP(转移定价). | TN公司. | FP公司. | FN公司. | 对. | R(右). | F类. |
---|
分段级别 | 100 | 89 | 4 | 7 | 0 | 92.7 | 100 | 96.2 |
信息级别 | 289 | 208 | 不适用 | 17 | 64 | 92.4 | 76.5 | 83.7 |
评估类型. | 全部. | TP(转移定价). | TN公司. | FP公司. | FN公司. | 对. | R(右). | F类. |
---|
分段级别 | 100 | 89 | 4 | 7 | 0 | 92.7 | 100 | 96.2 |
信息级别 | 289 | 208 | 不适用 | 17 | 64 | 92.4 | 76.5 | 83.7 |
评估类型. | 全部. | TP(转移定价). | TN公司. | FP公司. | FN公司. | 对. | R(右). | F类. |
---|
分段级别 | 100 | 89 | 4 | 7 | 0 | 92.7 | 100 | 96.2 |
信息级别 | 289 | 208 | 不适用 | 17 | 64 | 92.4 | 76.5 | 83.7 |
首先,我们查看了eFIP系统正确识别的包含相关<激酶、底物、位点、相互作用物、关系类型>元组的子段数量。对于策展人来说,展示相关文章或小节可能足以帮助策展过程。关于金标准,100个小节中有93个小节被正确识别为阳性或阴性,7个小节被错误识别为阳性。这导致在分段级别上的精确度为92.7,召回率为100,F-measure为96.2。
其次,我们查看了这些小节中正确识别的信息量。为此,我们考虑了由eFIP标识和/或由注释器标记的所有唯一元组。从策展人标记的总共272个独特的<激酶、底物、位点、相互作用物、关系类型>元组中,eFIP正确地识别出208个阳性元组(TP)和64个缺失元组(FN)。此外,它错误地将17个元组标识为正(FP),从而为我们提供了总共289个唯一的元组进行评估。这导致了92.4的准确率、76.5的召回率和83.7的F测量值。
请注意,我们已将eFIP评估为端到端系统。部分语音标记、解析或其中一个组件(例如RLIMS-P、PPI模块、iSimp或碰撞模块)的任何错误都可能导致eFIP错误。所有假阳性(17)都归因于影响模块,其中方向性实际上是相反的(即首先是交互事件,其次是磷酸化事件)或不存在。全文文章的写作风格与摘要不同(33). 我们观察到许多复杂的句子超出了我们的句子简化器的掌握范围,嵌套了大量的结构,并结合了各种磷酸化和PPI事件。我们将28个回忆错误归因于高度复杂的句子。其余假阴性是由于RLIMS-P未能正确提取磷酸化事件或底物(15)、PPI模块未能识别PPI事件或正确的相互作用蛋白(16)以及影响模块未能检测到影响(5)。在eFIP遗漏的~85%的元组中,信息在整个小节中只被提及一次,这表明只要信息在一个小节中被多次提及,eFIP几乎总是能够提取它。这并不是说eFIP只有在小节中多次提及时才正确提取信息。事实上,208个真正元组中的134个只在各自的小节中提到过一次。
Web界面和用户交互
eFIP参与BioCreative-2012研讨会后,跟踪III-交互式文本挖掘(三),我们集中精力关注用户对与web界面交互的满意度。新网站由五个主要页面组成:主页(或搜索页面)、摘要页面(或结果页面)、文本证据页面(或文档页面)、Cytoscape视图页面和登录屏幕,便于验证结果。网站截图如所示图4.
![eFIP web界面快照。搜索页面(左上角)允许各种搜索条件。结果页面(右上角)显示有关搜索条件中找到的文档、激酶、底物、位点和相互作用蛋白数量的统计信息,以及可在各种视图中显示的提取信息表。文档页面(右中)显示有关文档的信息:标题、作者、期刊、ID,以及从文档中提取的信息表。文档页面继续显示基因规范化信息(左下角)和用相应颜色突出显示的实际句子,包括激酶、底物、位点、相互作用和触发词(右下角)。文件中相互作用蛋白质网络的细胞景观视图(左中)可以在单独的窗口中看到。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f4p.gif?Expires=1722487593&Signature=N0l3pssVw9yt5nVrRzwvcfchLQ-Js3xgUG-zLg1o--yUx4o~IQGxIyRahFzscvdAT6gPq-QaroCuOLHvHzMpksP~~y9tU6WxaWZR7CB8SlXR678a2nwYYRAzCzYRF2XFz-gLyU-iXs~7kkA5bBXCup7GTvYAo40cxWBWKXWU5eI9V4~i9EBc89U8KTn5rvI1omXzI5Ht7zU6swQzW3Y3Wj9Zfhub3qP5pmW5kHynzRbUWm5s8oDoxml1X80NDLPsFhCbeuyBt4-Ocq6Koe6d7PIzOhiPlpCaPRAZpgG0Fr2NROXycEukXeEqBG37wuwY43h41igyoPSOo~CkOHgp8A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4。
eFIP web界面快照。搜索页面(左上角)允许各种搜索条件。结果页面(右上角)显示有关搜索条件中找到的文档、激酶、底物、位点和相互作用蛋白数量的统计信息,以及可在各种视图中显示的提取信息表。文档页面(右中)显示有关文档的信息:标题、作者、期刊、ID,以及从文档中提取的信息表。文档页面继续显示基因规范化信息(左下角)和用相应颜色突出显示的实际句子,包括激酶、底物、位点、相互作用和触发词(右下角)。文件中相互作用蛋白质网络的细胞景观视图(左中)可以在单独的窗口中看到。
搜索页面允许各种搜索条件。可以使用布尔运算符组合关键字或短语。此输入用于查询PubMed,然后将结果文档与存储在本地数据库中的结果相交。用户可以搜索蛋白质及其角色(激酶、底物、相互作用伙伴或任何角色)。因为蛋白质有很多名称,所以我们允许搜索所有同义词,由布尔运算符OR分隔。一个示例查询是“Bax OR Bcl2-associated protein OR BCL2L4”。请注意,用户可以通过这种方式搜索多种蛋白质。或者,用户也可以提供PMID(PubMed标识符)或PMCID(PubMed中央标识符)的列表,用逗号、空格或新行分隔。
在结果页面的顶部,可以看到搜索标准中找到的文档、激酶、底物、位点和相互作用蛋白数量的统计数据。如果需要,可以下载文档ID(标识符)。实际结果以表格形式显示在统计数据下方。可以使用不同的结果视图:按激酶、按底物、按交互物或按文档ID。表中显示的结果可以下载,并且以逗号分隔的文件中信息的顺序将根据下载的视图而不同。
单击“文本证据”图标将用户带到文档页面。本页顶部提供了有关文档的基本信息:标题、作者、期刊、出版年份和文档ID。如果文档是一篇全长文章,那么各个部分将列在下拉列表中,这样用户可以选择只关注一个子部分,而不是整个文档。激酶、底物、位点、相互作用物、分段类型、影响细节和句子编号以表格形式显示。单击任何一行将突出显示下面的实际句子,该信息是从中提取的。句子显示在页面底部,相关信息的颜色与表中相同(绿色代表激酶,蓝色代表底物,红色代表位点,橙色代表其他相互作用蛋白)。只要可能,蛋白质也会标准化为UniProt标识符,并显示在结果表下方。
点击页面顶部的“查看细胞景观视图”链接将打开一个新窗口,所有蛋白质(激酶、底物、相互作用的伴侣)都显示在一张图中。激酶以绿色五边形显示,代表磷酸化事件的箭头以绿色绘制。基板和相应位置用红色圆圈表示。它们通过灰色线与相应的非磷酸化蛋白相连,如蓝色圆圈所示。最后,相互作用的蛋白质显示为橙色圆圈,在结合的情况下通过橙色直线与磷酸化蛋白质相连,在分离的情况下则通过橙色虚线与磷酸化蛋白相连。每当影响表明这两种蛋白质的结合增加时,就会显示“+”。相反,当影响表明两种蛋白质的结合减少时,显示“−”。将鼠标悬停在图中的任何节点上,将仅高亮显示与初始节点连接的节点和边,距离最多为两个。Cytoscape图形可以下载为PNG图像或XGMML格式,该格式与Cytospace兼容。
若要验证结果、提供附加注释和/或留下评论,用户需要登录。登录后,还可以保存此反馈并在以后检索以进行进一步编辑。基因正常化也可以验证。如果标识符不正确,注释器可以将该蛋白质链接到正确的UniProt ID。
疾病背景下14-3-3蛋白的相互作用
为了证明eFIP系统的使用,我们探索了涉及14‐3‐3蛋白的磷酸化依赖性相互作用。14‐3‐3蛋白质通过与其他蛋白质的Ser/Tr-磷酸化结构域的相互作用调节一系列细胞过程,包括细胞增殖和程序性细胞死亡(34). 14‐3‐3蛋白质对其结合伙伴的影响各不相同。在某些情况下,14-3-3蛋白抑制相互作用蛋白的催化活性或其对底物的接触[例如CDC25(35)]; 在其他情况下,它们增强蛋白质活性[例如,WEE1(36)]; 在其他情况下,它们的影响更为复杂。例如,与细胞周期素依赖性激酶(CDK)抑制剂CDKN1B(p27 Kip1)结合的14‐3‐3通过保护蛋白质免受泛素介导的降解而对其进行正向调节,但也通过将其隔离在细胞质中远离其核靶点而对其进行负向调节(37,38). 为了与它们在调节细胞周期中的关键作用保持一致,14‐3‐3蛋白与癌症有关(34); 异常的14-3-3相互作用也与阿尔茨海默病有关(39)和糖尿病(40).
因为14‐3‐3相互作用受磷酸化调节,我们希望它们在eFIP结果中得到很好的体现。实际上,使用“14‐3‐3”查询eFIP会在1242篇提到磷酸化的文章中返回814个磷酸化依赖性PPI。利用eFIP的关键词搜索功能,我们接下来研究了癌症和糖尿病这两种疾病背景下提到的14‐3‐3交互作用。在280篇提到磷酸化的文章中,搜索14-3 AND癌症返回187个磷酸化依赖性PPI。在局限于14-3或其一种异构体是相互作用的情况并合并冗余结果后,共有70种相互作用,涉及45种独特蛋白质的69种磷酸化形式和14-3或其一种异构体(β、γ、ε、ζ或西格玛)(图5和补充表S1). 在这45种蛋白质中,有15种(33%)未被纳入14‐3结合蛋白的深度手动文献管理(41). 除了一个例外,未包括的14‐3‐3结合伙伴是在研究发表日期(2010年)之后发现的,因此强调了需要使用自动文本管理工具,如eFIP,以跟上不断增长的科学知识量。重要的是,由于eFIP相互作用是从搜索关键字“cancer”检索到的文章中提取的,因此它们可能代表与该疾病相关的14‐3‐3相互作用的子集。
![显示eFIP结果的网络来自癌症相关论文,其中14‐3‐3是相互作用体。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f5p.gif?Expires=1722487593&Signature=m~EBB6scZCh51Sd9Fxo6t8-MZK6eM8NJqKVTaS0nFhP-shOyToKLjID3xx~4uU7Sm0j7bQQDx-YpEBw4SakZ~m3YHsEmA59lYssUX2nCw3eRPaDa-rSBqEuNQKPud7uK6k91XG05nuoZltfBo9bavHFA0l4uB-vAKyScMHfdCcVyRedA2Ab~Qd6q4hbVXRQLlowHNX3xy1lOkvBCXmpVORsHW2ZQSnQjRsVMGn7MU2IQICBCHb-UgWqMrdkXn3kXAb6khBraxtzTqiCEqU9y4EdrChrIAKxCMiuhYk-ltBMD6hWBhLZcxxgYNXUCbjATZ4qAA77UAxigYOnzJt5Umw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图5。
显示eFIP结果的网络来自癌症相关论文,其中14‐3‐3是相互作用体。
正如预期的那样,在几乎所有情况下,磷酸化促进了与14‐3‐3的关联。例外是CDC25A、CDC25B和CDC25C的CDK5磷酸化(图6). CDC25蛋白是通过去除CDK中的抑制性磷酸化来驱动细胞周期进程的磷酸酶,与14-3-3蛋白表现出多重复杂的相互作用(34). eFIP癌症聚焦搜索中确定的相互作用如所示图6除了CDC25B的CDK5依赖性磷酸化(减少与14-3‐3的结合)外,CDC25B还被两个MAP激酶途径成员(MAPKAPK2和p38 MAPK)磷酸化,导致与14-3‐3的结合增强。同样,p38 MAPK磷酸化的CDC25C或DNA损伤诱导的激酶CHEK2与14-3-3的结合增强。应该注意的是,每次提及没有位点信息的磷酸蛋白都被视为一种单独的磷酸形式。例如,未提及磷酸化位点的CDC25B的MAPKAPK2-磷酸化形式被视为与p38 MAPK磷酸化形式(CDC25B-Ser-309 Ser-361)分离的磷酸形式(CDC2 5B phosphoX)。鉴于这两种磷酸形式都显示出与14-3-3的增强结合,并且14-3-3蛋白识别一个保守的磷酸化基序,很可能这两种形式实际上是在相同的位点磷酸化的。
![癌症背景下CDC25磷酸形式与14-3-3蛋白的相互作用。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f6p.gif?Expires=1722487593&Signature=WHfkMwDBhtL9JZjSf3SwYhpH5O2DHY0tz10KOi4t21p46~nW793hSdC0zxx4CQ~AASFDjdCTCwS~fRf4s~QXSMw1pwsMkNy1V-8lybvl3QPdnTQCEvH4vInwVJVnRB6P0yRLa~tFfWLzvkzYr0yem9BvvI6nExL1~P9psYoMdaRIbikn6vSXFv3DrWy4bWvNpdn8wyo0p4ksbjNOV~weZ6LuMMaef0ujtRkjqVCC2krBBeqeqdBRPoqBD78DZMbpguTQx3ycvYAyg4WEfzxPlJJ9c4DSaD5K4d7KrJAy9Kxv-5kUPMBcVXUekex1TyHgGIKuWajj6ZcydMOZLW8aJw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图6。
癌症背景下CDC25磷酸形式与14-3-3蛋白的相互作用。
对于~60%的相互作用,还提取了激酶信息。除了激酶直接磷酸化14‐3结合蛋白的情况外,我们还包括文本中对激酶是否直接或间接参与存在歧义的情况(补充表S1). 例如,根据这句话:“第三,ATM介导的S387处COP1磷酸化促进COP1与14-3σ的结合”(42)ATM激酶活性可能直接或间接参与COP1(RFWD2)的磷酸化。共鉴定出18种促进14-3-3结合的激酶和一种抑制14-3-3连接的激酶(CDK5)。最近的一项研究发现,参与促进14‐3结合的激酶属于两个激酶家族:AGC和CAMK(41). 在我们发现的18种激酶中,5种属于AGC家族,8种属于CAMK家族。此外,我们还发现两种激酶(ATM、ATR)来自非典型家族,三种激酶(CK2、GSK3B和p38 MAPK)来自CMCG家族。两种CMCG激酶(CK2和GSK3B)似乎分别通过磷酸化组蛋白去乙酰化酶HDAC3和F-box蛋白FBXO4直接参与调节14-3‐3结合。因此,CMCG激酶家族也可能在14-3-3相互作用中发挥重要作用。
到目前为止,最常见的激酶是AKT,它负责9种独特底物上的10个磷酸化事件。PI3K/AKT/mTOR信号通路的错误调节与多种癌症密切相关(43). 还有几个例子表明,磷酸化形式与几种不同的激酶相关,表明磷酸化依赖的14‐3‐3结合可能是由不同刺激触发的多个信号通路的聚合点。例如,Ser-367上的MDM4磷酸化可由三种DNA损伤诱导激酶(ATR、CHEK1和CHEK2)直接或间接介导,导致其与14-3-3相关。这三种激酶被不同种类的DNA损伤激活,ATR和CHEK1主要对单链断裂、复制叉折叠和紫外线损伤作出反应,而CHEK2主要对双链断裂作出反应(34).
为了了解癌相关14-3-3结合蛋白的主要功能作用,我们进行了基因本体和KEGG-pathway富集分析,并使用DAVID功能聚类工具对显著富集的术语进行聚类,哪一组术语基于这样的假设,即附加在相似基因集上的注释可能相互关联(32). 结果如所示图7在11个簇中,2个簇与癌症和信号传导有关,包括9种不同癌症类型和几种与癌症有关的信号传导途径的术语[例如,ErbB(44)和VEGF(45)]. 其他集群包括细胞周期和凋亡,这些过程与14-3-3功能和癌症相关。三个簇-转录(主要是转录的负调控)、细胞核和组蛋白去乙酰化-表明14-3-3结合伙伴在调节基因表达中的重要作用。与磷酸化相关的两个簇反映了14‐3结合蛋白中激酶、磷酸酶和激酶调节蛋白的高代表性。最后一组包括与B细胞分化和激活相关的术语。因此,通过将eFIP文本挖掘与术语富集分析相结合,我们快速而轻松地获得了癌症背景下受磷酸化依赖性14‐3‐3结合影响的主要过程的清晰图像。
![eFIP识别的蛋白质的富集基因本体论和KEGG通路术语树图,这些蛋白质在磷酸化时与癌症背景下的14‐3蛋白相互作用。使用DAVID功能聚类工具对丰富的术语进行聚类,该工具基于共享共同基因对术语进行分组。术语簇表示为不同颜色的块。对于每个术语,方框大小反映了术语浓缩的p值(更显著浓缩的术语放在更大的方框中)。p值范围从6.44×10−9(hsa04012:ErbB信号通路)到6.28×10−的3(hsa0.4370:VEGF信号通路)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f7p.gif?Expires=1722487593&Signature=yMa5RYzcpBTN4Sph-y6bW8FzbxXws5EVsRLx2L97ZoHfCe3zZRVXveE2kWpFQvRSnNDnzAPLaMJ6Nig8Knoy~dEreRefMjv7yLeSHP5Kg5JVQMQ95tUBeJQqgohgCZLa93pgDFjrdnJa2JDu0rQRkd9XtrAhTf1YwM8XJZk65nRl3YRIJwgqndJ6TssB2ID7fz-z28~bJt3rElkcifaX~ZHXxJYdY4eQB-yGgOCIKMfMWIEcIjEJrhkA7GBAc2tDPuizOBoCiXg8t8DL3pXDKm5U42VyfT7BouzeLj8~reiLZuv963I0~0d3rg2h2lWBtiBjXpBDwbkvkbD~ZQw2Fg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图7。
eFIP鉴定的蛋白质的富集基因本体论和KEGG通路术语的树映射,当磷酸化时,在癌症背景下与14-3蛋白相互作用。使用DAVID功能聚类工具对丰富的术语进行聚类,该工具根据共享的共同基因对术语进行分组。术语簇表示为不同颜色的块。对于每个术语,方框大小反映了第页术语丰富的值(更丰富的术语放在更大的方框中)。这个第页数值范围为6.44×10−9(hsa04012:ErbB信号通路)至6.28×10−3(hsa04370:VEGF信号通路)。
接下来,我们通过查询eFIP中的14‐3 AND糖尿病,研究了糖尿病背景下与14‐3,3蛋白的磷酸依赖性相互作用。在糖尿病背景下提及14‐3‐3相互作用的频率远低于癌症背景下。在25篇提到磷酸化的文章中,搜索只返回了10个磷酸化依赖性PPI。其中,有五种不同的交互作用,其中14‐3‐3是交互作用物(图8和补充表S1). 四种激酶被鉴定为磷酸化五种磷酸形式中的三种。有趣的是,尽管相互作用的总体数量很少,但与癌症结果有相当大的重叠。糖尿病相关的两种磷酸形式BAD Ser-112和TBC1D4(AS160)PhosphoX也出现在癌症网络中(图5)AKT激酶再次发挥了重要作用,磷酸化了两种磷酸蛋白。这些共同点突出了这两种疾病共同的一些生物过程。BAD的磷酸化和14‐3‐3结合抑制凋亡,这与胰岛细胞存活和肿瘤细胞存活的糖尿病有关(46,47). TBC1D4与14‐3‐3的相互作用调节胰岛素依赖性葡萄糖转运蛋白GLUT4的定位;糖摄取异常是糖尿病和癌症的特征(48,49). 最后,AKT通路调节细胞增殖以响应营养物质的供应,因此与葡萄糖传感和生长信号密切相关(50).
![显示eFIP结果的网络来自糖尿病相关论文,其中14‐3‐3是相互作用者。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2015/10.1093_database_bav020/5/m_bav020f8p.gif?Expires=1722487593&Signature=ASso4N6Qr26JKz9FkHo6xcD2~G7EWhVkVTZl2ygt7HhyXeShZ27OtpyXvIIdL9iNto0A~sWEzC44ywjDTRxhQQANx5qsNKYQ-IAkVkqRBrGc0ZcPQHnn9fAxaPtmXKG3qx3PQAY3ysquifk5B6WsIejo48ZlrYT3zGWp~gI2LULbTAgwXADYznsRC8dsVnUNbuBvDZCPL-nswXAEtz3zKzWXjVamuuk7x2u~LzRvbLt-e3QR5cTqSGAyT7fhVCaYKv8SQxjRDbH9C0Njvg4OUkfdLogWJxKeZP1ucOsUFAC5i5H1otxYFHPd2aCBRuyvPpwi-seVnL7VG1WpWAwcvA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图8。
显示eFIP结果的网络来自糖尿病相关论文,其中14‐3‐3是相互作用者。
如本用例所示,eFIP可用于调查特定生物背景(如疾病)中磷酸化依赖性PPI,并比较不同背景下的相互作用。通过eFIP搜索获得的一组激酶、磷酸蛋白和/或相互作用物可以进一步分析(例如,使用功能富集工具),以深入了解受蛋白质相互作用中磷酸化依赖性变化影响的生物过程。收集到的关于磷酸相互作用剂和14-3蛋白的信息正在被添加到PRO的管理管道中(1).
结论和未来工作
在本文中,我们描述了用于提取磷酸化蛋白质PPI的eFIP系统的增强版本。我们已经解决了BioCreative 2012 Interactive Task的可用性要求,并在一个经过专业注释的语料库上评估了系统,该语料库包括全长文章的代表性小节。在14‐3使用场景中,我们证明了使用eFIP可以从大量文献中提取磷酸化依赖性PPI的详细信息,以手动搜索(例如,PubMed搜索14‐3AND癌症时返回的论文超过1000篇)。此外,基于关键词过滤eFIP结果的能力有助于在不同上下文中比较磷依赖性PPI,这可以揭示隐藏的生物联系(例如,癌症和糖尿病网络之间的共同关系)。
对以前版本的eFIP系统进行了各种改进,以改进用户体验并扩大结果数量:包括来自PMC OA数据库的全长文章;增强PPI模块,以包括其他类型的PPI;在提取磷酸化-PPI关系时,在流水线中加入句子简化器以提高召回率;合并更新版本的RLIMS-P系统用于磷酸化事件提取;创建一个新网站以增强用户体验,允许他们搜索特定激酶、底物、相互作用蛋白、关键字或文档ID列表;结合相互作用蛋白质网络的图形视图;纳入基因标准化;对eFIP系统的全长文章进行评估,并从全长文件中随机选择100个章节,建立注释数据语料库。
我们设想在未来以各种方式扩大这项工作。首先,由于RLIMS-P模式和规则最近被推广到其他翻译后修饰,包括乙酰化、泛素化和糖基化,我们计划在不久的将来检测这些PTM对受影响蛋白质相互作用的影响。如有必要,我们将修改规则,并处理整个MEDLINE和PMC OA语料库,以提取这些其他类型的PTM。我们还对PTM的各种其他后果感兴趣。其中一种关系是PTM之间的关系,如下句所示:
“PTM cis-crossstalk的一个例子是组蛋白H3 Ser10残基的磷酸化,随后导致Lys14残基的乙酰化’(PMC 4120686)
我们目前正在研究的另一种影响是受影响蛋白质的亚细胞定位,如下句所示:‘蛋白激酶IKKβ催化的Ser462处IRF5磷酸化诱导其二聚化和髓系细胞的核易位’(PMID 25326418)
随着全文文章的加入,我们注意到两个事件在不同句子中被提及的情况;然而,可以推断出它们之间的因果关系。尽管根据我们之前的研究,在所有可能的磷酸化-PPI关系中,约有15%属于这一类,但在摘要中,这一频率要低得多。我们将调查多句话的使用,以检测上述影响的类型。约12%的磷酸化-PPI关系被注释者标记为假设或潜在,这意味着作者没有100%的信心传达信息。我们计划研究这种类型的关系,并确定将置信分数分配给eFIP系统提取的信息的方法,以避免内部和内部冲突。例如,在同一篇文章中从以下两句话中提取的信息之间可能存在语内冲突:(i)“我们已经调查了当在X位点磷酸化时,蛋白质A是否保持与蛋白质B的相互作用”和(ii)“当在X位磷酸化时蛋白质A与蛋白质B分离”。第一句话是陈述一个实验设置场景,其结果未知,因此,这句话有一些疑问,而第二句话是以100%的置信度陈述一个试验发现。这两类句子的置信度得分将向eFIP建议,来自第二句的信息应取代从第一句中提取的信息。
最后,我们想研究利用来自多篇文章的信息创建Cytoscape网络,整合置信度信息并突出文献中讨论最多的节点和边缘。
致谢
我们感谢Jia Ren对在线Cytoscape视图的帮助,以及Qihua Wang对黄金标准集的注释的帮助。
基金
这项工作得到了国家科学基金会ABI-1062520的资助。开放存取费用资金:NIH拨款5R01GM080646‐09。
利益冲突。未申报。
工具书类
1
等. (
2013
).蛋白质本体:蛋白质实体的受控结构化网络
.核酸研究。
,42
,D415号
–D421号
. 2
等. (
2012
)用于磷酸化蛋白质相互作用网络文本挖掘的eFIP系统
.数据库(牛津)
,2012
,低音044
. 三
等. (
2013
).BioCreative 2012年研讨会轨道三概述:交互式文本挖掘任务
.数据库(牛津)
,2013
,巴斯056
. 4
等. (
2012
)iSimp:一个生物医学文本的句子简化系统
。输入:IEEE生物信息学和生物医学国际会议(BIBM’12)
.. 5
等. (
2014
)BioC标准格式中的iSimp:增强句子简化系统的互操作性
.数据库(牛津)
,2014
,pii:bau038
. 6
等. (
2013
)基于广义规则的蛋白质磷酸化信息文本挖掘
。输入:生物信息学、计算生物学和生物医学信息学国际会议论文集(BCB’13)
,. 7
等. (
2014
)RLIMS-P:一种在线文本挖掘工具,用于基于文献的蛋白质磷酸化信息提取
.数据库(牛津)
,2014
,pii:包081
. 8
等人. (
2012
).Cytoscape插件旅行指南
.自然方法
,9
,1069
–1076
. 9
(
2011
)基于物种推断的跨谱基因归一化
.BMC生物信息学
,三
,1471
–2105
. 10
(
2012
)MinePhos:一个用于蛋白质磷酸化信息提取的文献挖掘系统
.IEEE/ACM传输。计算。生物信息。
,9
,311
–315
. 11
等. (
2013
)文本挖掘在UniProtKB中更新蛋白质翻译后修饰注释中的应用
.BMC生物信息学
,14
,104
. 12
等. (
2006
).从Medline中提取调控基因/蛋白质网络
.生物信息学
,22
,645
–650
. 13
等. (
2012
)2011年BioNLP共享任务的ID、EPI和REL任务概述
.BMC生物信息学
,13
(补充11
),S2系列
. 14
(
2015
).使用文本挖掘方法预测蛋白质相互作用
.方法
,74
,47
–53
. 15
等. (
2010
)使用统一的AkaneRE事件提取系统从文本中提取蛋白质相互作用
.IEEE/ACM传输。计算。生物信息。
,7
,442
–453
. 16
(
2001
)SUISEKI作为蛋白质相互作用发现工具的潜在用途
.基因组信息。
,12
,123
–134
. 17
(
2004
)BioRAT:从全长论文中提取生物信息
.生物信息学
,20
,3206
–3213
. 18
等. (
2008
)OpenDMAP:一个开源、本体论驱动的概念分析引擎,应用于获取有关蛋白质运输、蛋白质相互作用和细胞类型特异性基因表达的知识
.BMC生物信息学
,9
,78
. 19
等. (
2013
).PPIExtractor:用于生物医学文献的蛋白质相互作用提取和可视化系统
.IEEE传输。纳米生物科学
,12
,173
–181
. 20
(
2010
)PPLook:用于蛋白质相互作用的自动数据挖掘工具
.BMC生物信息学
,11
,326
. 21
(
2006
)学习句子-内部时间关系
.J.阿蒂夫。智力。物件。
,27
,85
–117
. 22
等. (
2006
)时间关系的机器学习
。输入:第21届国际计算语言学会议论文集
.. 23
(
2003
)自动检测用于答疑的因果关系
。输入:ACL 2003多语总结和问答研讨会会议记录
.. 24
(
2008
)因果关系提取
。输入:第六届国际语言资源与评价会议记录(LREC’08)
.. 25
(
2012
)医疗事件的时间分类
。输入:2012年生物医学自然语言处理研讨会会议记录
. 26
(
2010
)利用丰富的特征进行复杂事件分类的事件提取
.J.生物信息。计算。生物。
,8
,131
–146
. 27
等. (
2008
)使用朴素贝叶斯分类器对动词进行分类,确定生物医学文本中的因果关系和非因果关系
。输入:生物医学自然语言处理当前趋势研讨会论文集
.. 28
(
2013
)生物成因:诠释和分析生物医学领域的因果关系
.BMC生物信息学
,14
,2
. 30
等. (
2011
)Cytoscape 2.8:数据集成和网络可视化的新功能
.生物信息学
,27
,431
–432
. 31
等. (
2002
)人类基因组的蛋白激酶补体
.科学类
,298
,1912
–1934
. 32
(
2009
)利用DAVID生物信息学资源对大基因列表进行系统和综合分析
.《国家协议》。
,4
,44
–57
. 33
等. (
2010
)摘要与全文期刊文章正文的结构和内容方面是不同的
.BMC生物信息学
,11
,492
. 34
(
2011
)14‐3‐3蛋白作为细胞周期控制和凋亡的信号整合点
.塞明。细胞发育生物学。
,22
,688
–695
. 35
等. (
1997
)有丝分裂和G2检查点控制:丝氨酸-216上Cdc25C磷酸化对14-3-3蛋白结合的调节
.科学类
,277
,1501
–1505
. 36
Rothblum-Oviatt公司
C.J.公司。
(
2001
)14‐3‐3结合调节人类Wee1激酶的催化活性
.细胞生长差异。
,12
,581
–589
. 37
等. (
2006
)阴性细胞周期调节因子14‐3‐3sigma通过抑制PKB/Akt的活性稳定p27 Kip1
.癌基因
,25
,4585
–4594
. 38
等. (
2002
)p27Kip1的Akt依赖性磷酸化促进与14‐3‐3的结合和细胞质定位
.生物学杂志。化学。
,277
,28706
–28713
. 39
(
2012
)放松调控的Cdk5触发细胞周期激酶和磷酸酶的异常激活,导致神经元死亡
.J.细胞。科学。
,125
(第21部分
),5124
–5137
. 40
等. (
2010
)PKB/AKT对Thr246上PRAS40的磷酸化促进了mTORC1对Ser183的高效磷酸化
.细胞信号。
,22
,961
–967
. 41
等
.(
2010
)14-3-结合位点的生物信息学和实验调查
.生物化学。J。
,427
,69
–78
. 42
等. (
2010
)COP1的核出口管制(14-3‐3sigma)以应对DNA损伤
.摩尔癌症
,9
,243
. 43
(
2005
)AKT信号通路在人类癌症中的扰动
.癌基因
,24
,7455
–7464
. 44
(
2009
)癌症中的ErbB受体和信号通路
.货币。操作。细胞生物学。
,21
,177
–184
. 45
等. (
2014
)VEGF信号在癌症治疗中的作用
.货币。药物设计。
,20
,2834
–2842
. 46
等. (
2010
)GLP-1通过β-抑制素1介导的ERK1/2激活胰腺β细胞磷酸化Bad介导抗凋亡作用
.生物学杂志。化学。
,285
,1989
–2002
. 47
(
2001
)生存因子诱导的Bad磷酸化导致其与Bcl-x(L)分离,但不与Bcl-2分离
.生物化学。J。
,359
(第2部分
),345
–352
. 48
等. (
2010
)乳腺癌中AS160的频繁过度磷酸化
.癌症生物学。疗法。
,10
,362
–367
. 49
等. (
2007
)阻力运动和胰岛素调节人体骨骼肌中AS160及其与14-3-3的相互作用
.糖尿病
,56
,1608
–1614
. 50
(
2011
)mTOR:从生长信号整合到癌症、糖尿病和老龄化
.自然修订版分子细胞生物学。
,12
,21
–35
.
作者注释
©作者2015。牛津大学出版社出版。
这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。