摘要
蛋白质和小分子之间的相互作用是生物体生物过程中不可或缺的一部分。关于这些相互作用的信息分散在许多数据库、文本和预测方法中,这使得很难获得可用证据的全面概述。为了解决这一问题,我们开发了STITCH(“化学品相互作用搜索工具”),将43万种化学品的这些不同数据源集成到一个简单易用的资源中。除了增加数据库的范围外,我们还实现了一个新的网络视图,使用户能够查看交互网络中化学品的结合亲和力。这使用户能够快速了解化学品对其交互伙伴的潜在影响。对于每个生物体,STITCH提供了一个全球网络;然而,并不是所有的蛋白质都有相同的空间表达模式。因此,只有特定的交互子集可以同时发生。在STITCH的第五个新版本中,我们实现了过滤与给定组织无关的蛋白质和化学物质的功能。STITCH数据库可以完全下载,通过广泛的API编程访问,或通过重新设计的web界面在网址:http://stitch.embl.de.
简介
小分子在生物系统中的作用只能通过与靶生物分子功能的关系来理解,而靶生物分子的功能在很大程度上取决于它们的相互作用伙伴(1–3). 相互作用网络在药物开发领域的作用更为突出,因为疾病往往是同一途径或蛋白质复合体的多重变化的结果(4,5). 考虑到靶蛋白的邻域和网络本身的拓扑结构,可以更好地了解药物的细胞影响(6,7). 此外,由于所有蛋白质中只有一部分是可行的药物靶点(8),大多数治疗方法从更具前瞻性但难以理解的蛋白质靶向网络附近的蛋白质(7). 几个数据库提供蛋白质-化学相互作用(9–11)和其他几个(12–14)将蛋白质-化学相互作用置于蛋白质-蛋白质相互作用网络的背景下,这对于有效生物信息学药物发现。
药物对机体的影响及其疗效取决于它与靶蛋白的结合以及它破坏蛋白质-蛋白质和蛋白质-化学相互作用网络的程度(7,15). 这与药物的浓度、调节靶标活性的强度以及靶标蛋白在不同组织中的分布有关(16). 为了让用户合理选择可能的药物靶点,我们向STITCH添加了两个新功能:一个新模式允许用户显示蛋白质和化学品之间已知的结合亲和力,以及过滤网络以仅显示与选定组织相关的蛋白质的能力。
STITCH第五版与STRING v10共享蛋白质空间(17)现在包含来自2031个真核和原核基因组的9600000多个蛋白质。此外,与前一版本相比,其化学空间增长了四分之一(18),从340000到430000个化合物(不包括不同的立体异构体)。STITCH可通过重新设计的新web界面访问网址:http://stitch.embl.de并通过一个允许编程访问的广泛API,包括消除查询歧义、修改所有网络参数和生成图像的能力。为了实现大规模分析(通过网络接口或API可能不可行),可以免费下载预计算网络和补充信息。
相互作用的来源
虽然可以从大量的数据中推导出蛋白质-化学网络,但它们的分散性、不同的精确度、名称空间和焦点使得收集所有可用知识的全貌变得很麻烦。STITCH管道将高通量实验数据、手动管理的数据集和几种预测方法的结果聚合到一个蛋白质-蛋白质和蛋白质-化学相互作用的单一全球网络中。这不会让用户暴露于底层数据的异质性,但同时,可以随时访问交互的所有主要证据。
大部分已知交互来自手动管理的数据集,如DrugBank(19),GPCR-ligand数据库(GLIDA)(20),斗牛士(21),治疗靶点数据库(TTD)(22)和比较毒理学数据库(CTD)(23)和包括京都基因和基因组百科全书(KEGG)在内的多个通路数据库(12),NCI/Nature Pathway交互数据库(24),反应组(25)和BioCyc(26). 由于不同的手动管理数据集之间可能存在重叠,我们不认为相同交互的多个报告彼此独立。相反,我们只计算一次冗余交互,并且不会增加可信度。其他大量蛋白质-化学联系来源是实验验证的相互作用数据集,包括ChEMBL(27)、PDSPK(K)我数据库(28),蛋白质数据库(PDB)(29)和两项高通量激酶-配体相互作用研究(30,31). 同样在这种情况下,交互可能会在不同的数据库中报告,并且具有不同的绑定亲和力。为了计算最终的置信度得分,我们只考虑报告的最强亲和力。
自动文本挖掘和基于结构的预测方法补充了验证的蛋白质-化学相互作用的来源(18). 文本挖掘管道包括所有MEDLINE摘要以及PubMed Central开放存取全文文章的共现文本挖掘和自然语言处理(32). 最新增加的文本信息来源是NIH RePORTER拨款摘要(https://projectreporter.nih.gov网站/). 考虑到同时出现的术语,添加RePORTER数据将人类蛋白质和化学品之间的高置信相互作用数量从2740增加到4740。通过对每个数据源进行广泛的基准测试,我们可以为每个交互提供统一的置信度评分,同时考虑到源的预测精度。
在网络视图中显示绑定关系
激活或抑制蛋白质(如酶或受体)的小分子是研究最多的外源性小分子类别之一。为了评估蛋白质-配体结合的效果和可信度,以及已知配体亲和力的变化,必须了解化合物与其靶点之间的结合亲和力。通常,这种结合亲和力被量化为抑制常数K(K)我。在某些情况下,K(K)我值不可用,但其他值如IC50或EC50(最大抑制浓度的一半)可以作为近似值。K(K)我药物的值差异很大,从纳米摩尔抑制常数到相对较高的值,例如阿司匹林和环氧合酶2之间的52μM(27). 因此,对于任何给定的药物,它都不是K(K)我而是决定对交互网络影响的相对绑定亲和力。
在以前版本的STITCH中,K(K)我主要来源的值(27,28)用户可以通过网络接口访问。在STITCH的新版本中,用户现在可以选择切换网络视图,以显示已知该值的所有蛋白质-化学相互作用的结合亲和力(图1). 这个新的网络视图类似于STITCH的置信度视图:节点之间的边的厚度随K(K)我值。如果K(K)我不可用,EC50或IC50将用于确定描述的交互强度。如果有多个可用的测量值,则将使用最小值(即报告的最高亲和力)来确定边缘的厚度。
![显示绑定亲缘关系。STITCH的用户界面已经更新,并添加了根据结合亲和力缩放蛋白质-化学相互作用边缘宽度的选项。所示的多个非甾体抗炎药网络清楚地表明了它们的不同结合亲和力:例如,阿司匹林具有相对较低的结合亲和力,而罗非昔布具有特异性结合PTGS2。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/44/D1/10.1093_nar_gkv1277/3/m_gkv1277fig1.jpeg?Expires=1722401776&Signature=zVlZjPqnt9-V8DCLOm8CWRF4p~0nkQuRCECzOL82XPW6BdPoEW64NJBxyltxDpe~5rZx16~rla1lJKP-59rTPMcA8LW8J2V5y-Jq7oHctmGNGXRCcYljdCG2iihZyqQoppjGepPVW3ROxXecQfXPSYgBZl4aX6iEzqg~YoIS6bUQ3mDiqB6UGxjr4PqRP5pXjlyvi88vzcD3XTzjiyz1Jv8MIwcJf-QzmwPyEXf~zD5WyVx2Bf03EdnFoNCUlKinoTqzEPA5RND7h5GLrY7p4x-FpwzhDtIpE2amOmF9ejGcd0J1O7nOI77piFXHikXsqkwOlRhcuk4FY7l79Sv55g__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
显示绑定亲缘关系。STITCH的用户界面已经更新,并增加了根据结合亲和力缩放蛋白质-化学相互作用的边缘宽度的选项。所示的多个非甾体抗炎药网络清楚地表明了它们的不同结合亲和力:例如,阿司匹林具有相对较低的结合亲和力,而罗非昔布具有特异性结合PTGS2。
组织特异性的数据和过滤
STITCH中的蛋白质-化学网络是全球性的,因此考虑了生物体内任何地方的相互作用。然而,在人类等多细胞生物中,并非所有蛋白质都存在于每个组织中。STITCH 5通过一项新功能解决了这一问题,该功能允许用户过滤人类交互网络,从而仅显示被认为存在于特定组织中的蛋白质(图2). 为了提供这一功能,STITCH现在集成了来自两个数据源的组织特异性蛋白表达模式。首先,TISSUES资源(33)它结合了UniProt注释、系统大规模转录组学和蛋白质组学研究以及共现文本挖掘的证据。在STITCH中使用时,基于STITCH其他地方使用的相同文本重新计算文本提示证据。其次,STITCH结合了expression Atlas中保存的组织的基线表达模式(34). 在使用组织数据增强网络之前,用户必须选择是使用tissues还是Expression Atlas中的数据。TISSUES资源包含从1(最低置信度)到5(最高置信度)的置信度。因此,用户可以在STITCH网站上选择纸巾和最低置信水平。相反,Expression Atlas中的数据集被转换为百分位数。然后将给定组织中蛋白质-蛋白质相互作用的置信度分数乘以两种蛋白质表达百分位数的几何平均值。对于蛋白质-化学相互作用,置信分数乘以蛋白质的表达百分位数。要访问组织表达模式,用户可以通过键入部分组织名称或从列表中选择组织来搜索组织。然后,用户可以将更改后的设置提交给STITCH。作为回报,将显示更新的网络。当删除未按下的节点(使用TISSUES)或更新置信值(使用Expression Atlas)时,其他交互伙伴可能会成为网络的一部分。
![根据组织表达模式过滤交互网络。(A) 显示了双氯芬酸和PTGS1/2周围的相互作用网络,没有过滤组织表达模式。在本面板和以下面板中,显示了得分最高的前五位交互合作伙伴。(B) 使用TISSUES资源,只有被认为在血小板中表达的蛋白质(具有中等置信度,即TISSUES中的三星)成为交互网络的一部分。在这些设置中,PTGS2不表达,因此显示为较浅的颜色。(C) 根据人类蛋白质图谱中的RNA-seq数据,表达模式用于关注平滑肌中表达的基因。交互作用的置信度得分通过结合伙伴表达百分位数的几何平均值进行缩放。由于重新计算的置信分数,四个相互作用伙伴被其他蛋白质取代。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/44/D1/10.1093_nar_gkv1277/3/m_gkv1277fig2.jpeg?Expires=1722401776&Signature=NW-Ok63BfUl6NNcrzPe5KNqsu9qpTXVnDNm-7rU0VfD2cDEtDUOldetjRYxYRe5a0hXb8Ejkx~H~SG~MKqG0icN~zJ-5nPC-UmWX1t9i0QQb2iMr7wvDWsFjPzzwmErUcd7jALaLQNzEidfwevHUTzm4wUYP2XuZYsoi4eelk0aN6-zCV~duAkMhd-wmyWH19mZO9-eB~pxnhhHH-NM~bc5Q~9IyWQcwLyqRlKRlG9Q~~TV8A7KPzXDsGxFt94sz3kRAmDb22y3pBYovENm4k6x1gpe2koGxGl1QVi4zL3BOHgqaZKQYS8bY6ZZtbE10Mz0DWuZPcJYphy6MjYUz9A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
根据组织表达模式过滤相互作用网络。(A类)显示了双氯芬酸和PTGS1/2周围的相互作用网络,没有过滤组织表达模式。在本面板和以下面板中,显示了得分最高的前五位交互合作伙伴。(B类)使用TISSUES资源,只有被认为在血小板中表达的蛋白质(具有中等置信度,即TISSUES中的三星)成为交互网络的一部分。在这些设置中,PTGS2不表达,因此显示为较浅的颜色。(C)根据人类蛋白质图谱中的RNA-seq数据,表达模式用于关注平滑肌中表达的基因。交互作用的置信度得分通过结合伙伴表达百分位数的几何平均值进行缩放。由于重新计算的置信分数,四个相互作用伙伴被其他蛋白质取代。
用例
STITCH被广泛用于各种不同的目的。这些分析可分为三大类:(i)通过web界面执行的中小型分析,(ii)使用批量下载文件的大规模分析,以及(iii)重用STITCH中的数据以开发新的基于web的资源。
O'Reilly作品et(等)铝关于确定α1-抗胰蛋白酶缺乏症的潜在药物靶点的研究以网络为例(35). 通过全基因组RNAi筛查秀丽隐杆线虫疾病模型,作者确定104秀丽线虫感兴趣的基因(有85个人类同源基因)。为了验证这些潜在的药物靶点,作者询问了STITCH和MetaCore中每一种人类蛋白质,从而确定了一种用于后续实验的化合物。相反,也可以查询STITCH以获取一组化学物质来识别可能的目标,库马尔的屏幕就是一个例子et(等)铝能够改变细胞内锰水平的化合物(36). 与以前的版本相比,STITCH 5能够在新的web界面中查看绑定相关性,因此更适合此类用例。
STITCH也常用于大规模分析,我们通过批量下载数据来帮助进行大规模分析。利盖蒂et(等)铝使用这些文件构建了每种药物周围蛋白质的网络邻域,并表明两种药物的邻域重叠可以预测药物组合的协同作用(37). 沃格特(Vogt)et(等)铝利用STITCH中的药物主题词表和蛋白质-化学相互作用预测药物禁忌症(38).
最后,但并非最不重要的是,STITCH提供的综合数据对开发自己的网络资源和预测方法的研究人员非常有用。这方面的一个例子是ChemDIS资源,它将来自STITCH的蛋白质-化学相互作用与基因富集分析工具相结合,通过蛋白质将化学物质与GO术语、途径和疾病联系起来(39). STITCH的实验性蛋白质-化学相互作用有时也被用作开发预测方法的基准集,例如Zhouet(等)铝. (40).
作者希望感谢Yan P.Yuan(EMBL)对STITCH服务器和Rebeca Quiñones(NNF蛋白质研究中心)的杰出支持,感谢他们帮助将短信管理管道迁移到高性能计算中心。
基金
诺和诺德基金会[NNF14CC0001,部分];欧洲分子生物学实验室(EMBL,海德堡)。开放存取收费资金:EMBL(海德堡)。
利益冲突声明。未声明。
参考文献
1
酵母中蛋白质-蛋白质相互作用网络
自然生物技术。
2000
18
1257
1261
2
从蛋白质-蛋白质相互作用数据评估蛋白质功能的预测准确性
酵母
2001
18
523
531
三。
基于网络的蛋白质功能预测
摩尔系统。生物。
2007
三
88
4
网络医学:基于网络的人类疾病治疗方法
Nat.Rev.基因。
2011
12
56
68
5
利用蛋白质相互作用预测疾病基因
医学遗传学杂志。
2006
43
691
698
6
在疾病相关分子网络中寻找多目标最优干预
摩尔系统。生物。
2008
4
228
7
网络药理学:药物发现的新范式
自然化学。生物。
2008
4
682
690
8
可药用基因组
Nat.Rev.药物发现。
2002
1
727
730
9.
ProtChemSI:蛋白质-化学结构相互作用网络
核酸研究。
2012
40
D549型
D553型
10
蛋白质-配体相互作用数据库(PLID)
计算。生物化学。
2008
32
387
390
11
BindingDB和ChEMBL:用于药物发现的在线化合物数据库
专家操作。药物研发。
2011
6
683
687
12
数据、信息、知识和原理:回到KEGG的新陈代谢
核酸研究。
2014
42
D199型
D205型
13
等
BioGRID交互数据库:2013年更新
核酸研究。
2013
41
D816号
D823号
14
ChemProt-2.0:疾病化学生物学数据库中的可视化导航
核酸研究。
2013
41
D464号
D469号
15
配体效率:潜在客户选择的有用指标
药物研发。今天
2004
9
430
431
16
使用基线基因表达水平和细胞系的体外药物敏感性可以预测临床药物反应
基因组生物学。
2014
15
47兰特
17
等
STRING v10:蛋白质-蛋白质相互作用网络,集成在生命树上
核酸研究。
2015
43
D447号
D452号
18
STITCH 4:蛋白质-化学相互作用与用户数据的整合
核酸研究。
2014
42
D401型
D407型
19
等
DrugBank 4.0:药物代谢新亮点
核酸研究。
2014
42
D1091号
D1097号
20
GLIDA:GPCR-ligand化学基因组药物发现数据库和工具更新
核酸研究。
2008
36
D907号
D912号机组
21
等
SuperTarget和Matador:探索药物靶点关系的资源
核酸研究。
2008
36
D919号
D922号
22
等
2012年治疗靶点数据库更新:促进目标药物发现的资源
核酸研究。
2012
40
D1128号
D1136号
23
比较毒理学数据库十周年:2015年更新
核酸研究。
2015
43
D914号
D920型
24
PID:Pathway交互数据库
核酸研究。
2009
37
D674号
D679号
25
等
反应体途径知识库
核酸研究。
2014
42
D472号
D477号
26
等
代谢途径和酶的MetaCyc数据库和途径/基因组数据库的BioCyc集合
核酸研究。
2014
42
D459号
D471号
27
等
ChEMBL生物活性数据库:更新
核酸研究。
2014
42
D1083号
1990年1月
28
血清素受体的多样性:无用的多样分子或财富的尴尬
神经科学家
2000
6
252
262
29
等
RCSB蛋白质数据库:基础和应用研究与教育的结构生物学观点
核酸研究。
2015
43
D345号
D356号
30
激酶催化活性的综合测定揭示了激酶抑制剂的选择性特征
自然生物技术。
2011
29
1039
1045
31
激酶抑制剂选择性的综合分析
自然生物技术。
2011
29
1046
1051
32
等
STRING v9.1:蛋白质相互作用网络,覆盖范围和集成度增加
核酸研究。
2013
41
D808型
D815号
33
大规模组织表达数据集的综合比较
同行J
2015
三
电子1054
34
等
Expression Atlas update–基于微阵列和序列分析的功能基因组学实验的基因和转录表达数据库
核酸研究。
2014
42
D926号
D932号
35
等
全基因组RNAi筛查确定α1-抗胰蛋白酶缺乏秀丽线虫模型中的潜在药物靶点
嗯,分子遗传学。
2014
23
5123
5132
36
等
人类多巴胺能神经元中细胞锰含量的发育调控
科学。代表。
2014
4
6801
37
用于描述药物组合特征的基于网络的目标重叠评分:与癌症临床试验结果高度相关
公共科学图书馆一号
2015
10
电子0129267
38
分子和临床相关药物和疾病富含表型相似的药物-疾病对
基因组医学。
2014
6
52
39
ChemDIS:基于化学-蛋白质相互作用的化学疾病推理系统
《化学杂志》。
2015
7
25
40
药物-蛋白质相互作用和人类蛋白质组副作用的综合预测
科学。代表。
2015
5
11090
©作者2015。由牛津大学出版社代表核酸研究出版。