摘要
由于候选药物引起的意外药物不良反应(ADR),药物发现的损耗水平非常高,尤其是在药物发现的后期,因此,当调节某些蛋白质靶点时,能够预测不良反应将有助于开发更安全的药物,并具有重要的经济意义。一方面,有许多数据库汇编药物-靶点相互作用的信息。另一方面,有许多公共资源汇编了有关药物和ADR的信息。因此,可以将目标药物和ADRs作为连接元素来连接。在这里,我们介绍了T-ARDIS(靶向-逆向反应数据库综合搜索)数据库,该数据库提供了蛋白质和相关ADR的综合信息。通过结合药物-蛋白质和药物-ADR数据库中的信息,我们从统计学上确定了蛋白质和ADR之间的显著关联。除了描述蛋白质和ADR之间的关系外,T-ARDIS还提供了有关蛋白质的详细描述以及药物和不良反应信息。目前,T-ARDIS包含3000多个ADR和248个目标,共有17000多个成对交互作用。每个条目都可以通过多个搜索词检索,包括目标Uniprot ID、基因名称、不良反应和药物名称。最终,建立T-ARDIS数据库是为了响应人们对在药物开发管道早期识别潜在问题蛋白质靶点的日益增长的兴趣,这些靶点的调节可能导致ADR。
数据库URL:http://www.bioinslico.org/T-ARDIS网站
介绍
药物开发面临的主要问题之一是缺乏靶点的毒理学或安全性信息(1). 由于与毒性相关的药物不良反应(ADR)的严重性,这一事实导致进入临床试验的药物消耗率很高,大大增加了成本,从而限制了新靶点新药的开发(2). 过去几年最传统的方法之一是使用动物模型。然而,动物模型意味着高维护成本和道德缺陷,并不总是适用于人类生物学(三),因此计算方法可以提供有用的预测。
从以药物为中心的观点来看,有许多方法可以用来降低与开发新药相关的风险。In-silico公司这些方法已经证明了它们在估计候选药物的毒性、利用成分、结构和结合亲和力等特征方面的实用性。这些方法包括机器学习和深度学习的各种示例(4). 其他研究基于基于目标的预测、对潜在蛋白质网络和相互作用的分析以及定量结构-活性关系。后者已被用于建模许多药物安全终点,包括50%的药物致死剂量、所谓的LD50值、皮肤/眼睛刺激和组织特异性毒性,使其成为评估药物毒性最常用的参数之一(5). 使用符合所谓安全性小组的策划蛋白质靶点集,也可用于评估临床前阶段新药的潜在可靠性(6). 最后,在药物警戒的背景下,也可以在开发后获得药物潜在责任的信息,包括为一系列数据库(如食品和药物管理局(FDA)自发报告系统数据库)挖掘信息的多种方法(5,7,8).
上述所有方法均以药物为中心,即潜在ADR的预测仅基于药物的性质,而非假定或已知的蛋白质靶点。事实上,尽管如上所示,已有成熟的方法学和资源将药物与ADR关联,但将ADR与蛋白质靶点关联的方法和资源较少。后者的示例包括ADReCS-Target数据库(9)以及最近根据临床试验和上市后报告汇编的ADR研究(10). 另一个不同的观点是,利用药物作为连接元素,确定ADR和蛋白质之间的联系。原则上,这个想法非常简单:如果药物X导致ADRY,并且药物X与蛋白Z结合,那么蛋白Z与ADRY相关。然而,这个简单的说法是不正确的。正如库恩及其同事指出的那样(11),大多数药物与药理学上相似的蛋白质组结合,例如,同一蛋白质家族的成员。虽然可能只有一个靶点对给定的ADR负责,但直接的靶点-ADR关联,如在这种简单的方法中,会将每个靶点与同一药物的每个可能的ADR联系起来,从而产生错误或不存在的关系,即假阳性。这种关联需要进行统计验证,库恩描述的方法等。(11)提供了一个明确的路径,以药物作为连接元件,确定ADR和蛋白质之间具有统计意义的关联。
这里介绍的数据库T-ARDIS(靶向-逆向反应数据库综合搜索)包含经统计验证的蛋白质靶点与来自关联药物ADR和药物-蛋白质的潜在ADR之间的关联。在第一阶段,从不同的数据库中挖掘药物-不良反应和药物-蛋白质关联。就药物-蛋白质而言,数据库包括药物-靶点共用(12)和缝合(13)数据库。药物-ADR关联从FDA不良事件报告系统(FAERS)中挖掘(14)、MEDEFFECT公司(15),侧面(16)和场外(17). 在挖掘过程中,通过分析和筛选这些数据库,使用库恩描述的方法建立了蛋白质和ADR之间的关联等。(11)如上所述。因此,这些结果是一些具有统计学意义的蛋白质-ADR相关性,可以作为其他方法的补充,以确定与蛋白质靶点相关的潜在负债。
目前,T-ARDIS汇编了3000多个与200多个蛋白质相关的ADR。用户可以通过MedDRA字典中定义的药物名称(通用名称)、ADR类型轻松访问数据搜索(18)或蛋白UNIPROT(19)识别码或基因名称。结果以表格形式返回,列出每个条目的主要描述符,如药物名称、目标UniProt ID、基因名称、ADR的MedDRA分类,以及统计验证结果(P(P)-多重测试的关联值及其修正,q个-值,包括所使用的列联表)。此外,还可以访问本地药物靶点或药物-ADR数据库以及相关存储库的外部链接。
材料和方法
包含药物的数据库–ADR信息
对四个不同的数据库进行分析和挖掘,以确定药物与ADR的关联:OFFSIDES(17)、SIDER4.1(16)、MEDEFFECT公司(15)和FAERS(14). OFFSIDES是一个手动管理的数据库,位于http://tatonettilab.org/resources/nsides/SIDER4.1是从FDA药品标签中提取的药物、ADR和适应症数据库。本研究中使用的版本是2015年10月21日发布的SIDER4.1,网址为http://sideeffects.embl.de/FAERS或AERS是一个集中的药物警戒数据库,用于整合美国FDA的上市后安全监测计划。该数据库中存储的数据代表了关于药物与ADR关系的主要存储库之一,尽管在使用之前需要进行管理(见下文“FAERS数据库管理”)。T-ARDIS中包含的版本上次更新于2020年3月,可在以下网址获得:https://fis.fda.gov/extensions/FPD-QDE-FAERS/FPD-QDE-FAES.html最后是MEDEFFECT,FAERS的加拿大姊妹数据库。不良反应报告由消费者和健康专业人员提交,他们自愿提交报告,制造商和分销商(也称为市场授权持有人)根据《加拿大食品和药品法》要求提交报告。T-ARDIS中包含的MEDEFFECT版本于2020年5月更新,可访问https://www.canada.ca/en/health-canada/services/drugs-health-products/medeffect-canada/averse-reaction-database/canada-vigilance-online-database-data-extract.html.
不良事件报告描述被编码为MedDRA词汇表和本体中定义的医学术语(18). MedDRA中的条目使用五个层次的医学术语进行报告,从非常一般的系统器官分类(SOC-e.胃肠道疾病)术语到非常具体的最低级别术语(例如,感到恶心)。每个术语仅与更高级别的一个术语相关联。对于每种药物–ADR数据库,我们手动检查所有不良反应是否登记为描述单一医学概念的首选术语(PT)水平的MedDRA反应术语。我们还使用了MedDRA的SOC定义来筛选非特定ADR(参见“基于SOC的ADR筛选”一节)。
FAERS和MEDEFFECT数据库的管理
在使用FAERS数据库中的数据之前,对记录进行了整理。由于报告中存在异质性,因此需要执行此步骤,因为这些报告是由医疗保健专业人员(医生、药剂师、护士和其他人员)和其他参与者(患者、家属、律师和其他人)直接上传的,缺少信息和其他错误。为了获得FAERS和MEDEFFECT的管理和标准化版本,我们依赖于专门为FAERS记录标准化开发的修改管道(20)并适应MEDEFECT。特别是,该管道使用标准化词汇表,药品名称映射到RxNorm概念(21)并利用患者的人口统计信息来删除重复项。为了确定药物和ADR之间具有统计意义的相关性,黄提出的方法et(等)铝. (22). 应用于源自上述标准化管道的结果数据库。最后,只有那些具有统计显著性的药物-ADR相关性,即似然比值高于多项式分布的第5百分位,并且在FAERS和MEDEFFECT中都存在。
基于SOC的ADR滤波
报告的一些ADR非常普遍,或不特定于身体部位、组织或潜在人体生物。因此,如中所述(23),属于以下SOC的任何ADR都被丢弃。
一般性疾病和给药部位条件
顾名思义,该SOC包含的术语不适合任何一个SOC的层次结构,或者是影响多个身体系统或部位的非特异性疾病。需要注意的是,在每个潜在的次级SOC中表示该SOC中的PT将产生过多的冗余。因此,该SOC中的大多数PT主要与SOC一般性疾病和给药部位条件有关,在继发性SOC中表现有限(例如,PT注射部位萎缩主要是SOC一般疾病和给药剂部位条件,其次是SOC损伤、中毒和手术并发症).
受伤、中毒和手术并发症
本SOC为受伤、中毒、程序或设备并发症因素在所报告的医疗事件中非常重要的医疗概念提供了一个分组。一般来说,在本SOC中,所有事件均直接归因于创伤、中毒和手术并发症,换句话说,所有事件都是由外部原因引起的。
调查
对于MedDRA,“调查”是指临床实验室测试概念(包括活检)、放射学测试概念、体检参数和生理学测试概念(例如肺功能测试)。本SOC中只出现了代表调查程序和定性结果的PT(例如PT血钠降低,PT血糖正常)。表示病情(例如高血糖)的术语或与调查有关的病情的混合概念不包括在本SOC内,可在相应的“紊乱”SOC中找到(例如。PT高渗状态、PT含铁血黄素沉着症、PT直立性蛋白尿和PT肾性糖尿)。
良性、恶性和未分类肿瘤(包括。囊肿和息肉)
此SOC在解剖上进行分类,病理亚分类用于良性和恶性肿瘤的分期。
产品问题
本SOC包括与产品质量、设备、制造质量体系、产品供应和分销以及假冒产品相关的术语。
社会环境
本SOC的目的是对这些因素进行分组,以深入了解可能对所报告事件产生影响的个人问题。本质上,该SOC包含有关患者的信息,而不是不良事件的信息。例如,本SOC中发现了PT药物滥用者和PT亲属死亡等术语。
手术和医疗程序
本SOC仅包含手术或医疗程序的术语。该SOC的性质使其更像是记录案例信息和开发查询的“支持”SOC。
感染和侵扰
该SOC仅提供与感染性疾病相关的位置信息,而不提供与特定目标相关的信息。
精神疾病
由于过于笼统和/或宽泛,以下高级通用术语和高级术语被排除在本特定SOC之外。这些术语包括:抑郁情绪障碍和障碍;进食障碍;其他未分类的冲动控制障碍(NEC);躁狂和双相情感障碍及障碍;人格障碍和行为障碍;精神障碍NEC;自杀和自伤行为NEC;性欲障碍和性欲障碍以及性和性别认同障碍NEC。
包含药物-蛋白质信息的数据库
使用两个不同的数据库提取药物-蛋白质关联。其中包括药物目标共用(DTC)数据库(https://drugtargetcommons.fimm.fi网址) (12). DTC旨在为社区驱动的牙冠采购工作提供一个开放数据平台,以注释药物-靶点关联,并提供药物生物活性信息,如IC50、EC50和效价。T-ARDIS中包含的版本于2021年4月从https://drugtargetcommons.fimm.fi网址考虑的第二个数据库是STITCH(13). STITCH对药物-靶点关联提供了一个补充性的观点,因为它依赖于不同的信息来源组合成一个综合评分函数(24). T-ARDIS中包含的版本为5.0,可访问网址:http://stitch.embl.de.
起始数据库经过两个过滤步骤,以确保捕获生物/治疗相关关联,并确保来自同一药物的冗余条目以不同的名称命名。Uniprot ID用于确保两个数据库中的目标相同。DTC已经为每对药物-靶点提供了此信息,但在STITCH的情况下,Uniprot ID是通过编程从Uniprot数据库中检索的(19)使用字符串(25)识别码。在DTC的情况下,仅考虑与报告的100 nM或更好的IC50(或EC50)的药物-蛋白质关联。在STITCH数据库的情况下,应用了0.8的截止值,因此只考虑了与更好分数的关联。为了避免冗余,使用InChiKey散列描述符和药物的标准名称统一药物条目,确保合并数据集中不会出现冗余条目。
使用药物-蛋白质和药物-不良反应关系的蛋白质-不良反应统计关联
按照库恩提出的方法计算ADR与蛋白质相关性的统计显著性等。(11). 简而言之,该方法计算每个ADR-蛋白质对的列联矩阵,并计算P(P)-使用Fisher精确测试得出的值。列联矩阵的元素如下:(i)出现给定ADR的药物数量;(ii)与给定蛋白质结合的药物数量;(iii)出现给定ADR并与给定蛋白质结合的药物数量,以及(iv)有多少药物既不出现ADR也不与给定靶点结合。考虑到大量的关系,P(P)-使用“q个-“value”模块包含在python包“MultyPy”中(26). 如果计算q个-值等于或小于0.05。图1显示了这种注释方法的概要,从单个数据库的挖掘到统计关联。
![结合并推导蛋白质和ADR之间的统计关联所遵循的工作流程。药物-ADR和药物-靶点关联从相关数据库中检索。随后,按照Kuhn等人的描述计算蛋白质和ADR之间的统计关联。(10).](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2021/10.1093_database_baab068/1/m_baab068f1.jpeg?Expires=1722383572&Signature=tr8iOIzUO48wz-zm1UF3cWTvT9n8SkSMpTWjSUQVEdTlZf4t5rF59NCcnmqmMeXgk8wSz5tpNnePjCEq7HjN37c2hPMzyFrzM93b7Dj8dQk62Qyh00Wm8ab7Y8019bpBBU1gGeSBWQvU2dJLC-jdL-U5cc0lNV3PwuaX9yeH8FkVEYJBTD~KoM87QJ6FdLJhxZepDDEuqqGGLivERxzb862YRPhpSQhSuqRn~yYYGCJqwxOpBRGYK1FgoMzBeazn22HaDot5LoL5vek2zYTRIF~8iSMsiHAhM4rnQSkaN6~~butmKENB-~fSBI6D9ImyhOc8eFSt8st2UST6xoWFJw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
结合并推导蛋白质和ADR之间的统计关联所遵循的工作流程。药物-ADR和药物-靶点关联从相关数据库中检索。随后,按照库恩的描述计算蛋白质和ADR之间的统计关联等。(10).
在计算蛋白质-ADR统计相关性之前,药物-ADR数据库分为两个不同的集合:策划和自我报告药物-ADR-相关性。策展包括从SIDER和OFFSIDES提取的药物-ADR关联,而自我报告集包括从FAERS和MEDEFFECT提取的药物–ADR关联。由于如上所述,信息的来源非常不同,因此区分这两组的逻辑如下。因此,T-ARDIS中存在的蛋白质-ADR之间的统计关联源于这两组中的任何一组,因为药物-靶标关联对两者都是常见的,即DTC和STITCH数据库。药物-蛋白质和药物-ADR之间的统一实体当然是药物实体,两组之间的统一是使用药物的标准名称完成的。为了确保明确的关联,使用Rdkit Conda软件包计算Tanimoto 2D化学相似性得分,以0.7为界(27). 最后,出现少于10个不良反应的药物也被丢弃。
在药物目标数据库的情况下,执行了Kuhn中所述的过滤程序等。(11). 首先,与药物代谢相关的蛋白质被丢弃。这些是使用基因本体注释选择的(28)因此,属于GO术语的蛋白质:GO:0042737(药物分解代谢过程)和GO:0017144(药物代谢过程)被丢弃。其次,使用CD-HIT实现序列相似性过滤器以去除高度冗余的蛋白质(29)在90%序列一致性截止点。随后设计了一个聚类步骤,使用70%的序列一致性终止点将蛋白质分组到家族中,并且排除了同一药物成员超过10个的家族,只保留与聚类中心的关联。最后,如库恩所述等。(11),对于每个蛋白质组–ADR组,主要靶点确定如下(30)如果共享至少50%与主要靶点结合的药物,则保留该组的其余成员。
基准数据集
使用四个不同的数据集来比较T-ARDIS发现的相关性。第一组是从ADReCS-Target数据库中提取的(9)从中汇编了1710个蛋白质-ADR最高评分关联。第二组来自斯密特最近的作品等。(10)尽管含有较老版本的SIDER(第3版),但用于提取约2000个蛋白质-ADR关联。第三组与库恩工作中验证的225对相互作用有关et(等)阿尔。(11). 最后,第四组是为库恩的著作中发表的科学出版物挖掘的手动精选集等。(11),其中包括816个蛋白质–ADR关联(表1).
SET(设置). | #协会. | 自我报告一. | 已固化b. |
---|
从库恩文献中挖掘出的关联等。(11) | 224 | 27 (4) | 17 (6) |
库恩体内验证的关联等。(11) | 2170 | 115 (69) | 113 (85) |
Smit中描述的协会等。(10) | 2153 | 340 (48) | 297 (167) |
来自ADReCD-Target数据库的关联(9) | 816 | 171 (14) | 87 (11) |
SET(设置). | #协会. | 自我报告一. | 已固化b. |
---|
从库恩文献中挖掘出的关联等。(11) | 224 | 27 (4) | 17 (6) |
库恩体内验证的关联等。(11) | 2170 | 115 (69) | 113 (85) |
Smit中描述的协会等。(10) | 2153 | 340 (48) | 297 (167) |
来自ADReCD-Target数据库的关联(9) | 816 | 171 (14) | 87 (11) |
SET(设置). | #协会. | 自我报告一. | 已固化b. |
---|
从库恩文献中挖掘出的关联等。(11) | 224 | 27 (4) | 17 (6) |
库恩体内验证的关联等。(11) | 2170 | 115 (69) | 113 (85) |
Smit中描述的协会等。(10) | 2153 | 340 (48) | 297 (167) |
来自ADReCD-Target数据库的关联(9) | 816 | 171 (14) | 87 (11) |
SET(设置). | #协会. | 自我报告一. | Curated公司b. |
---|
从库恩文献中挖掘出的关联等。(11) | 224 | 27 (4) | 17 (6) |
库恩体内验证的关联等。(11) | 2170 | 115 (69) | 113 (85) |
Smit中描述的协会等。(10) | 2153 | 340 (48) | 297 (167) |
来自ADReCD-Target数据库的关联(9) | 816 | 171 (14) | 87 (11) |
结果
合并不同的数据库可以增加关联的覆盖范围
我们首先考虑具有药物-ADR关联的数据库。如“材料和方法”一节所述,这些数据库的性质和目的以及管理水平各不相同。药品不良反应协会是药物的核心,这在所有数据库中都很常见(图2). OFFSIDES和FAERS数据库之间的重叠相对较高,预计OFFSIDES中注释的药物-ADR关联随后会在新版本中添加到FAERS中。FAERS和MEDEFFECT依赖多种来源和自发报告系统,包含数量最多的药物——ADRs协会以及最大比例的唯一条目。根据管理方法,从FAERS中获得了来自9000多个化合物的400多万对相互作用和约17000个独特的ADR。在MEDEFFECT的案例中,分别从数据库中标注的4000多个和12000多个药物和ADR事件中发现了150万个药物-ADR关联。
![显示不同数据库之间重叠的翻转图,用于汇编药物-ADR关联。FAERS、MEDEFFECT、OFFSIDES和SIDER分别表示为深红色、浅蓝色、绿色和橙色。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2021/10.1093_database_baab068/1/m_baab068f2.jpeg?Expires=1722383572&Signature=ZJt3y3jzSkLMhw4k4DNRurf7f-vkyxJfAhKVAUQ-Dbpuyohv-3DP8ZmLZAJ9aqBQneky8QZ0R9D3YEbSbOKbpU0NaTUSE3lYNYSGIYh-EnJDml0U9QkkdQHa81ObO1zuDpyMSmhRmmGiJGnsxX-~vZaTWJRT8oqeSPxdG1~HHUJ4otCoKRFbjvNpwGPmP~qu6AhAoztfAGJau9TJVX5NM8X779AqKUuCrqvcS0C2-tRlciqT63oIuO5JheVr~jCCe5WPfmRh-KgNk0x4b~GXxomrLSrKIZBs76KVgMBv~MsFzCfSMgL24-XLdHFJhRrtEM5o2MFieRGwxK6Yytuymw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
显示不同数据库之间重叠的翻转图,用于汇编药物-ADR关联。FAERS、MEDEFFECT、OFFSIDES和SIDER分别表示为深红色、浅蓝色、绿色和橙色。
与FAERS和MEDEFFECT不同,SIDER和OFFSIDES包含手动管理的药物和ADR关联。与自发报告数据库FAERS和MEDEFFECT相比,这些数据库的关联性更低(在1到2个数量级之间)。就SIDER而言,共有1344种独特药物和2303种ADR,挖掘出108 000多种成对相互作用。OFFSIDES产生了大量成对药物——ADR关联:共2708种和4368种独特药物和ADR中有150万种关联。就信息的唯一性而言,FAERS和MEDEFFECT显示不同数据库之间共享药物的比例更大(图2).
考虑的第二组数据库是描述药物-蛋白质靶点关联的数据库,包括DTC(12)和缝合(13). 这两个数据库的性质截然不同,因此它反映在从每个数据库提取的关联数中。在STICH的情况下,在应用“材料和方法”部分中描述的过滤器后,检索到超过10000个药物-靶标关联,其中5007个和1075个不同的药物和化学化合物以及蛋白质(根据Uniprot ID)。分别是。就STITCH而言,关联的数量要大得多:42000多种化合物(包括批准的药物)和7264种不同的蛋白质的关联数量超过600万。两个数据库在共享药物方面的重叠约为1600。
从挖掘的药物-不良反应和药物-蛋白质关联中得出的蛋白质-不良反应关系
经过药物-靶点和药物-ADR数据库的整理和筛选,获得了蛋白质与ADR之间的关联。该关联基于数据库之间共享的药物实体。重要的是要强调,自我报告(FAERS和MEDEFFECT)和策划(OFFSIDES和SIDERS)药物-ADR信息来源没有合并,而是独立处理。在结合药物-靶点和药物-ADR(自我报告)发现蛋白质-ADR关联的情况下,共有998种药物在这两组(即药物-靶向,药物-ADRs)上进行了明确的映射,产生了超过100k的统计显著性(即。q个-值≤0.05)蛋白质-ADR相关性分别约占3k和211种不同的ADR和蛋白质。在第二组药物-ADR数据库中,精选集(或非自我报告集),即SIDER和OFFSIDES,在药物-靶点之间共鉴定出1135种常见药物实体,产生约40k具有统计意义的关联蛋白-ADR,分别包括537和194种ADR和蛋白质。
与给定蛋白质靶点相关的ADR数量各不相同,但在大多数情况下,从自报告和精选数据集提取的数据中,与蛋白质相关的ADRs数量都很低(图3). 正如预期的那样,与给定靶点相关的ADR数量与确定靶向给定蛋白质的药物数量有关;随着数量的增加,ADR的数量也会增加,尽管在精选数据集的情况下,趋势更为明显(图3B). 尽管如此,仍有许多蛋白质与大量ADR相关。在自报告数据集蛋白质中发现的蛋白质-ADR相关性的情况下,白细胞介素-8(Uniprot ID:P10145)、内皮素-1(Uniprot:P05305)和瘦素(Uniprot-ID:P41159)分别与1532、933和717例ADR相关。在精选数据集的情况下,数字较小,前三个蛋白质分别是5-羟色胺受体2C(Uniprot ID P28335)、5-羟色明受体1A(UniprotID:P08908)和α-2A肾上腺素能受体(Uniprot-ID:P089 13),以及119、104和98个相关ADR。对这个高数字的解释与这些蛋白质发挥的生物学作用有关。例如,瘦素与150多个生物过程有关(根据GO分类),从信号转导(GO:0007165)到自噬调节(GO:000507)。此外,每个目标的ADR数量分布与库恩的工作一致等。(11)其中描述了统计关联方法,这是T-ARDIS的基础。
![气泡图显示每种蛋白质的药物数量(X轴)与每种蛋白质具有统计意义的ADR数量(Y轴)。(A) 自我报告集的分布;(B) 策展集的分布。请参阅“材料和方法”一节,了解自我报告和策划集的描述。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/database/2021/10.1093_database_baab068/1/m_baab068f3.jpeg?Expires=1722383572&Signature=YcHeJGuKDHnSbU0pYvcGUwy5qzqDwD2ULPaGzdmrzjiYW5NYcJE8p57tjXmmhD~wOXWcdDgfN2qWaHhzwcjUTVedyL6wsrROAsH0CgzpnwFk7Qv777KFOtcpRUosMhKBGTWFWVLhvfDelynxiTTBnj~1UDAJsIexf7n-tyuFLVoterl9cMCRKBiTlug3~AMkCmtb3VX9eCKpYzryktXf9bf8MuPnnUI7-5ZmbxBhLypx7K9o55vbLWEHJrKP0HaL8AEUxpDYCcLFsxvPPrz6MEeZYJxTnv2TGn~P~l~qW0JjnporB2xxJYUtUQbb39z4i~0KPEfClGpjIeMFkX72AA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
气泡图显示每种蛋白质的药物数量(X(X)轴)与每种蛋白质具有统计意义的ADR数量(Y(Y)轴)。(A) 自我报告集的分布;(B) 策展集的分布。请参阅“材料和方法”一节,了解自我报告和策划集的描述。
T-ARDIS协会补充了其他资源
将T-ARDIS中发现的ADRs和蛋白质之间的关联与以前的研究进行比较,以评估一致性和互补性水平。这四个数据集中描述的靶向药物不良反应相关性的总体表现较低,即无论是显著还是非显著(表1). 例如,在集合A(从文献中挖掘的目标-ADR关联)的情况下,在T-ARDIS的自报告集合和策划集合中分别只有12%和8%。总的来说,对于自报告集,值的范围为20%至5%,对于策展集,值范围为8%至5%。这些相对较低的值可能是由两个不同的原因造成的。一方面,由于自我报告(FAERS,MEDEFFECT)或管理数据库(OFFSIDES,SIDER)中均未报告安全问题,因此T-ARDIS中缺乏靶向ADR关联。也可能是在本研究中使用的以下两个数据库中,给定药物和靶点之间没有关联:DTC和STITCH。另一方面,如“方法”部分所述,在编译和集成用于推导T-ARDIS的数据库时,遵循稳健而严格的程序。因此,给定的药物-ADR和/或药物-靶点关联可以存在,但不能成功通过筛选步骤。无论如何,这些结果说明了T-ARDIS与该领域其他可用资源的互补性,从而实现了对目标-ADR关联的更全面和完整的看法。
未发现关联的示例
本文提出的方法所揭示的蛋白质-ADR相关性的例子已在文献中得到证实。例如,在胃粘膜中发现的环氧化酶2酶(COX-2或PTGS2;Uniprot ID:P35354)被抗炎药阿司匹林(乙酰水杨酸)抑制。阿司匹林还可对抗前列腺素G/H合酶1(COX-1或PTSG1;Uniprot ID:P23219)(31,32). 这些继发性相互作用可能是自1955年以来各种出版物中提到的胃炎和出血性溃疡的伴随原因(33,34). 在我们的分析中,PTGS1和PTGS2蛋白与消化性溃疡和消化性溃疡出血ADR相关q个-值。
钠依赖性血清素转运体(SLC6A4;Uniprot ID P31645)被血清素去甲肾上腺素再摄取抑制剂文拉法辛抑制,而文拉法新又与性功能障碍相关(35). 在我们的分析中,SLC6A4似乎高度相关(即。q个-值<<0.05)。
另一个例子是布地奈德和糖皮质激素受体(Uniprot ID:P04150)。已确定的布地奈德治疗的不良反应包括吸入型的呼吸道感染、咳嗽和头痛,以及口服型的疲倦、呕吐和关节疼痛。长期使用口服型布地奈特的病例中发现了一种更罕见的情况,肾上腺功能不全(36)在T-ARDIS中,其表现为与糖皮质激素受体相关的潜在ARD,具有高度显著性q个-值。此外,糖皮质激素与肾上腺功能不全之间的关系是当前文献中讨论的一个活跃话题(37).
据报道,唑米曲坦对5-羟色胺受体家族(HTR1A、HTR1B和HTR1E;Uniprot ID分别为P08909、P28222和P28566)的激活会引起痛觉过敏。在我们的分析中,这些蛋白与感觉过敏之间的关联都是显著的q个-HTR1A、HTR1B和HTR1E的值分别为0.0001、0.006和0.02。值得一提的是,库恩在体外鉴定和验证了这种关联等。(11). 总的来说,这些例子并不是一个具有代表性的样本,它们表明了本文所提供的数据的有用性,这些数据可以用于确定与蛋白质靶向相关的潜在负债。
访问和查询T-ARDIS
药物-蛋白质(包括原始来源)之间的所有关联,即药物-蛋白质和药物-ADR,都保存在一个生物数据库中:T-ARDIS。T-ARDIS网址:http://bioinslico.org/T-ARDIS.T-ARDIS提供了对信息的便捷访问,包括基于定制查询的搜索和筛选关联选项。数据库可按蛋白质(Uniprot ID或基因名称)、药物或ADR名称进行搜索。结果表提供了蛋白质-ADR以及q个-药物-蛋白质和药物-ADR关联数据库和父数据库的价值(图4). 还提供了与天然药物-靶点或药物-ADR数据库的外部链接,以及与蛋白质相关的存储库。用户还可以选择通过特定药物、ADR或父数据库查询进一步筛选结果表(例如,筛选FAERS产生的关联)。表也可以按q个-值,因此可以首先显示最重要的关联。表格可以以不同的格式下载(简单副本、CSV或PDF)。最后,还可以从主页链接中批量下载数据库和相关脚本以重新创建数据库。
讨论
预测蛋白质靶点和ADR之间的关联是可取的,特别是在临床前药物开发中,以便在早期识别与蛋白质相关的潜在负债和毒性相关方面。在这里,我们提出了一种全自动、大规模的分析,以确定蛋白质和ADR之间的潜在联系。通过整合药物-蛋白质和药物-ADR关联的公共数据库,我们在统计上确定了蛋白质和ADR之间的重要关系,并将药物作为连接元素。高度显著的关联,即低q个-价值观在当前文献中得到了支持,从而证明了未发现的关联可以作为指导证据。本工作中汇编的数据保存在一个可自由访问的数据库T-ARDIS中,该数据库可以方便地访问信息。数据库的挖掘、统计推断和数据库更新是全自动的,从而确保数据在可用时得到整合,进一步促进我们对ADR背后的机制的理解。我们设想,T-ARDIS代表了一种对从事药物开发的学术和工业研究人员都有用的资源。
基金
作者感谢MINECO拨款编号RYC2015-17519和BIO2017-85329-R的支持。
利益冲突
未申报。
数据可用性
GitHub上提供了重新创建T-ARDIS数据库所需的所有数据和脚本,网址为https://github.com/cristian931/Target(目标)-负面反应数据库集成搜索。数据库也可在http://bioinslico.org/T-ARDIS。
工具书类
1Seyhan公司
答:。
(
2019
)迷失在翻译中:跨临床前和临床鸿沟的死亡之谷——识别问题并克服障碍
.事务处理。医学委员会。
,4
, 18. 2Waring公司
医学博士。
,阿罗史密斯
J。
,浸出
阿拉伯联合酋长国。
等(
2015
)四大制药公司候选药物流失分析
.Nat.Rev.药物。发现。
,14
,475
–486
. 三。费雷拉
G.S.公司。
,纹理-Griffieon
D.H.公司。
,Boon公司
水渍险。
等(
2020
)平衡动物与人类疗效数据的转换差距
.动物(巴塞尔)
,10
, 1199–1211. 4Lo(低)
Y.-C.(Y.-C)。
,伦西
瑞典。
,Torn公司
西。
等(
2018
)化学信息学和药物发现中的机器学习
.药物研发。今天
,23
,1538
–1546
. 5巴西勒
A.O.公司。
,雅希人
答:。
和塔托内蒂
不适用。
(
2019
)药物毒性和安全性的人工智能
.趋势药理学。科学。
,40
,624
–635
. 6哈蒙
J。
,怀特布雷德
美国。
,Techer-Etienne公司
五、。
等(
2009
)体外安全药理学分析:除了hERG还有什么?
未来医学化学。
,1
,645
–665
. 7波尔塔诺瓦
J。
,默里
N。
,割草机
J。
等(
2019
)aer2vec:不良事件报告系统数据的分布式表示,作为识别药物/副作用关联的手段
.AMIA年。交响乐团。程序。
,2019
,717
–726
. 8米歇尔
C、。
,斯科西里夫
E.公司。
,佩特林
米。
等(
2017
)上市后案例报告的不成比例分析能否用于药物安全状况的比较?
临床。药物调查。
,37
,415
–422
. 9黄
左侧。
,他
Q.S.(质量标准)。
,线路接口单元
英国。
等(
2018
)ADReCS-Target:辅助药物安全性研究和应用的靶点概况
.核酸研究。
,46
,D911电话
–D917号
. 10史密特
I.A.公司。
,阿夫扎尔
上午。
,艾伦
C.H.G.公司。
等(
2021
)临床试验和上市后报告中与药物不良事件相关的蛋白质靶点的系统分析
.化学。研究毒物。
,34
,365
–384
. 11库恩
米。
,Al Banchaabouchi公司
米。
,坎皮略
米。
等(
2013
)引起药物副作用的蛋白质的系统鉴定
.摩尔系统。生物。
,9
, 663. 12塔诺利
Z.公司。
,阿拉姆
Z.公司。
,瓦哈·科斯克拉
米。
等(
2018
)药物靶点共享2.0:系统分析药物靶点相互作用特征的社区平台
.数据库(牛津)
,2018
,1
–13
. 13Szklarczyk公司
D。
,桑托斯
答:。
,冯·梅林
C、。
等(
2016
)STITCH 5:利用组织和亲和力数据增强蛋白质-化学相互作用网络
.核酸研究。
,44
,D380号
–384
. 14.Wong(王)
克。
,霍
S.S.公司。
,萨伊尼
B。
等(
2015
)FAERS数据库的标准化:手工记录药物名称变体的系统方法
.药物流行病学。药物安全。
,24
,731
–737
. 15加拿大H
.
加拿大MedEffect-不良反应数据库;编辑状态2019-01-15;re3data.org-研究数据存储库注册
.10.17616/R3J03W(2021年10月18日,上次访问日期)。 16库恩
米。
,莱图尼克
一、。
,延森
洛杉矶。
等(
2016
)SIDER药物和副作用数据库
.核酸研究。
,44
,D1075号
–D1079号
. 17塔托内蒂
不适用。
,Ye(是)
P.P.公司。
,达内什茹
R。
等(
2012
)药物作用和相互作用的数据驱动预测
.科学。Transl.公司。医学。
,4
,125ra31。 18张
L.-C.有限责任公司。
,马哈茂德
R。
,库雷希
美国。
等(
2017
)标准化MedDRA查询分析对新药和生物制品许可证申请安全评估和审查的使用模式和影响
.公共科学图书馆一号
,12
,e0178104。 19UniProt C
(
2019
)UniProt:全球蛋白质知识中心
.核酸研究。
,47
,D506型
–D515型
. 20班达
J.M.公司。
,埃文斯
L。
,万古里
钢筋混凝土。
等(
2016
)管理和标准化药物不良事件资源,加速药物安全研究
.科学。数据
,三
,1
–11
. 21纳尔逊
S.J.公司。
,曾
英国。
,基尔伯恩
J。
等(
2011
)临床药物规范化名称:6年RxNorm
.美国医学信息协会。
,18
,441
–448
. 22黄
L。
,扎尔基卡尔
J。
和蒂瓦里
钢筋混凝土。
(
2013
)利用FDA AERS数据库基于似然比检验的药物类别信号检测方法
.生物制药杂志。斯达。
,23
,178
–200
. 23列茨瓦尔特
R。
,阿拉特
美国。
,陈
A.X.公司。
等(
2020
)基于机器学习的药物不良反应与体外靶向药理学的关联
.EBioMedicine公司
,57
, 102837. 24冯·梅林
C、。
,延森
洛杉矶。
,斯奈尔
B。
等(
2005
)STRING:已知和预测的蛋白质关联,在生物体内整合和转移
.核酸研究。
,33
,D433号
–437
. 25Szklarczyk公司
D。
,山墙
A.L.公司。
,里昂
D。
等(
2019
)STRING v11:覆盖范围增加的蛋白质关联网络,支持全基因组实验数据集中的功能发现
.核酸研究。
,47
,D607型
–D613型
. 26普奥利瓦利
T。
,帕尔瓦
美国。
和帕尔瓦
J.M.公司。
(
2020
)多假设检验对神经影像研究再现性的影响:一项模拟研究和基于Python的软件
.《神经科学杂志》。方法
,337
, 108654. 27本托
A.P.公司。
,赫西
答:。
,费利克斯
E.公司。
等(
2020
)使用RDKit的开源化学结构管理管道
.《化学杂志》。
,12
, 51. 28基因本体论C
(
2019
)基因本体资源:20年仍在发展壮大
.核酸研究。
,47
,D330天
–D338号
. 29锂
西。
,雅罗斯基
L。
和戈德齐克
答:。
(
2002
)容忍一些冗余显著加快了大型蛋白质数据库的聚类
.生物信息学
,18
,77
–82
. 30Imming公司
第页。
,正弦
C、。
和迈耶
答:。
(
2006
)药物及其靶点和药物靶点的性质和数量
.Nat.Rev.药物发现。
,5
,821
–834
. 31.布托
O。
,索萨
I.R.公司。
,阿明
T。
等(
2016
)低剂量阿司匹林抑制前列腺素E2的生物合成:对腺癌转移的影响
.癌症预防。Res.(菲拉)
,9
,855
–865
. 32花
R。
(
2003
)阿司匹林能做什么?
BMJ公司
,327
,572
–573
. 33缪尔
答:。
和科萨
I.A.公司。
(
1955
)阿司匹林与溃疡
.英国医学杂志。
,2
, 7. 34垫片
Y.K.公司。
和基姆
N。
(
2016
)非甾体抗炎药与阿司匹林诱发的消化性溃疡
.韩国J.胃肠病学。
,67
,300
–312
. 35希金斯
答:。
,纳什
米。
和林奇
上午。
(
2010
)抗抑郁药相关性功能障碍:影响、效果和治疗
.药物保健患者安全。
,2
,141
–150
. 36阿恩特泽尼乌斯
答:。
和范加伦
L。
(
2015
)布地奈德相关肾上腺功能不全
.BMJ案例代表。
,2015
. 37劳格森
英国。
,布罗森
洛杉矶。
,汉森
S.B.公司。
等(
2021
)内分泌疾病的管理:糖皮质激素诱导的肾上腺功能不全:在等待证据的同时进行替换?
《欧洲内分泌杂志》。
,184
,111兰特
–122兰特
.
©作者2021。牛津大学出版社出版。