跳到主要内容

利用网络驱动的生物数据优先排序和集成预测新的药物适应症

摘要

背景

随着高通量基因组技术的快速发展,以及用于基因表达谱分析和生物网络的全基因组数据集的积累,可以全面表征疾病和药物对基因表达的影响。药物重新定位为降低药物发现过程中的风险提供了可能性,因此它是药物开发中必不可少的一步。

结果

利用基因表达谱数据集和生物网络对药物-疾病相互作用进行计算预测是药物重新定位的一个新方向,越来越受到人们的关注。我们开发了一个计算框架,使用药物和疾病特定子网络构建疾病药物网络。该框架结合了蛋白质网络来提炼药物和疾病相关基因,并优先考虑疾病和药物特定网络中的基因。对于每种药物和疾病,我们使用基因表达谱和文本挖掘构建了多个网络。最后,利用logistic回归模型建立药物与疾病之间的功能关联。

结论

我们发现,用基因网络中高度集中度的基因表示药物和疾病是药物或疾病子网络最有希望的表示。

背景

许多能够分离和研究单个细胞和分子的方法的发展,彻底改变了药物发现过程,从生理水平到更精确的分子水平。这场革命完全归功于基因组测序项目,该项目提供了基因和基因产物的完整列表,并能够同时监测整个基因组的表达。因此,这项技术为研究已经批准的药物或其他安全候选药物的新治疗应用提供了可能的计算技术,即所谓的药物重新定位。根据定义,药物重新定位技术忽略了第一个测试阶段,这可能需要十年时间,花费超过10亿美元,并直接发展到药物应用[1]. 这种策略无疑有潜力成为最有效的药物发现技术,因为它降低了开发成本,缩短了批准途径[2].

药物疾病相关性的计算预测已成为药物疾病治疗研究的主要方法之一。网络和系统生物学通过考虑蛋白质靶点的全球生理环境,可以更好地理解药物发现。因此,网络生物学在开发有效的治疗方法方面发挥了中心作用,这些治疗方法改变了整个通路而不是单个蛋白质,从而有可能对抗复杂的多因素疾病[]. 这一发现证实了医学也不例外于数学系统理论,该理论认为解决方案的规模和复杂性应与问题的规模和复杂度相匹配。很明显,调节单一靶点的治疗只会对疾病复杂机制产生微小的改变。因此,在过去几年里,对抗复杂疾病的重点一直是以网络为中心,而不是以基因为中心[4]模块。在用于药物重新定位的不同方法和数据源中,微阵列和文本挖掘是最流行的。基因表达微阵列已被广泛而成功地用于研究疾病的分子病理生理学[58]和药物作用方式[912]. 值得注意的是,这些方法大多基于基因集富集(GSEA)统计技术[13]. 例如,Lamb等人[10]研究了不同细胞系、药物剂量和暴露时间段的数百种分子。这种方法使Lamb和同事能够为每个样本创建基因排序列表,并最终使用GSEA从不同的分子建立关联。同样,Iorio等人[12]使用合并程序将与特定药物相关的所有排名列表合并为该药物的代表性排名列表。最后,他们应用GSEA建立了基于相同概念的毒品网络。另一方面,有许多尝试通过整合微阵列表达谱和网络数据来确定疾病相关基因的优先级[1417]. 如Wu等人所述[17]这些技术可以分为三大类。第一个使用微阵列数据和t检验来寻找可能的差异表达基因(DEG)。随后,它使用基因网络来优先排序被二甘醇包围的基因[14]. 第二种技术考虑候选基因与比较样本(正常和疾病样本)中其他基因相互作用的动态变化,这是通过从蛋白-蛋白质相互作用网络(PPIN)定义中心并检查中心及其相邻基因是否在不同组织中共同表达来实现的[15]. 第三种技术考虑了比较样本之间基因相互作用的变化及其对基因表达的影响,以确定疾病相关基因的优先级[16]. 更具体地说,它定义了一组DEG和一组手动管理的转录调节器(TR)。随后,在比较的条件下计算二甘醇和三甘醇共表达的差异。此差异用于计算将用于优先化目的的差分接线。

除了微阵列表达谱外,许多基于文本挖掘的工具和生物系统已经成功开发出来,用于连接基因、疾病和药物并确定其优先级。其中一些方法使用基于模式的识别技术[18]和其他人为了优先化的目的整合蛋白质网络[1921]. 例如,Cheng等人[18]开发了一个名为PolySearch的基于网络的文本挖掘系统,用于提取人类疾病、基因、突变、药物和代谢物之间的关系。PolySearch使用文本排名方案对最相关的句子和摘要进行评分,这些句子和摘要将查询和匹配术语相互关联。Li等人[19]提出了一种集成分子交互网络挖掘和文本挖掘技术的范式。所提出的范例从结合来自先前知识的疾病特异性种子基因/蛋白质开始。通过在与疾病相关的分子相互作用网络中对基因进行重新排序,在功能上下文中对其进行扩展和重新分类,从而改进了这一基因种子。为了避免偏向初始基因集的问题,OzgÃijr等人[21]开发了一个框架,将与特定疾病相关的文本管理蛋白质网络与社会网络分析中心性度量相结合,以预测未知疾病基因关联。作者使用句子解析来构建一个表示句子句法组成结构的句法解析树,并从该树中构建蛋白质-蛋白质网络。在构建了疾病特异性蛋白质网络后,作者考虑了所有种子基因以及它们的邻居,以便进一步分析。最后,为了确定与特定疾病相关的基因的优先级,他们使用了度、特征向量、介度和紧密度网络中心度度量。值得注意的是,除了基于文本挖掘和微阵列的方法外,一些化学结构相似性方法也用于药物重新定位。这一领域的一篇杰出论文是Gottlieb等人的[22]. 他们的方法旨在直接预测药物与疾病的相关性,包括FDA批准的药物和实验阶段的其他分子。他们的算法分为三个阶段:(i)建立五种药物相似性度量和两种疾病相似性度量;(ii)利用这些相似性度量,建立能够区分真假药物疾病关联的分类特征和后续学习分类规则;以及(iii)应用logistic回归分类器预测任何新的可能的药物-疾病关联。因此,对于黄金标准(药物-疾病相互作用的实验策划列表)中给定的药物-疾病关联,作者通过考虑所有其他已知药物-疾病的关联来计算关联分数。尽管该技术在交叉验证实验中获得了较高的敏感性和特异性,但它也并非没有局限性。首先,该方法使用了5种不同的药物相似性度量和3种不同的疾病相似性度量。这使得它偏向于包括没有化学结构、副作用、靶序列、靶PPIN及其靶基因本体的药物。同样的道理也适用于疾病。此外,该方法没有考虑药物分子作用之间的相似性。它只考虑已知的药物靶点来定义相似性。有时可能存在本研究中未考虑的隐藏或未知药物靶点,导致偏见,因为药物会触发其对靶基因的作用,并对其他非靶基因产生后续影响。从上述方法可以得出结论,当涉及到连接生物实体(药物、疾病和基因)时,微阵列表达谱挖掘、文本挖掘和生物网络分析是非常可靠的技术。在这项工作中,我们将研究、分析并尝试在网络生物学提供的更情境化的观点中预测药物与疾病的关联。这一策略将推动他们从经典经验主义联系到全球治疗的基于路径的理性设计。这项工作的主要目标是确定一组基因,这些基因根据其与特定疾病或药物的相关性进行优先排序,然后使用这些关联来构建药物-疾病关联网络。因此,不是从专家管理的来源中识别疾病相关或药物相关基因,我们将利用文本挖掘和微阵列数据,因为与复杂疾病途径相关的基因尚未全部确定。此外,许多这些基因和蛋白质仍在研究作为疾病生物标志物的潜在价值。从每个源中提取的初始基因集将从源特定网络中进一步扩展,一次通过使用基于微阵列的网络,另一次通过利用基于文本挖掘的网络,包括其直接邻居进行进一步分析。通过这种基于网络的方法,每个药物或疾病都将由一个子网络表示,其中边缘表示交互作用,节点表示特定药物/疾病及其直接邻居的种子基因集。随后,来自每个子网络的基因将根据其在该子网络中的中心性度量重新排序。最后,通过使用药物基因和疾病基因相互作用网络使用三种不同来源,使用套索回归模型预测药物-疾病关联:微阵列数据、,文本数据,最后是一个整合了这两个来源的信息的综合来源。图中描述了拟议方法的一般描述1.

图1
图1

建立毒品和疾病协会的一般框架。此图显示了我们提出的范例的总体框架。步骤1和2用于提取初始基因集。步骤3.1和3.2分别提取了药物基因和疾病基因共现。步骤3.3和3.4分别提取药物微阵列和疾病微阵列数据。在步骤4中,我们发现了与特定药物或疾病相关的基因序列。在步骤5中,我们构建了药物特异性和疾病特异性基因-基因网络。在步骤6中,我们运行了优先排序程序,以将药物基因和疾病-基因相互作用网络启动为套索回归。在步骤7中,我们使用套索回归模型来建立药物-疾病关联。

方法

定义基因的初始集合

在一项定量评估人类基因组药物潜力的实验中,可以想象的结果表明,人类基因组中只有10%的基因被视为药物靶点,10%与疾病病理生理学有关,只有5%既可药物化又与疾病相关[23]. 我们假设,仅包括与药物作用模式或疾病病理生理学相关的基因,就可以通过从进一步分析中排除无关基因来节省处理时间和记忆。特别是,我们使用了DrugBank数据库[24]包括我们药物集和OMIM数据库的所有靶点,以包括与疾病病理生理学有关的基因。

使用蛋白质网络优化基因列表

为了确保我们为药物和疾病选择了一组功能强大的基因,我们包括了其他功能相关的基因,从而扩展了我们对药物作用模式或疾病病理生理学的理解。为此,我们使用了Reactome数据库中的功能性蛋白质相互作用[25]为了提取与我们的基因种子列表功能相关的所有其他基因(直接邻居)。在这项工作的背景下,我们将这些列表分别称为DiseaseExt和DrugExt,用于疾病和药物的扩展列表。

使用微阵列和文本挖掘数据对基因进行排序

在本节中,我们描述了我们遵循的两个方向,以优先考虑DiseaseExt和DrugExt基因。在第一种方法中,我们使用药物和疾病治疗细胞的微阵列表达数据,根据基因的差异表达能力对基因进行排序。在第二种方法中,我们使用文本挖掘技术根据基因与疾病或药物共现的频率对基因进行排序。

基于微阵列基因表达的基因列表排序

使用两个不同的数据库生成基于微阵列的药物基因和疾病基因相互作用。对于毒品,我们使用了连通图网站[26]其中包含了6100份针对1300种化学物质的基因排名表。请注意,基因的排名分数是基于未经治疗和药物治疗的样本之间的差异表达。因此,对于一组n个基因,阳性表达最多的基因被赋予1的等级,阴性表达最多的基因被赋予n的等级。我们提取了这些排序列表,并合并了特定药物的重复样本,正如Iorio所描述的那样[12]. 因此,在排除了DrugBank数据库中未识别的化学物质后,我们最终获得了剩余406种药物中每种药物的代表性列表[24]. 我们提取了DrugExt基因的秩值,并根据此列表对与特定药物相关的每个基因进行了归一化秩分数。最后,为每种药物选择25个排名最低和25个排名最高的基因,以代表构建药物特异性基因网络的初始基因集。我们将这些基因集称为Mir-DrugExt。对于疾病,我们使用基因表达综合(GEO)存储库为疾病样本和对照样本生成微阵列数据。为了选择数据集,在本实验中,至关重要的是选择使用人类Affymetrix平台生成的疾病表达谱,以使其与针对药物生成的实验一致,并避免任何可能的平台特定偏差。此外,还必须包括一组疾病。由于我们计划使用相同的归一化算法对实验进行归一化,所以上传了CLE原始文件。这组疾病是通过手动浏览GEO以进行符合上述标准的疾病实验来选择的。这一浏览过程由两名生物信息学家完成,持续了两周,导致了一组24种疾病。独立收集24种疾病的CLE文件和RMA归一化算法[27]用于规范化数据。我们通过在微阵列表达谱中找到相应的探针来提取DiseaseExt基因集的基因表达谱。请注意,所有探针的平均表达谱都是针对由一个以上对应探针表示的基因。随后,我们使用了微阵列或SAM技术的显著分析[28]为了确定每个基因的差异表达分数,根据从1到n的分数对基因进行排序。SAM根据与特定基因的某些随机生成测量值的标准偏差相关的变化来分配分数。该分数介于高阳性(表明健康和疾病样本之间的比较中基因已上调)和高阴性(表明健康样本和疾病样本间的比较中该基因已下调)之间。最后,为每种疾病选择25个最低和25个最高排名的基因来代表最初的一组基因,以建立一个疾病特异性基因网络。我们将这些集合称为Mir DiseaseExt。

基于PubMed摘要的基因列表排序

为了对每种药物和疾病的基因进行优先排序,我们使用PubMed摘要发现这些生物实体之间存在共现现象。更具体地说,我们查询了PubMed数据库,以检查每种疾病/药物与DiseaseExt和DrugExt中每种基因的共现情况。值得注意的是,我们考虑了特定疾病、药物或基因的所有可能注释或MeSH术语。由于共现可能容易出现假阳性,我们将任何小于5的药物基因或疾病基因共现设置为零。定义这些共现后,我们使用正则化对数奇数比率连接性度量来反映我们的药物基因和疾病基因共现矩阵中的联系强度。结果得分为富集药物基因或药物基因对的正值,为代表性不足的成对的负值。如前所述[19],特定药物或疾病D与基因G之间的连接性,或连接 DG公司 可以根据以下公式计算:

连接 DG公司 =自然对数( 防抱死制动系统 DG公司 N个+λ)-自然对数( 防抱死制动系统 G公司 防抱死制动系统 +λ)
(1)

在哪里?防抱死制动系统 DG公司 是同时提及药物或疾病D和基因G的摘要总数。防抱死制动系统 G公司 防抱死制动系统 是分别提及基因G和药物或疾病D的摘要数。N是所有测试摘要的大小。λ是一个小常量,添加该常量是为了在以下情况下避免越界错误防抱死制动系统 DG公司 ,防抱死制动系统 G公司 ,或防抱死制动系统 值为零。使用这个公式唯一担心的是,我们案例中的N项非常大(PubMed中的所有摘要),因此得分偏向公式的左手边。另一方面,使用任何较小的合理值替换N都会使分数偏向公式的右侧。因此,我们试图根据以下公式修改双方以适应我们的分析:

连接 DG公司 = 自然对数 ( 防抱死制动系统 DG公司 最大值 ( 防抱死制动系统 , 防抱死制动系统 G公司 ) + λ ) - 自然对数 ( 防抱死制动系统 + 防抱死制动系统 G公司 + λ )
(2)

然后我们设置λ在所有情况下均为1。最后,我们纳入了所有阳性基因连接 DG公司 与特定疾病或药物相关的分数。对于疾病和药物,我们将这些基因集分别称为Txt-DiseaseExt和Txt-DrugExt。

生成疾病特异性和药物特异性基因模块特征

在我们使用微阵列和文本挖掘技术细化DiseaseExt和DrugExt基因集后,我们试图找到代表每种药物和疾病的基因子网络(基因模块)。如上所述,我们的主要目标是利用存储在生物网络中的信息,从而将注意力集中在网络拓扑特征上,以预测药物适应症。我们打算使用两种不同的信息源为每种药物或疾病生成两个子网络:微阵列表达谱(Mir-DiseaseExt和Mir-DrugExt)和文本挖掘数据(Txt-DiseaseText和Txt-DrugExt.)。为了生成基于文本的子网络,我们首先从文本文件中提取了一个表示基因-基因相互作用的综合网络。更具体地说,我们使用了我们正在研究的整套基因来查询STRING web服务器[29]. STRING服务器存储来自四个不同来源的巨大基因网络:基因组上下文、高通量技术、共表达和文本挖掘。我们分别提取了每种疾病和每种药物的Txt-DiseaseExt和Txt-DrugExt基因之间基于文本挖掘的相互作用。我们将使用术语TxtNet-DiseaseExt和TxtNet-DrugExt来指代这些交互。我们使用了类似的方法来生成基于微阵列的子网络。唯一的区别是生成代表所有基因之间相互作用的综合网络。由于微阵列可以测量基因之间的表达水平,并可用于理解基因之间的功能关系,因此我们试图使用功能基因网络来生成基于微阵列的网络。为此,我们提取了我们的一组基因(Mir-DiseaseExt和Mir-DrugExt)之间的相互作用都来自功能蛋白质网络[25]和信号网络[30]. 我们将使用MirNet-DiseaseExt和MirNet-DrugExt分别表示每种疾病和药物特有的功能性蛋白质相互作用。图中描述了生成特定疾病子网络的整个过程2注意图中的所有内容2适用于查找特定于毒品的子网络。

图2
图2

生成疾病特异性和药物特异性基因网络。该图显示了生成药物特异性和疾病特异性基因-基因网络的过程。该过程首先在步骤2.1和2.2中分别从文本信息源和功能PPI源发现初始基因集之间的所有可能交互作用。然后使用每个疾病和每个药物的初始基因列表,以特定于数据源的方式查询提取的网络。最后,这些基因与其直接邻居之间的相互作用将被视为疾病特异性或药物特异性基因-基因网络。

使用逻辑回归建立药物-疾病关联

Logistic回归测量二元反应变量(疾病基因网络)和一个或多个预测变量(药物基因网络)之间的关系。我们在本研究中使用了逻辑回归模型,因为反应变量是二元的,代表疾病和基因之间的关联。为了将这个问题建模为回归模型,我们将疾病基因网络写成药物基因子网络的线性组合。换句话说,我们认为多种药物可以对与疾病相关的基因产生影响。

药物和疾病特定子网络中基因的优先级

在生成疾病特异性和药物特异性基因基因网络后,我们运行了一个基于不同中心性度量的优先排序过程;即度中心性、贴近中心性和中间中心性。Gephi工具[31]用于计算为一组疾病和药物生成的所有子网络的这些度量。最后,对于每种药物/疾病,我们只考虑了中心性得分大于所有其他基因平均中心性得分的基因。因此,我们利用为每种药物和疾病提取的两个子网络(基于文本挖掘和基于微阵列),构建了六个不同的药物基因和疾病基因布尔相互作用网络。更具体地说,对于每种药物/疾病,我们使用基于文本识别的子网络,使用三种优先级技术构建三个药物基因或疾病基因交互网络,并同样构建另外三个基于微阵列的网络。然后将这些网络输入logistic回归模型,以产生六种不同的药物-疾病相互作用,如图所示.

图3
图3

建立六个不同的药物疾病协会网络。该图显示了建立六个不同的药物-疾病关联网络的过程。从步骤1中的药物特异性和疾病特异性子网络开始,我们将这些网络导入Gephi工具,以检查步骤2中每个基因的不同中心性度量。在步骤3中,我们为每种药物/疾病选择了中心性度量(度、紧密度和介度)高于所有基因平均中心性度量的基因。这些选定的基因已被用于构建药物基因和疾病基因布尔网络。对于三个中心性度量和两个数据源,已经独立重复了这一步骤。因此,我们最终得到了六个不同的药物基因和疾病基因网络,用于在步骤4中训练回归模型。

评估框架的性能

为了评估集成框架的性能,我们从PolySearch服务器构建了一个金标准疾病药物网络[18]. 这个金标准包含22种疾病和406种药物之间的474种正相互作用。为了产生负相互作用,我们选择了PubMed摘要中共出现0次的400种疾病和药物之间的相互作用。我们将每个药物子网络的性能与金标准进行比较,以预测疾病子网络。我们使用受试者工作特性(ROC)曲线分析来产生AUC值,以评估每个子网络的性能。

结果

为药物和疾病选择一组稳健的基因

我们首先选择了DrugBank数据库中至少一种药物靶向的571个基因。根据OMIM数据库,我们还提取了820个与疾病相关的基因。为了精炼这两组基因,我们在此阶段合并了蛋白质网络。因此,最终的清单包含2343个基因。为了对每种药物和疾病的基因列表进行优先排序,我们采用了两种方法。第一种方法基于基因在用药物处理的细胞中或在疾病样本中与正常样本相比的差异表达行为来对基因进行优先排序。在这一阶段,只选择了前50名(25名最上调,25名最下调)。第二种排序方法是基于药物与基因或疾病与PubMed摘要中基因的共现率。在下一阶段筛选出共现率高的Drug基因和疾病基因对。

构建疾病基因和药物基因相互作用

为了预测疾病和药物之间的相互作用,我们首先建立了疾病和基因之间的功能性相互作用,以及药物和基因的功能性交互作用。为了构建每个网络,我们采用了一种系统集成的方法,在该方法的几个步骤中纳入了蛋白质网络。我们使用文本挖掘(TxtNet-DrugExt)和微阵列数据(MirNet-drug Ext)构建药物-基因相互作用。类似地,我们使用文本挖掘(TxtNet-DiseaseExt)和微阵列(MirNet-DisaseExt)构建了疾病基因相互作用。对于基于微阵列的网络,我们结合功能蛋白网络来提取与代表每种药物和疾病的前50个基因相互作用的基因。因此,对于每种药物和疾病,我们都获得了一系列功能相互作用的基因,以表示药物或疾病子网络。对于基于文本挖掘的网络,我们合并了一个从STRING数据库中提取的基因-基因网络,然后提取与哪些基因相关的基因?与药物或疾病同时发生的。最后,对于每一个网络,我们计算了每个网络中基因的三个中心性度量(度、介度、紧密度),然后选择具有高中心性度量的基因,如前一节所述。结果,我们得到了12个网络:6个用于药物,6个用于逻辑回归模型中使用的疾病。由此产生的疾病基因网络是一个由2343个基因和22种疾病组成的矩阵,而药物基因网络是由2343种基因和406种药物组成的矩阵。1总结了每个矩阵中的交互次数。

表1我们使用不同的中心性度量为每种药物和疾病生成的网络摘要

不同战略的绩效评估

在构建药物基因和疾病基因网络后,我们使用逻辑回归预测药物和疾病之间的关联,然后使用AUC评估产生的交互作用相对于金标准的性能。疾病网络被用作反应变量,药物网络被用作预测变量。4显示了表中描述的六个网络的AUC值1结果表明,基于药物或疾病特定网络中的中心度选择基因优于其他中心度度量。然后,我们将基于文本的网络和基于微阵列的网络结合起来用于每个中心性度量。结果表明,结合文本挖掘和微阵列数据可以提高AUC的性能。当我们使用基于蛋白质的网络来比较生成的网络与不包含蛋白质的网络的性能时,我们发现包含蛋白质网络也可以提高AUC。这一发现也反映了网络在揭示一些可用于预测目的的隐藏信息方面的稳健性。

图4
图4

不同方法的性能评估。该图显示了预测疾病-药物相互作用的多种方法的性能评估。由具有高度中心性的基因生成的网络具有最高的AUC值。Mir-degree是使用MirNet-DrugExt-D作为预测变量,MirNet-DiseaseExt-D用作响应变量的AUC预测。

药物疾病网络

有关相互作用的药物疾病网络的完整列表,请参阅附加文件1这表明药物疾病网络使用基于微阵列的网络和使用度中心性。利用我们提出的回归模型预测了22种疾病与183种药物之间的374种相互作用。我们使用Gephi工具构建了这些交互的可视化版本,如图所示5在讨论部分中,我们重点讨论了使用我们提出的范式预测的一些前列腺癌与药物的相互作用。

图5
图5

预测药物-疾病相互作用网络。该图显示了由此产生的药物-疾病相互作用网络。请注意,不同的颜色使用Gephi工具中的模块化函数表示不同的药物-疾病群落。

前列腺癌基因

我们进一步评估了与前列腺癌相关的基因。基于微阵列网络,98个基因与前列腺癌相关,基于文本挖掘,133个基因与前列腺癌相关;其中34人同时接受了这两种程序。我们使用Expression2kinase工具预测了针对这34个基因的药物,发现了几种药物:例如,替克司他丁、贝塔唑、司可特、曲格列酮和非洛地平。不幸的是,由于除了曲格列酮外缺乏这些药物的表达数据,在我们的方法中没有预测到这些药物。当我们描述34个前列腺基因的功能时,我们发现它们与无BCR生存率显著相关(图6)以及多种癌症途径基因(图7). 这些结果表明,我们采用综合方法来定义疾病子网络来表示每种疾病,可以有效地预测疾病相关基因。这一结果提供了证据,证明预测能够有效对抗34个基因的药物可能是降低前列腺癌风险的重要里程碑。

图6
图6

34个前列腺基因的Kaplan-Meier曲线。该图显示了34个前列腺癌相关基因的Kaplan-Meier曲线。从图中可以看出,这些基因的改变与BCR复发的高风险显著相关。

图7
图7

34个前列腺基因和癌症基因的蛋白质网络。该图显示了我们的模型和其他癌症相关蛋白伙伴预测的34个前列腺基因的功能蛋白网络。这个网络中的大多数基因是致癌基因和抑癌基因,以及癌症发展中的其他关键因素。

讨论

药物重新定位是用于改进药物发现过程的最重要技术之一。与令人畏惧的传统技术相比,药物重新定位最吸引人的特点是它能够降低成本并提供更短的批准途径。大多数提议的药物重新定位技术倾向于使用特定的数据源来预测药物与疾病的相互作用。在这项工作中,我们将来自三个主要来源的数据整合到一个单一的范式中,以预测一些新的药物与疾病的相互作用。更准确地说,微阵列表达谱、文本识别和生物网络均被整合以构建药物-疾病网络。将所提出的范式与药物-疾病金标准进行比较,证明了整合范式在预测药物-疾病相互作用方面的稳健性。更具体地说,AUC显示,从组合网络、微阵列和文本挖掘中选择中心基因比从这些来源中单独选择这些基因更具代表性。这些发现如图所示4通过考虑hub基因在三个中心性上下文中的作用进行验证:度、介度和紧密度。所有这些中心性度量的结果都是一致的;使用组合网络的hub基因比使用单一数据源网络的hup基因更具代表性。最后,我们想检查一些预测关联的生物学意义。更具体地说,我们关注一些前列腺癌药物相关性,并浏览了科学文献以获得生物学意义。氮杂啶是一种嘧啶核苷类似物,抑制DNA甲基转移酶,损害DNA甲基化[24]. 氮杂啶用于治疗骨髓增生异常综合征亚型患者;难治性贫血伴环状或过多囊胚或急性髓细胞白血病[24]. 人们认为氮杂啶通过引起骨髓中异常造血细胞DNA的低甲基化而发挥作用。根据我们的研究,阿扎胞苷被发现在前列腺癌治疗中发挥作用。在一项研究氮杂啶在侵袭性前列腺癌模型中的作用的实验中,它提高了多西紫杉醇和顺铂药物的抗肿瘤作用。作者建议在化疗耐药肿瘤中使用氮杂啶作为化疗增敏剂[32]. 在另一个实验中[33]发现长期服用氮杂啶具有抗增殖活性。这种治疗导致肿瘤细胞增殖显著降低,雄激素和PSA蛋白水平显著升高。我们建议的模型预测的另一个有趣的关联是小檗碱和前列腺癌。在许多实验中,发现小檗碱对前列腺癌细胞株具有抗肿瘤活性[34,35]发现在低浓度下诱导G1期阻滞[34]. 此外,研究发现,在高浓度下,它可以有效地消除G2/M期阻滞。结果表明,小檗碱和咖啡因联合使用可能会加速癌细胞的杀伤。小檗碱抑制AR,AR在癌症信号传导中被激活,表明小檗碱是一种有希望的前列腺癌预防和/或治疗药物[35]. 紫杉醇是一种抗肿瘤药物,被认为是治疗晚期卵巢癌和其他各种癌症(包括乳腺癌)的一线和后续治疗药物[24]. 根据我们的模型,发现紫杉醇与前列腺癌有很强的相关性。事实上,紫杉醇对前列腺癌的抗肿瘤活性在许多实验中被检测到[36,37]. 研究结果表明,紫杉醇诱导核移位和PKC-激活,进而导致Golgi-Cdk1激活。高尔基体介导的信号级联促进线粒体参与凋亡途径,这可能解释紫杉醇的抗肿瘤活性。表面修饰的肿瘤细胞与紫杉醇联合应用可能对前列腺癌患者有潜在的临床益处[35]. 考虑到免疫化疗必须依赖于仔细选择紫杉醇剂量和紫杉醇/疫苗给药顺序。

结论

本研究的结果表明,从表达谱和文献中定义疾病和药物的稳健基因特征,并使用蛋白质网络优化和优先排序基因,在临床药物基因组学研究中具有价值和潜力。该结果可以显著加快将已知化合物转化为临床新的治疗用途。

工具书类

  1. DiMasi J、Hansen R、Grabowski H:创新的代价:药物开发成本的新估计。健康经济学杂志。2003, 22 (2): 151-185. 10.1016/S0167-6296(02)00126-1。

    第条 谷歌学者 

  2. Chong C,Sullivan D:旧药物的新用途。自然。2007, 448 (7154): 645-646. 10.1038/448645a。

    第条 计算机辅助系统 谷歌学者 

  3. Pujol A,Mosca R,Farrés J,Aloy P:揭示网络和系统生物学在药物发现中的作用。药物科学趋势。2010, 31 (3): 115-123. 2016年10月10日/j.tips.2009.11.006。

    第条 计算机辅助系统 谷歌学者 

  4. 琼斯·D:癌症治疗之路。Nat Rev药物发现。2008, 7 (11): 875-876. 10.1038/编号2748。

    第条 计算机辅助系统 谷歌学者 

  5. Yap Y,Zhang X,Smith D,Song R,Hill J:胃癌诊断的分子基因表达特征模式。计算机生物化学。2007, 31 (4): 275-287. 2016年10月10日/j.compbiochem.2007.06.001。

    第条 计算机辅助系统 谷歌学者 

  6. Walsh C,Ogawa S,Karahashi H,Scoles D,Pavelka J:ERCC5是卵巢癌预后的一种新的生物标志物。临床肿瘤学杂志。2008, 26 (18): 2952-2958. 10.1200/JCO.2007.13.5806。

    第条 计算机辅助系统 谷歌学者 

  7. Wang W,Guo X,Duan C,Ma W,Zhang Y:正常人软骨和地方性骨关节炎患者软骨基因表达谱的比较分析。骨关节炎软骨。2009, 17 (1): 83-90. 2016年10月10日/j.joca.2008.05.008。

    第条 计算机辅助系统 谷歌学者 

  8. Hu G,Agarwal P:基于基因组表达谱的人类疾病药物网络。公共科学图书馆一号。2009年,4(8):e6536-10.1371/journal.pone.0006536。

    第条 谷歌学者 

  9. Gardner T,di Bernardo D,Lorenz D,JJ C:通过表达谱推断遗传网络和识别复合作用模式。科学。2003, 301 (5629): 102-107. 10.1126/科学1081900。

    第条 计算机辅助系统 谷歌学者 

  10. Lamb J、Crawford E、Peck D、Modell J、Blat I、Wrobel M、Lerner J、Brunet J、Subramanian A、Ross K、Reich M、Lander E、Golub T:连接图:使用基因表达特征连接小分子、基因和疾病。科学。2006, 313 (5795): 1929-1935. 10.1126/科学.1132939。

    第条 计算机辅助系统 谷歌学者 

  11. Sirota M、Dudley J、Kim J、Sage J、Butte A:使用公共基因表达数据概要发现和临床前验证药物适应症。《科学与运输医学》2011,3(96):96ra77-

    第条 计算机辅助系统 谷歌学者 

  12. Iorio F、Bosotti R、Scacheri E、Isacchi A、di Bernardo D:药物作用模式的发现和药物在转录反应中的重新定位。美国国家科学院院刊2010,107(33):14621-14627。10.1073/pnas.1000138107。

    第条 计算机辅助系统 谷歌学者 

  13. Subramanian A,Tamayo P,Mootha V,Golub T,Lander E,Mesirov J:基因集富集分析:解释全基因组表达谱的基于知识的方法。美国国家科学院院刊2005,102(43):15545-15550。10.1073/pnas.0506580102。

    第条 计算机辅助系统 谷歌学者 

  14. Nitsch D、Tranchevent L、Gonçalves J、Vogt J、Madeira S、Moreau Y:PINTA:基于网络的表达数据基因优先排序的web服务器。《核酸研究》2011,39:W334-W338。10.1093/nar/gkr289。

    第条 计算机辅助系统 谷歌学者 

  15. Taylor I,Linding R,Warde Farley D,Pawson T,Morris Q,Wrana J:蛋白质相互作用网络的动态模块化预测乳腺癌的结果。自然生物技术。2009, 27 (2): 199-204. 10.1038/nbt.1522。

    第条 计算机辅助系统 谷歌学者 

  16. Reverter A、Hudson N、Nagaraj S、Pérez-Enciso M、Dalrymple B:调控影响因素:从表达数据中揭示复杂性状的转录调控。生物信息学。2010, 26 (7): 896-904. 10.1093/bioinformatics/btq051。

    第条 计算机辅助系统 谷歌学者 

  17. Wu C,Zhu J,Zhang X:整合基因表达和蛋白质相互作用网络以优先考虑癌症相关基因。BMC生物信息学。2012, 13: 182-195. 10.1186/1471-2105-13-182.

    第条 谷歌学者 

  18. Cheng D,Knox C,Young N,Stothard P,Damaraju S,Wishart D:PolySearch:一个基于web的文本挖掘系统,用于提取人类疾病、基因、突变、药物和代谢物之间的关系。《核酸研究》2008,36:W399-W405。10.1093/nar/gkn296。

    第条 计算机辅助系统 谷歌学者 

  19. Li J,Zhu X,Chen J:从分子相互作用网络和PubMed摘要构建疾病特异性药物蛋白连接图。公共科学图书馆计算生物学。2009年,5(7):e1000450-10.1371/journal.pcbi.1000450。

    第条 谷歌学者 

  20. Chen J,Aronow B,Jegga A:使用蛋白质相互作用网络进行疾病候选基因识别和排序。BMC生物信息学。2009, 10: 73-83. 10.1186/1471-2105-10-73.

    第条 谷歌学者 

  21. Ozgür A,Vu T,Erkan G,Radev D:利用文献挖掘的基因相互作用网络的中心性来识别基因疾病关联。生物信息学。2008, 24 (13): 277-285. 10.1093/bioinformatics/btn182。

    第条 谷歌学者 

  22. Gottlieb A,Stein G,Ruppin E,Sharan R:预测:一种推断新药物适应症并应用于个性化药物的方法。分子系统生物学。2011, 7: 496-

    第条 谷歌学者 

  23. Cheng A,Coleman R,Smith K,Cao Q,Soulard P,Caffrey D,Salzberg A,Huang E:基于结构的最大亲和力模型预测小分子的药物敏感性。国家生物技术。2007, 25 (1): 71-76. 10.1038/nbt1273。

    第条 谷歌学者 

  24. Knox C、Law V、Jewison T、Guo A、Wishart D:DrugBank 3.0:药物“组学”研究的综合资源。核酸研究2011,39:D1035-D1041。10.1093/nar/gkq1126。

    第条 计算机辅助系统 谷歌学者 

  25. Wu G,Feng X,Stein L:人类功能蛋白质相互作用网络及其在癌症数据分析中的应用。基因组生物学。2010年,11(5):R53-10.1186/gb-2010-11-5-R53。

    第条 谷歌学者 

  26. Lamb J、Crawford E、Peck D、Modell J、Blat I、Wrobel M、Lerner J、Brunet J、Subramanian A、Ross K、Reich M、Lander E、Golub T:连接图:使用基因表达特征连接小分子、基因和疾病。科学。2006, 313 (5795): 1929-1935. 10.1126/科学.1132939。

    第条 计算机辅助系统 谷歌学者 

  27. Irizarry R、Bolstad B、Collin F、Cope L、Hobbs B、Speed T:Affymetrix基因芯片探针水平数据摘要。《核酸研究》2003,31:4-10.1093/nar/gng004。

    第条 谷歌学者 

  28. Tusher V,Tibshirani R,Chu G:应用于电离辐射反应的微阵列显著性分析。美国国家科学院院刊,2001,98(9):5116-51121。10.1073/pnas.091062498。

    第条 计算机辅助系统 谷歌学者 

  29. Szklarczyk D、Franceschini A、Jensen L、Mering C:2011年的STRING数据库:全球整合和评分的蛋白质功能相互作用网络。《核酸研究》2011,39:D561-D568。10.1093/nar/gkq973。

    第条 计算机辅助系统 谷歌学者 

  30. Cui Q,Ma Y,Jaramillo M,Purisima E,Wang E:人类癌症信号传导图。分子系统生物学。2007, 3: 152-

    第条 谷歌学者 

  31. Bastian M、Heymann S、Jacomy M:Gephi:一种用于探索和操作网络的开源软件。AAAI网络日志和社交媒体会议。2009,

    谷歌学者 

  32. Festuccia C、Gravina G、D'Alessandro A、Vicentini C、Bologna M:氮杂啶改善侵袭性前列腺癌模型中多西紫杉醇和顺铂的抗肿瘤作用。内分泌相关癌。2009, 16 (2): 401-413. 10.1677/月-08-0130日。

    第条 计算机辅助系统 谷歌学者 

  33. Gravina G、Festuccia C、Millimaggi D、Dolo V、Vicentini B:慢性氮杂啶治疗可产生分化效应,对雄激素依赖性前列腺癌细胞中的比卡鲁胺具有敏感性。罗斯塔特。2008, 68 (7): 793-801.

    第条 计算机辅助系统 谷歌学者 

  34. 王毅,刘强,龚毅,邵C:小檗碱是一种遗传毒性生物碱,可诱导前列腺癌细胞中ATM-Chk1介导的G2阻滞。《突变研究》2012,734(1):20-29。

    第条 计算机辅助系统 谷歌学者 

  35. 李杰,曹斌,董毅:小檗碱抑制前列腺癌雄激素受体信号传导。摩尔癌症治疗。2011, 10 (8): 1346-1356. 10.1158/1535-7163.MCT-10-0985。

    第条 计算机辅助系统 谷歌学者 

  36. 何强,李杰,殷伟,高军:低剂量紫杉醇增强GM-CSF表面修饰的全肿瘤细胞疫苗在前列腺癌小鼠模型中的抗肿瘤效果。癌症免疫疗法。2011, 60 (5): 715-730. 2007年10月7日/00262-011-0988-4。

    第条 计算机辅助系统 谷歌学者 

  37. Lu P,Yu C,Chiang P,Chen Y,Ho Y,Kung F,Guh F:Paclitaxes通过激活核蛋白激酶和随后激活高尔基体相关的Cdk1诱导人类激素难治性前列腺癌细胞凋亡。乌洛尔杂志。2011, 186 (6): 2434-2441. 2016年10月10日/j.juro.2011.07.088。

    第条 计算机辅助系统 谷歌学者 

下载参考资料

鸣谢

Mohammed Alshalalfa和Reda Ahajj感谢iCORE(Alberta Innovates)和NSERC的资助。作者感谢邦妮·卡普兰教授校对手稿。Eisa Alanazi的研究得到了加拿大沙特文化局的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信穆罕默德·阿尔沙拉法.

其他信息

竞争性利益

作者声明,他们没有相互竞争的利益。

作者的贡献

AQ构思并设计了实验,分析了数据并撰写了最初的手稿。MA参与了研究设计、数据和结果分析,并撰写了初稿。EA参与蛋白质网络分析。RA参与了研究设计和数据分析。所有作者阅读并批准了最终手稿。

电子辅助材料

作者提交的原始图像文件

权利和权限

开放式访问本文根据Creative Commons Attribution 2.0 International License的条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Qabaja,A.,Alshalalfa,M.,Alanazi,E。等。使用网络驱动的生物数据优先级和集成预测新药适应症。化学杂志 6, 1 (2014). https://doi.org/10.1186/1758-2946-6-1

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1758-2946-6-1

关键词