定义基因的初始集合
在一项定量评估人类基因组药物潜力的实验中,可以想象的结果表明,人类基因组中只有10%的基因被视为药物靶点,10%与疾病病理生理学有关,只有5%既可药物化又与疾病相关[23]. 我们假设,仅包括与药物作用模式或疾病病理生理学相关的基因,就可以通过从进一步分析中排除无关基因来节省处理时间和记忆。特别是,我们使用了DrugBank数据库[24]包括我们药物集和OMIM数据库的所有靶点,以包括与疾病病理生理学有关的基因。
使用蛋白质网络优化基因列表
为了确保我们为药物和疾病选择了一组功能强大的基因,我们包括了其他功能相关的基因,从而扩展了我们对药物作用模式或疾病病理生理学的理解。为此,我们使用了Reactome数据库中的功能性蛋白质相互作用[25]为了提取与我们的基因种子列表功能相关的所有其他基因(直接邻居)。在这项工作的背景下,我们将这些列表分别称为DiseaseExt和DrugExt,用于疾病和药物的扩展列表。
使用微阵列和文本挖掘数据对基因进行排序
在本节中,我们描述了我们遵循的两个方向,以优先考虑DiseaseExt和DrugExt基因。在第一种方法中,我们使用药物和疾病治疗细胞的微阵列表达数据,根据基因的差异表达能力对基因进行排序。在第二种方法中,我们使用文本挖掘技术根据基因与疾病或药物共现的频率对基因进行排序。
基于微阵列基因表达的基因列表排序
使用两个不同的数据库生成基于微阵列的药物基因和疾病基因相互作用。对于毒品,我们使用了连通图网站[26]其中包含了6100份针对1300种化学物质的基因排名表。请注意,基因的排名分数是基于未经治疗和药物治疗的样本之间的差异表达。因此,对于一组n个基因,阳性表达最多的基因被赋予1的等级,阴性表达最多的基因被赋予n的等级。我们提取了这些排序列表,并合并了特定药物的重复样本,正如Iorio所描述的那样[12]. 因此,在排除了DrugBank数据库中未识别的化学物质后,我们最终获得了剩余406种药物中每种药物的代表性列表[24]. 我们提取了DrugExt基因的秩值,并根据此列表对与特定药物相关的每个基因进行了归一化秩分数。最后,为每种药物选择25个排名最低和25个排名最高的基因,以代表构建药物特异性基因网络的初始基因集。我们将这些基因集称为Mir-DrugExt。对于疾病,我们使用基因表达综合(GEO)存储库为疾病样本和对照样本生成微阵列数据。为了选择数据集,在本实验中,至关重要的是选择使用人类Affymetrix平台生成的疾病表达谱,以使其与针对药物生成的实验一致,并避免任何可能的平台特定偏差。此外,还必须包括一组疾病。由于我们计划使用相同的归一化算法对实验进行归一化,所以上传了CLE原始文件。这组疾病是通过手动浏览GEO以进行符合上述标准的疾病实验来选择的。这一浏览过程由两名生物信息学家完成,持续了两周,导致了一组24种疾病。独立收集24种疾病的CLE文件和RMA归一化算法[27]用于规范化数据。我们通过在微阵列表达谱中找到相应的探针来提取DiseaseExt基因集的基因表达谱。请注意,所有探针的平均表达谱都是针对由一个以上对应探针表示的基因。随后,我们使用了微阵列或SAM技术的显著分析[28]为了确定每个基因的差异表达分数,根据从1到n的分数对基因进行排序。SAM根据与特定基因的某些随机生成测量值的标准偏差相关的变化来分配分数。该分数介于高阳性(表明健康和疾病样本之间的比较中基因已上调)和高阴性(表明健康样本和疾病样本间的比较中该基因已下调)之间。最后,为每种疾病选择25个最低和25个最高排名的基因来代表最初的一组基因,以建立一个疾病特异性基因网络。我们将这些集合称为Mir DiseaseExt。
基于PubMed摘要的基因列表排序
为了对每种药物和疾病的基因进行优先排序,我们使用PubMed摘要发现这些生物实体之间存在共现现象。更具体地说,我们查询了PubMed数据库,以检查每种疾病/药物与DiseaseExt和DrugExt中每种基因的共现情况。值得注意的是,我们考虑了特定疾病、药物或基因的所有可能注释或MeSH术语。由于共现可能容易出现假阳性,我们将任何小于5的药物基因或疾病基因共现设置为零。定义这些共现后,我们使用正则化对数奇数比率连接性度量来反映我们的药物基因和疾病基因共现矩阵中的联系强度。结果得分为富集药物基因或药物基因对的正值,为代表性不足的成对的负值。如前所述[19],特定药物或疾病D与基因G之间的连接性,或连接
DG公司
可以根据以下公式计算:
(1)
在哪里?防抱死制动系统
DG公司
是同时提及药物或疾病D和基因G的摘要总数。防抱死制动系统
G公司
和防抱死制动系统
天
是分别提及基因G和药物或疾病D的摘要数。N是所有测试摘要的大小。λ是一个小常量,添加该常量是为了在以下情况下避免越界错误防抱死制动系统
DG公司
,防抱死制动系统
G公司
,或防抱死制动系统
天
值为零。使用这个公式唯一担心的是,我们案例中的N项非常大(PubMed中的所有摘要),因此得分偏向公式的左手边。另一方面,使用任何较小的合理值替换N都会使分数偏向公式的右侧。因此,我们试图根据以下公式修改双方以适应我们的分析:
(2)
然后我们设置λ在所有情况下均为1。最后,我们纳入了所有阳性基因连接
DG公司
与特定疾病或药物相关的分数。对于疾病和药物,我们将这些基因集分别称为Txt-DiseaseExt和Txt-DrugExt。
生成疾病特异性和药物特异性基因模块特征
在我们使用微阵列和文本挖掘技术细化DiseaseExt和DrugExt基因集后,我们试图找到代表每种药物和疾病的基因子网络(基因模块)。如上所述,我们的主要目标是利用存储在生物网络中的信息,从而将注意力集中在网络拓扑特征上,以预测药物适应症。我们打算使用两种不同的信息源为每种药物或疾病生成两个子网络:微阵列表达谱(Mir-DiseaseExt和Mir-DrugExt)和文本挖掘数据(Txt-DiseaseText和Txt-DrugExt.)。为了生成基于文本的子网络,我们首先从文本文件中提取了一个表示基因-基因相互作用的综合网络。更具体地说,我们使用了我们正在研究的整套基因来查询STRING web服务器[29]. STRING服务器存储来自四个不同来源的巨大基因网络:基因组上下文、高通量技术、共表达和文本挖掘。我们分别提取了每种疾病和每种药物的Txt-DiseaseExt和Txt-DrugExt基因之间基于文本挖掘的相互作用。我们将使用术语TxtNet-DiseaseExt和TxtNet-DrugExt来指代这些交互。我们使用了类似的方法来生成基于微阵列的子网络。唯一的区别是生成代表所有基因之间相互作用的综合网络。由于微阵列可以测量基因之间的表达水平,并可用于理解基因之间的功能关系,因此我们试图使用功能基因网络来生成基于微阵列的网络。为此,我们提取了我们的一组基因(Mir-DiseaseExt和Mir-DrugExt)之间的相互作用都来自功能蛋白质网络[25]和信号网络[30]. 我们将使用MirNet-DiseaseExt和MirNet-DrugExt分别表示每种疾病和药物特有的功能性蛋白质相互作用。图中描述了生成特定疾病子网络的整个过程2注意图中的所有内容2适用于查找特定于毒品的子网络。
使用逻辑回归建立药物-疾病关联
Logistic回归测量二元反应变量(疾病基因网络)和一个或多个预测变量(药物基因网络)之间的关系。我们在本研究中使用了逻辑回归模型,因为反应变量是二元的,代表疾病和基因之间的关联。为了将这个问题建模为回归模型,我们将疾病基因网络写成药物基因子网络的线性组合。换句话说,我们认为多种药物可以对与疾病相关的基因产生影响。
药物和疾病特定子网络中基因的优先级
在生成疾病特异性和药物特异性基因基因网络后,我们运行了一个基于不同中心性度量的优先排序过程;即度中心性、贴近中心性和中间中心性。Gephi工具[31]用于计算为一组疾病和药物生成的所有子网络的这些度量。最后,对于每种药物/疾病,我们只考虑了中心性得分大于所有其他基因平均中心性得分的基因。因此,我们利用为每种药物和疾病提取的两个子网络(基于文本挖掘和基于微阵列),构建了六个不同的药物基因和疾病基因布尔相互作用网络。更具体地说,对于每种药物/疾病,我们使用基于文本识别的子网络,使用三种优先级技术构建三个药物基因或疾病基因交互网络,并同样构建另外三个基于微阵列的网络。然后将这些网络输入logistic回归模型,以产生六种不同的药物-疾病相互作用,如图所示三.
评估框架的性能
为了评估集成框架的性能,我们从PolySearch服务器构建了一个金标准疾病药物网络[18]. 这个金标准包含22种疾病和406种药物之间的474种正相互作用。为了产生负相互作用,我们选择了PubMed摘要中共出现0次的400种疾病和药物之间的相互作用。我们将每个药物子网络的性能与金标准进行比较,以预测疾病子网络。我们使用受试者工作特性(ROC)曲线分析来产生AUC值,以评估每个子网络的性能。