摘要

鉴别高危型人乳头瘤病毒对宫颈癌的诊断和治疗具有重要意义。最近,基于蛋白质序列和结构信息提出了几种计算方法,但其相关蛋白质的信息直到现在才被使用。在本文中,我们建议使用蛋白质“序列空间”来探索这些信息,并将其用于预测高风险类型的HPV。该方法在68个已知HPV型和4个无HPV型样本上进行了测试,并与现有方法进行了进一步比较。结果表明,该方法在所有评价方法中取得了最好的性能,准确率为95.59%一层楼-得分为90.91%,这表明蛋白质“序列空间”可能用于改进高危型HPV的预测。

1.简介

宫颈癌是全球女性癌症发病率和死亡率的主要原因之一[1]. 每年约有500000例新的子宫颈癌患者被确诊,28万人死亡[2]. 它已成为女性中第二常见的癌症,尤其是在发展中国家[,4]. 一些研究表明,人乳头瘤病毒(HPV)与宫颈癌密切相关,某些类型的HPV可导致疣(乳头瘤)形式的异常组织生长,一些HPV与某些癌症和癌前状态有关[57].

人乳头瘤病毒是二十面体的非凸面颗粒,含有约8000个核苷酸碱基对的小的双链环状DNA[8]属于乳头状瘤病毒家族(乳头状瘤、多瘤和猴空泡化病毒)[9]. 环状DNA的直径约为55纳米[1013]. 到目前为止,人类乳头瘤病毒(HPV)有150多种类型,当它们与已定义的HPV类型有显著的同源性差异时,将鉴定出一些新的类型[1416]. 流行病学研究表明,生殖器人乳头瘤病毒与宫颈癌有密切关系,与其他危险因素无关。根据其相对恶性程度,生殖道HPV可分为两种或三种类型:低风险型、中等风险型和高风险型[17]. 但在临床关联研究中,HPV通常分为两种类型:高风险型或低风险型。低风险病毒类型与低度病变关系更密切,而高风险病毒类型则与高度宫颈病变和癌症相关[17]. 高危型由20种HPV类型组成,如HPV-16、HPV-18、HPV-26、HPV-31、HPV-33、HPV-35、HPV-39、HPV-45、HPV-51–53、HPV-56、HPV-58、HPV-59、HPV-66、HPV-68、HPV-70、HPV-73、HPV-82和HPV-85[18]. HPV-16和HPV-18约占宫颈癌的62.6%和15.7%[19]. 因此,鉴别高危型HPV成为宫颈癌诊断和治疗的重要内容之一。

由于HPV类型的重要性,人们提出了许多流行病学和实验方法来鉴定它们[5,2022]. 它们主要基于聚合酶链反应(PCR),这是一种检测临床标本中极少量HPV核酸的敏感技术。随着蛋白质和DNA数据库中HPV数据的迅速增加,迫切需要开发一些可靠有效的计算方法,从现有数据中直接预测HPV的高危类型。

最近,一些研究工作发现这些数据与高危型HPV之间存在相关性,并提出了一些预测高危型HPVs的计算方法。Eom等人学习了DNA序列中信息最丰富的子序列片段集,并使用遗传算法对每个HPV的风险类型进行了分类[23]. Joung等人基于隐马尔可夫模型和使用蛋白质序列的支持向量机对人乳头瘤病毒的风险类型进行了分类[24,25]. Park等人提出了用决策树对人类乳头瘤病毒的风险类型进行分类[26]. Kim和Zhang引入了字符串核和Gap-spectrum核来计算氨基酸对的距离,并进一步使用它们根据E6蛋白序列对HPV风险类型进行分类[7,9]. Kim等人提出了一种基于蛋白质二级结构的差异子序列的集成支持向量机来分类HPV风险类型[13]. Esmaeili等人计算了E6蛋白序列的Chou伪氨基酸组成,并使用ROC预测HPV风险类型[27]. Alemi等人分析了高风险和低风险HPV类型中所有早期和晚期蛋白的理化性质,并引入支持向量机,根据受体操作特征分析对高风险HPV进行分类[28].

这些方法在高危型HPV预测方面取得了可喜的结果,但HPV信息提取仍面临挑战。HPV在高危型预测中广泛使用的信息是来自给定DNA或蛋白质序列的基于序列或结构的信息,而相关蛋白质或家族的信息直到现在才被探索。考虑到这一问题,我们提出了一种利用蛋白质序列空间的词统计模型和支持向量机预测高危型HPV的新方案。我们首先利用突变矩阵构建了给定蛋白质序列的“序列空间”。然后,我们利用所提出的单词统计模型从蛋白质“序列空间”中提取HPV的信息。最后,将提取的信息输入支持向量机,对高危型HPV进行预测。通过几次实验,我们想说明与现有预测方法相比,所提出的预测方法的性能如何,以及所提出预测方法的预测能力是否取决于变异矩阵的选择。

2.材料和方法

2.1. 数据集集合

所有类型的人乳头瘤病毒都有一个共同的基因组结构,该结构被排列在上游调控区(URR)和八个编码病毒早期和晚期基因的开放阅读框(ORF)中[11]. URR包含长控制区、TATA信号1和TATA信号2。早期和晚期基因之间存在polyA信号1和polyA信息2。晚期基因表达产生结构蛋白L1和L2[12],组装成病毒衣壳结构,而早期基因活性转化为调节蛋白E1、E2、E4、E5、E6和E7。本文构建了7个HPV蛋白序列数据集:E1、E2、E4、E6、E7、L1和L2。在这里,我们没有使用HPV E5,因为其蛋白质序列的长度太小。所有HPV数据集均从洛斯阿拉莫斯国家实验室(LANL)出版的《人类乳头瘤病毒简编》中下载。

每个数据集中总共有72种类型的HPV,但LANL中缺少一些HPV序列。因此,我们从国家生物技术信息中心的分类浏览器中下载了缺失的序列。例如,L2数据集中缺少HPV 43、67、75、76、77和80蛋白序列;我们从分类浏览器中获得了这些序列。但我们在国家生物技术信息中心找不到E4数据集的缺失序列,因此E4数据集中HPV序列的总数为71。在HPV序列中,选择四个序列(HPV 26、54、57和70)作为预测数据,其他序列为训练数据[13]. 这里,根据HPV简编手动确定HPV风险类型,其中17种HPV类型被划分为高风险类型(HPV 16、18、31、33、35、39、45、51、52、56、58、59、61、66、67、68和72),其余为低风险类型。

2.2. 蛋白质“序列空间”的构建

众所周知,有20多种氨基酸,每一种都不同。突变矩阵表示氨基酸之间的相似性。表示集合中的两个氨基酸,其得分定义如下:哪里表示氨基酸的“归一化概率”突变成氨基酸在进化生物学中,分数描述了蛋白质序列中一个氨基酸随时间变化为其他氨基酸状态的速率。也就是说,序列相似性取决于上述定义中表示的氨基酸得分。通常,两种氨基酸如果分数大于零,则视为相似。值得注意的是是对称的,但它不是传递关系。例如,类似于类似于,但是与不相似.

考虑到氨基酸的得分,我们将20种氨基酸分为几个重叠的类别。这里引入了星形集,其中的属性在顶点和中心之间是已知的。给定一种氨基酸,其恒星集定义如下:其中sig是一个返回数字符号的函数,指示数字是正还是零。如果数字大于零,则为1,否则为零。例如,20个氨基酸可以根据PAM250突变矩阵划分为多个恒星集,如表所示1.

我们想进一步研究恒星集,发现了一些相关的蛋白质序列,它们之间有很高的相似性。假设是两个给定的蛋白质序列;如果满足以下条件,则它们是相关的:从上述定义中,很容易注意到,如果两个蛋白质序列具有更相似的序列,那么它们应该更密切相关。借助于相关序列的定义,我们构造了给定序列的“序列空间”,表示为,如下所示。

步骤1。给定一个空集,用,将其星形集添加到获得蛋白质“序列空间”.

第2步。前缀已添加到并获得了它的恒星集。我们检查了前缀的星集是否为空。如果它的星集是非空集,我们在后面加上一个符号“−”并更新了蛋白质的“序列空间”.

步骤3。我们重复了步骤2直到给定序列结束获得了它的蛋白质“序列空间”如下:在构建蛋白质序列空间时,所有的蛋白质序列都与给定的蛋白质序列密切相关。也就是说,可以通过构建蛋白质“序列空间”来探索有关蛋白质或家族的所有信息

2.3. 蛋白质“序列空间”中的词统计模型

单词统计模型是序列分析中应用最广泛的方法之一[2932]. 在此模型中,每个序列首先映射到-维向量根据其词频,序列相似性可以通过距离度量来衡量,例如欧几里德距离[33],马哈拉诺比斯距离[34],Kullback-Leibler差异[35]、和余弦距离[36]. 当生物序列中出现的单词是估计概率而不是频率时,它们更容易被更复杂的模型优化,例如马尔可夫模型[3739],混合模型[40]和伯努利模型[41]. 这些复杂的模型可以被认为是对传统的基于单词的模型的修改。

生物序列可以描述为一系列符号,单词是一系列序列中的连续字母。对于序列,字数,表示为,是单词的出现次数按顺序在这里,我们在蛋白质“序列空间”中构建了一个单词统计模型。首先,单词出现的位置函数定义如下:单词的计数在蛋白质中,“序列空间”可以根据随机发生指标定义如下为了消除空间大小的影响,我们将单词内容与空间大小进行了归一化,得到了蛋白质“序列空间”的词频,表示为.考虑哪里是恒星集的大小是出现在蛋白质“序列空间”中的单词总数.

2.4. 预测算法

HPV蛋白序列有两种类型:高风险型和低风险型。表示的类型标签样本,其中表示第th个样本为风险类型,其中表示两种不同的风险类型(表示样本为高风险型,以及表示样本为低风险型)。成为蛋白质“序列空间”中的第个单词频率第个样本,其中;  表示所有样本的“序列空间”的所有统计信息,哪里样品和。借助支持向量机(SVM),HPV类型的预测问题公式如下:哪里定义为非线性数据转换集的线性组合是一个偏差项,是正则化元参数,并且表示训练错误第个样本。这个在对偶空间中导出的优化问题可以写成在本文中,我们使用高斯半径基函数核来计算而不是计算明确地。然后将最优分离问题建模为分类器采用以下形式训练模型后,测试样本将根据以下决策功能分配给风险类型:什么时候?为1,这意味着测试样本是HPV的高危型;否则,应为低风险型。在这里,我们选择参数是为了获得尽可能高的总体预测。对每个数据集执行基于10倍交叉验证的简单网格搜索策略,以获得用于预测算法。

3.结果和讨论

3.1. 评价措施

子抽样检验、独立数据集检验和jackknife检验是三种广泛使用的交叉验证方法,用于评估预测能力。折刀试验总是产生独特的结果,这有助于检查各种预测因子的质量。因此,我们选择折刀试验来评估所提方法的性能,并介绍了每个类别的准确度、总体准确度和-分数作为标准绩效衡量标准,定义如下:哪里是真阳性数,是误报数,是真负数,以及是假负数。从他们的定义来看,值得注意的是-如果更大。也就是说-得分将更好地反映HPV风险类型预测能力的效率。

3.2. 早期和晚期蛋白在HPV型预测中的性能比较

HPV基因组编码许多早期(E1、E2、E4、E5和E6)和晚期(L1和L2)蛋白质[,5]. 几种方法利用蛋白质序列、二级结构和伪氨基酸组成的信息对高风险和低风险HPV进行分类[2328]. 但大多数使用E6、E7或L1蛋白。在本研究中,我们构建了7个E1、E2、E4、E6、E7、L1和L2蛋白数据集,并比较了它们在HPV类型预测中的性能。E5的蛋白质没有包括在内,因为它们的长度太小。每个等级的准确度、总体准确度以及-图中总结了所有早期和晚期蛋白质的得分1.

从图中1不难看出,低风险型的准确度高于高风险型。在低风险型预测实验中,E7比其他HPV蛋白(突变矩阵p200除外)表现更好。但就高危型预测和全型预测实验而言,E6在所有HPV蛋白中的准确性和-分数。一些实验研究表明,高危HPV的E5、E6和E7蛋白在疾病进展和癌症中起着重要作用[14]. E5蛋白提高表皮生长因子受体(EGFR)的半衰期和活性。E6和E7蛋白使p53和Rb功能失活[42]. 结果还强调,在所提出的模型中,E6蛋白的序列更适合于HPV高危型的预测,而E7蛋白更可靠地用于HPV低危型的预测。

3.3. HPV型预测中突变矩阵的比较

提出的单词统计模型是基于严重依赖突变矩阵的蛋白质“序列空间”构建的。为了评估不同突变矩阵的影响,我们采用了10个突变矩阵,包括PAM 40、PAM 80、PAM 120、PAM 200、PAM 250、BLOSUM 40、BLOSUM 45、BLOSAM 62、BLOSOM 80和BLOSUM100。每个等级的准确度、总体准确度以及-基于十个突变矩阵的预测方法的得分如图所示1.

1很大程度上证实了基于不同变异矩阵的预测方法具有不同的性能。高风险型和全类型预测实验的变化相似,但低风险型预测实验有一定差异。至于BLOSUM突变矩阵,BLOSUM45和BLOSUM62在预测高危型HPV方面表现更好。对于PAM突变矩阵,PAM 40和PAM 80在高危型预测实验中获得了更好的性能。从预测精度来看,很容易看出,除了含有E4蛋白的PAM 80外,PAM 40在PAM和BLOSUM矩阵中基于E6蛋白的性能最好。这些结果可能为我们根据不同的蛋白序列选择合适的突变矩阵来预测高危型HPV提供一些建议。

3.4. HPV分类

在本研究中,我们使用基于PAM 40突变矩阵构建的E6蛋白“序列空间”的单词统计模型提取信息。采用Leave-one-out交叉验证来确定所有实验结果的预测性能。HPV分为高风险和低风险两类。2显示了手动标记的答案与建议的预测方法的结果的比较。

2结果表明,本文提出的预测方法取得了较好的预测效果,其中65种HPV的预测结果与实际风险类型一致。HPV 66和HPV 72为高危型,但预测为低风险型,HPV 30为低风险类型,但使用建议的预测方法预测为高风险型。为了突出预测差异,我们进一步将我们的结果与Kim的结果进行了比较[13]. 对于Kim的预测,HPV 72被预测为可能的高危型,但在所提出的方法中被预测为“低风险型”;HPV 56被预测为可能的高危型,而我们预测为高危型;HPV 53和HPV 73被预测为可能的高危型,但在我们的结果中它们是低风险型。系统发育分析表明,HPV 30与已确定的致癌型HPV 56密切相关,这表明HPV 30更可能是高危型。从比较中,很容易注意到,用所提出的方法得到的结果与实际风险类型更加一致。

为了进一步评估所提出的预测方法的性能,我们计算了总体精度和-并将其与图中公布的结果进行比较2这里评估的方法如下:使用错配核(Mismatch kernel)的SVM,Joung等人[24],支持向量机与线性核方法(线性)[13],带有Gap-谱核(Gap)的SVM分类器[7],BLAST预测,对-最近邻法[13],基于蛋白质二级结构的Ensemble SVM(Ensemble)[13],以及两种基于文本的预测方法AdaCost[26]和朴素的贝叶斯[26].

该方法实现了95.59%的准确率和90.91%的准确率-得分,而集成SVM获得了94.12%的准确率和88.89%-得分,以及带有错配核的SVM分别获得了92.70%和85.70%的准确率-分数,支持向量机使用线性核,准确率为90.28%,83.72%-得分和BLAST,准确率分别为91.18%和88.24%-得分。对于基于文本的预测方法,AdaCost[26]实现了更好的性能,准确率为93.05%,84.490%-分数和朴素贝叶斯[26]落后,准确率为81.94%,63.64%-得分。根据预测精度和-得分,所提出的预测方法在所有评估的预测方法中取得了最佳的性能;下一个最佳预测方法是集成SVM,其他方法则落后。值得一提的是,该方法基于蛋白质序列以及错配、线性和缺口,而Ensemble使用预测的蛋白质二级结构信息。我们还注意到,与其他预测方法相比,基于文本的预测并不能提供更好的结果。虽然基于文本的预测方法在文档中有明确的关键词方面具有优势,但它们依赖于从文献中获得的证据。当没有关于风险类型未知的HPV的可用文件时,就无法预测它们。这一比较还表明,基于蛋白质“序列空间”的单词统计模型对人类乳头瘤病毒的风险类型分类更有效。

3.5. 未知HPV类型的预测

本文最重要的任务是预测新HPV的高危类型。在这里,我们从LANL数据库下载了未知类型HPV的E6蛋白序列,并使用它们进一步评估所提方法的性能。显示了所有未知类型HPV的预测结果。

从表使用该方法预测HPV 26和HPV 70为高危型,HPV 54和HPV 57为低危型。为了与现有方法进行比较,我们还将可用方法的预测结果表示在表中从HPV分类中,我们知道所提出的预测方法取得了最佳的性能,其次是集合SVM。来自表格很容易注意到,所提出的方法和集成SVM获得了相同的结果。对于HPV 54和HPV 57,所有方法都预测其为低风险型。对于HPV 26,建议的方法PseAAC[27]、合奏[13]、和间隙[7]预测为高风险型,而错配[24],线性[13]和遗传[23]预测为低风险型。根据预测方法的可靠性,HPV26应该是高风险型。对于HPV 70,除遗传型外,所有预测方法都将其预测为高危型[23]和PseAAC[27]. 这些结果表明,该方法可以为潜在高危HPV的调查提供简单而有效的指导。

4.结论

生殖器人乳头瘤病毒与宫颈癌,尤其是高危型HPV有密切关系。因此,HPV危险类型的鉴别对宫颈癌的诊断和治疗具有重要意义。本文提出了一种利用蛋白质“序列空间”的词统计模型预测高危型HPV的计算方案。我们首先利用变异矩阵构造了给定蛋白质序列的序列空间。我们不再仅仅使用基于序列或结构的蛋白质序列信息,而是使用词统计模型从蛋白质“序列空间”中提取HPV信息来预测HPV的高危类型。该方法在68个已知HPV类型和4个未知HPV类型的样本上进行了测试。结果表明,与以前的方法相比,该方法取得了更好的性能。

我们研究的主要目标是研究一种基于蛋白质“序列空间”的新预测方法。第一个贡献可以从早期和晚期蛋白质在HPV类型预测中的表现比较中看出;我们发现E6蛋白的“序列空间”更适合于HPV高危型预测,而E7蛋白的序列空间更适合HPV低危型预测。第二个贡献可以从HPV类型预测中突变矩阵的比较中看出;我们注意到,PAM 40在PAM和BLOSUM基质中E6蛋白序列的表现最佳,但PAM 80与E4蛋白的序列除外。第三种贡献可以从未知HPV类型的HPV分类和预测中推断出来;我们发现,所提出的预测方法在所有评估的预测方法中取得了最佳的性能,准确率为95.59%,90.91%-分数,这有助于引入蛋白质“序列空间”。因此,这一认识可以用于指导开发更强大的方法来预测高危型HPV。

利益冲突

作者声明,本论文的出版不存在利益冲突。

致谢

作者感谢审稿人对本文的许多宝贵意见。本研究得到了国家自然科学基金(61370015、61170316、61272312)、浙江省自然科学基金资助项目(LY14F020046)、浙江医药卫生基金(2011-2011RCA012)和浙江科技大学521人才培养计划的支持。