摘要
动机:B细胞表位是抗原表面上与抗体结合的一个小区域。准确定位表位对疫苗开发至关重要。与湿法相比,计算方法在以更低的成本高效大规模预测候选抗原表位方面具有强大的潜力。然而,目前尚不清楚哪些特征是准确表位预测的良好决定因素,导致现有预测方法的性能不佳。
方法和结果:我们提出了一种更精确的B细胞表位预测方法。我们的方法使用了一个新的特征B因子(从X射线晶体学获得),结合了每个残基的其他基本物理化学、统计、进化和结构特征。这些基本功能由序列窗口和结构窗口扩展。然后通过两阶段随机森林模型学习所有这些特征,以识别抗原残基簇并删除孤立的异常值。通过对来自45个三级结构的55个表位的数据集进行测试,我们证明了我们的方法显著优于所有三个现有的基于结构的表位预测因子。综合分析发现,B因子、相对可及表面积和突起指数等特征在表征B细胞表位中起着重要作用。我们对HIV抗原和流感抗原的详细案例研究证实,我们的第二阶段学习对于聚类真实抗原残基和消除第一阶段学习引入的自制预测错误是有效的。
可用性和实施:源代码可根据要求提供。
联系人: jinyan.li@uts.edu.au
补充信息: 补充数据可在生物信息学在线。
1简介
B细胞表位是抗体与抗原的结合位点。它可以被特定的B淋巴细胞识别以刺激免疫反应。如果抗原及其结合抗体都已知,则可以通过湿式实验(如X射线晶体学)准确地确定表位位置。然而,识别未知抗原及其特异性抗体的表位需要花费大量时间和劳动。计算方法在以低得多的成本对许多候选抗原进行高效大规模表位预测方面具有巨大潜力。早期的计算预测方法侧重于线性表位的识别,线性表位是B细胞表位的简单形式。
线性表位由单个连续序列段组成。早期的预测方法假设某些倾向与线性表位残基之间应该存在良好且简单的相关性,并试图通过一个或两个倾向来预测线性表位。例如,亲水性由霍普和伍兹(1981)和帕克等。(1986),灵活性Karplus和Schulz(1985),凸出指数(PI)桑顿等。(1986),抗原倾向Kolaskar和Tongaonkar(1990年),氨基酸配对陈等。(2007)和β-圈佩尔凯等。(1993)为了增强预测的鲁棒性,人们提出了各种滑动窗口的思想(Chou和Fasman,1974年)并应用于线性表位预测(霍普和伍兹,1981年;Karplus和Schulz,1985年;Westhof,1993年). 然而,滑动窗口方法过于简化,预测性能没有显著改善(陈等。, 2007). 2005年,Blythe和Flower从AAIndex中导出了484个氨基酸倾向量表,发现即使是最好的量表和参数集也只比随机方法表现稍好。他们建议使用更复杂的方法进行表位预测(布莱斯和弗劳尔,2005年). 其他研究工作尝试使用机器学习方法,如隐马尔可夫模型(拉森等。, 2006),递归神经网络(Saha和Raghava,2006年)和支持向量机(陈等。, 2007)以提高线性表位预测的性能。
B细胞表位的另一种形式称为构象表位。构象表位由在三维空间折叠后紧密连接的残基的不连续延伸组成。由于90%以上的表位是构象的(安徒生等。, 2006)近年来,越来越多的蛋白质结构被利用,人们的注意力已经转移到构象表位预测问题上(安徒生等。, 2006;库尔卡尼·卡莱等。, 2005;Lo(低)等。, 2013;莫罗等。, 2008;波诺马连科等。, 2008;太阳等。, 2009;Sweredoski和Baldi,2008年;赵等。, 2012). DiscoTope公司(安徒生等。, 2006)是最早基于结构数据研究构象表位的方法之一。它将顺序平滑的对数比值比的结构接近度和与接触数相结合,得出预测得分。该方法的另一个新颖之处是,它使用结构窗口的概念来平滑物理化学倾向。后来的一种方法叫ElliPro(波诺马连科等。, 2008)利用PI(桑顿等。, 1986)并使用残基聚类算法预测蛋白质序列或蛋白质结构的线性和构象B细胞表位。ElliPro没有培训流程,但在实施之前必须设置参数阈值。SEPPA方法(太阳等。, 2009)引入了一个新的概念“剩余三角形的单位补丁”来描述蛋白质表面的局部空间上下文。它还结合了聚类系数来描述表位预测中表面残基的空间紧致性。该领域的一项最新工作是抗体特异性B细胞表位预测(赵等。, 2011). 这种方法可以准确预测更有用的抗体特异性表位,而不是抗原残基。但它需要更多的先验信息,例如抗体结构或序列信息。当抗体未知时,它不适用于新病毒。尽管进行了深入的研究,但所有这些方法的预测性能仍需改进。
在这项工作中,我们提出了一种更精确的表位预测方法,称为CeePre(C类关于信息的e(电子)斗e(电子)之前措辞)。CeePre采纳了两个新想法。首先,CeePre在学习过程中使用了一个新的特征B因子,并结合了残基的许多其他物理化学、统计、进化和结构特征。这些特征还通过序列窗口和结构窗口进行扩展,以派生复合特征。B因子是蛋白质X射线晶体学的一个重要参数。它测量蛋白质3D结构中残基/原子的灵活性/刚性。B因子得分越高,意味着原子/残基的灵活性越高。已经发现,低B因子通常分布在非结合界面的核心(斯瓦普纳等。, 2012). 第二个新想法是,CeePre是随机森林学习过程下的两阶段模型(布雷曼,2001年). 在第一阶段,使用原始的304特征来预测潜在的抗原残基。在第二阶段,将第一阶段预测的类别标签添加到特征空间中,对附近的抗原残基进行聚类,形成表位,并删除孤立的抗原或非抗原残基预测。这种想法基于这样的假设,即聚集的抗原残基更有可能构成表位,而分离的抗原残基可能被错误预测。这种想法可以有效地消除自制的预测误差,从而获得真正有意义的最终结果。
CeePre在45个三级抗原结构的55个表位上进行测试。结果表明,CeePre显著优于所有现有的基于结构的表位预测因子(DiscoTope、ElliPro和SEPPA)。通过综合分析随机森林在表位预测中提出的重要特征,发现B因子、相对可及表面积(RSA)和PI对提高预测性能起着重要作用。我们的分析还证实,一个残基是否参与表位在序列和空间上都受到邻近残基的影响,因此,最好同时使用序列和结构窗口来构建特征向量。
2材料和方法
2.1数据集
本工作中的构造数据包括两种类型:第四纪构造和第三纪构造。四级结构用于确定表位中的残基,而三级结构用于提取候选残基的特征分数。结构数据通过以下步骤进行编译。
2.1.1第四纪构造和表位残基
包含107个非冗余抗原抗体复合物的数据集(克林格鲁姆等。, 2013)使用。根据以下标准去除一些(例如T细胞抗原)。
总共使用102个四元结构来确定B细胞表位。表位残基是一种抗原残基,该抗原残基中至少存在一个重原子,该重原子与抗体残基的重原子之间的距离在4º以内(波诺马连科等。, 2008).
2.1.2第三系结构
传统的基于结构的表位预测方法通常使用四级结构数据集(安徒生等。, 2006;克林格鲁姆等。, 2013;太阳等。, 2009). 从实际角度来看,预测应在相应抗体未知的假设下进行。换句话说,使用三级结构而不是四级结构对表位的分析和预测更为合理。简单地从四级结构中分离抗原并不是获得三级结构数据的好方法。这是因为四元结构中的抗原侧包含结合信息(补充图S1); 例如,抗体结合的残基不太灵活,在四级结构中具有较小的B因子。使用结合信息预测未结合状态的表位是不公平的。因此,从四级结构中获得相应的抗原三级结构是非常重要的。
我们采用对齐方法从四级结构数据构建我们的三级结构数据集。首先,四级结构中的抗原与蛋白质数据库(PDB)中的每个三级结构对齐。如果序列相似性>95%,并且表位残基可以完全对齐,则选择三级结构。通过这一步,34个配合物被移除,因为在95%的序列相似性条件下,它们不能与任何三级结构对齐。1EGJ也被删除了,因为它只能与1C8P对齐,后者由核磁共振(而非X射线)确定。由于其表位不能完全映射到相应的三级结构上,因此又删除了12个复合物。
经过这个过滤过程,保留了55个四级结构,并将其对应的表位映射到45个三级结构。在某些情况下,来自四级结构的两个或多个抗原映射到相同的三级结构。补充表S1显示了数据集详细信息以及四级结构和三级结构之间的映射。本文中残留物的所有特征分数都是从三级结构而不是四级结构中提取的。
2.1.3非微量残留物
一般来说,除了表位残基外,三级结构中的所有其他表面残基都可以被认为是非表位残基。特别地,罗斯特和桑德(1994)如果RSA大于15%,则认为残留物是表面残留物,而RSA阈值设置为25%邓等。(2009)可及表面积(ASA)的绝对值也用于识别表面残留物。约旦(2010)已采用5º的阈值2定义表面残留物。使用我们数据集中表位残基RSA的简单统计,我们发现>75%的表位残基RSA>25.9%。因此,我们采用RSA 25%的标准(邓等。, 2009)定义表面残留物。因此,在我们的数据集中有725个表位残基和6504个非表位残位。
这里的一个关键问题是表位残基和非表位残基数不平衡。表位残基仅为非表位残基的10%多一点。如果在训练中使用这种不平衡的数据集,分类器将倾向于将每个残基分类为非表位。因此,我们随机抽样非表位残基,以获得与表位残数相同数量的非表位残留物,从而生成一个平衡的数据集。CeePre在这些平衡数据集上进行训练,并在平衡数据集和非平衡数据集中进行测试。
2.2残留物特征空间
2.2.1基本特征,包括我们新提议的B系数
以下人员研究了各种特征陈等。(2007);El-Manzalawy公司等。(2008);霍普和伍兹(1981);贾宁(1979);Karplus和Schulz(1985);Kolaskar和Tongaonkar(1990年);佩尔凯等。(1993);索尔纳等。(2008);桑顿等。(1986)除了我们新引入的用于表征表位残基的B因子特征外,本研究还收集了许多传统使用的物理化学特征、统计特征、进化特征和结构特征(表1). 总共有38个功能是我们的基本功能(补充表S2)包括20个PSSM特征和8个二级结构特征。每个残基的B因子得分是该残基中所有原子的平均B因子。
2.2.2基于窗口的特征:扩展的复合特征
表位残基的位置会受到其附近残基在序列和空间上的影响。我们引入了两个窗口来捕捉这种影响:序列窗口和结构窗口。根据窗口中的残差计算值分数的特征称为基于窗口的特征。
一个序列窗口总共平滑了38个特征。序列窗口的大小为7(安徒生等。, 2006),即残留物的序列窗口我覆盖残留物我− 3,我− 2,我− 1,我,我+ 1,我+ 2,我+ 3. 我们使用每个基本特征的平均值v(v)在此窗口上获取平滑值v(v)对于残留物我它被命名为平滑特征v′.由于有38个基本特征,我们可以为每个残差获得额外的38个平滑特征。请注意,窗口大小是可调整的。
一个结构窗口共有228个新功能。如果目标残基的任何原子与表面残基的原子之间的距离小于阈值(窗口大小:10º,可调),则表面残基位于目标残基结构窗口内。我们计算每个基本或序列窗口平滑特征的每个残差的结构窗口中所有残差的最大值、最小值和平均值u个.该过程引入了228[(38+38)×3]组合特征,称为结构最大、最小或平均特征u个。通过此添加,我们使用总共304个(38+38+228)特征来表征每个残基。
图1总结了从三级结构构建特征空间的过程。
2.3预测方法
2.3.1两阶段学习
我们的预测方法CeePre有两个学习阶段:
学习的第一阶段是通过随机森林模型(布雷曼,2001年)在304特征描述的残差训练数据集上。经过训练的模型名为CeePre1。CeePre1可以预测测试数据集中残留物的类标签。它还可以预测训练残差的类标签。CeePre1如所示图2.
学习的第二阶段包括四个步骤。步骤1:在304特征描述的训练数据集上训练CeePre1模型,并获取训练数据和测试数据的预测类标签。训练数据的预测类标签由训练数据本身的内部10倍交叉验证过程给出。第二步:通过一个结构窗口和CeePre1的预测类标签添加四个特征来扩展304-feature向量。残基的四个新特征是:(i)CeePre1的预测类标记,(ii)窗口中预测的表位残基数,(iii)窗口中预计的非表位残数,以及(iv)窗口中所有残基的预测表位残量之比。步骤3:在308个特征描述的丰富训练数据集上训练随机森林模型。经过训练的模型命名为CeePre2。步骤4:应用CeePre2预测由相同308个特征描述的测试数据集中残留物的类标签,并获得测试性能。图3说明了CeePre2的学习和测试过程。
CeePre1侧重于准确预测抗原残基。在CeePre1之上,CeePre2集中于聚集单独的抗原残基,并消除孤立的假阳性和假阴性。通常,空间聚集的抗原残基更容易构成表位。相反,分离的抗原残基不太可能是表位的一部分。根据这一原理,CeePre2在第二阶段将CeePre1的预测结果转换为四个特征,将分离的抗原残基整合为一组表位残基,从而提高了许多情况下的预测性能。
2.3.2随机森林
随机森林被用作我们的学习模型。随机森林是由布雷曼(2001)它构造了多个决策树分类器,并通过投票获得最终预测。它有很多优点(汉族等。, 2006). 首先,它对误差和异常值具有鲁棒性,并且可以避免过拟合。其次,它的精度与其他集成算法(如AdaBoost)相当,但速度要快得多。此外,它给出了变量重要性的内部估计。
许多软件包都包含随机森林算法。R包中随机森林的实现Liaw和Wiener(2002)此处使用。有两个重要参数:要生长的树的数量和每次拆分时选择为候选特征的数量。在学习过程中,我们构建了100棵树,并通过优化F-score确定特征数。
2.4评估指标
CeePre根据六个指标进行评估:准确性、召回率、特异性、精密度、F-score和Matthews相关系数(MCC)。召回率、特异性和精确性反映了分类器的预测倾向。回忆(敏感性或TP识别率)和特异性(TN识别率)说明了阳性和阴性样本正确预测的百分比。相应的标准是显示正确阳性标记样本百分比的精度。精确性和召回率之间存在权衡。回忆倾向于正面预测,而精确倾向于负面预测。
准确度(识别率)描述分类器识别阳性样本和阴性样本的程度。只有当样品均匀分布时,它才有效。如果正负样本不平衡,分类器倾向于预测样本,因为大多数类将获得更好的准确性。F分数结合了精度和召回率,可用于评估分类器在平衡数据集和不平衡数据集上的性能。MCC是另一个可用于评估分类器性能的指标,尤其是在不平衡数据集上。它返回一个介于-1和+1之间的值:+1表示完美预测,0表示随机预测,-1表示完全反向预测。
3结果和讨论
我们首先将CeePre模型与其他三个基于结构的表位预测因子(DiscoTope、ElliPro、SEPPA)进行比较。评估基于平衡数据集和整个非平衡数据集。在本节中,我们还强调了几个B因子相关特征,它们在表位预测中很重要。
3.1平衡数据集评估
对我们的平衡数据集进行了10倍交叉验证程序,该数据集包括通过采样获得的所有725个表位残基和725个非表位残余物。采样操作三次,以获得三个不同的非表位残留数据集。报告三次抽样中每个指标的平均值和标准偏差,以消除抽样引起的偏差。
CeePre和其他三个预测因子的性能如所示表2.CeePre(CeePre1和CeePre2)在平衡数据集上表现出优异的性能,在所有指标上超过了其他三个预测因子。具体而言,CeePre2的F分数为0.89,比其他预测因子的最佳F分数(SEPPA)高0.31。CeePre2的MCC为0.77,是其他三个预测因子中最佳MCC的四倍(SEPPA为0.19)。准确度在平衡数据集上有意义:CeePre2的准确度为0.88,比其他预测因子的最佳准确度(SEPPA)高0.29。总之,CeePre在平衡数据集上表现出出色的性能。
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.85 ± 0.013 | 0.85 ± 0.012 | 0.85 ± 0.016 | 0.71 ± 0.026 | 0.85 ± 0.012 | 0.85 ± 0.013 |
CeePre2公司 | 0.89 ± 0.006 | 0.85 ± 0.009 | 0.93 ± 0.003 | 0.77 ± 0.014 | 0.83 ± 0.011 | 0.88 ± 0.007 |
DiscoTope公司 | 0.33 ± 0.004 | 0.57 ± 0.022 | 0.23 ± 0.000 | 0.07 ± 0.020 | 0.83 ± 0.015 | 0.53 ± 0.008 |
ElliPro公司 | 0.61 ± 0.001 | 0.51 ± 0.001 | 0.76 ± 0.000 | 0.03 ± 0.004 | 0.27 ± 0.003 | 0.51 ± 0.002 |
SEPPA公司 | 0.58 ± 0.007 | 0.60 ± 0.016 | 0.56 ± 0.000 | 0.19 ± 0.025 | 0.63 ± 0.025 | 0.59 ± 0.012 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.85 ± 0.013 | 0.85 ± 0.012 | 0.85 ± 0.016 | 0.71 ± 0.026 | 0.85 ± 0.012 | 0.85 ± 0.013 |
CeePre2公司 | 0.89 ± 0.006 | 0.85 ± 0.009 | 0.93 ± 0.003 | 0.77 ± 0.014 | 0.83 ± 0.011 | 0.88 ± 0.007 |
DiscoTope公司 | 0.33 ± 0.004 | 0.57 ± 0.022 | 0.23 ± 0.000 | 0.07 ± 0.020 | 0.83 ± 0.015 | 0.53 ± 0.008 |
ElliPro公司 | 0.61 ± 0.001 | 0.51 ± 0.001 | 0.76 ± 0.000 | 0.03 ± 0.004 | 0.27 ± 0.003 | 0.51 ± 0.002 |
SEPPA公司 | 0.58 ± 0.007 | 0.60 ± 0.016 | 0.56 ± 0.000 | 0.19 ± 0.025 | 0.63 ± 0.025 | 0.59 ± 0.012 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.85 ± 0.013 | 0.85 ± 0.012 | 0.85 ± 0.016 | 0.71 ± 0.026 | 0.85 ± 0.012 | 0.85 ± 0.013 |
CeePre2公司 | 0.89 ± 0.006 | 0.85 ± 0.009 | 0.93 ± 0.003 | 0.77 ± 0.014 | 0.83 ± 0.011 | 0.88 ± 0.007 |
DiscoTope公司 | 0.33 ± 0.004 | 0.57 ± 0.022 | 0.23 ± 0.000 | 0.07 ± 0.020 | 0.83 ± 0.015 | 0.53 ± 0.008 |
ElliPro公司 | 0.61 ± 0.001 | 0.51 ± 0.001 | 0.76 ± 0.000 | 0.03 ± 0.004 | 0.27 ± 0.003 | 0.51 ± 0.002 |
SEPPA公司 | 0.58 ± 0.007 | 0.60 ± 0.016 | 0.56 ± 0.000 | 0.19 ± 0.025 | 0.63 ± 0.025 | 0.59 ± 0.012 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.85 ± 0.013 | 0.85 ± 0.012 | 0.85 ± 0.016 | 0.71 ± 0.026 | 0.85 ± 0.012 | 0.85 ± 0.013 |
CeePre2公司 | 0.89 ± 0.006 | 0.85 ± 0.009 | 0.93 ± 0.003 | 0.77 ± 0.014 | 0.83 ± 0.011 | 0.88 ± 0.007 |
DiscoTope公司 | 0.33 ± 0.004 | 0.57 ± 0.022 | 0.23 ± 0.000 | 0.07 ± 0.020 | 0.83 ± 0.015 | 0.53 ± 0.008 |
ElliPro公司 | 0.61 ± 0.001 | 0.51 ± 0.001 | 0.76 ± 0.000 | 0.03 ± 0.004 | 0.27 ± 0.003 | 0.51 ± 0.002 |
SEPPA公司 | 0.58 ± 0.007 | 0.60 ± 0.016 | 0.56 ± 0.000 | 0.19 ± 0.025 | 0.63 ± 0.025 | 0.59 ± 0.012 |
我们还可以看到,CeePre2在几乎所有指标上都优于CeePre1,但特异性略有下降。例如,由于识别出更多的表位残基,CeePre2的召回率提高到0.93。这一改进归功于CeePre2将CeePre1的预测结果添加到第二学习阶段扩展的四个新特征中。CeePre2还删除了一些孤立的表位和非表位残基预测,以及表位残基和非表位残基预测附近的簇。这是合理的,因为表位中的所有残基通常在空间上彼此接近。另一方面,一个或两个分离的残基不应成为表位。特异性的轻微降低可能意味着在三级结构中发现了以前未知的表位,因为表位迄今尚未完全注释。
3.2对整个数据集的评估
在实际情况下,表位残基和非表位残基数不相等。为了使结果在实践中更具说服力,我们在整个数据集上显示了10倍的交叉验证结果,其中表位残基和非表位残基比为1:9。对于每个折叠,培训是针对平衡数据集的九个部分,测试是针对表位残留数据的一部分和所有剩余的非表位残留(不仅仅是平衡数据集中非表位残余数据的一个部分)。10倍交叉验证过程重复三次,每次对非表位残基进行不同的采样。每个标准的平均值和标准偏差记录在表3.
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.55 ± 0.019 | 0.41 ± 0.025 | 0.85 ± 0.016 | 0.53 ± 0.016 | 0.86 ± 0.016 | 0.86 ± 0.013 |
CeePre2公司 | 0.54 ± 0.006 | 0.38 ± 0.007 | 0.93 ± 0.003 | 0.53 ± 0.005 | 0.83 ± 0.006 | 0.84 ± 0.005 |
DiscoTope公司 | 0.16 | 0.13 | 0.23 | 0.04 | 0.82 | 0.76 |
ElliPro公司 | 0.18 | 0.10 | 0.76 | 0.02 | 0.27 | 0.32 |
SEPPA公司 | 0.23 | 0.14 | 0.56 | 0.11 | 0.62 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.55 ± 0.019 | 0.41 ± 0.025 | 0.85 ± 0.016 | 0.53 ± 0.016 | 0.86 ± 0.016 | 0.86 ± 0.013 |
CeePre2公司 | 0.54 ± 0.006 | 0.38 ± 0.007 | 0.93 ± 0.003 | 0.53 ± 0.005 | 0.83 ± 0.006 | 0.84 ± 0.005 |
DiscoTope公司 | 0.16 | 0.13 | 0.23 | 0.04 | 0.82 | 0.76 |
ElliPro公司 | 0.18 | 0.10 | 0.76 | 0.02 | 0.27 | 0.32 |
SEPPA公司 | 0.23 | 0.14 | 0.56 | 0.11 | 0.62 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.55 ± 0.019 | 0.41 ± 0.025 | 0.85 ± 0.016 | 0.53 ± 0.016 | 0.86 ± 0.016 | 0.86 ± 0.013 |
CeePre2公司 | 0.54 ± 0.006 | 0.38 ± 0.007 | 0.93 ± 0.003 | 0.53 ± 0.005 | 0.83 ± 0.006 | 0.84 ± 0.005 |
DiscoTope公司 | 0.16 | 0.13 | 0.23 | 0.04 | 0.82 | 0.76 |
ElliPro公司 | 0.18 | 0.10 | 0.76 | 0.02 | 0.27 | 0.32 |
SEPPA公司 | 0.23 | 0.14 | 0.56 | 0.11 | 0.62 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.55 ± 0.019 | 0.41 ± 0.025 | 0.85 ± 0.016 | 0.53 ± 0.016 | 0.86 ± 0.016 | 0.86 ± 0.013 |
CeePre2公司 | 0.54 ± 0.006 | 0.38 ± 0.007 | 0.93 ± 0.003 | 0.53 ± 0.005 | 0.83 ± 0.006 | 0.84 ± 0.005 |
DiscoTope公司 | 0.16 | 0.13 | 0.23 | 0.04 | 0.82 | 0.76 |
ElliPro公司 | 0.18 | 0.10 | 0.76 | 0.02 | 0.27 | 0.32 |
SEPPA公司 | 0.23 | 0.14 | 0.56 | 0.11 | 0.62 | 0.62 |
同样,在所有指标下,CeePre的性能远远好于其他三个预测因子。它的F得分为0.54,是其他三个预测因子中最佳F得分(SEPPA)的两倍。其MCC为~0.53,而其他MCC中最好的仅为0.11。与CeePre1相比,其召回率显著提高至0.93,表明大多数表位残基已被识别。然而,CeePre2的精确度和特异性略有下降,部分原因是PDB中表位的测定不完全。
CeePre也比其他三个预测因子具有更好的召回率、准确性和特异性。在特异性方面,DiscoTope比ElliPro和SEPPA具有更高的特异性(0.82),略低于CeePre2的特异性,但DiscoTobe的召回率仅为0.23。这意味着DiscoTope将大多数表位残基误认为是非表位残余物。相反,ElliPro更喜欢识别更多的残基作为表位残基,因此显示出高召回值(0.76)和低精确度(0.1)。尽管如此,其召回量仍远低于CeePre的召回量。这可能是因为ElliPro在预测中只使用一个特征(PI)。SEPPA折衷了表位残留预测和非表位残留预计;因此,它具有中等的召回率和特异性,但精确度高于其他两种方法。然而,其他三个预测因子的所有三个指标的最高值都低于我们的CeePre方法获得的值。
3.3预测的重要特征
CeePre使用了多种特征,包括物理化学特征、统计特征、进化特征和结构特征。并非所有这些因素在预测中都起着同样重要的作用。它们对预测性能的贡献各不相同。最有效的特征应该具有重要的生物学和计算重要性。在本节中,我们报告了表位预测的最重要特征。这些特征按随机森林模型排序,如所示图4.
图4。
CeePre排名前30的重要功能。(一)显示了原始304功能中的前30个重要功能。(b条)说明CeePre2中所有308个功能的前30个重要功能。在CeePre2中,四个附加特征是CeePre1(V305)的预测结果、结构窗口中预测的表位残基数(V306)、结构窗口(V307)中预测的非表位残数(V304)和结构窗口中预计的表位残留率(V308)
图4b表明,通过结构窗口从CeePre1的预测结果中提取的四个新特征在CeePre2中确实发挥了重要作用,表明了较强的聚类效应。其他功能,尤其是RSA(V73)和ASA(V71),也在CeePre2中排名第一。图4a更详细地描述了表征表位残基的权重特征。在三个训练样本中重复此排名程序。只有在前30个功能中出现三次或前20个功能中两次的功能才会在中报告表4.
功能. | R1级. | R2级. | R3级. | 平均排名. | 功能名称. |
---|
第73版 | 1 | 1 | 1 | 1 | RSA公司 |
第71版 | 2 | 2 | 2 | 2 | ASA公司 |
v152版 | 4 | 三 | 9 | 5.3 | 最大平滑B系数 |
v151版 | 5 | 5 | 三 | 4.3 | 最大B系数 |
130版 | 13 | 9 | 6 | 9.3 | 最大平滑PI |
第238版 | 16 | 7 | 5 | 9.3 | 平均平滑β匝数 |
第75版 | 7 | 8 | 16 | 10.3 | B系数 |
第303版 | 10 | 16 | 8 | 11.3 | 平均B系数 |
v162版 | 11 | 18 | 7 | 12 | 最小平滑β匝数 |
150版 | 30 | 22 | 11 | 21 | 最大平滑RSA |
第86版 | 18 | 24 | 29 | 23.7 | 最大平滑β圈 |
v154版 | 20 | 30 | 22 | 24 | 最小平滑亲水性 |
第223版 | 25 | 25 | 26 | 25.3 | 最低ASA |
第76版 | 三 | 6 | | 4.5 | 平滑B系数 |
第228版 | 8 | 4 | | 6 | 最小平滑B系数 |
304版 | 6 | 10 | | 8 | 平均平滑B系数 |
第227版 | 9 | 14 | | 11.5 | 最小B系数 |
第247版 | 12 | | 15 | 13.5 | 平均GLU(E) |
88版 | | 13 | 14 | 13.5 | 最大平滑Log-odds比率 |
v240版本 | 19 | 11 | | 15 | 平均平滑Log-odds比率 |
第82版 | 15 | 17 | | 16 | 最大平滑灵活性 |
v234版本 | 14 | | 20 | 17 | 平均平滑柔韧性 |
功能. | R1级. | R2级. | R3级. | 平均排名. | 功能名称. |
---|
第73版 | 1 | 1 | 1 | 1 | RSA公司 |
第71版 | 2 | 2 | 2 | 2 | ASA公司 |
v152版 | 4 | 三 | 9 | 5.3 | 最大平滑B系数 |
v151版 | 5 | 5 | 三 | 4.3 | 最大B系数 |
第130版 | 13 | 9 | 6 | 9.3 | 最大平滑PI |
v238版本 | 16 | 7 | 5 | 9.3 | 平均平滑β圈 |
第75版 | 7 | 8 | 16 | 10.3 | B系数 |
第303版 | 10 | 16 | 8 | 11.3 | 平均B系数 |
v162版 | 11 | 18 | 7 | 12 | 最小平滑β匝数 |
150版 | 30 | 22 | 11 | 21 | 最大平滑RSA |
第86版 | 18 | 24 | 29 | 23.7 | 最大平滑β圈 |
v154版 | 20 | 30 | 22 | 24 | 最小平滑亲水性 |
第223版 | 25 | 25 | 26 | 25.3 | 最低ASA |
第76版 | 三 | 6 | | 4.5 | 平滑B系数 |
第228版 | 8 | 4 | | 6 | 最小平滑B系数 |
304版 | 6 | 10 | | 8 | 平均平滑B系数 |
第227版 | 9 | 14 | | 11.5 | 最小B系数 |
v247版本 | 12 | | 15 | 13.5 | 平均GLU(E) |
88版 | | 13 | 14 | 13.5 | 最大平滑对数比值比 |
v240版本 | 19 | 11 | | 15 | 平均平滑Log-odds比率 |
第82版 | 15 | 17 | | 16 | 最大平滑灵活性 |
v234版本 | 14 | | 20 | 17 | 平均平滑柔韧性 |
功能. | R1级. | R2级. | R3级. | 平均排名. | 功能名称. |
---|
第73版 | 1 | 1 | 1 | 1 | RSA公司 |
第71版 | 2 | 2 | 2 | 2 | ASA公司 |
v152版 | 4 | 三 | 9 | 5.3 | 最大平滑B系数 |
v151版 | 5 | 5 | 三 | 4.3 | 最大B系数 |
130版 | 13 | 9 | 6 | 9.3 | 最大平滑PI |
v238版本 | 16 | 7 | 5 | 9.3 | 平均平滑β圈 |
第75版 | 7 | 8 | 16 | 10.3 | B系数 |
第303版 | 10 | 16 | 8 | 11.3 | 平均B系数 |
v162版 | 11 | 18 | 7 | 12 | 最小平滑β匝数 |
150版 | 30 | 22 | 11 | 21 | 最大平滑RSA |
第86版 | 18 | 24 | 29 | 23.7 | 最大平滑β圈 |
v154版 | 20 | 30 | 22 | 24 | 最小平滑亲水性 |
第223版 | 25 | 25 | 26 | 25.3 | 最低ASA |
第76版 | 三 | 6 | | 4.5 | 平滑B系数 |
第228版 | 8 | 4 | | 6 | 最小平滑B系数 |
304版 | 6 | 10 | | 8 | 平均平滑B因子 |
第227版 | 9 | 14 | | 11.5 | 最小B系数 |
v247版本 | 12 | | 15 | 13.5 | 平均GLU(E) |
88版 | | 13 | 14 | 13.5 | 最大平滑Log-odds比率 |
v240版本 | 19 | 11 | | 15 | 平均平滑Log-odds比率 |
第82版 | 15 | 17 | | 16 | 最大平滑灵活性 |
v234版本 | 14 | | 20 | 17 | 平均平滑灵活性 |
功能. | 1号机组. | R2级. | R3级. | 平均排名. | 功能名称. |
---|
第73版 | 1 | 1 | 1 | 1 | RSA公司 |
第71版 | 2 | 2 | 2 | 2 | ASA公司 |
v152版 | 4 | 三 | 9 | 5.3 | 最大平滑B系数 |
v151版 | 5 | 5 | 三 | 4.3 | 最大B系数 |
130版 | 13 | 9 | 6 | 9.3 | 最大平滑PI |
v238版本 | 16 | 7 | 5 | 9.3 | 平均平滑β圈 |
第75版 | 7 | 8 | 16 | 10.3 | B系数 |
第303版 | 10 | 16 | 8 | 11.3 | 平均B系数 |
v162版 | 11 | 18 | 7 | 12 | 最小平滑β匝数 |
150版 | 30 | 22 | 11 | 21 | 最大平滑RSA |
第86版 | 18 | 24 | 29 | 23.7 | 最大平滑β圈 |
v154版 | 20 | 30 | 22 | 24 | 最小平滑亲水性 |
第223版 | 25 | 25 | 26 | 25.3 | 最低ASA |
第76版 | 三 | 6 | | 4.5 | 平滑B系数 |
第228版 | 8 | 4 | | 6 | 最小平滑B系数 |
304版 | 6 | 10 | | 8 | 平均平滑B系数 |
第227版 | 9 | 14 | | 11.5 | 最小B系数 |
v247版本 | 12 | | 15 | 13.5 | 平均GLU(E) |
88版 | | 13 | 14 | 13.5 | 最大平滑Log-odds比率 |
v240版本 | 19 | 11 | | 15 | 平均平滑Log-odds比率 |
第82版 | 15 | 17 | | 16 | 最大平滑灵活性 |
v234版本 | 14 | | 20 | 17 | 平均平滑柔韧性 |
3.3.1相对可及表面积
RSA和ASA在所有功能中排名第一。这意味着残基的表面可及区域可以有效区分蛋白质表面上的表位残基和非表位残余物。表位残基和非表位残基在蛋白质表面的RSA分布明显不同(图5). 表位残基的平均RSA为46.0%,而非表位残体的平均RSA为54.2%。表位残基的表面暴露程度低于其他表面残基。与曼·惠特尼U型假设表位和非表位残基的RSA分布相同,则该假设被拒绝(P(P)-值:0)。这意味着RSA在表位和非表位残基之间的分布有明显区别。
3.3.2 B系数
另一个重要特征是B因子,这是用于指示原子迁移率的特征。埋在蛋白质中的原子通常不易移动,B因子较小,而暴露在表面的原子则更灵活,B因子较大。B因子广泛用于蛋白质结合的研究(钟等。, 2006;线路接口单元等。, 2013;诺维特等。, 2004). 然而,这是首次将B因子用作表位预测的特征。
从中可以看出图4a和表4B因子是区分表位残基和非表位残基时的一个显著特征。这个P(P)-曼恩-惠特尼的价值U型对B因子的假设检验为0,表明表位残基和非表位残基因B因子的分布不同;换句话说,B因子是表位预测的有效特征。此外,沿序列的平滑B因子和结构窗口中相邻残差的B因子也对预测有显著影响。对序列平滑B因子的测试返回AP(P)-值为0,这证实了在构造新特征时使用序列窗口是合理的。
图6显示了表位残基和非表位残基B因子分布的方框图。表位残留物的平均B因子为39.7,非表位残渣的平均B因数为52.27:与其他表面残留物相比,表位残存物更容易位于可移动性较差的区域。
图7提供了一个示例来说明表位与A/香港/1/1968(H3N2)流感病毒(4FNK)上的B因子分布的关联。可见,表位主要位于B因子较小的残基上。对于这个例子,干区上的表位(通常是保守的表位)位于B因子低的那些残基(蓝色),而头区上的表位(通常不太保守)具有略高的B因子(绿色)。这是因为HA1本身比HA2更灵活,因此具有更高的B因子。
图7。
A/香港/1/1968(H3N2)流感病毒(4FNK)B因子与表位残基的定位。(一)4FNK上的B因子分布:颜色模式显示在颜色栏中:从蓝色到红色的颜色代表从小到大的B因子(b条)4FNK上的表位:表位用洋红色标记
3.3.3凸出指数
PI,一种广泛使用的结构特征(波诺马连科等。, 2008;桑顿等。, 1986),在预测中证明是有效的,如所示图8表位残基的平均PI为0.87,非表位残体的PI为1.07。也就是说,表位在表面上更凹。这个P(P)-曼·惠特尼的价值U型PI的假设检验为0,表明其在识别表位残基方面的有效性。
3.3.4其他特性
除上述结构特征外,β-圈、疏水性和柔韧性等传统的物理化学特征在表位预测中也得到了高度评价。表位残基预测受序列相邻或具有空间邻近性的残基的物理化学特征的影响。从中可以看出表4,排名靠前的物理化学特征大多在序列窗口(“平滑”)或结构窗口(“平均”、“最大”或“最小”)上平滑。特别是,其中一些,如在序列窗口或结构窗口上平滑的β-转角和亲水性,强烈反映了邻近残基对表位残基预测的影响。因此,在这些特征上应用序列窗口和结构窗口有助于表位残基的识别。
4案例研究
CeePre基于我们的整个平衡数据集进行训练,然后应用于HIV抗原和流感病毒抗原的三级结构数据,以预测其表位。这两种抗原与我们训练数据集中的抗原有着远亲关系。
4.1 HIV-1链A/E 93TH057抗原GP120
HIV-1分支A/E 93TH057抗原GP120的三级结构数据存储在PDB条目3TGT中。PDB中含有该抗原或突变抗原的六种复合物(3SE8、3SE9、4LSP、4LSU、3NGB和4JB9)。从这六个复合物中,我们提取了GP120的六个表位。这些表位并非完全相同,而是聚集和重叠的(补充图S2).
在我们的训练数据集中,唯一与HIV病毒相关的抗原是HIV-1衣壳蛋白(2PXR)。其表位提取自1AFV(与Fab25.3复合物中的HIV-1衣壳蛋白)。但BLAST检测发现2PXR和3TGT(测试抗原GP120)之间没有显著的序列相似性。然而,在DiscoTope和SEPPA的训练数据集中,存在与抗原GP120类似的抗原。事实上,DiscoTope的训练数据包含1RZK、1G9M、1G9-N和1GC1,它们是四种包膜糖蛋白GP120和抗体复合物。在SEPPA中,2I5Y、1G9M和1G9N是三种包膜糖蛋白GP120和抗体复合物。因此,这种比较不利于CeePre,因为DiscoTope和SEPPA在3TGT上的性能可能被高估了。ElliPro不需要进行训练,因此它没有训练数据集。
4.1.1预测性能比较
CeePre和其他三个预测因子的预测结果报告于表5CeePre取得了良好的预测结果,优于DiscoTope和SEPPA。ElliPro的召回率略高(0.66比0.61),即66%的真正表位残基得到了正确预测。然而,其精确度仅为0.22,这意味着在预测为表位残基的残基中,只有22%是真正的表位残余物。换句话说,它倾向于将非表位残基预测为表位残余物。至于CeePre2,尽管召回值略低于ElliPro(0.05低),但其准确性显著高于ElliPro,高0.51。因此,它的F分数为0.55,是ElliPro的两倍。此外,我们的MCC要好得多(0.58比-0.08)。比较结果可以在中更清楚地看到图9c和e。
图9。
HIV病毒抗原GP120的表位预测。(一)真正的表位残基。(b条)和(c(c))分别使用我们的方法CeePre1和CeePre2进行预测。(d日–(f))分别采用其他方法DiscoTope、ElliPro和SEPPA进行预测。TP预测为红色,FN预测为橙色,FP预测为黄色,背景青色表示TN预测。子图(b)中的紫色圆圈标记了CeePre1错误预测为孤立表位或非表位残基的残基,并通过CeePre2中的聚类进行了纠正
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.59 | 0.61 | 0.57 | 0.47 | 0.89 | 0.81 |
CeePre2公司 | 0.67 | 0.73 | 0.61 | 0.58 | 0.93 | 0.85 |
DiscoTope公司 | 0.55 | 0.55 | 0.55 | 0.40 | 0.86 | 0.78 |
ElliPro公司 | 0.33 | 0.22 | 0.66 | −0.08 | 0.26 | 0.35 |
SEPPA公司 | 0.38 | 0.31 | 0.50 | 0.13 | 0.65 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.59 | 0.61 | 0.57 | 0.47 | 0.89 | 0.81 |
CeePre2公司 | 0.67 | 0.73 | 0.61 | 0.58 | 0.93 | 0.85 |
迪斯科舞厅 | 0.55 | 0.55 | 0.55 | 0.40 | 0.86 | 0.78 |
ElliPro公司 | 0.33 | 0.22 | 0.66 | −0.08 | 0.26 | 0.35 |
SEPPA公司 | 0.38 | 0.31 | 0.50 | 0.13 | 0.65 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.59 | 0.61 | 0.57 | 0.47 | 0.89 | 0.81 |
CeePre2公司 | 0.67 | 0.73 | 0.61 | 0.58 | 0.93 | 0.85 |
DiscoTope公司 | 0.55 | 0.55 | 0.55 | 0.40 | 0.86 | 0.78 |
ElliPro公司 | 0.33 | 0.22 | 0.66 | −0.08 | 0.26 | 0.35 |
SEPPA公司 | 0.38 | 0.31 | 0.50 | 0.13 | 0.65 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.59 | 0.61 | 0.57 | 0.47 | 0.89 | 0.81 |
CeePre2公司 | 0.67 | 0.73 | 0.61 | 0.58 | 0.93 | 0.85 |
DiscoTope公司 | 0.55 | 0.55 | 0.55 | 0.40 | 0.86 | 0.78 |
ElliPro公司 | 0.33 | 0.22 | 0.66 | −0.08 | 0.26 | 0.35 |
SEPPA公司 | 0.38 | 0.31 | 0.50 | 0.13 | 0.65 | 0.62 |
4.1.2 CeePre2使用的新功能的聚类效果
从中可以看出图9a–c,61%的真表位残基由CeePre2鉴定。与CeePre1相比,CeePre2对真表位残基具有显著的聚集效应。CeePre2还将真实表位残基预测中的一些非表位残数预测校正为真实表位残留。同时,CeePre2校正了一些分离的残基的预测,这些残基都被CeePre1预测为抗原残基,例如,链A中47、53、57、63、68、232、234、236、247、250、299、439和444位的残基,这些残基都是CeePre1的假阳性预测。
4.2甲型流感病毒抗原血凝素/日本/305/1957(H2N2)
我们的预测模型CeePre1和CeePre2也应用于流感病毒A/Japan/305/1957(H2N2)抗原血凝素(HA)的三级结构数据(3KU3)。该抗原在PDB中有两个四级结构:4HF5(A/Japan/305/1957与Fab 8F8复合体)和4HLZ(A/Jaban/305/1977与广泛中和抗体C179复合体(德雷福斯等。, 2013).
在我们的训练数据集中,只有一个三级结构(2YPG)来自流感家族,它的三个表位(从1EO8、1QFU、1KEN中提取)都有注释。两种抗原的进化距离很远:3KU3-HA属于第1组,而2YPG-HA属于第2组。由BLAST确定的它们的序列相似性仅为HA1的36%和HA2的56%。第1组中的HA也不包括在DiscoTope、ElliPro或SEPPA的培训数据集中。因此,这是一个公平的比较。
4.2.1 3KU3预测性能比较
预测结果列于表6。与三个预测因子相比,CeePre2的性能在每个指标上都优于其他指标。它的F分数是其他三个预测因子中最好的两倍多。对于表征分类器整体性能的另一个指标MCC,CeePre2远远超过了所有三个预测因子。召回率有显著提高,这意味着CeePre2可以识别更多的表位残基。同时,CeePre2的精确度和特异性也较高。
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.49 | 0.37 | 0.71 | 0.41 | 0.82 | 0.80 |
CeePre2公司 | 0.43 | 0.29 | 0.83 | 0.36 | 0.69 | 0.70 |
DiscoTope公司 | 0.19 | 0.13 | 0.37 | −0.01 | 0.62 | 0.58 |
ElliPro公司 | 0.21 | 0.12 | 0.60 | −0.03 | 0.35 | 0.39 |
SEPPA公司 | 0.21 | 0.14 | 0.37 | 0.02 | 0.66 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.49 | 0.37 | 0.71 | 0.41 | 0.82 | 0.80 |
CeePre2公司 | 0.43 | 0.29 | 0.83 | 0.36 | 0.69 | 0.70 |
DiscoTope公司 | 0.19 | 0.13 | 0.37 | −0.01 | 0.62 | 0.58 |
ElliPro公司 | 0.21 | 0.12 | 0.60 | −0.03 | 0.35 | 0.39 |
SEPPA公司 | 0.21 | 0.14 | 0.37 | 0.02 | 0.66 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.49 | 0.37 | 0.71 | 0.41 | 0.82 | 0.80 |
CeePre2公司 | 0.43 | 0.29 | 0.83 | 0.36 | 0.69 | 0.70 |
迪斯科舞厅 | 0.19 | 0.13 | 0.37 | −0.01 | 0.62 | 0.58 |
ElliPro公司 | 0.21 | 0.12 | 0.60 | −0.03 | 0.35 | 0.39 |
SEPPA公司 | 0.21 | 0.14 | 0.37 | 0.02 | 0.66 | 0.62 |
方法. | F分数. | 精密度. | 召回. | 电动机控制中心. | 特异性. | 准确性. |
---|
CeePre1公司 | 0.49 | 0.37 | 0.71 | 0.41 | 0.82 | 0.80 |
CeePre2公司 | 0.43 | 0.29 | 0.83 | 0.36 | 0.69 | 0.70 |
DiscoTope公司 | 0.19 | 0.13 | 0.37 | −0.01 | 0.62 | 0.58 |
ElliPro公司 | 0.21 | 0.12 | 0.60 | −0.03 | 0.35 | 0.39 |
SEPPA公司 | 0.21 | 0.14 | 0.37 | 0.02 | 0.66 | 0.62 |
与CeePre1相比,CeePre2在召回率方面有了显著提高,但在特异性和准确性方面下降相对较小。这意味着更真实的表位残留物被正确分类,但一些非表位残渣被标记为表位残基。接下来,我们将讨论出现这种现象的原因。
4.2.2一些预测细节
图10表明CeePre正确识别了HA的两个表位。CeePre2正确预测了与8F8结合的表位的所有抗原残基。这个表位在HA1上。HA2上与广泛中和抗体C179结合的表位的几乎所有抗原残基都得到了正确预测。少数边缘抗原残基(链A上的残基38、40、291和链B上的残基42、45、56)预计为阴性。这可能是因为这个表位是保守的; 它具有与菌株特异性表位稍有不同的特征,可能需要特殊的策略来预测表位和选择特征。如图所示图10d–f,其他三个预测因子没有检测到这个保守的表位。
图10。
流感病毒(3KU3)HA抗原表位预测。(一)真正的表位残基。(b条)和(c(c))分别使用我们的方法CeePre1和CeePre2进行预测。(d日–(f))分别采用其他方法DiscoTope、ElliPro和SEPPA进行预测。颜色和紫色圆圈的含义与图9.子图(c–f)中的紫色虚线框标记HA2上保守表位的位置
CeePre2再次证明了对该抗原的聚集效应:分离的抗原残基聚集成表位,而CeePre1预测的分离表位和非表位残基被CeePre 2的第二阶段去除。在这一阶段,精确度和特异性可能会降低,特别是对于那些表位未被完全发现或注释的抗原(高FP)。例如,尽管一些抗体已被证明与病毒A/Japan/305/1957(H2N2)反应,例如C05和CR6261(艾基特等。, 2012),其复杂结构尚未确定,表位尚不清楚。这些表位残基在这里无法注释,导致较高的FP率。
5结论
在本文中,我们提出了用于构象B细胞表位预测的CeePre。CeePre采用随机森林算法的两阶段学习策略来识别抗原残基簇。它通过一个序列窗口和一个结构窗口合并了各种基本特征以及扩展的复合特征。在这些特征中,B因子首次用于B细胞表位预测。它在表位预测中被发现是有效的。
为了实用,我们构建了一个三级结构数据集来训练我们的预测方法,并将其用于CeePre的评估。与三种广泛使用的基于结构的表位预测模型相比,我们的CeePre在预测性能上有了显著改进。
对于深入的案例研究,CeePre已应用于两种抗原的表位预测,这两种抗原与我们的训练数据有着遥远的联系。一种抗原是HIV抗原,另一种是流感抗原。研究发现,CeePre不仅可以获得更准确的表位残基预测,而且可以通过聚类相邻残基形成更有意义的表位预测。
基金:这项研究工作得到了UTS 2013年早期职业研究拨款的支持;ARC发现项目(DP130102124);和中国奖学金委员会(J.R.)。
利益冲突:未声明。
参考文献
等利用蛋白质三维结构预测不连续B细胞表位中的残基
, 蛋白质科学。
, 2006
,卷。 15
(第2558
-2567
) , . 基准B细胞表位预测:现有方法的不足
, 蛋白质科学。
, 2005
,卷。 14
(第246
-248
) . 随机森林
, 机器。学习。
, 2001
,卷。 45
(第5
-32
) 等用氨基酸对抗原性量表预测线性B细胞表位
, 氨基酸
, 2007
,卷。 33
(第423
-428
) , . 从蛋白质计算螺旋区、β片区和随机螺旋区氨基酸的构象参数
, 生物化学
, 1974
,卷。 13
(第211
-222
) 等利用序列和结构同源物鉴定蛋白质-蛋白质结合位点
, 蛋白质
, 2006
,卷。 62
(第630
-640
) 等使用集合方法预测蛋白质-蛋白质相互作用位点
, BMC生物信息学
, 2009
,卷。 10
第页。 426
等经典广泛中和干抗体与流行性h2流感病毒血凝素复合物的结构
, J.维罗尔。
, 2013
,卷。 87
(第7149
-7154
) 等单抗体环介导的甲型流感病毒交叉中和
, 自然
, 2012
,卷。 489
(第526
-532
) 等利用进化信息预测保护性线性B细胞表位
, BIBM'08:IEEE生物信息学和生物医学国际会议
, 2008
(第289
-292
) 等, 数据挖掘:概念和技术
, 2006
美国旧金山
摩根考夫曼
, . 从氨基酸序列预测蛋白质抗原决定簇
, 程序。国家科学院。科学。美国
, 1981
,卷。 78
(第3824
-3828
) . 球形蛋白质的表面和内部体积
, 自然
, 1979
,卷。 277
(第491
-492
) . 基于结构的两级分类器预测蛋白质-蛋白质界面残基
, 2010
, . 蛋白质链柔性的预测
, 自然科学期刊
, 1985
,卷。 72
(第212
-213
) 等AAIndex:氨基酸指数数据库,2008年进度报告
, 核酸研究。
, 2008
,卷。 36
补充1
(第D202型
-D205型
) , . 预测蛋白质抗原抗原决定簇的半经验方法
, FEBS通讯。
, 1990
,卷。 276
(第172
-174
) 等抗体中B细胞表位的结构分析:蛋白质复合物
, 分子免疫学。
, 2013
,卷。 53
(第24
-34
) 等CEP:构象表位预测服务器
, 核酸研究。
, 2005
,卷。 33
补充2
(第宽168
-第171页
) 等线性B细胞表位预测方法的改进
, 免疫学研究。
, 2006
,卷。 2
第页。 2
, . 基于randomForest的分类和回归
, R新闻
, 2002
,卷。 2
(第18
-22
) 等基于β接触和B因子的蛋白质-甘氨酸复合物结合亲和力预测
, 化学杂志。Inf.模型。
, 2013
,卷。 53
(第3076
-3085
) 等利用基于知识的能量函数和几何相关的相邻残基特征预测构象表位
, BMC生物信息学
, 2013
,卷。 14
补充4
第页第3章
等PSAIA-蛋白质结构和相互作用分析仪
, BMC结构。生物。
, 2008
,卷。 8
第页。 21
等PEPOP:免疫原性肽的计算设计
, BMC生物信息学
, 2008
,卷。 9
第页。 71
等ProMate:一种基于结构的预测程序,用于识别蛋白质结合位点的位置
, 分子生物学杂志。
, 2004
,卷。 338
(第181
-199
) 等基于高效液相色谱肽保留数据的新亲水性标度:预测的表面残基与抗原性和X射线衍生可及位点的相关性
, 生物化学
, 1986
,卷。 25
(第5425
-5432
) 等抗原位点位置与蛋白质转折预测的相关性
, 免疫学快报。
, 1993
,卷。 36
(第83
-99
) , . 抗体-蛋白质相互作用:基准数据集和预测工具评估
, BMC结构。生物。
, 2007
,卷。 7
第页。 64
等ElliPro:一种新的基于结构的抗体表位预测工具
, BMC生物信息学
, 2008
,卷。 9
第页。 514
, . 蛋白质家族中溶剂可及性的保存和预测
, 蛋白质
, 1994
,卷。 20
(第216
-226
) , . 基于递归神经网络的抗原连续B细胞表位预测
, 蛋白质
, 2006
,卷。 65
(第40
-48
) 等病原蛋白保护性连续B细胞表位的分析与预测
, 免疫组学研究。
, 2008
,卷。 4
第页。 1
等SEPPA:蛋白质抗原空间表位预测的计算服务器
, 核酸研究。
, 2009
,卷。 37
补充2
(第W612型
-W616号机组
) 等残基在络合前瞬时蛋白质复合物界面中的作用
, 科学。代表。
, 2012
,卷。 2
第页。 334
, . PEPITO:使用多距离阈值和半球曝光改进的不连续B细胞表位预测
, 生物信息学
, 2008
,卷。 24
(第1459
-1460
) 等蛋白质突起区中“连续”抗原决定簇的定位
, EMBO J。
, 1986
,卷。 5
第页。 409
. PREDITOP:抗原性预测程序
, J.摩尔图。
, 1993
,卷。 11
(第204
-210
) 等根据上下文感知原理预测抗体特异性B细胞表位
, IEEE/ACM传输。计算。生物信息。
, 2011
,卷。 8
(第1483
-1494
) 等基于图模型的B细胞表位预测
, BMC生物信息学
, 2012
,卷。 13
补充17
第页S20码
©作者2014。牛津大学出版社出版。
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0/)它允许在任何媒体上进行非商业性重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系journals.permissions@oup.com