Tertiary structure-based prediction of conformational B-cell epitopes through B factors

我们研究中使用的特征及其价值得分的计算方法

目录	功能	计算
物理化学	亲水性	帕克(安徒生等。, 2006)
	疏水性	AA指数(川岛等。, 2008)
	灵活性	AA指数(川岛等。, 2008)
	极性	AA指数(川岛等。, 2008)
	β-圈	AA指数(川岛等。, 2008)
	B系数	pdb文件
统计学	Log-odds比率	DiscoTope公司(安徒生等。, 2006)
进化的	PSSM系统	PSI-爆破
结构	圆周率	PSAIA公司(米海尔等。, 2008)
	ASA公司	纳塞斯
	RSA公司	NACCESS公司
	二级结构	决策支持计划

目录	功能	计算
物理化学	亲水性	帕克(安徒生等。, 2006)
	疏水性	AA指数(川岛等。, 2008)
	灵活性	AA指数(川岛等。, 2008)
	极性	AA指数(川岛等。, 2008)
	β-圈	AA指数(川岛等。, 2008)
	B系数	pdb文件
统计学	Log-odds比率	DiscoTope公司(安徒生等。, 2006)
进化的	PSSM系统	PSI-爆破
结构	圆周率	PSAIA公司(米海尔等。, 2008)
	ASA公司	NACCESS公司
	RSA公司	NACCESS公司
	二级结构	DSSP公司

表1。

我们研究中使用的特征及其价值得分的计算方法

目录	功能	计算
物理化学	亲水性	帕克(安徒生等。, 2006)
	疏水性	AA指数(川岛等。, 2008)
	灵活性	AA指数(川岛等。, 2008)
	极性	AA指数(川岛等。, 2008)
	β-圈	AA指数(川岛等。, 2008)
	B系数	pdb文件
统计学	Log-odds比率	DiscoTope公司(安徒生等。, 2006)
进化的	PSSM系统	PSI-爆破
结构	圆周率	PSAIA公司(米海尔等。, 2008)
	ASA公司	NACCESS公司
	RSA公司	NACCESS公司
	二级结构	决策支持计划

目录	功能	计算
物理化学	亲水性	帕克(安徒生等。, 2006)
	疏水性	AA指数(川岛等。, 2008)
	灵活性	AA指数(川岛等。, 2008)
	极性	AA指数(川岛等。, 2008)
	β-圈	AA指数(川岛等。, 2008)
	B系数	pdb文件
统计学	Log-odds比率	DiscoTope公司(安徒生等。, 2006)
进化论	PSSM系统	PSI-爆破
结构	圆周率	PSAIA公司(米海尔等。, 2008)
	ASA公司	NACCESS公司
	RSA公司	NACCESS公司
	二级结构	决策支持计划

2.2.2基于窗口的特征：扩展的复合特征

表位残基的位置会受到其附近残基在序列和空间上的影响。我们引入了两个窗口来捕捉这种影响：序列窗口和结构窗口。根据窗口中的残差计算值分数的特征称为基于窗口的特征。

一个序列窗口总共平滑了38个特征。序列窗口的大小为7(安徒生等。, 2006)，即残留物的序列窗口我覆盖残留物我− 3,我− 2,我− 1,我,我+ 1,我+ 2,我+ 3. 我们使用每个基本特征的平均值v（v）在此窗口上获取平滑值v（v）对于残留物我它被命名为平滑特征v′.由于有38个基本特征，我们可以为每个残差获得额外的38个平滑特征。请注意，窗口大小是可调整的。
一个结构窗口共有228个新功能。如果目标残基的任何原子与表面残基的原子之间的距离小于阈值（窗口大小：10º，可调），则表面残基位于目标残基结构窗口内。我们计算每个基本或序列窗口平滑特征的每个残差的结构窗口中所有残差的最大值、最小值和平均值u个.该过程引入了228[（38+38）×3]组合特征，称为结构最大、最小或平均特征u个。通过此添加，我们使用总共304个（38+38+228）特征来表征每个残基。

图1总结了从三级结构构建特征空间的过程。

图1。

从三级结构构建特征空间

2.3预测方法

2.3.1两阶段学习

我们的预测方法CeePre有两个学习阶段：

学习的第一阶段是通过随机森林模型(布雷曼，2001年)在304特征描述的残差训练数据集上。经过训练的模型名为CeePre1。CeePre1可以预测测试数据集中残留物的类标签。它还可以预测训练残差的类标签。CeePre1如所示图2.
学习的第二阶段包括四个步骤。步骤1：在304特征描述的训练数据集上训练CeePre1模型，并获取训练数据和测试数据的预测类标签。训练数据的预测类标签由训练数据本身的内部10倍交叉验证过程给出。第二步：通过一个结构窗口和CeePre1的预测类标签添加四个特征来扩展304-feature向量。残基的四个新特征是：（i）CeePre1的预测类标记，（ii）窗口中预测的表位残基数，（iii）窗口中预计的非表位残数，以及（iv）窗口中所有残基的预测表位残量之比。步骤3：在308个特征描述的丰富训练数据集上训练随机森林模型。经过训练的模型命名为CeePre2。步骤4：应用CeePre2预测由相同308个特征描述的测试数据集中残留物的类标签，并获得测试性能。图3说明了CeePre2的学习和测试过程。

图2。

CeePre1的学习和测试

图3。

CeePre2的学习和测试

CeePre1侧重于准确预测抗原残基。在CeePre1之上，CeePre2集中于聚集单独的抗原残基，并消除孤立的假阳性和假阴性。通常，空间聚集的抗原残基更容易构成表位。相反，分离的抗原残基不太可能是表位的一部分。根据这一原理，CeePre2在第二阶段将CeePre1的预测结果转换为四个特征，将分离的抗原残基整合为一组表位残基，从而提高了许多情况下的预测性能。

2.3.2随机森林

随机森林被用作我们的学习模型。随机森林是由布雷曼（2001）它构造了多个决策树分类器，并通过投票获得最终预测。它有很多优点(汉族等。, 2006). 首先，它对误差和异常值具有鲁棒性，并且可以避免过拟合。其次，它的精度与其他集成算法（如AdaBoost）相当，但速度要快得多。此外，它给出了变量重要性的内部估计。

许多软件包都包含随机森林算法。R包中随机森林的实现Liaw和Wiener（2002）此处使用。有两个重要参数：要生长的树的数量和每次拆分时选择为候选特征的数量。在学习过程中，我们构建了100棵树，并通过优化F-score确定特征数。

2.4评估指标

CeePre根据六个指标进行评估：准确性、召回率、特异性、精密度、F-score和Matthews相关系数（MCC）。召回率、特异性和精确性反映了分类器的预测倾向。回忆（敏感性或TP识别率）和特异性（TN识别率）说明了阳性和阴性样本正确预测的百分比。相应的标准是显示正确阳性标记样本百分比的精度。精确性和召回率之间存在权衡。回忆倾向于正面预测，而精确倾向于负面预测。

准确度（识别率）描述分类器识别阳性样本和阴性样本的程度。只有当样品均匀分布时，它才有效。如果正负样本不平衡，分类器倾向于预测样本，因为大多数类将获得更好的准确性。F分数结合了精度和召回率，可用于评估分类器在平衡数据集和不平衡数据集上的性能。MCC是另一个可用于评估分类器性能的指标，尤其是在不平衡数据集上。它返回一个介于-1和+1之间的值：+1表示完美预测，0表示随机预测，-1表示完全反向预测。

3结果和讨论

我们首先将CeePre模型与其他三个基于结构的表位预测因子（DiscoTope、ElliPro、SEPPA）进行比较。评估基于平衡数据集和整个非平衡数据集。在本节中，我们还强调了几个B因子相关特征，它们在表位预测中很重要。

3.1平衡数据集评估

对我们的平衡数据集进行了10倍交叉验证程序，该数据集包括通过采样获得的所有725个表位残基和725个非表位残余物。采样操作三次，以获得三个不同的非表位残留数据集。报告三次抽样中每个指标的平均值和标准偏差，以消除抽样引起的偏差。

CeePre和其他三个预测因子的性能如所示表2.CeePre（CeePre1和CeePre2）在平衡数据集上表现出优异的性能，在所有指标上超过了其他三个预测因子。具体而言，CeePre2的F分数为0.89，比其他预测因子的最佳F分数（SEPPA）高0.31。CeePre2的MCC为0.77，是其他三个预测因子中最佳MCC的四倍（SEPPA为0.19）。准确度在平衡数据集上有意义：CeePre2的准确度为0.88，比其他预测因子的最佳准确度（SEPPA）高0.29。总之，CeePre在平衡数据集上表现出出色的性能。

表2。

平衡数据集上的性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.85 ± 0.013	0.85 ± 0.012	0.85 ± 0.016	0.71 ± 0.026	0.85 ± 0.012	0.85 ± 0.013
CeePre2公司	0.89 ± 0.006	0.85 ± 0.009	0.93 ± 0.003	0.77 ± 0.014	0.83 ± 0.011	0.88 ± 0.007
DiscoTope公司	0.33 ± 0.004	0.57 ± 0.022	0.23 ± 0.000	0.07 ± 0.020	0.83 ± 0.015	0.53 ± 0.008
ElliPro公司	0.61 ± 0.001	0.51 ± 0.001	0.76 ± 0.000	0.03 ± 0.004	0.27 ± 0.003	0.51 ± 0.002
SEPPA公司	0.58 ± 0.007	0.60 ± 0.016	0.56 ± 0.000	0.19 ± 0.025	0.63 ± 0.025	0.59 ± 0.012

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.85 ± 0.013	0.85 ± 0.012	0.85 ± 0.016	0.71 ± 0.026	0.85 ± 0.012	0.85 ± 0.013
CeePre2公司	0.89 ± 0.006	0.85 ± 0.009	0.93 ± 0.003	0.77 ± 0.014	0.83 ± 0.011	0.88 ± 0.007
DiscoTope公司	0.33 ± 0.004	0.57 ± 0.022	0.23 ± 0.000	0.07 ± 0.020	0.83 ± 0.015	0.53 ± 0.008
ElliPro公司	0.61 ± 0.001	0.51 ± 0.001	0.76 ± 0.000	0.03 ± 0.004	0.27 ± 0.003	0.51 ± 0.002
SEPPA公司	0.58 ± 0.007	0.60 ± 0.016	0.56 ± 0.000	0.19 ± 0.025	0.63 ± 0.025	0.59 ± 0.012

注释：a±b代表平均值a和标准偏差b。

表2。

平衡数据集上的性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.85 ± 0.013	0.85 ± 0.012	0.85 ± 0.016	0.71 ± 0.026	0.85 ± 0.012	0.85 ± 0.013
CeePre2公司	0.89 ± 0.006	0.85 ± 0.009	0.93 ± 0.003	0.77 ± 0.014	0.83 ± 0.011	0.88 ± 0.007
DiscoTope公司	0.33 ± 0.004	0.57 ± 0.022	0.23 ± 0.000	0.07 ± 0.020	0.83 ± 0.015	0.53 ± 0.008
ElliPro公司	0.61 ± 0.001	0.51 ± 0.001	0.76 ± 0.000	0.03 ± 0.004	0.27 ± 0.003	0.51 ± 0.002
SEPPA公司	0.58 ± 0.007	0.60 ± 0.016	0.56 ± 0.000	0.19 ± 0.025	0.63 ± 0.025	0.59 ± 0.012

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.85 ± 0.013	0.85 ± 0.012	0.85 ± 0.016	0.71 ± 0.026	0.85 ± 0.012	0.85 ± 0.013
CeePre2公司	0.89 ± 0.006	0.85 ± 0.009	0.93 ± 0.003	0.77 ± 0.014	0.83 ± 0.011	0.88 ± 0.007
DiscoTope公司	0.33 ± 0.004	0.57 ± 0.022	0.23 ± 0.000	0.07 ± 0.020	0.83 ± 0.015	0.53 ± 0.008
ElliPro公司	0.61 ± 0.001	0.51 ± 0.001	0.76 ± 0.000	0.03 ± 0.004	0.27 ± 0.003	0.51 ± 0.002
SEPPA公司	0.58 ± 0.007	0.60 ± 0.016	0.56 ± 0.000	0.19 ± 0.025	0.63 ± 0.025	0.59 ± 0.012

注释：a±b代表平均值a和标准偏差b。

我们还可以看到，CeePre2在几乎所有指标上都优于CeePre1，但特异性略有下降。例如，由于识别出更多的表位残基，CeePre2的召回率提高到0.93。这一改进归功于CeePre2将CeePre1的预测结果添加到第二学习阶段扩展的四个新特征中。CeePre2还删除了一些孤立的表位和非表位残基预测，以及表位残基和非表位残基预测附近的簇。这是合理的，因为表位中的所有残基通常在空间上彼此接近。另一方面，一个或两个分离的残基不应成为表位。特异性的轻微降低可能意味着在三级结构中发现了以前未知的表位，因为表位迄今尚未完全注释。

3.2对整个数据集的评估

在实际情况下，表位残基和非表位残基数不相等。为了使结果在实践中更具说服力，我们在整个数据集上显示了10倍的交叉验证结果，其中表位残基和非表位残基比为1:9。对于每个折叠，培训是针对平衡数据集的九个部分，测试是针对表位残留数据的一部分和所有剩余的非表位残留（不仅仅是平衡数据集中非表位残余数据的一个部分）。10倍交叉验证过程重复三次，每次对非表位残基进行不同的采样。每个标准的平均值和标准偏差记录在表3.

表3。

整个数据集的性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.55 ± 0.019	0.41 ± 0.025	0.85 ± 0.016	0.53 ± 0.016	0.86 ± 0.016	0.86 ± 0.013
CeePre2公司	0.54 ± 0.006	0.38 ± 0.007	0.93 ± 0.003	0.53 ± 0.005	0.83 ± 0.006	0.84 ± 0.005
DiscoTope公司	0.16	0.13	0.23	0.04	0.82	0.76
ElliPro公司	0.18	0.10	0.76	0.02	0.27	0.32
SEPPA公司	0.23	0.14	0.56	0.11	0.62	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.55 ± 0.019	0.41 ± 0.025	0.85 ± 0.016	0.53 ± 0.016	0.86 ± 0.016	0.86 ± 0.013
CeePre2公司	0.54 ± 0.006	0.38 ± 0.007	0.93 ± 0.003	0.53 ± 0.005	0.83 ± 0.006	0.84 ± 0.005
DiscoTope公司	0.16	0.13	0.23	0.04	0.82	0.76
ElliPro公司	0.18	0.10	0.76	0.02	0.27	0.32
SEPPA公司	0.23	0.14	0.56	0.11	0.62	0.62

注释：符号a±b代表平均值a和标准偏差b。

表3。

整个数据集的性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.55 ± 0.019	0.41 ± 0.025	0.85 ± 0.016	0.53 ± 0.016	0.86 ± 0.016	0.86 ± 0.013
CeePre2公司	0.54 ± 0.006	0.38 ± 0.007	0.93 ± 0.003	0.53 ± 0.005	0.83 ± 0.006	0.84 ± 0.005
DiscoTope公司	0.16	0.13	0.23	0.04	0.82	0.76
ElliPro公司	0.18	0.10	0.76	0.02	0.27	0.32
SEPPA公司	0.23	0.14	0.56	0.11	0.62	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.55 ± 0.019	0.41 ± 0.025	0.85 ± 0.016	0.53 ± 0.016	0.86 ± 0.016	0.86 ± 0.013
CeePre2公司	0.54 ± 0.006	0.38 ± 0.007	0.93 ± 0.003	0.53 ± 0.005	0.83 ± 0.006	0.84 ± 0.005
DiscoTope公司	0.16	0.13	0.23	0.04	0.82	0.76
ElliPro公司	0.18	0.10	0.76	0.02	0.27	0.32
SEPPA公司	0.23	0.14	0.56	0.11	0.62	0.62

注释：符号a±b代表平均值a和标准偏差b。

同样，在所有指标下，CeePre的性能远远好于其他三个预测因子。它的F得分为0.54，是其他三个预测因子中最佳F得分（SEPPA）的两倍。其MCC为～0.53，而其他MCC中最好的仅为0.11。与CeePre1相比，其召回率显著提高至0.93，表明大多数表位残基已被识别。然而，CeePre2的精确度和特异性略有下降，部分原因是PDB中表位的测定不完全。

CeePre也比其他三个预测因子具有更好的召回率、准确性和特异性。在特异性方面，DiscoTope比ElliPro和SEPPA具有更高的特异性（0.82），略低于CeePre2的特异性，但DiscoTobe的召回率仅为0.23。这意味着DiscoTope将大多数表位残基误认为是非表位残余物。相反，ElliPro更喜欢识别更多的残基作为表位残基，因此显示出高召回值（0.76）和低精确度（0.1）。尽管如此，其召回量仍远低于CeePre的召回量。这可能是因为ElliPro在预测中只使用一个特征（PI）。SEPPA折衷了表位残留预测和非表位残留预计；因此，它具有中等的召回率和特异性，但精确度高于其他两种方法。然而，其他三个预测因子的所有三个指标的最高值都低于我们的CeePre方法获得的值。

3.3预测的重要特征

CeePre使用了多种特征，包括物理化学特征、统计特征、进化特征和结构特征。并非所有这些因素在预测中都起着同样重要的作用。它们对预测性能的贡献各不相同。最有效的特征应该具有重要的生物学和计算重要性。在本节中，我们报告了表位预测的最重要特征。这些特征按随机森林模型排序，如所示图4.

CeePre排名前30的重要功能。（a）显示了原始304功能中的前30个重要功能。（b）说明CeePre2中所有308个功能的前30个重要功能。在CeePre2中，四个附加特征是CeePre1（V305）的预测结果、结构窗口中预测的表位残基数（V306）、结构窗口（V307）中预测的非表位残数（V304）和结构窗口中预计的表位残留率（V308）

图4。

CeePre排名前30的重要功能。(一)显示了原始304功能中的前30个重要功能。(b条)说明CeePre2中所有308个功能的前30个重要功能。在CeePre2中，四个附加特征是CeePre1（V305）的预测结果、结构窗口中预测的表位残基数（V306）、结构窗口（V307）中预测的非表位残数（V304）和结构窗口中预计的表位残留率（V308）

图4b表明，通过结构窗口从CeePre1的预测结果中提取的四个新特征在CeePre2中确实发挥了重要作用，表明了较强的聚类效应。其他功能，尤其是RSA（V73）和ASA（V71），也在CeePre2中排名第一。图4a更详细地描述了表征表位残基的权重特征。在三个训练样本中重复此排名程序。只有在前30个功能中出现三次或前20个功能中两次的功能才会在中报告表4.

表4。

CeePre1中的排名功能列表

功能	R1级	R2级	R3级	平均排名	功能名称
第73版	1	1	1	1	RSA公司
第71版	2	2	2	2	ASA公司
v152版	4	三	9	5.3	最大平滑B系数
v151版	5	5	三	4.3	最大B系数
130版	13	9	6	9.3	最大平滑PI
第238版	16	7	5	9.3	平均平滑β匝数
第75版	7	8	16	10.3	B系数
第303版	10	16	8	11.3	平均B系数
v162版	11	18	7	12	最小平滑β匝数
150版	30	22	11	21	最大平滑RSA
第86版	18	24	29	23.7	最大平滑β圈
v154版	20	30	22	24	最小平滑亲水性
第223版	25	25	26	25.3	最低ASA
第76版	三	6		4.5	平滑B系数
第228版	8	4		6	最小平滑B系数
304版	6	10		8	平均平滑B系数
第227版	9	14		11.5	最小B系数
第247版	12		15	13.5	平均GLU（E）
88版		13	14	13.5	最大平滑Log-odds比率
v240版本	19	11		15	平均平滑Log-odds比率
第82版	15	17		16	最大平滑灵活性
v234版本	14		20	17	平均平滑柔韧性

功能	R1级	R2级	R3级	平均排名	功能名称
第73版	1	1	1	1	RSA公司
第71版	2	2	2	2	ASA公司
v152版	4	三	9	5.3	最大平滑B系数
v151版	5	5	三	4.3	最大B系数
第130版	13	9	6	9.3	最大平滑PI
v238版本	16	7	5	9.3	平均平滑β圈
第75版	7	8	16	10.3	B系数
第303版	10	16	8	11.3	平均B系数
v162版	11	18	7	12	最小平滑β匝数
150版	30	22	11	21	最大平滑RSA
第86版	18	24	29	23.7	最大平滑β圈
v154版	20	30	22	24	最小平滑亲水性
第223版	25	25	26	25.3	最低ASA
第76版	三	6		4.5	平滑B系数
第228版	8	4		6	最小平滑B系数
304版	6	10		8	平均平滑B系数
第227版	9	14		11.5	最小B系数
v247版本	12		15	13.5	平均GLU（E）
88版		13	14	13.5	最大平滑对数比值比
v240版本	19	11		15	平均平滑Log-odds比率
第82版	15	17		16	最大平滑灵活性
v234版本	14		20	17	平均平滑柔韧性

注释：R1、R2和R3分别代表三个样本的等级。平均排名是三个排名的算术平均值。

表4。

CeePre1中的排名功能列表

功能	R1级	R2级	R3级	平均排名	功能名称
第73版	1	1	1	1	RSA公司
第71版	2	2	2	2	ASA公司
v152版	4	三	9	5.3	最大平滑B系数
v151版	5	5	三	4.3	最大B系数
130版	13	9	6	9.3	最大平滑PI
v238版本	16	7	5	9.3	平均平滑β圈
第75版	7	8	16	10.3	B系数
第303版	10	16	8	11.3	平均B系数
v162版	11	18	7	12	最小平滑β匝数
150版	30	22	11	21	最大平滑RSA
第86版	18	24	29	23.7	最大平滑β圈
v154版	20	30	22	24	最小平滑亲水性
第223版	25	25	26	25.3	最低ASA
第76版	三	6		4.5	平滑B系数
第228版	8	4		6	最小平滑B系数
304版	6	10		8	平均平滑B因子
第227版	9	14		11.5	最小B系数
v247版本	12		15	13.5	平均GLU（E）
88版		13	14	13.5	最大平滑Log-odds比率
v240版本	19	11		15	平均平滑Log-odds比率
第82版	15	17		16	最大平滑灵活性
v234版本	14		20	17	平均平滑灵活性

功能	1号机组	R2级	R3级	平均排名	功能名称
第73版	1	1	1	1	RSA公司
第71版	2	2	2	2	ASA公司
v152版	4	三	9	5.3	最大平滑B系数
v151版	5	5	三	4.3	最大B系数
130版	13	9	6	9.3	最大平滑PI
v238版本	16	7	5	9.3	平均平滑β圈
第75版	7	8	16	10.3	B系数
第303版	10	16	8	11.3	平均B系数
v162版	11	18	7	12	最小平滑β匝数
150版	30	22	11	21	最大平滑RSA
第86版	18	24	29	23.7	最大平滑β圈
v154版	20	30	22	24	最小平滑亲水性
第223版	25	25	26	25.3	最低ASA
第76版	三	6		4.5	平滑B系数
第228版	8	4		6	最小平滑B系数
304版	6	10		8	平均平滑B系数
第227版	9	14		11.5	最小B系数
v247版本	12		15	13.5	平均GLU（E）
88版		13	14	13.5	最大平滑Log-odds比率
v240版本	19	11		15	平均平滑Log-odds比率
第82版	15	17		16	最大平滑灵活性
v234版本	14		20	17	平均平滑柔韧性

注释：R1、R2和R3分别代表三个样本的等级。平均排名是三个排名的算术平均值。

3.3.1相对可及表面积

RSA和ASA在所有功能中排名第一。这意味着残基的表面可及区域可以有效区分蛋白质表面上的表位残基和非表位残余物。表位残基和非表位残基在蛋白质表面的RSA分布明显不同(图5). 表位残基的平均RSA为46.0%，而非表位残体的平均RSA为54.2%。表位残基的表面暴露程度低于其他表面残基。与曼·惠特尼U型假设表位和非表位残基的RSA分布相同，则该假设被拒绝(P（P）-值：0）。这意味着RSA在表位和非表位残基之间的分布有明显区别。

图5。

表位和非表位RSA方框图

3.3.2 B系数

另一个重要特征是B因子，这是用于指示原子迁移率的特征。埋在蛋白质中的原子通常不易移动，B因子较小，而暴露在表面的原子则更灵活，B因子较大。B因子广泛用于蛋白质结合的研究(钟等。, 2006;线路接口单元等。, 2013;诺维特等。, 2004). 然而，这是首次将B因子用作表位预测的特征。

从中可以看出图4a和表4B因子是区分表位残基和非表位残基时的一个显著特征。这个P（P）-曼恩-惠特尼的价值U型对B因子的假设检验为0，表明表位残基和非表位残基因B因子的分布不同；换句话说，B因子是表位预测的有效特征。此外，沿序列的平滑B因子和结构窗口中相邻残差的B因子也对预测有显著影响。对序列平滑B因子的测试返回AP（P）-值为0，这证实了在构造新特征时使用序列窗口是合理的。

图6显示了表位残基和非表位残基B因子分布的方框图。表位残留物的平均B因子为39.7，非表位残渣的平均B因数为52.27：与其他表面残留物相比，表位残存物更容易位于可移动性较差的区域。

图6。

表位和非表位的B因子分布方框图

图7提供了一个示例来说明表位与A/香港/1/1968（H3N2）流感病毒（4FNK）上的B因子分布的关联。可见，表位主要位于B因子较小的残基上。对于这个例子，干区上的表位（通常是保守的表位）位于B因子低的那些残基（蓝色），而头区上的表位（通常不太保守）具有略高的B因子（绿色）。这是因为HA1本身比HA2更灵活，因此具有更高的B因子。

A/香港/1/1968（H3N2）流感病毒（4FNK）B因子与表位残基的定位。（a） 4FNK上的B因子分布：色条显示颜色模式：从蓝色到红色代表B因子从小到大

图7。

A/香港/1/1968（H3N2）流感病毒（4FNK）B因子与表位残基的定位。(一)4FNK上的B因子分布：颜色模式显示在颜色栏中：从蓝色到红色的颜色代表从小到大的B因子(b条)4FNK上的表位：表位用洋红色标记

3.3.3凸出指数

PI，一种广泛使用的结构特征(波诺马连科等。, 2008;桑顿等。, 1986)，在预测中证明是有效的，如所示图8表位残基的平均PI为0.87，非表位残体的PI为1.07。也就是说，表位在表面上更凹。这个P（P）-曼·惠特尼的价值U型PI的假设检验为0，表明其在识别表位残基方面的有效性。

图8。

表位和非表位PI的方框图

3.3.4其他特性

除上述结构特征外，β-圈、疏水性和柔韧性等传统的物理化学特征在表位预测中也得到了高度评价。表位残基预测受序列相邻或具有空间邻近性的残基的物理化学特征的影响。从中可以看出表4，排名靠前的物理化学特征大多在序列窗口（“平滑”）或结构窗口（“平均”、“最大”或“最小”）上平滑。特别是，其中一些，如在序列窗口或结构窗口上平滑的β-转角和亲水性，强烈反映了邻近残基对表位残基预测的影响。因此，在这些特征上应用序列窗口和结构窗口有助于表位残基的识别。

4案例研究

CeePre基于我们的整个平衡数据集进行训练，然后应用于HIV抗原和流感病毒抗原的三级结构数据，以预测其表位。这两种抗原与我们训练数据集中的抗原有着远亲关系。

4.1 HIV-1链A/E 93TH057抗原GP120

HIV-1分支A/E 93TH057抗原GP120的三级结构数据存储在PDB条目3TGT中。PDB中含有该抗原或突变抗原的六种复合物（3SE8、3SE9、4LSP、4LSU、3NGB和4JB9）。从这六个复合物中，我们提取了GP120的六个表位。这些表位并非完全相同，而是聚集和重叠的(补充图S2).

在我们的训练数据集中，唯一与HIV病毒相关的抗原是HIV-1衣壳蛋白（2PXR）。其表位提取自1AFV（与Fab25.3复合物中的HIV-1衣壳蛋白）。但BLAST检测发现2PXR和3TGT（测试抗原GP120）之间没有显著的序列相似性。然而，在DiscoTope和SEPPA的训练数据集中，存在与抗原GP120类似的抗原。事实上，DiscoTope的训练数据包含1RZK、1G9M、1G9-N和1GC1，它们是四种包膜糖蛋白GP120和抗体复合物。在SEPPA中，2I5Y、1G9M和1G9N是三种包膜糖蛋白GP120和抗体复合物。因此，这种比较不利于CeePre，因为DiscoTope和SEPPA在3TGT上的性能可能被高估了。ElliPro不需要进行训练，因此它没有训练数据集。

4.1.1预测性能比较

CeePre和其他三个预测因子的预测结果报告于表5CeePre取得了良好的预测结果，优于DiscoTope和SEPPA。ElliPro的召回率略高（0.66比0.61），即66%的真正表位残基得到了正确预测。然而，其精确度仅为0.22，这意味着在预测为表位残基的残基中，只有22%是真正的表位残余物。换句话说，它倾向于将非表位残基预测为表位残余物。至于CeePre2，尽管召回值略低于ElliPro（0.05低），但其准确性显著高于ElliPro，高0.51。因此，它的F分数为0.55，是ElliPro的两倍。此外，我们的MCC要好得多（0.58比-0.08）。比较结果可以在中更清楚地看到图9c和e。

HIV病毒抗原GP120的表位预测。（a）真正的表位残基。（b）和（c）分别使用我们的方法CeePre1和CeePre2进行预测的结果。（d–f）分别采用DiscoTope、ElliPro和SEPPA等其他方法的预测结果。TP预测为红色，FN预测为橙色，FP预测为黄色，背景青色表示TN预测。子图（b）中的紫色圆圈标记了CeePre1错误预测为孤立表位或非表位残基的残基，并通过CeePre2中的聚类进行了纠正

图9。

HIV病毒抗原GP120的表位预测。(一)真正的表位残基。(b条)和(c（c）)分别使用我们的方法CeePre1和CeePre2进行预测。(d日–（f）)分别采用其他方法DiscoTope、ElliPro和SEPPA进行预测。TP预测为红色，FN预测为橙色，FP预测为黄色，背景青色表示TN预测。子图（b）中的紫色圆圈标记了CeePre1错误预测为孤立表位或非表位残基的残基，并通过CeePre2中的聚类进行了纠正

表5。

HIV抗原GP120（3TGT）的预测性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.59	0.61	0.57	0.47	0.89	0.81
CeePre2公司	0.67	0.73	0.61	0.58	0.93	0.85
DiscoTope公司	0.55	0.55	0.55	0.40	0.86	0.78
ElliPro公司	0.33	0.22	0.66	−0.08	0.26	0.35
SEPPA公司	0.38	0.31	0.50	0.13	0.65	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.59	0.61	0.57	0.47	0.89	0.81
CeePre2公司	0.67	0.73	0.61	0.58	0.93	0.85
迪斯科舞厅	0.55	0.55	0.55	0.40	0.86	0.78
ElliPro公司	0.33	0.22	0.66	−0.08	0.26	0.35
SEPPA公司	0.38	0.31	0.50	0.13	0.65	0.62

表5。

HIV抗原GP120（3TGT）的预测性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.59	0.61	0.57	0.47	0.89	0.81
CeePre2公司	0.67	0.73	0.61	0.58	0.93	0.85
DiscoTope公司	0.55	0.55	0.55	0.40	0.86	0.78
ElliPro公司	0.33	0.22	0.66	−0.08	0.26	0.35
SEPPA公司	0.38	0.31	0.50	0.13	0.65	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.59	0.61	0.57	0.47	0.89	0.81
CeePre2公司	0.67	0.73	0.61	0.58	0.93	0.85
DiscoTope公司	0.55	0.55	0.55	0.40	0.86	0.78
ElliPro公司	0.33	0.22	0.66	−0.08	0.26	0.35
SEPPA公司	0.38	0.31	0.50	0.13	0.65	0.62

4.1.2 CeePre2使用的新功能的聚类效果

从中可以看出图9a–c，61%的真表位残基由CeePre2鉴定。与CeePre1相比，CeePre2对真表位残基具有显著的聚集效应。CeePre2还将真实表位残基预测中的一些非表位残数预测校正为真实表位残留。同时，CeePre2校正了一些分离的残基的预测，这些残基都被CeePre1预测为抗原残基，例如，链A中47、53、57、63、68、232、234、236、247、250、299、439和444位的残基，这些残基都是CeePre1的假阳性预测。

4.2甲型流感病毒抗原血凝素/日本/305/1957（H2N2）

我们的预测模型CeePre1和CeePre2也应用于流感病毒A/Japan/305/1957（H2N2）抗原血凝素（HA）的三级结构数据（3KU3）。该抗原在PDB中有两个四级结构：4HF5（A/Japan/305/1957与Fab 8F8复合体）和4HLZ（A/Jaban/305/1977与广泛中和抗体C179复合体(德雷福斯等。, 2013).

在我们的训练数据集中，只有一个三级结构（2YPG）来自流感家族，它的三个表位（从1EO8、1QFU、1KEN中提取）都有注释。两种抗原的进化距离很远：3KU3-HA属于第1组，而2YPG-HA属于第2组。由BLAST确定的它们的序列相似性仅为HA1的36%和HA2的56%。第1组中的HA也不包括在DiscoTope、ElliPro或SEPPA的培训数据集中。因此，这是一个公平的比较。

4.2.1 3KU3预测性能比较

预测结果列于表6。与三个预测因子相比，CeePre2的性能在每个指标上都优于其他指标。它的F分数是其他三个预测因子中最好的两倍多。对于表征分类器整体性能的另一个指标MCC，CeePre2远远超过了所有三个预测因子。召回率有显著提高，这意味着CeePre2可以识别更多的表位残基。同时，CeePre2的精确度和特异性也较高。

表6。

流感病毒抗原HA（3KU3）的测试性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.49	0.37	0.71	0.41	0.82	0.80
CeePre2公司	0.43	0.29	0.83	0.36	0.69	0.70
DiscoTope公司	0.19	0.13	0.37	−0.01	0.62	0.58
ElliPro公司	0.21	0.12	0.60	−0.03	0.35	0.39
SEPPA公司	0.21	0.14	0.37	0.02	0.66	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.49	0.37	0.71	0.41	0.82	0.80
CeePre2公司	0.43	0.29	0.83	0.36	0.69	0.70
DiscoTope公司	0.19	0.13	0.37	−0.01	0.62	0.58
ElliPro公司	0.21	0.12	0.60	−0.03	0.35	0.39
SEPPA公司	0.21	0.14	0.37	0.02	0.66	0.62

表6。

流感病毒抗原HA（3KU3）的测试性能

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.49	0.37	0.71	0.41	0.82	0.80
CeePre2公司	0.43	0.29	0.83	0.36	0.69	0.70
迪斯科舞厅	0.19	0.13	0.37	−0.01	0.62	0.58
ElliPro公司	0.21	0.12	0.60	−0.03	0.35	0.39
SEPPA公司	0.21	0.14	0.37	0.02	0.66	0.62

方法	F分数	精密度	召回	电动机控制中心	特异性	准确性
CeePre1公司	0.49	0.37	0.71	0.41	0.82	0.80
CeePre2公司	0.43	0.29	0.83	0.36	0.69	0.70
DiscoTope公司	0.19	0.13	0.37	−0.01	0.62	0.58
ElliPro公司	0.21	0.12	0.60	−0.03	0.35	0.39
SEPPA公司	0.21	0.14	0.37	0.02	0.66	0.62

与CeePre1相比，CeePre2在召回率方面有了显著提高，但在特异性和准确性方面下降相对较小。这意味着更真实的表位残留物被正确分类，但一些非表位残渣被标记为表位残基。接下来，我们将讨论出现这种现象的原因。

4.2.2一些预测细节

图10表明CeePre正确识别了HA的两个表位。CeePre2正确预测了与8F8结合的表位的所有抗原残基。这个表位在HA1上。HA2上与广泛中和抗体C179结合的表位的几乎所有抗原残基都得到了正确预测。少数边缘抗原残基（链A上的残基38、40、291和链B上的残基42、45、56）预计为阴性。这可能是因为这个表位是保守的; 它具有与菌株特异性表位稍有不同的特征，可能需要特殊的策略来预测表位和选择特征。如图所示图10d–f，其他三个预测因子没有检测到这个保守的表位。

流感病毒（3KU3）HA抗原表位预测。（a）真正的表位残基。（b）以及（c）分别通过我们的方法CeePre1和CeePre2的预测结果。（d–f）分别通过DiscoTope、ElliPro和SEPPA的其他方法得出的预测结果。颜色和紫色圆圈的含义与图9中的相同。子图（c–f）中的紫色虚线框标记HA2上保守表位的位置

图10。

流感病毒（3KU3）HA抗原表位预测。(一)真正的表位残基。(b条)和(c（c）)分别使用我们的方法CeePre1和CeePre2进行预测。(d日–（f）)分别采用其他方法DiscoTope、ElliPro和SEPPA进行预测。颜色和紫色圆圈的含义与图9.子图（c–f）中的紫色虚线框标记HA2上保守表位的位置

CeePre2再次证明了对该抗原的聚集效应：分离的抗原残基聚集成表位，而CeePre1预测的分离表位和非表位残基被CeePre 2的第二阶段去除。在这一阶段，精确度和特异性可能会降低，特别是对于那些表位未被完全发现或注释的抗原（高FP）。例如，尽管一些抗体已被证明与病毒A/Japan/305/1957（H2N2）反应，例如C05和CR6261(艾基特等。, 2012)，其复杂结构尚未确定，表位尚不清楚。这些表位残基在这里无法注释，导致较高的FP率。

5结论

在本文中，我们提出了用于构象B细胞表位预测的CeePre。CeePre采用随机森林算法的两阶段学习策略来识别抗原残基簇。它通过一个序列窗口和一个结构窗口合并了各种基本特征以及扩展的复合特征。在这些特征中，B因子首次用于B细胞表位预测。它在表位预测中被发现是有效的。

为了实用，我们构建了一个三级结构数据集来训练我们的预测方法，并将其用于CeePre的评估。与三种广泛使用的基于结构的表位预测模型相比，我们的CeePre在预测性能上有了显著改进。

对于深入的案例研究，CeePre已应用于两种抗原的表位预测，这两种抗原与我们的训练数据有着遥远的联系。一种抗原是HIV抗原，另一种是流感抗原。研究发现，CeePre不仅可以获得更准确的表位残基预测，而且可以通过聚类相邻残基形成更有意义的表位预测。

基金：这项研究工作得到了UTS 2013年早期职业研究拨款的支持；ARC发现项目（DP130102124）；和中国奖学金委员会（J.R.）。

利益冲突：未声明。

参考文献

安徒生

酸碱度

等

利用蛋白质三维结构预测不连续B细胞表位中的残基

,

蛋白质科学。

,

2006

，卷。

15

（第

2558

-

2567

)

布莱斯

美赞臣

,

花

博士

.

基准B细胞表位预测：现有方法的不足

,

蛋白质科学。

,

2005

，卷。

14

（第

246

-

248

)

布雷曼

L（左）

.

随机森林

,

机器。学习。

,

2001

，卷。

45

（第

5

-

32

)

陈

J型

等

用氨基酸对抗原性量表预测线性B细胞表位

,

氨基酸

,

2007

，卷。

33

（第

423

-

428

)

周

上一年度

,

法斯曼

GD公司

.

从蛋白质计算螺旋区、β片区和随机螺旋区氨基酸的构象参数

,

生物化学

,

1974

，卷。

13

（第

211

-

222

)

钟

J型

等

利用序列和结构同源物鉴定蛋白质-蛋白质结合位点

,

蛋白质

,

2006

，卷。

62

（第

630

-

640

)

邓

L（左）

等

使用集合方法预测蛋白质-蛋白质相互作用位点

,

BMC生物信息学

,

2009

，卷。

10

第页。

426

德雷福斯

C类

等

经典广泛中和干抗体与流行性h2流感病毒血凝素复合物的结构

,

J.维罗尔。

,

2013

，卷。

87

（第

7149

-

7154

)

艾基特

直流

等

单抗体环介导的甲型流感病毒交叉中和

,

自然

,

2012

，卷。

489

（第

526

-

532

)

El-Manzalawy公司

Y（Y）

等

利用进化信息预测保护性线性B细胞表位

,

BIBM'08：IEEE生物信息学和生物医学国际会议

,

2008

（第

289

-

292

)

汉族

J型

等,

数据挖掘：概念和技术

,

2006

美国旧金山

摩根考夫曼

霍普

总发电量

,

伍兹

韩国

.

从氨基酸序列预测蛋白质抗原决定簇

,

程序。国家科学院。科学。美国

,

1981

，卷。

78

（第

3824

-

3828

)

杰宁

J型

.

球形蛋白质的表面和内部体积

,

自然

,

1979

，卷。

277

（第

491

-

492

)

乔丹

R（右）

.

基于结构的两级分类器预测蛋白质-蛋白质界面残基

,

2010

技术报告，爱荷华州立大学

卡普拉斯

P（P）

,

舒尔茨

G公司

.

蛋白质链柔性的预测

,

自然科学期刊

,

1985

，卷。

72

（第

212

-

213

)

川岛

S公司

等

AAIndex：氨基酸指数数据库，2008年进度报告

,

核酸研究。

,

2008

，卷。

36

补充1

（第

D202型

-

D205型

)

科拉斯卡尔

A类

,

汤加昂卡

个人计算机

.

预测蛋白质抗原抗原决定簇的半经验方法

,

FEBS通讯。

,

1990

，卷。

276

（第

172

-

174

)

克林格鲁姆

合资企业

等

抗体中B细胞表位的结构分析：蛋白质复合物

,

分子免疫学。

,

2013

，卷。

53

（第

24

-

34

)

库尔卡尼·卡莱

U型

等

CEP：构象表位预测服务器

,

核酸研究。

,

2005

，卷。

33

补充2

（第

宽168

-

第171页

)

拉森

JE公司

等

线性B细胞表位预测方法的改进

,

免疫学研究。

,

2006

，卷。

2

第页。

2

Liaw公司

A类

,

维纳

M（M）

.

基于randomForest的分类和回归

,

R新闻

,

2002

，卷。

2

（第

18

-

22

)

OpenURL占位符文本

线路接口单元

问

等

基于β接触和B因子的蛋白质-甘氨酸复合物结合亲和力预测

,

化学杂志。Inf.模型。

,

2013

，卷。

53

（第

3076

-

3085

)

Lo（低）

年初至今

等

利用基于知识的能量函数和几何相关的相邻残基特征预测构象表位

,

BMC生物信息学

,

2013

，卷。

14

补充4

第页

第3章

米海尔

J型

等

PSAIA-蛋白质结构和相互作用分析仪

,

BMC结构。生物。

,

2008

，卷。

8

第页。

21

莫罗

V（V）

等

PEPOP：免疫原性肽的计算设计

,

BMC生物信息学

,

2008

，卷。

9

第页。

71

诺维特

H（H）

等

ProMate：一种基于结构的预测程序，用于识别蛋白质结合位点的位置

,

分子生物学杂志。

,

2004

，卷。

338

（第

181

-

199

)

帕克

J型

等

基于高效液相色谱肽保留数据的新亲水性标度：预测的表面残基与抗原性和X射线衍生可及位点的相关性

,

生物化学

,

1986

，卷。

25

（第

5425

-

5432

)

佩尔凯

JL公司

等

抗原位点位置与蛋白质转折预测的相关性

,

免疫学快报。

,

1993

，卷。

36

（第

83

-

99

)