数据集集合
用于训练的主要数据集是DISORDER723,这是一组723个蛋白质,最初是为开发DISpro而构建的[20,21]以及后来的PreDisorder[22]. 它由长度超过30个残基的蛋白质组成,并且包含至少一个无序区域3个残基或更长的长度。它由13909个无序残基和201703个有序残基组成(即~6.5%无序)。用于评估的其他数据集包括CASP9和CASP10,分别由117和95个蛋白质组成,用于CASP9与CASP10比赛。CASP9数据集包含23656个有序残基和2427个无序残基(即~9.3%无序),CASP10数据集包含22673个有序残基和1597个无序残留物(即~6.6%无序的)。DISORDER723中蛋白质的所有加入日期早于2003年3月,早于2010年和2012年举行的CASP9和CASP10比赛。组成这些数据集的蛋白质的长度分布如图所示1.数字2和三表示数据集中无序区域长度的分布。对于CASP9和CASP10数据集,蛋白质序列和实验确定的有序/无序状态从CASP官方网站获得[23]. CASP评估员未对残留物进行无序/有序分类(即被指定为“X”的残留物),在我们的评估中,这些残留物未被视为无序。数据集DISORDER723也可在线下载[24].
受限玻尔兹曼机器和深层网络
概念上的深度网络(DN)与神经网络相似,但包含更多层,并且训练方式略有不同。培训DN的一种方法是使用逐层无监督方法。这里的想法是首先学习数据的良好模型或表示,而不考虑每个数据点的标签。这个过程允许人们首先了解数据中可能存在的关系。在学习了这些关系之后,可以根据学习到的更高级别的数据表示来训练一种监督学习技术,如一层神经网络。直观地看,这种方法背后的一般思想是,为了进行有效的分类,首先了解数据的结构(即特征)是有用的。相对而言,最近在神经网络训练算法方面的发展使得神经网络在图像识别等领域得到了成功的应用[25],语音识别[26]、文本分类和检索[27]和残余接触预测[28]. 文献中有许多关于深度学习和深度网络的介绍和概述,包括辛顿的两部基础著作等. [29,30]以及深度网络培训概述[31].
我们用于疾病预测的一般框架是由深层网络组成的增强信号群集合。每个DN都是一个深层多层神经网络,使用受限的Boltzmann机器逐层训练,然后使用反向传播程序进行微调。受限Boltzmann机器(RBM)是一个两层网络,一层称为可视层,它接受待建模的值,另一层是隐藏层[32,33]. 在其最纯粹的形式中,RBM中的节点是随机的和二进制的。从可见层中的每个节点到隐藏层中的每一个节点都存在对称的加权连接。层内没有连接,每个节点都有偏差。在这种情况下,特定配置的能量可以定义为
哪里小时
j个
和v(v)
我
是j的状态第个隐藏和我第个可见节点,c(c)
j个
和b条
我
是j的偏差第个隐藏节点和i第个可见节点。w个
伊吉
是i之间对称连接的重量第个和j第个节点。通过对h的所有可能配置进行求和和归一化(Z轴),可以定义可见节点的特定配置的概率,v(v).
训练RBM需要调整权重和偏差,以便分配给训练数据的概率高于随机选择的可见节点配置。这通常是通过一个称为对比发散的过程来完成的[32]. 在本工作中,n中的权重第个使用以下规则更新了一轮培训:
更具体地说,在这些更新规则中,尖括号表示批次中的平均值。是j的概率第个隐藏单元将被激活,可以通过将sigmoid函数应用于j的偏差来计算第个隐藏单位加上每个可见单位的乘积之和乘以可见单位和j之间连接的重量第个隐藏单元。
其中σ()表示sigmoid函数。是i的概率第个可视单元将以类似于的方式激活和计算第页(0).在这种情况下,将使用可见单位的偏差以及隐藏单位的状态。j的状态第个隐藏单位用h表示j个并以概率设置为1.
是j第个当被重构的可见节点(即,第页(1)). 其计算方法与但是有用于代替v(v)
我
。更新规则还包含三个附加参数,可以针对特定应用程序进行调整。这些是学习率(ɛ)、重量成本(η)和动量(ν)。这些参数的值和更新规则是根据描述如何在实践中训练成果管理制的最新研究结果选择的[31]. 在这项工作中,学习率为0.01w个偏差和重量成本η分别为0.1和0.0002。势头υ==================================================================================================最初设置为0.5,并且在5个时期的训练之后增加到0.9。基于成果的管理(RBM)培训历时20个多世纪,使用了100个培训实例。我们没有尝试优化这些参数,培训期间也没有参考评估数据。
RBM的主要用途是初始化DN中的权重。这是通过逐步学习每个级别的重量来完成的。使用训练数据和上述RBM训练过程训练第一层。学习权重后,计算训练数据中每个示例激活隐藏节点的概率。然后将这些激活概率用作输入,以训练另一个RBM。此过程可以重复多次,以创建多个图层。最后一层是使用目标值和最后一组激活概率训练的单层神经网络。最后,可以将所有节点视为返回实值确定性概率,并且可以使用反向传播算法对整个深度网络进行微调[29,30].
为了使用大型模型和数据集,我们使用矩阵运算实现了该方法的训练和预测过程。这使我们可以使用CUDAMat[34]是一个python库,在支持CUDA的GPU上提供快速矩阵计算。通过这种实施,我们能够及时(即不到2小时)培训非常大的DN(例如,超过100万个参数)。
预测无序残基
为了预测无序残基,我们训练了一些增强的DNA集合。每个DN的输入主要来自以待分类残留物为中心的固定长度窗口。对于窗口中的每个残基,基于结构和序列的值以及统计特征被用作特征(有关详细信息,请参阅“使用的特征和生成”)。目标是单个残基在3、5或7个残基大小的小窗口中的有序/无序状态。对于输入窗口大小,我们使用了20、25和30的长度。总共有5个输入目标窗口组合。这些数字分别为20比3、25比3、25-5、30比5和30比7。根据输入窗口的大小,有644到964个输入功能,这导致DN的体系结构为(644至964)-750-350-(3、5或7)。通过前面描述的过程,使用RBM初始化网络中的每个层。使用反向传播算法对整个网络进行微调,以最小化交叉熵误差。这是使用1000个训练示例的批次在25个时期内完成的。
为了创建增强的信号群,我们使用来自整个训练数据池的60000个训练示例样本训练了一系列DN。训练示例来自数据集DISORDER723,由所有目标窗口及其相应的输入窗口组成。最初,所有培训示例都有同等的机会被纳入培训样本。每轮训练后,使用新训练的DN对训练池进行评估,并根据分类器的性能对训练池重新加权。至少部分错误分类的训练示例的概率增加,而选择正确分类示例的概率降低。这是使用AdaBoost的修改版本完成的[35]. 特别是,让x个
我
代表i第个培训池中的示例和年
我
∈{0,1}是i的类第个示例(0表示有序残基,1表示无序残基)。此外,让W公司
t吨
(i)是选择i的概率第个来自t训练池的例子第个轮增压并调用轮训练的DN分类器t吨成为米
t吨
(●)输出介于0和1之间的值。注意,由于目标具有多个值(即3、5或7),因此选择训练示例的概率以与目标窗口中错误分类残留物数量成比例的方式增加。让β表示被错误分类的目标残基的数量。现在,在每一轮助推之后,W公司
t吨
(i)通过ɛ更新t吨, αt吨和ht吨(●)按照以下方式。
经过35轮升压后,合奏的最终输出(表示为高(x
我
))是所有DN的性能加权平均值。它是一个介于0和1之间的值,适用于任何输入x个
我
计算如下:
我们的增强过程需要注意的是,经过7轮增强后,训练池中示例的所有概率都被重新初始化为均匀分布。这样做是因为我们看到一些具有挑战性的训练示例的权重变得太大,并且有效地控制了选拔过程。这种现象在其他地方也曾出现过,可能会导致过度匹配或性能不佳[36]. 事实上,接受过此类培训样本培训的DN并没有很好地概括,有效地限制了少量轮数(即少于10轮)的提升。因此,通过7轮后重新初始化重量,我们能够创建更大的信号群。
DNA紊乱
构建基于DN的疾病预测的最后一步是将各种增强信号群的结果合并为一个预测。每个增强集合由35个预测因子组成,有5个输入-目标窗口组合(即20-3、25-3、25-5、30-3和30-7)。因此,总共有175个预测因子。使用上述方法(即性能加权平均值)对每个增强集合进行每残差预测。最后的预测是每个增强的集合产生的值的简单平均值。这个最终值是我们称之为DNA障碍预测器的方法的输出。
基于序列的元方法
除了基于DN的疾病预测器DNdisorder外,我们还开发了一个基于序列的小型元预测器。这种我们称之为PreDNdisorder的方法是DNdisorde和PreDisorder输出的简单平均值。PreDisorder是我们开发并构建在一维递归神经网络基础上的另一种基于序列的快速无序区域预测器[22].
使用的功能和生成
许多基于序列的特征被用作我们疾病预测的输入。这些包括来自特定位置评分矩阵(PSSM)的值、预测的溶剂可及性和二级结构,以及一些统计特征。使用SCRATCH工具群中的ACCpro和SSpro获得溶剂可及性和二级结构的预测值[37]. 使用PSI-BLAST计算PSSM[38]针对以90%序列相似性过滤的nr数据库的非冗余版本进行3次迭代。对于氨基酸残基的统计表征,我们使用了Acthley因子,它是五个数值,通过二级结构、极性、体积、密码子多样性和静电电荷来表征氨基酸[39]. 最后,请注意,为了与RBM的输入层兼容,所有特征值都被缩放为0到1之间的间隔。
如前所述,DN的输入是以目标窗口为中心的固定长度窗口(即,要分类的那些残差)。对于输入窗口中的每个残基,我们使用两个二进制输入来实现溶剂可及性(埋置:01,暴露:10),三个二进制输入用于二级结构编码(线圈:001,β:010,α:100),Acthley因子的五个输入,从PSSM中,我们获得了残基信息得分的1个值和位置上每种氨基酸类型的可能性的20个输入。请注意,当一个窗口在蛋白质序列上滑动时,它的一部分可能会延伸到序列的末端之外。因此,需要一个额外的二进制特征来编码窗口中的位置是否包含在序列边界中,并实际对应于一个残差。如果窗口位置与实际残留物不对应,则该位置的所有残留物特定特征均设置为0。除了特定于残留物的输入,我们还使用了四个实际值全局特征,即预测暴露的总残留物百分比、预测为α-螺旋的总残渣百分比、,预计在β表中的总残基百分比和目标残基的相对位置(即目标窗口的中间÷序列长度)。由于使用了三种不同大小的输入窗口(即20、25和30),输入特征的总数从644到772到964不等。
评估指标
DNA无序的输出是一个0到1的实数,其中0对应于有序残数(0),1对应于无序残数(D)。给定一个确定的决策阈值,如果DNA无序输出小于决策阈值,则残差可以分类为有序残差,如果输出大于阈值,则可以分类为无序残差。作出预测后,可以确定真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)的数量。真阳性是实验确定为无序的残留物,其被预测为无序,而真阴性是实验确定为有序的残留物,并被正确预测为有序。假阳性和假阴性是与实验确定的状态不对应的预测。在这里,阳性指无序,所以假阳性是错误地预测为无序的残基,假阴性是错误地预计为有序的残基。
用于评估预测器性能的主要方法是ROC曲线下的面积(AUC)和平衡精度(ACC)。ROC曲线是针对不同阈值的假阳性率(即FP÷(TN+FP))的敏感性曲线(即SENS=TP÷(TP+FN))[40]. 通过计算ROC曲线下的面积,可以测量分类器的一般性能,而不考虑决策阈值。平衡准确度是灵敏度和特异性的简单平均值(即SPEC=TN÷(TN+FP)),决策阈值为0.5。考虑到大多数数据集中有序残基与无序残基的数量不成比例,此评估指标优于准确性。在这种情况下,将所有残留物分类为有序的朴素分类器将具有非常高的准确性,但对手头的任务毫无用处。相同的朴素分类器的平衡准确率约为50%。除了灵敏度、特异性、AUC和ACC外,我们还计算了一个分数(即Sw=SENS+SPEC-1)和F值。所有这些措施都广泛用于评估其他疾病预测因子和最近的CASP评估[1,14,19,22,41]. 通过近似每个值的标准误差(SE),获得平衡准确度、灵敏度、特异性、F测量值和Sw的显著性。这是通过自举程序完成的,其中80%的预测残留物采样1000次。更具体地说,对于一个特定的性能度量值θ,SE(θ)=√(∑(θ我- Θ)2/1000)式中我是i上计算的度量值第个样品。
用于比较的方法
在这项研究中,我们将我们的方法DNA紊乱和PreDNA紊乱与几个预测因子进行了比较。这项比较包括几个疾病预测因子,它们可以作为服务器或可下载的可执行文件公开提供,还有几个参与了CASP9和CASP10实验。当从CASP实验中选择预测因子时,我们只包括那些在ACC或AUC方面表现特别好的方法,这是由官方CASP9评估确定的[1]或应用于CASP10目标时的内部评估管道。我们评估中使用的公开可用预测因子包括IUpred[11,12]、埃斯普里茨[14],失调症前期[21]和CSpritz[42]. 为了生成紊乱预测,CSpritz被用作web服务,而IUpred、ESpritz和PreDisorder被下载并在本地运行。对于CASP参与者,我们从CASP官方网站下载了紊乱预测[23]. 请注意,在计算性能度量时,所有方法的决策阈值都设置为0.5(即,官方CASP评估中使用的相同值),ESpritz(本地运行时)和CSpritz除外。在这两种情况下,我们根据这些工具的附带文档或输出,分别使用0.0634和0.1225的决策阈值。最后一个警告是,对于可下载版本的ESpritz(在结果中用ESpritz_nopsi_X表示),我们只报告在训练X射线结构时运行ESpritx所做预测的结果,而不报告剖面信息。