跳到主要内容

DNA障碍:使用boosting和deep网络预测蛋白质障碍

摘要

背景

许多蛋白质含有在其天然状态下不采用稳定三级结构的区域。这种被称为无序区域的区域已被证明参与了许多重要的细胞功能,并越来越多地被用作药物靶点。

结果

这项工作提出了一种新的基于序列的蛋白质紊乱预测方法。该方法使用增强的深层网络集合进行预测,并参与了CASP10实验。在对723个蛋白质的数据集进行10倍交叉验证的过程中,该方法获得了0.82的平均平衡精度和0.90的ROC曲线下面积。这些结果部分是通过增压程序实现的,该程序能够在几轮中稳定地提高平衡精度和ROC曲线下的面积。在CASP9和CASP10基准数据集上,当与许多最先进的疾病预测因子进行评估时,该方法也进行了竞争性比较。

结论

DNorder可作为web服务访问http://iris.rnet.missouri.edu/dndorder/.

背景

许多蛋白质含有在其天然状态下不采用稳定三级结构的区域。这些区域已由文献中的各种术语确定,名称包括无序区域[1]、内在紊乱[2],固有无序区域(IDR)[]和固有非结构蛋白(IUP)[4]. 这种结构紊乱或缺乏可能局限于蛋白质链的一个或多个特定区域,或者可能延伸到整个蛋白质。疾病在性质上也可能是暂时性的,与蛋白质的某种状态有关,例如结合或未结合(例如,当蛋白质未结合时,一个区域可能会发生紊乱,但在与配体结合时,该区域会折叠成稳定的结构)。

蛋白质紊乱区域由于参与信号通路、转录和翻译而引起特别关注[4,5]. 它们的遗传灵活性使蛋白质能够与许多伙伴结合,并成为药物开发的诱人目标。已经提出了几种基于无序的合理药物设计(DBRDD)的方法,并且已经设计了一些阻断结构和非结构伙伴之间相互作用的肽[6,7]. 因此,需要有方法来准确预测蛋白质紊乱并帮助寻找新的药物靶点。

最近的估计表明有60多个蛋白质紊乱预测因子[8]. 有许多关于疾病预测因子的综合综述,概述了方法和可用性[2,9]. 一般来说,现有的蛋白质紊乱预测方法大致可分为基于倾向的、基于机器学习的、基于接触的或元方法[8]. 基于倾向的预测因子的工作前提是,某些类型的氨基酸残基更有可能在有序区域的核心中发现,而非无序区域。同样,在无序区域中,也有一些特定的残基表现得过多。对已知的有序和无序蛋白质进行统计分析,可以创建可用于预测无序的无序倾向[10-13]. 这种方法快速简单,但并没有以优化的方式使用数据。基于机器学习的预测器,如神经网络[14]或支持向量机[15,16],也利用有序和无序残基的实验数据,但这是通过复杂的学习算法实现的,该算法允许输入超过序列数据。通过训练将高维函数拟合到输入特征,然后用于预测残留物紊乱。这确实允许优化使用实验数据,但会产生基于复杂函数的预测方法。通常很难理解函数是如何依赖于其输入的,而且这种方法对于如何进行预测缺乏直观的理论基础。基于残余接触的方法试图确定是否发生了足够的相互作用以将蛋白质链拉入稳定构象。残留接触数据可能以预测的堆积密度或预测的残留接触的形式出现[17,18]. 元预测因子或元方法是上述方法的组合,并通过组合几个预测因子来构建。这可以通过对每个方法的输出进行简单平均或以性能加权的方式来实现。这通常会导致性能略有改善[1,19]但是,如果这种方法依赖于太多的疾病预测因子,那么在基因组尺度上可能并不实用。

在这里,我们提出了一种新的基于序列的预测蛋白紊乱的方法,该方法使用增强的深层网络集合(DNdisorder)。据我们所知,这是首次将深层网络用于无序预测。通过使用CUDA和图形处理单元,我们能够创建非常大的深层网络来预测无序区域。我们还将这种新方法与另一种基于序列的疾病预测器相结合,创建了一个小的元预测器。元预测器可以提高性能,而预测时间的增加可以忽略不计。为了评估我们的方法,我们将它们与常见基准数据集以及最近一轮蛋白质结构预测技术关键评估(CASP10)实验中的许多其他疾病预测因子进行了比较。评估结果表明,我们的新方法与许多先进的疾病预测因子相比具有竞争力。这表明,增强的深层网络集合可用于预测蛋白质紊乱区域。

方法

数据集集合

用于训练的主要数据集是DISORDER723,这是一组723个蛋白质,最初是为开发DISpro而构建的[20,21]以及后来的PreDisorder[22]. 它由长度超过30个残基的蛋白质组成,并且包含至少一个无序区域3个残基或更长的长度。它由13909个无序残基和201703个有序残基组成(即~6.5%无序)。用于评估的其他数据集包括CASP9和CASP10,分别由117和95个蛋白质组成,用于CASP9与CASP10比赛。CASP9数据集包含23656个有序残基和2427个无序残基(即~9.3%无序),CASP10数据集包含22673个有序残基和1597个无序残留物(即~6.6%无序的)。DISORDER723中蛋白质的所有加入日期早于2003年3月,早于2010年和2012年举行的CASP9和CASP10比赛。组成这些数据集的蛋白质的长度分布如图所示1.数字2表示数据集中无序区域长度的分布。对于CASP9和CASP10数据集,蛋白质序列和实验确定的有序/无序状态从CASP官方网站获得[23]. CASP评估员未对残留物进行无序/有序分类(即被指定为“X”的残留物),在我们的评估中,这些残留物未被视为无序。数据集DISORDER723也可在线下载[24].

图1
图1

DISORDER723、CASP9和CASP10数据集的蛋白质长度分布。构成DISORDER723、CASP9和CASP10数据集的蛋白质长度分布。这些数据集分别由723、117和95个蛋白质组成。

图2
图2

DISORDER723无序区长度的分布。训练数据集DISORDER723无序区域长度的分布。本图中未包括长度超过60个残基的19个区域。

图3
图3

CASP9和CASP10数据集无序区域长度的分布。CASP9和CASP10评估数据集的无序区域长度的分布。CASP评估员标记为“X”的残留物在计算该分布时不被视为无序。

受限玻尔兹曼机器和深层网络

概念上的深度网络(DN)与神经网络相似,但包含更多层,并且训练方式略有不同。培训DN的一种方法是使用逐层无监督方法。这里的想法是首先学习数据的良好模型或表示,而不考虑每个数据点的标签。这个过程允许人们首先了解数据中可能存在的关系。在学习了这些关系之后,可以根据学习到的更高级别的数据表示来训练一种监督学习技术,如一层神经网络。直观地看,这种方法背后的一般思想是,为了进行有效的分类,首先了解数据的结构(即特征)是有用的。相对而言,最近在神经网络训练算法方面的发展使得神经网络在图像识别等领域得到了成功的应用[25],语音识别[26]、文本分类和检索[27]和残余接触预测[28]. 文献中有许多关于深度学习和深度网络的介绍和概述,包括辛顿的两部基础著作. [29,30]以及深度网络培训概述[31].

我们用于疾病预测的一般框架是由深层网络组成的增强信号群集合。每个DN都是一个深层多层神经网络,使用受限的Boltzmann机器逐层训练,然后使用反向传播程序进行微调。受限Boltzmann机器(RBM)是一个两层网络,一层称为可视层,它接受待建模的值,另一层是隐藏层[32,33]. 在其最纯粹的形式中,RBM中的节点是随机的和二进制的。从可见层中的每个节点到隐藏层中的每一个节点都存在对称的加权连接。层内没有连接,每个节点都有偏差。在这种情况下,特定配置的能量可以定义为

E类 v(v) , 小时 = - b条 v(v) - j个 c(c) j个 小时 j个 , j个 小时 j个 v(v) w个 伊吉

哪里小时 j个 v(v) 是j的状态第个隐藏和我第个可见节点,c(c) j个 b条 是j的偏差第个隐藏节点和i第个可见节点。w个 伊吉 是i之间对称连接的重量第个和j第个节点。通过对h的所有可能配置进行求和和归一化(Z轴),可以定义可见节点的特定配置的概率,v(v).

第页 v(v) = 小时 e(电子) - E类 v(v) , 小时 Z轴

训练RBM需要调整权重和偏差,以便分配给训练数据的概率高于随机选择的可见节点配置。这通常是通过一个称为对比发散的过程来完成的[32]. 在本工作中,n中的权重第个使用以下规则更新了一轮培训:

Δ n个 w个 伊吉 = ε < v(v) 第页 j个 > 数据 < 第页 1 第页 j个 1 > 侦察 η w个 伊吉 Δ n个 = ε < v(v) > 数据 < 第页 1 > 侦察 + v(v) n个 1 Δ n个 b条 j个 = ε < 第页 j个 0 > 数据 < 第页 j个 1 > 侦察 + v(v) b条 j个 n个 1

更具体地说,在这些更新规则中,尖括号表示批次中的平均值。 第页 j个 0 是j的概率第个隐藏单元将被激活,可以通过将sigmoid函数应用于j的偏差来计算第个隐藏单位加上每个可见单位的乘积之和乘以可见单位和j之间连接的重量第个隐藏单元。

第页 j个 0 = σ v(v) w个 伊吉 + b条 j个

其中σ()表示sigmoid函数。 第页 1 是i的概率第个可视单元将以类似于的方式激活和计算第页(0).在这种情况下,将使用可见单位的偏差以及隐藏单位的状态。j的状态第个隐藏单位用h表示j个并以概率设置为1 第页 j个 0 .

第页 1 = σ j个 小时 j个 w个 伊吉 +
第页 1

是j第个当被重构的可见节点(即,第页(1)). 其计算方法与 第页 j个 0 但是有 第页 1 用于代替v(v) 。更新规则还包含三个附加参数,可以针对特定应用程序进行调整。这些是学习率(ɛ)、重量成本(η)和动量(ν)。这些参数的值和更新规则是根据描述如何在实践中训练成果管理制的最新研究结果选择的[31]. 在这项工作中,学习率为0.01w个偏差和重量成本η分别为0.1和0.0002。势头υ==================================================================================================最初设置为0.5,并且在5个时期的训练之后增加到0.9。基于成果的管理(RBM)培训历时20个多世纪,使用了100个培训实例。我们没有尝试优化这些参数,培训期间也没有参考评估数据。

RBM的主要用途是初始化DN中的权重。这是通过逐步学习每个级别的重量来完成的。使用训练数据和上述RBM训练过程训练第一层。学习权重后,计算训练数据中每个示例激活隐藏节点的概率。然后将这些激活概率用作输入,以训练另一个RBM。此过程可以重复多次,以创建多个图层。最后一层是使用目标值和最后一组激活概率训练的单层神经网络。最后,可以将所有节点视为返回实值确定性概率,并且可以使用反向传播算法对整个深度网络进行微调[29,30].

为了使用大型模型和数据集,我们使用矩阵运算实现了该方法的训练和预测过程。这使我们可以使用CUDAMat[34]是一个python库,在支持CUDA的GPU上提供快速矩阵计算。通过这种实施,我们能够及时(即不到2小时)培训非常大的DN(例如,超过100万个参数)。

预测无序残基

为了预测无序残基,我们训练了一些增强的DNA集合。每个DN的输入主要来自以待分类残留物为中心的固定长度窗口。对于窗口中的每个残基,基于结构和序列的值以及统计特征被用作特征(有关详细信息,请参阅“使用的特征和生成”)。目标是单个残基在3、5或7个残基大小的小窗口中的有序/无序状态。对于输入窗口大小,我们使用了20、25和30的长度。总共有5个输入目标窗口组合。这些数字分别为20比3、25比3、25-5、30比5和30比7。根据输入窗口的大小,有644到964个输入功能,这导致DN的体系结构为(644至964)-750-350-(3、5或7)。通过前面描述的过程,使用RBM初始化网络中的每个层。使用反向传播算法对整个网络进行微调,以最小化交叉熵误差。这是使用1000个训练示例的批次在25个时期内完成的。

为了创建增强的信号群,我们使用来自整个训练数据池的60000个训练示例样本训练了一系列DN。训练示例来自数据集DISORDER723,由所有目标窗口及其相应的输入窗口组成。最初,所有培训示例都有同等的机会被纳入培训样本。每轮训练后,使用新训练的DN对训练池进行评估,并根据分类器的性能对训练池重新加权。至少部分错误分类的训练示例的概率增加,而选择正确分类示例的概率降低。这是使用AdaBoost的修改版本完成的[35]. 特别是,让x个 代表i第个培训池中的示例和 {0,1}是i的类第个示例(0表示有序残基,1表示无序残基)。此外,让W公司 t吨 (i)是选择i的概率第个来自t训练池的例子第个轮增压并调用轮训练的DN分类器t吨成为 t吨 ()输出介于0和1之间的值。注意,由于目标具有多个值(即3、5或7),因此选择训练示例的概率以与目标窗口中错误分类残留物数量成比例的方式增加。β表示被错误分类的目标残基的数量。现在,在每一轮助推之后,W公司 t吨 (i)通过ɛ更新t吨, αt吨和ht吨()按照以下方式。

小时 t吨 = { 0 (f) t吨 ( x个 ) < 0.5 1 (f) t吨 ( x个 ) 0.5 t吨 = 小时 t吨 x个 W公司 t吨 α t吨 = 1 2 1 t吨 t吨 W公司 t吨 + 1 = W公司 t吨 Z轴 t吨 * { e(电子) α t吨 (f) 小时 t吨 x个 = e(电子) β * α t吨 (f) 小时 t吨 x个

经过35轮升压后,合奏的最终输出(表示为高(x ))是所有DN的性能加权平均值。它是一个介于0和1之间的值,适用于任何输入x个 计算如下:

H(H) x个 = Σ t吨 x个 > 0.5 α t吨 Σ t吨 α t吨

我们的增强过程需要注意的是,经过7轮增强后,训练池中示例的所有概率都被重新初始化为均匀分布。这样做是因为我们看到一些具有挑战性的训练示例的权重变得太大,并且有效地控制了选拔过程。这种现象在其他地方也曾出现过,可能会导致过度匹配或性能不佳[36]. 事实上,接受过此类培训样本培训的DN并没有很好地概括,有效地限制了少量轮数(即少于10轮)的提升。因此,通过7轮后重新初始化重量,我们能够创建更大的信号群。

DNA紊乱

构建基于DN的疾病预测的最后一步是将各种增强信号群的结果合并为一个预测。每个增强集合由35个预测因子组成,有5个输入-目标窗口组合(即20-3、25-3、25-5、30-3和30-7)。因此,总共有175个预测因子。使用上述方法(即性能加权平均值)对每个增强集合进行每残差预测。最后的预测是每个增强的集合产生的值的简单平均值。这个最终值是我们称之为DNA障碍预测器的方法的输出。

基于序列的元方法

除了基于DN的疾病预测器DNdisorder外,我们还开发了一个基于序列的小型元预测器。这种我们称之为PreDNdisorder的方法是DNdisorde和PreDisorder输出的简单平均值。PreDisorder是我们开发并构建在一维递归神经网络基础上的另一种基于序列的快速无序区域预测器[22].

使用的功能和生成

许多基于序列的特征被用作我们疾病预测的输入。这些包括来自特定位置评分矩阵(PSSM)的值、预测的溶剂可及性和二级结构,以及一些统计特征。使用SCRATCH工具群中的ACCpro和SSpro获得溶剂可及性和二级结构的预测值[37]. 使用PSI-BLAST计算PSSM[38]针对以90%序列相似性过滤的nr数据库的非冗余版本进行3次迭代。对于氨基酸残基的统计表征,我们使用了Acthley因子,它是五个数值,通过二级结构、极性、体积、密码子多样性和静电电荷来表征氨基酸[39]. 最后,请注意,为了与RBM的输入层兼容,所有特征值都被缩放为0到1之间的间隔。

如前所述,DN的输入是以目标窗口为中心的固定长度窗口(即,要分类的那些残差)。对于输入窗口中的每个残基,我们使用两个二进制输入来实现溶剂可及性(埋置:01,暴露:10),三个二进制输入用于二级结构编码(线圈:001,β:010,α:100),Acthley因子的五个输入,从PSSM中,我们获得了残基信息得分的1个值和位置上每种氨基酸类型的可能性的20个输入。请注意,当一个窗口在蛋白质序列上滑动时,它的一部分可能会延伸到序列的末端之外。因此,需要一个额外的二进制特征来编码窗口中的位置是否包含在序列边界中,并实际对应于一个残差。如果窗口位置与实际残留物不对应,则该位置的所有残留物特定特征均设置为0。除了特定于残留物的输入,我们还使用了四个实际值全局特征,即预测暴露的总残留物百分比、预测为α-螺旋的总残渣百分比、,预计在β表中的总残基百分比和目标残基的相对位置(即目标窗口的中间÷序列长度)。由于使用了三种不同大小的输入窗口(即20、25和30),输入特征的总数从644到772到964不等。

评估指标

DNA无序的输出是一个0到1的实数,其中0对应于有序残数(0),1对应于无序残数(D)。给定一个确定的决策阈值,如果DNA无序输出小于决策阈值,则残差可以分类为有序残差,如果输出大于阈值,则可以分类为无序残差。作出预测后,可以确定真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)的数量。真阳性是实验确定为无序的残留物,其被预测为无序,而真阴性是实验确定为有序的残留物,并被正确预测为有序。假阳性和假阴性是与实验确定的状态不对应的预测。在这里,阳性指无序,所以假阳性是错误地预测为无序的残基,假阴性是错误地预计为有序的残基。

用于评估预测器性能的主要方法是ROC曲线下的面积(AUC)和平衡精度(ACC)。ROC曲线是针对不同阈值的假阳性率(即FP÷(TN+FP))的敏感性曲线(即SENS=TP÷(TP+FN))[40]. 通过计算ROC曲线下的面积,可以测量分类器的一般性能,而不考虑决策阈值。平衡准确度是灵敏度和特异性的简单平均值(即SPEC=TN÷(TN+FP)),决策阈值为0.5。考虑到大多数数据集中有序残基与无序残基的数量不成比例,此评估指标优于准确性。在这种情况下,将所有残留物分类为有序的朴素分类器将具有非常高的准确性,但对手头的任务毫无用处。相同的朴素分类器的平衡准确率约为50%。除了灵敏度、特异性、AUC和ACC外,我们还计算了一个分数(即Sw=SENS+SPEC-1)和F值。所有这些措施都广泛用于评估其他疾病预测因子和最近的CASP评估[1,14,19,22,41]. 通过近似每个值的标准误差(SE),获得平衡准确度、灵敏度、特异性、F测量值和Sw的显著性。这是通过自举程序完成的,其中80%的预测残留物采样1000次。更具体地说,对于一个特定的性能度量值θ,SE(θ)=√(∑(θ- Θ)2/1000)式中是i上计算的度量值第个样品。

用于比较的方法

在这项研究中,我们将我们的方法DNA紊乱和PreDNA紊乱与几个预测因子进行了比较。这项比较包括几个疾病预测因子,它们可以作为服务器或可下载的可执行文件公开提供,还有几个参与了CASP9和CASP10实验。当从CASP实验中选择预测因子时,我们只包括那些在ACC或AUC方面表现特别好的方法,这是由官方CASP9评估确定的[1]或应用于CASP10目标时的内部评估管道。我们评估中使用的公开可用预测因子包括IUpred[11,12]、埃斯普里茨[14],失调症前期[21]和CSpritz[42]. 为了生成紊乱预测,CSpritz被用作web服务,而IUpred、ESpritz和PreDisorder被下载并在本地运行。对于CASP参与者,我们从CASP官方网站下载了紊乱预测[23]. 请注意,在计算性能度量时,所有方法的决策阈值都设置为0.5(即,官方CASP评估中使用的相同值),ESpritz(本地运行时)和CSpritz除外。在这两种情况下,我们根据这些工具的附带文档或输出,分别使用0.0634和0.1225的决策阈值。最后一个警告是,对于可下载版本的ESpritz(在结果中用ESpritz_nopsi_X表示),我们只报告在训练X射线结构时运行ESpritx所做预测的结果,而不报告剖面信息。

结果和讨论

由于有近60种疾病预测方法,而且并非所有方法都是免费可用的,因此,对一种新方法进行彻底的基准测试是一项挑战。不同的评估集和指标进一步加剧了这种情况。作为我们分析和比较疾病预测因子的基础,我们使用了蛋白质结构预测技术的关键评估(CASP)实验。这是一项两年一次的国际实验,研究各种蛋白质结构预测方法,包括无序区域。在大约三个月的时间里,向社区发布了蛋白质序列,并将疾病预测发送回预测中心。在CASP10中,DNA障碍(作为MULTICOM-NOVEL参与)和前DNA障碍(以MULTICCOM-CONSTRUCT参与)向预测中心提交了疾病预测以及大约26种其他方法。除了CASP10之外,我们还针对CASP9数据集上的几个疾病预测因子对我们的新方法进行了基准测试。使用与文献和CASP官方评估一致的评估指标进行比较[1,19,43,44].

我们还将提到,我们使用NEEDLE检查了训练数据集DISORDER723与CASP9和CASP10数据集之间的成对序列相似性[45]. 我们发现8个CASP9和5个CASP10蛋白质靶标与训练集中的蛋白质具有40-60%的序列相似性。其余CASP靶点与训练集中的蛋白质序列相似性小于40%。为了确定这些相对相似序列的影响,我们评估了CASP9和CASP10数据集子集上的DNA紊乱,序列相似性小于或等于40%的训练数据。与对完整CASP数据集的评估相比,各子集的ACC或AUC没有显著差异(数据未显示)。由于这13个目标的加入并没有影响或提高我们方法的性能,我们在我们的基准中使用了完整的CASP9和CASP10数据集上的DNA紊乱和PreDNA紊乱的性能。

表格12报告我们在CASP9和CASP10数据集上的方法结果。DNA障碍和PreDNA障碍都与最先进的疾病预测因子竞争,尤其是在ACC方面。关于CASP10数据集上的AUC,很少有PrDOS-CNF和biominedr等方法能将自己与其他方法区分开来,而包括PreDNA障碍和DNA障碍在内的大多数预测因子都在0.84-0.87范围内。当ACC对CASP10数据集进行排名时,我们的两种方法都表现良好,数值在0.75-0.76之间,略低于ACC值为0.77的表现最佳的方法。

表1CASP9数据集的性能
表2CASP10数据集的性能

在CASP9和CASP10评估集上,DNA障碍与PreDisorder(CASP8和CASP9中评估的最先进的疾病预测因子)表现出竞争性[1,19,22]. 在CASP10评估集上,我们的元方法PreDNdisorder略优于PreDisorder和我们的新方法DNdisorde,AUC略有改善。这表明,PreDisorder和我们的新方法在某些方面是互补的,因为它们各自的预测结合起来可以提高性能。为了进一步研究这一点,我们计算了CASP9数据集上PreDisorder和DNdisorder对疾病预测的分数之间的皮尔逊相关系数,发现其为0.75。运行这两种方法和合并结果所需的额外时间和复杂性可以忽略不计。我们还为CASP9和CASP10数据集生成了DNA紊乱、PreDisorder和PreDNdisorder的ROC曲线,如图所示45.

图4
图4

在CASP9数据集上的DNdisorder、PreDisorder和PreDNdisorder的ROC曲线。

图5
图5

CASP10数据集上的DNdisorder、PreDisorder和PreDNdisorder的ROC曲线。

除了对CASP9和CASP10数据集进行评估外,我们还对DISORDER723数据集进行了10倍交叉验证测试。这就是说,我们将数据集分成10倍,所有数据都包含大致相同数量的蛋白质。然后,将其中的9个折叠用于训练增强型DN障碍预测因子的集合,然后用于预测剩余折叠中的蛋白质紊乱。我们研究的DNA障碍的平均ACC为0.82,AUC为0.90。显示了此10倍交叉验证测试的所有性能度量结果。

表3DNA紊乱在10倍交叉验证试验中的表现

助推的好处

为了确定增强的效果,我们评估了作为增强轮数函数的方法的性能。6显示了DN预测因子集合的ACC和AUC,输入窗口长度为30个残基,目标窗口长度为3个残基。表现有明显改善,AUC开始接近0.50,迅速上升至0.86左右,35轮后最终接近0.90。经过35轮助推,平均平衡精度也稳步提高,达到0.82。

图6
图6

增强合奏的表演。为了确定增强的有效性,我们评估了作为增强轮数函数的集合的性能。该图显示了DISORDER723数据集ROC曲线下的平衡精度和面积。使用10倍交叉验证程序进行预测,输入窗口为30个残基长,目标窗口为3个残基。

限制

DNA紊乱以及PreDisorder和PreDNdisorder都利用了PSI-BLAST中的信息。使用这些信息已被证明可以适度提高性能,但会带来巨大的计算成本[14]. 我们为DNdisorder开发的web服务可以根据服务器负载在10到20分钟内处理250个残基的蛋白质。因此,我们的方法目前不适用于基因组规模的研究。未来,我们计划开发不依赖序列剖面(即来自PSI-BLAST的信息)的预测器,类似于Espritz的非PSI-BLEST实现,该实现速度快了几个数量级,性能仅略有下降[14].

结论

总之,我们已经实现了一个新的框架,用于根据深度网络增强集成的序列预测蛋白质无序区域。在与其他最先进的疾病预测器的评估中,我们的方法DNorder表现出竞争力,表明该方法能够达到最先进的性能。DNorder可通过Web服务访问http://iris.rnet.missouri.edu/dndorder/.

工具书类

  1. Monastirsky B、Fidelis K、Moult J、Tramontano A、Kryshtafovych A:CASP9中疾病预测的评估。 蛋白质2011,79(补充10):107-118。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  2. He B、Wang K、Liu Y、Xue B、Uversky VN、Dunker AK:预测蛋白质的内在紊乱:综述。 单元格Res2009,19日:929-949. 2009年10月10日至2009年3月8日

    第条 中国科学院 公共医学 谷歌学者 

  3. Obradovic Z、Peng K、Vucetic S、Radivojac P、Dunker AK:利用异质序列特性可以改进蛋白质紊乱的预测。 蛋白质2005,61(补充7):176-182。

    第条 中国科学院 公共医学 谷歌学者 

  4. Tompa公司:内在非结构蛋白质。 生物化学科学趋势2002,27:527-533. 10.1016/S0968-0004(02)02169-2

    第条 中国科学院 公共医学 谷歌学者 

  5. Dunker AK、Brown CJ、Lawson JD、Iakoucheva LM、Obradovic Z:内在紊乱和蛋白质功能。 生物化学2002,41:6573-6582. 10.1021/bi012159年10月21日+

    第条 中国科学院 公共医学 谷歌学者 

  6. Cheng Y、LeGall T、Oldfield CJ、Mueller JP、Van YY、Romero P、Cortese MS、Uversky VN、Dunker AK:通过内在无序蛋白质进行合理的药物设计。 生物技术趋势2006,24:435-442. 2016年10月10日/j.tibtech.2006.07.005

    第条 中国科学院 公共医学 谷歌学者 

  7. Dunker AK,乌夫斯基VN:“蛋白质云”药物:靶向内在紊乱的转录因子。 Curr Opin药理学2010,10:782-788. 10.1016/j.coph.2010.09.005

    第条 中国科学院 公共医学 谷歌学者 

  8. Orosz F,Ovadi J:无3D结构的蛋白质:定义、检测和超越。 生物信息学2011,27:1449-1454. 10.1093/生物信息学/btr175

    第条 中国科学院 公共医学 谷歌学者 

  9. Deng X、Eickholt J、Cheng J:计算蛋白质紊乱预测方法的综合概述。 分子生物晶体2012,8:114-121. 10.1039/c1mb05207a

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  10. Uversky VN、Gillespie JR、Fink AL:为什么“天然未折叠”蛋白质在生理条件下是非结构化的? 蛋白质2000,41:415-427. 10.1002/1097-0134(20001115)41:3<415::AID-PROT130>3.0.CO;2-7

    第条 中国科学院 公共医学 谷歌学者 

  11. Dosztanyi Z、Csizmok V、Tompa P、Simon I:IUPred:基于估计的能量含量预测蛋白质本质上非结构化区域的网络服务器。 生物信息学2005,21日:3433-3434. 10.1093/生物信息学/bti541

    第条 中国科学院 公共医学 谷歌学者 

  12. Dosztanyi Z、Csizmok V、Tompa P、Simon I:根据氨基酸组成估计的成对能量含量区分折叠蛋白质和固有非结构蛋白质。 分子生物学杂志2005,347:827-839. 10.1016/j.jmb.2005.01.071

    第条 中国科学院 公共医学 谷歌学者 

  13. 乌夫斯基VN:天然展开的蛋白质:生物学等待物理的一个点。 蛋白质科学2002,11:739-756. 10.1110/ps.4210102

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  14. Walsh I、Martin AJ、Di Domenico T、Tosatto SC:ESpritz:准确快速预测蛋白质紊乱。 生物信息学2012,28:503-509. 10.1093/生物信息学/btr682

    第条 中国科学院 公共医学 谷歌学者 

  15. Ishida T、Kinoshita K:PrDOS:根据氨基酸序列预测无序蛋白质区域。 核酸研究2007年,第35页:W460-464。10.1093/nar/gkm363

    第条 公共医学中心 公共医学 谷歌学者 

  16. Ward JJ、Sodhi JS、McGuffin LJ、Buxton BF、Jones DT:生命三王国蛋白质天然紊乱的预测和功能分析。 分子生物学杂志2004年,337:635-645. 2016年10月10日/j.jmb.2004.02.002

    第条 中国科学院 公共医学 谷歌学者 

  17. 施莱辛格A、蓬塔M、罗斯特B:根据接触预测确定的蛋白质中的天然非结构区域。 生物信息学2007年,23:2376-2384. 10.1093/生物信息学/btm349

    第条 中国科学院 公共医学 谷歌学者 

  18. Galzitskaya OV、Garbuzynskiy SO、Lobanov MY:FoldUnfold:用于预测蛋白质链中无序区域的web服务器。 生物信息学2006,22:2948-2949. 10.1093/生物信息学/btl504

    第条 中国科学院 公共医学 谷歌学者 

  19. Noivirt-Brik O、Prilusky J、Sussman JL:CASP8中疾病预测的评估。 蛋白质2009,77(补充9):210-216。

    第条 中国科学院 公共医学 谷歌学者 

  20. Hecker J、Yang JY、Cheng J:在多个敏感性和特异性水平上预测蛋白质紊乱。 BMC基因组学2008,9(补充1):S9。10.1186/1471-2164-9-S1-S9

    第条 公共医学中心 公共医学 谷歌学者 

  21. Cheng J、Sweredoski MJ、Baldi P:通过挖掘蛋白质结构数据准确预测蛋白质紊乱区域。 数据最小知识发现2005,11:213-222. 2007年10月10日/10618-005-0001-y

    第条 谷歌学者 

  22. Deng X、Eickholt J、Cheng J:疾病前期:基于从头算序列的蛋白质紊乱区域预测。 BMC生物信息2009,10:436. 10.1186/1471-2105-10-436

    第条 谷歌学者 

  23. CASP数据档案. [http://predictioncenter.org/download_area/] []

  24. 障碍723. [http://casp.rnet.missouri.edu/download/dorder.dataset] []

  25. Hinton GE:要识别形状,首先要学习生成图像。 脑研究进展2007年,165:535-547.

    第条 公共医学 谷歌学者 

  26. Hinton G、Deng L、Yu D、Dahl GE、Mohamed A、Jaitly N、Senior A、Vanhoucke V、Nguyen P、Sainath TN、Kingsbury B:语音识别中用于声学建模的深度神经网络:四个研究小组的共同观点。 IEEE信号处理杂志2012,29日:82-97.

    第条 谷歌学者 

  27. Hinton G、Salakhutdinov R:通过学习深层生成模型发现文档的二进制代码。 顶级认知科学2011,三:74-91. 10.1111/j.1756-8765.2010.01109.x号

    第条 公共医学 谷歌学者 

  28. Eickholt J、Cheng J:使用深度网络和增强预测蛋白质残留接触。 生物信息学2012,28:3066-3072. 10.1093/生物信息学/bts598

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  29. Hinton GE、Osindero S、Teh Y-W:一种深度信念网的快速学习算法。 神经计算机2006,18:1527-1554. 10.1162/neco.2006.18.7.1527

    第条 公共医学 谷歌学者 

  30. Hinton GE,Salakhutdinov RR公司:利用神经网络降低数据的维数。 科学类2006,313:504-507. 10.1126/科学.1127647

    第条 中国科学院 公共医学 谷歌学者 

  31. 训练受限Boltzmann机器的实用指南.http://www.cs.toronto.edu/~hinton/absps/guideTR.pdf

  32. Hinton GE:通过最小化对比差异来培训专家产品。 神经计算2002,14:30便士。

    第条 谷歌学者 

  33. 斯摩棱斯基P:动力系统中的信息处理:和谐理论的基础。并行分布式处理:认知微观结构探索,第1卷麻省理工学院出版社;1986:194-281.

    谷歌学者 

  34. Cudamat:一个基于CUDA的Python矩阵类.http://code.google.com/p/cudamat/

  35. Freund Y,Schapire回复:在线学习的决策理论推广及其在助推中的应用。 计算机系统科学杂志1997,55:119-139. 2006年10月10日/jcss.1997.1504

    第条 谷歌学者 

  36. Vezhnevets A、Barinova O:通过删除令人困惑的样本来避免过度拟合。书籍通过删除令人困惑的样本来避免过度拟合城市:斯普林格;2007:430-441.

    谷歌学者 

  37. Cheng J、Randall AZ、Sweredoski MJ、Baldi P:SCRATCH:蛋白质结构和结构特征预测服务器。 核酸研究2005,第33页:W72-76。10.1093/nar/gki396号

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  38. Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ:缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。 核酸研究1997,25:3389-3402. 10.1093/nar/25.17.3389年10月10日

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  39. Atchley WR、Zhao J、Fernandes AD、Druke T:解决蛋白质序列度量问题。 《美国科学院院刊》2005,102:6395-6400. 10.1073/pnas.0408677102

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  40. Hanley JA、McNeil BJ:接收机工作特性(ROC)曲线下面积的含义和用途。 放射科1982,143:29-36.

    第条 中国科学院 公共医学 谷歌学者 

  41. Kozlowski LP,Bujnicki JM公司:MetaDisorder:预测蛋白质内在紊乱的元服务器。 BMC生物信息2012,13:111.10.1186/1471-2105-13-111

    第条 谷歌学者 

  42. Walsh I、Martin AJ、Di Domenico T、Vullo A、Pollastr G、Tosatto SC:CSpritz:准确预测蛋白质紊乱片段,并注释同源性、二级结构和线性基序。 核酸研究2011,39:W190-196。10.1093/nar/gkr411

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  43. Kinch LN、Shi S、Cheng H、Cong Q、Pei J、Mariani V、Schwede T、Grishin内华达州:CASP9目标分类。 蛋白质2011,79(补充10):21-36。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  44. Tress ML、Ezkurdia I、Richardson JS:CASP8中的目标域定义和分类。 蛋白质2009,77(补充9):10-17。

    第条 公共医学中心 中国科学院 公共医学 谷歌学者 

  45. Rice P、Longden I、Bleasby A:欧洲分子生物学开放软件套件。 趋势Genet2000年,16:276-277. 10.1016/S0168-9525(00)02024-2

    第条 中国科学院 公共医学 谷歌学者 

下载参考资料

致谢

这项工作得到了JE的NLM奖学金(5T15LM007089-20)和JC的NIH NIGMS赠款(R01GM093123)的部分支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信程建林.

其他信息

竞争性利益

提交人声明他们没有相互竞争的利益。

作者的贡献

JE实现了算法并进行了实验。JE和JC分析了数据,编写并编辑了手稿并批准了它。两位作者阅读并批准了最终的手稿。

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Eickholt,J.,Cheng,J.DNA紊乱:使用增强和深层网络预测蛋白质紊乱。BMC生物信息学 14, 88 (2013). https://doi.org/10.1186/1471-2105-14-88

下载引文

  • 收到以下为:

  • 认可的以下为:

  • 出版以下为:

  • DOI程序以下为:https://doi.org/10.1186/1471-2105-14-88

关键词