摘要

蛋白质的内在紊乱在自然界中相对丰富,对广泛的细胞功能至关重要。虽然可以根据蛋白质序列准确预测疾病,正如最近社区组织评估中的经验所证明的那样,但收集和汇编涵盖多种疾病功能的综合预测相当困难。为此,我们引入了DEPICTER2(DisorderEd PredictIon CenTER)网络服务器,它可以方便地访问快速准确的紊乱和紊乱功能预测因子的精选集合。该服务器包括最先进的疾病预测仪flDPnn和五种现代方法,涵盖所有当前可预测的疾病功能:无序连接物和蛋白质、肽、DNA、RNA和脂质结合。DEPICTER2允许选择六种方法的任意组合,对每个请求最多25个蛋白质进行批量预测,并提供结果预测的交互式可视化。Web服务器可从免费获得http://biomine.cs.vcu.edu/servers/DEPICTER2/

DEPICTER2网络服务器预测蛋白质序列中的内在紊乱和紊乱功能。
图形摘要

DEPICTER2网络服务器预测蛋白质序列中的内在紊乱和紊乱功能。

简介

内在无序蛋白质(IDPs)具有一个或多个内在无序区域(IDRs),在生理条件下缺乏稳定的三级结构(1–3). 生物信息学研究估计,IDPs和IDRs在自然界中相对常见,根据生物体的不同,有30%至50%的真核蛋白质具有至少一个长IDR和30个或更多连续无序氨基酸(4,5). IDP参与多种细胞功能(6–15),位于多个蜂窝隔间(16),导致人类疾病(17,18)和被认为是有希望的药物靶点(19,20). 然而,只有数百个包含在DisProt数据库中的IDR对其功能进行了实验性注释(21,22). 这些注释的可用性以及IDR具有内在成分偏差这一事实,使得它们可以从序列中预测(23,24)推动了从蛋白质序列预测疾病的计算方法的发展。有100多种疾病预测因子(25,26)以及三十多个紊乱功能的预测因子(27–29). 其中大多数依赖于机器学习模型,这些模型是使用由实验注释的IDR组成的训练数据集生成的(30,31). 功能预测因子涉及与特定类型的分子伴侣(如蛋白质、肽、DNA、RNA和脂质)以及无序连接区相互作用的IDR的预测。这些工具的预测性能在许多比较评估中进行了评估,包括CASP5和CASP10之间的社区驱动的蛋白质结构预测技术关键评估(CASP)实验(32,33)以及最近的先天性障碍的临界评估(CAID)实验(34). CAID的结果和随后的后续研究表明,现代疾病预测因子,尤其是那些依赖深层神经网络的预测因子,能够产生准确的结果(31,34,35). 基于深度学习的工具示例为flDPnn(36),运动障碍2(37),原始MSA(38),AUCpreD(39),IDP-Seq2Seq(40),深IDP-2L(41)和DeepCLD(42).

计算方法为预测数百万缺乏注释的蛋白质序列的IDPs和IDRs并对其进行功能注释提供了一种准确且经济高效的方法。通过作者提供和支持的网络服务器和实现,以及使用流行的大型预计算疾病预测数据库,可以获得预测:D2P(P)2(43)和MobiDB(44). 虽然这些数据库方便地提供了数百万蛋白质的预测,但它们提供了一个相当窄的失调功能预测选择,仅涵盖蛋白质和肽结合。它们也仅限于目前包含的蛋白质。使用Web服务器和/或代码收集预测相当困难。这需要确定涵盖无序预测和所需无序功能预测的合适方法,如果选择了此选项,则安装代码,在多个输入/输出格式之间转换,使用多个接口,并组合不同的预测。有一个原型解决方案可以通过整合无序和无序功能预测来解决这个问题,即DEPICTER(无序预测中心)Web服务器(45). DEPICTER结合使用SPOT-Dorder-Single预测疾病(46)和IUPred2(47),使用DFLpred的无序链接器(48),核酸与二oRDPbind结合(49,50)以及与锚定2结合的蛋白质和肽(47)和fMoRFpred(51). 然而,该资源使用了一系列方法,这些方法现在的表现优于较新的解决方案(SPOT-无序-单一、IUPred2和fMoRFpred),当时仅预测一个序列,并忽略了最近开发的方法的无序函数。为此,我们提供了一个新的、显著改进的DEPICTER2资源。DEPICTER2提供了全面的快速工具选择,其中包括最先进的疾病预测器flDPnn(36),以及五种涵盖当前可预测无序函数的方法:无序连接子(DFLpred(48)); 蛋白质和肽结合IDR(锚2(47)); MoRFs公司(51),是通常位于IDR中的短蛋白结合片段,结合后经历无序到有序的转换(MoRFCHiBi_灯(52)); DNA和RNA结合IDR(DisoRDPbind(49,50,53)); 和脂质结合IDRs(DisoLipPred(54)). DEPICTER2 Web服务器允许对多达25个蛋白质进行批量预测,自动化整个预测过程,提供结果的交互式可视化,并使用易于解析的多种格式文件(逗号可分离、xml和json)在六个工具中以一致的格式提供结果。DEPICTER2免费提供http://biomine.cs.vcu.edu/servers/DEPICTER2/.

材料和方法

DEPICTER2中包含的预测性能和方法选择

近150个障碍和障碍功能预测因子(25,27),提供对所有这些工具的访问是不切实际的。因此,DEPICTER2涵盖了六个预测因子的精选集合,其中每种方法的目标是预测内在障碍的不同方面。我们选择了快速的、最近出版的、经经验证明的工具,以提供准确的预测工具,其中包括一个障碍预测工具和五个全面涵盖当前预测的五个障碍功能的工具。这些预测因子为输入序列中的每个残基生成两个结果:实值倾向和二进制分数(无序与结构;功能与无功能)。相应地,我们使用两个流行的指标量化预测准确性:评估倾向的接收器工作特性曲线下面积(ROC-AUC)和二进制预测的F1。

一篇分析CAID结果的CAID后评论得出结论:“SPOT-Dorder2和fIDPnn,其次是RawMSA和AUCpreD,一直表现良好。然而,fIDPnn至少比其竞争对手快一个数量级,并且它在所有序列上都取得了成功,而SPOT-Disorder2由于长度限制跳过了5%的序列(35). 更准确地说,flDPnn的ROC-AUC和F1值分别为0.814和0.48,SPOT-Dorder2的ROC-AUC和F1的值分别为0.760和0.47(34). 因此,DEPICTER2应用在CAID实验中最准确的疾病预测因子中最快的flDPnn来生成疾病预测。为了进行比较,DEPICTER中使用的两种方法在CAID中的ROC-AUC和F1分别为0.757和0.43(单点障碍)和0.740和0.42(IUPred2)(34).

目前的紊乱功能预测因子针对与蛋白质、肽、DNA、RNA和脂质等几种类型的分子伴侣相互作用的紊乱连接子和IDR的预测(27,28). DEPICTER2为每个函数都包含一个预测器,如果有多种方法可用,则根据CAID实验中的良好预测性能进行选择。事实上,CAID是第一个评估绑定IDR预测的社区驱动的工作。这一类别中的前三个预测因子是ANCHOR2,ROC-AUC=0.742和F1=0.22,DisoRDPbind,ROC-AUC=0.729和F1=0.21,以及MoRFCHiBi_灯AUC=0.720,F1=0.21(34). 我们在DEPICTER2中包括这三个工具。他们预测了与蛋白质和肽(锚定蛋白2)、RNA和DNA(双RDPbind)以及MoRF区域(MoRF)相互作用的无序残基CHiBi_灯). MoRFs是嵌入在较长IDR中的短区域,在与蛋白质和肽相互作用时经历无序到有序的转换(55,56). 为了进行比较,原始DEPICTER中包含的MoRF预测器fMoRFpred在CAID实验中获得ROC-AUC=0.55和F1=0.07。此外,我们重复使用了来自DEPICTER的无序连接子预测因子DFLpred。该工具在原始出版物中的低相似性测试数据集上确保ROC-AUC=0.715(链接器预测未包含在CAID中)(48). 最后,DEPICTER2合并了DioLipPred,这是CAID实验完成后释放的无序脂质结合残基的唯一预测因子。DisoLipPred在低相似度测试数据集上获得ROC-AUC=0.781和F1=0.15,优于其他间接预测这种功能性疾病的方法(54). 总共有六种选择的方法(flDPnn、ANCHOR2、DisoRDPbind、MoRFCHiBi_灯,DFLpred和DisoLipPred)相对准确,除DisoLip Pred外,大多数都针对速度进行了优化。对于长度分别为100、300和1000个氨基酸的序列,他们的预测可以在大约15、30和80秒内完成。

结果

建筑

1总结了DEPICTER2 Web服务器的工作流。我们使用输入序列(步骤1)生成具有多个第三方方法的综合概要文件(步骤2)。该剖面量化了序列衍生信息,这些信息对无序和无序功能预测有用,包括序列保守性、假定的二级结构、溶剂可及性和其他特征。此配置文件在单独运行的六个预测器之间共享。每个预测器依赖于其自身的特征工程程序,该程序将剖面的特定部分转换为预测模型使用的输入(步骤3);细节在他们的出版物中描述(36,47,48,50,52,54). 我们将这些特征输入到相应的预测模型中(步骤4),这些预测模型分别对六个预测因子中的每一个进行预测(步骤5)。这是一个相当复杂的体系结构,有九个第三方程序,几个截然不同的特征工程程序,包括最复杂的flDPnn程序,它在氨基酸、序列窗口和全链水平上生成特征,以及七个不同的预测模型。这些模型包括相对简单的回归(DFLpred和DisoRDPbind)、评分函数(ANCHOR2)和贝叶斯模型(MoRFCHiBi_灯)到更复杂的深度前馈和递归神经网络(flDPnn和DisoLipPred)。结果包括彩色编码的二进制预测(用水平条表示)和相应的实际值倾向(图1). Web服务器位于http://biomine.cs.vcu.edu/servers/DEPICTER2/。我们注重便利。程序和模型由服务器端的脚本自动运行。用户无需在web浏览器旁边安装任何其他软件。前端是用HTML和JavaScript实现的,而后端是基于PHP、Java、Python和MySQL数据库的。我们提供了一个简单的导航输入界面和可解析的文本文件和图形输出。

DEPICTER2 Web服务器的工作流。
图1。

DEPICTER2 Web服务器的工作流。

输入和接口

我们使用人类蛋白Ataxin-3(Disprot ID:DP00576;Uniprot ID:P54252)的结果讨论DEPICTER2的输入和输出。Ataxin-3是一种去泛素化酶,在蛋白质降解前将泛素从蛋白质中分离出来。Ataxin-3具有无序的C末端结构域(位置174–361)(57,58)它承载多个泛素相互作用基序(UIM),对去泛素化至关重要(59,60).

2安培显示了DEPICTER2的界面。要求用户提供FASTA格式的蛋白质序列或UniProt登录,以及(可选)电子邮件地址。2安培显示了按Ataxin-3序列提交的示例。我们建议提供电子邮件,因为这是预测过程完成后发送结果链接的地方;否则,用户必须确保浏览器窗口在预测过程中处于打开和活动状态。输入界面允许选择六种方法的任意组合,默认情况下,会选择更快的五个预测值(请参阅“运行时”部分)。当选择快速工具时,我们支持对多达25个蛋白质进行批量预测,当包含慢速DioLipPred时,我们将输入限制为两个蛋白质。选择方法后,单击“运行”按钮启动预测。浏览器重定向到显示服务器队列中当前位置的状态页。为了向用户提供公平的访问,应用了先到先得的服务队列,每个用户最多只能有五个并发请求。我们还将每次提交的时间限制在15分钟左右,这就是为什么我们将输入蛋白质的数量限制为25个。一旦预测完成,状态页面将重定向到结果页面。

DEPICTER2服务器的Web界面(面板A)和人类共济失调-3蛋白的预测结果(面板B)(Disprot ID:DP00576;Uniprot ID:P54252)。面板B显示了用于预测无序残基(粉红色)、MoRF残基(浅红色)和蛋白结合残基(红色)的交互式彩色编码面板。
图2。

DEPICTER2服务器的Web界面(面板A类)和预测结果(面板B类)用于人类共济失调-3蛋白(Disprot ID:DP00576;Uniprot ID:P54252)。面板B显示了用于预测无序残基(粉红色)、MoRF残基(浅红色)和蛋白结合残基(红色)的交互式彩色编码面板。

输出

结果页面提供了指向每个输入序列的图形输出的链接,以及下载每个选定方法的原始格式输出的链接,这些输出有几种易于解析的格式,包括逗号可分离文本、json和xml。这些文件包括对所包含数据的解释,这些数据包括原始倾向得分、使用min-max归一化为单位间隔的倾向得分以及二进制预测。我们将这些结果存储在服务器上至少3个月。图形格式是彩色编码的,具有缩放、选择、图像下载、平移和标注功能。交互式彩色编码面板(图12B型)分为三部分:(i)假定的疾病(粉红色);(ii)假定的连接物(黄色)和(iii)假定的无序结合区域(淡红色的MoRF,深红色的蛋白质结合,蓝色的DNA结合,浅蓝色的RNA-结合和绿色的脂质结合)。每个面板在顶部显示蛋白质水平数据,包括预测残基的百分比和预测区域的数量(长度≥4个残基)。残差水平预测显示为绘制在折线图中的倾向得分。上述二进制标签显示为水平条。用于导出二进制预测的阈值(倾向>阈值的残差被分类为无序/功能残差)标记为线纹理上的水平虚线。阈值由方法的作者建立,通常对其进行校准,以确保预测的无序/功能残基的接近天然速率(36,47,48,50,52,54). 鼠标悬停时可以查看预测区域中的残留物范围及其潜在倾向得分。每个面板都允许缩放绘图的一部分,平移两侧的轴,将轴重置为原始视图,并将其下载为PNG和SVG格式的图像。

我们解释了如何使用Ataxin-3的预测来读取输出(图2B型). 我们的网络服务器预测Ataxin-3有48%的无序残基(图中粉红色面板的顶部2B型),接近参考数据库DisProt(DisProt ID:DP00576)中报告的52.1%的天然紊乱含量。DEPICTER2预测C终点有四个IDR(位置193-196、199-202、207-340和349-361;图中的粉红色面板2B型). 这些区域与本地IDR的位置一致(位置174–361)(57,58). DEPICTER2还预测,假定IDR位于49–66位;然而,与C末端的区域相比,该区域的潜在预测倾向得分值更低。更广泛地说,与更高倾向相关的假定IDR(二进制预测)更有可能对应正确的预测。网络服务器还预测了两个蛋白质结合区域(位置215–291和307–355;图底部的深红色面板2B型)与共济失调蛋白-3的蛋白结合UIM结构域一致(58,61). MoRF预测(图中的红色面板2B型)包括五个区域,其中三个与共济失调-3的蛋白结合区域一致,而N末端附近的两个短区域可能是虚假预测。

运行时

我们根据输入蛋白质的大小对DEPICTER2中的六种方法进行了运行时分析。我们从CAID中使用的DisProt数据集中随机选择100个蛋白质,收集并比较它们的运行时间(34)使用相同的硬件和操作系统:Linux OS(Ubuntu v14.04.5),48个64位Intel处理器和128个GM RAM。为了适应后台工作负载导致的性能变化,我们为每个预测器测量了三次运行时间,每次运行之间有一个中断,并记录三次复制的平均值。为了研究序列长度对运行时的影响,我们将序列按长度升序排序为五个大小相等的箱子。绘制以秒为单位的平均运行时间(-以10为底的对数刻度轴)与中位数序列长度(x个-轴)。DisoLipPred的运行时间大大高于其他五种方法,与ANCHOR2和DFLpred相比大约高出3个数量级,与MoRF相比高出2个数量级CHiBi_灯、DisoRDBbind和flDPnn。因此,我们将DisoLipPred归类为一种缓慢的方法,并将该方法的Web服务器输入限制为两种蛋白质。这五个快速预测因子需要<30 s才能得出平均长度蛋白质的结果,ANCHOR2和DFLpred在不到1s的时间内完成预测。图同时也揭示了较长序列的运行时间会增加。然而,不同工具的增长程度不同。DFLpred和ANCHOR2受序列长度的影响最小,因为它们的运行时在最短和最长的序列箱之间增加了2倍,而DisoRDPbind的增长最慢,为25倍。

DEPICTER2中包含的六种方法的运行时比较。我们从CAID实验的DisProt数据集中随机选择100个蛋白质,对其进行运行时测量。序列按长度升序排序,并划分为5个大小相等的子集。y轴使用以10为基数的对数刻度报告以秒为单位测量的每个蛋白质子集的平均运行时间。x轴显示相应的中间序列长度。沿着两个轴的误差条表示给定蛋白质集值的第5个和第95个百分位。
图3。

DEPICTER2中包含的六种方法的运行时比较。我们从CAID实验的DisProt数据集中随机选择100个蛋白质,对其进行运行时测量。序列按长度升序排序,并划分为5个大小相等的子集。y轴使用以10为基数的对数刻度报告以秒为单位测量的每个蛋白质子集的平均运行时间。x轴显示相应的中间序列长度。沿着两个轴的误差条表示给定蛋白质集值的第5个和第95个百分位。

总结

尽管有近150个内在障碍和障碍功能预测因子可用,但缺乏获得全面涵盖障碍及其广泛功能的高质量预测的便捷选择。DEPICTER2网络服务器大大扩展了其原型DEPICTER,并提供了一个一站式解决方案,其中包括通过准确快速的flDPnn以及五种最先进的方法来预测内在紊乱,这五种方法提供了当前可用紊乱功能预测的完整覆盖范围:无序链接器、MoRF、,蛋白质、RNA、DNA和脂质相互作用区域紊乱。预测相互作用区域的能力将有助于下游将此知识用于其他应用,如药物设计。最近的研究表明,利用国内流离失所者作为药物靶标具有未开发的价值(19,62)例如,在宿主-蛋白酶相互作用和蛋白质组装物和生物分子凝聚物形成的背景下(63,64). 这将需要开发新的无序特异性评分函数,遵循结构化交互作用的类似努力(65)以及获得IDP-drug相互作用注释的精选集,后者的规模有限。

DEPICTER2在服务器上自动运行六种方法,而无需安装任何软件。它提供了一个易于导航的输入界面,支持选择任何方法组合和批量提交。Web服务器以两种方式生成预测,一种是格式一致且易于解析的文本文件,另一种是带有交互式功能的彩色编码图形界面,其中包括残余水平和蛋白质水平的结果。简言之,DEPICTER2是一个准确快速的平台,为无序和无序功能预测提供了一种整体方法。DEPICTER2 Web服务器可在以下网站免费获得:http://biomine.cs.vcu.edu/servers/DEPICTER2/。我们致力于长期维护该资源,并计划定期更新,以纳入其涵盖的预测程序的更新版本,并通过包含未来可预测的其他功能来扩展范围。此外,对预测大量蛋白质集合感兴趣的用户应考虑DescribePROT数据库(66)在http://biomine.cs.vcu.edu/servers/DESCRIBEPROT/DescribePROT提供了从DEPICTER2中包括的几种方法(如DFLpred、DisoRDPbind和MoRFchibi)对流行/模式生物273个完整蛋白质组中230万个蛋白质进行预先计算预测的途径。我们计划在不久的将来将其他三种方法的预测合并到该资源中。

数据可用性

DEPICTER2免费提供http://biomine.cs.vcu.edu/servers/DEPICTER2/.

基金

国家科学基金项目[DBI2146027,IIS2125218];Robert J.Mattauch捐赠基金(给L.K.)。开放存取费用的资金来源:NSF。

利益冲突声明。未声明。

参考文献

1

哈布奇
J。
,
汤帕
第页。
,
隆吉
美国。
,
乌弗斯基
V.N.V.N。
引入蛋白质内在紊乱
.
化学。版次。
2014
;
114
:
6561
6588
.

2

利厄托
第页。
,
Ferron公司
F、。
,
乌弗斯基
交流。
,
库尔干
L。
,
乌弗斯基
V.N.V.N。
,
隆吉
美国。
我的蛋白质有多紊乱?紊乱的原因是什么?蛋白质宇宙“黑暗面”指南
.
本质不符。蛋白质
.
2016
;
4
:
e1259708(电子1259708)
.

三。

奥尔德菲尔德
C.J.公司。
,
乌弗斯基
V.N.V.N。
,
Dunker公司
英国。
,
库尔干
L。
萨尔维
N。
介绍内在无序蛋白质和区域
.
内在紊乱蛋白质
.
2019
;
学术出版社
1
34
.

4

B。
,
Dunker公司
英国。
,
乌弗斯基
V.N.V.N。
蛋白质内在紊乱分布的有序性:来自病毒和生命三个领域的3500个蛋白质组的紊乱
.
《生物分子杂志》。结构。动态。
2012
;
30
:
137
149
.

5

Z.公司。
,
雁鸣声
J。
,
风扇
十、。
,
米齐安蒂
医学博士。
,
B。
,
英国。
,
G.公司。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
异常丰富的例外:全面描述生活各个领域的内在障碍
.
单元格。分子生命科学。
2015
;
72
:
137
151
.

6

Z.公司。
,
奥尔德菲尔德
C.J.公司。
,
B。
,
米齐安蒂
医学博士。
,
Dunker公司
英国。
,
库尔干
L。
,
乌弗斯基
V.N.V.N。
一种有一百条摇摆尾巴的生物:核糖体中固有的无序蛋白质
.
单元格。分子生命科学。
2014
;
71
:
1477
1504
.

7

Z.公司。
,
米齐安蒂
医学博士。
,
B。
,
库尔干
L。
,
乌弗斯基
V.N.V.N。
不仅仅是尾巴:组蛋白的内在紊乱
.
分子生物晶体。
2012
;
8
:
1886
1901
.

8

Z.公司。
,
B。
,
库尔干
L。
,
乌弗斯基
V.N.V.N。
死亡复原力:参与细胞程序性死亡的蛋白质的内在紊乱
.
细胞死亡不同。
2013
;
20
:
1257
1267
.

9

B。
,
乌弗斯基
V.N.V.N。
天然抗病毒免疫相关蛋白质的内在紊乱:分子军备竞赛的另一个灵活方面
.
分子生物学杂志。
2014
;
426
:
1322
1350
.

10

易卜拉欣
年。
,
Khaodeuanephong公司
不适用。
,
阿马拉塞卡拉
D.L.公司。
,
科雷亚
J.J.公司。
,
刘易斯
K.A.公司。
,
菲茨基
北卡罗来纳州。
,
霍夫
L.E公司。
,
惠顿
S.T.公司。
驱动相分离的内在无序区域形成了一个非常独特的蛋白质类
.
生物学杂志。化学。
2023
;
299
:
102801
.

11

B。
,
卡图瓦拉
A。
,
奥尔德菲尔德
C.J.公司。
,
G.公司。
,
Z.公司。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
人类RNA-结合蛋白的内在疾病
.
分子生物学杂志。
2021
;
433
:
167229
.

12

J.H.公司。
,
西南部。
,
Dunker公司
英国。
内在无序蛋白质将选择性剪接和翻译后修饰与复杂细胞信号传递和调节联系起来
.
分子生物学杂志。
2018
;
430
:
2342
2359
.

13

Staby公司
L。
,
奥谢
C、。
,
威廉姆斯
M。
,
泰森
F、。
,
克拉格隆德
商业银行。
,
斯克里弗
英国。
真核转录因子:蛋白质内在紊乱的范式
.
生物化学。J。
2017
;
474
:
2509
2532
.

14

克亚尔加德
M。
,
克拉格隆德
商业银行。
跨膜蛋白的内在紊乱功能
.
单元格。分子生命科学。
2017
;
74
:
3205
3224
.

15

乌弗斯基
V.N.V.N。
过度拥挤环境中的内在紊乱蛋白质:无膜细胞器、相分离和内在紊乱
.
货币。操作。结构。生物。
2017
;
44
:
18
30
.

16

B。
,
卡图瓦拉
A。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
活细胞的IDPlogy:人类细胞亚细胞室的内在紊乱
.
单元格。分子生命科学。
2021
;
78
:
2371
2385
.

17

乌弗斯基
V.N.V.N。
,
戴夫
五、。
,
伊库切娃
L.M.有限公司。
,
马拉尼
第页。
,
金属
S.J.公司。
,
帕塔克
钢筋。
,
乔格尔
交流。
非受控混沌的病理性展开组学:内在无序蛋白质与人类疾病
.
化学。版次。
2014
;
114
:
6844
6879
.

18

库尔卡尼
第页。
,
乌弗斯基
V.N.V.N。
慢性疾病中的内在无序蛋白质
.
生物分子
.
2019
;
9
:
147
.

19

G.公司。
,
Z.公司。
,
英国。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
当前可药物化人类蛋白质组中无序蛋白质的未开发潜力
.
货币。药物靶点
.
2016
;
17
:
1198
1205
.

20

安巴迪普迪
美国。
,
Zweckstetter公司
M。
合理药物发现中靶向内在无序蛋白质
.
药物发现专家
.
2016
;
11
:
65
77
.

21

Sickmeier公司
M。
,
汉密尔顿
J.A.公司。
,
勒加尔
T。
,
Vacic公司
五、。
,
科尔特斯
医学硕士。
,
通托什
A。
,
萨博
B。
,
汤帕
第页。
,
J。
,
乌弗斯基
V.N.V.N。
等。
DisProt:无序蛋白质数据库
.
核酸研究。
2007
;
35
:
D786型
D793号
.

22.

夸利亚
F、。
,
梅萨罗斯
B。
,
萨尔拉迪尼
E.公司。
,
哈托斯
A。
,
Pancsa公司
R。
,
化学
有限责任公司。
,
巴伊科斯
M。
,
拉扎尔
T。
,
佩纳·迪亚兹
美国。
,
桑托斯
J。
等。
2022年DisProt:提高蛋白质内在障碍注释的质量和可及性
.
核酸研究。
2022
;
50
:
D480
D487号
.

23.

坎彭
A。
,
威廉姆斯
相对湿度。
,
棕色
C.J.公司。
,
J。
,
乌弗斯基
V.N.V.N。
,
Dunker公司
英国。
TOP IDP量表:一种新的测量内在障碍倾向的氨基酸量表
.
蛋白质肽。莱特。
2008
;
15
:
956
963
.

24

B。
,
库尔干
L。
内在无序蛋白质和区域的组成偏差及其预测
.
生物分子
.
2022
;
12
:
888
.

25

B。
,
库尔干
L。
调查100多个蛋白质内在紊乱预测因子
.
蛋白质组学专家版
.
2021
;
18
:
1019
1029
.

26

线路接口单元
Y。
,
十、。
,
线路接口单元
B。
内在无序蛋白质和区域预测的现有计算方法综述与比较
.
生物信息简介
.
2019
;
20
:
330
346
.

27

巴苏
美国。
,
木原
D。
,
库尔干
L。
无序结合区的计算预测
.
计算。结构。生物技术。J。
2023
;
21
:
1487
1497
.

28

卡图瓦拉
A。
,
Z.L.公司。
,
J.Y.(纽约)。
,
库尔干
L。
计算预测MoRFs,短无序-有序转换蛋白结合区
.
计算。结构。生物技术。
2019
;
17
:
454
462
.

29

卡图瓦拉
A。
,
加德马尔齐
美国。
,
库尔干
L。
本征无序区域函数的计算预测
.
掠夺。分子生物学。Transl.公司。科学。
2019
;
166
:
341
369
.

30.

B。
,
库尔干
L。
基于机器学习的内在障碍预测
.
蛋白质序列生物信息学中的机器学习
.
2023
;
205
236
.

31

B。
,
库尔干
L。
蛋白质内在紊乱预测的深度学习
.
计算。结构。生物技术。J。
2022
;
20
:
1286
1294
.

32

莫纳斯塔尔斯基
B。
,
Kryshtafovych公司
A。
,
莫尔特
J。
,
特拉蒙塔诺
A。
,
菲德尔斯
英国。
CASP10中蛋白质紊乱区域预测的评估
.
蛋白质
.
2014
;
82
:
127
137
.

33

梅拉穆德
E.公司。
,
莫尔特
J。
CASP5中疾病预测的评估
.
蛋白质
.
2003
;
53
:
561
565
.

34

内奇
M。
,
皮奥韦桑
D。
,
预测值
C、。
,
DisProt公司
C、。
,
托萨托
美国食品药品监督管理局。
蛋白质内在障碍预测的临界评估
.
自然方法
.
2021
;
18
:
472
481
.

35.

冗长的
B。
,
巴布
医学硕士。
使结构混乱的社区努力
.
自然方法
.
2021
;
18
:
454
455
.

36

G.公司。
,
卡图瓦拉
A。
,
英国。
,
Z.公司。
,
加德马尔齐
美国。
,
J。
,
库尔干
L。
flDPnn:利用无序函数的假定倾向进行准确的内在无序预测
.
国家公社。
2021
;
12
:
4438
.

37

汉森
J。
,
帕利瓦尔语
英国。
,
利特芬
T。
,
Y。
SPOT-Dorder 2:通过集成深度学习改进蛋白质内在障碍预测
.
基因组蛋白质组学生物信息学
.
2019
;
17
:
645
656
.

38

米拉贝洛湾
C、。
,
沃纳
B。
rawMSA:使用原始多序列比对进行端到端深度学习
.
公共科学图书馆一号
.
2019
;
14
:
电子0220182
.

39

美国。
,
妈妈
J.Z.公司。
,
J.B.公司。
AUCpreD:利用AUC-最大化深卷积神经场预测蛋白质水平的蛋白质紊乱
.
生物信息学
.
2016
;
32
:
672
679
.

40

杨杰(Y.J.)。
,
Y.H.公司。
,
线路接口单元
B。
IDP-Seq2Seq:基于序列到序列学习的内在无序区域识别
.
生物信息学
.
2021
;
36
:
5177
5186
.

41

杨杰(Y.J.)。
,
Y.H.公司。
,
线路接口单元
B。
DeepIDP-2L:结合卷积注意网络和层次注意网络预测蛋白质本质无序区
.
生物信息学
.
2022
;
38
:
1252
1260
.

42

M。
,
Y。
,
Z.公司。
,
乌弗斯基
V.N.V.N。
DeepCLD:一种有效的基于序列的内在紊乱蛋白质预测因子
.
IEEE/ACM传输。计算。生物信息。
2022
;
19
:
3154
3159
.

43

Oates公司
机械工程师。
,
罗梅罗
第页。
,
石田
T。
,
加尔瓦什
M。
,
米齐安蒂
医学博士。
,
B。
,
多斯塔尼
Z.公司。
,
乌弗斯基
V.N.V.N。
,
奥布拉多维奇
Z.公司。
,
库尔干
L。
等。
D(2)P(2):无序蛋白质预测数据库
.
核酸研究。
2013
;
41
:
D508型
D516型
.

44

皮奥韦桑
D。
,
德尔·孔蒂
A。
,
克莱门泰尔
D。
,
蒙松
上午。
,
贝维拉夸
M。
,
阿斯普龙岩
M.C.公司。
,
以色列
J.A.公司。
,
奥尔蒂
F.E.公司。
,
马里诺·布斯利耶
C、。
,
托萨托
美国食品药品监督管理局。
MobiDB:10年内在无序蛋白质
.
核酸研究。
2023
;
51
:
D438号
D444号
.

45

巴里克
A。
,
卡图瓦拉
A。
,
汉森
J。
,
帕利瓦尔语
英国。
,
Y。
,
库尔干
L。
描述者:内在障碍和障碍功能预测服务器
.
分子生物学杂志。
2020
;
432
:
3379
3387
.

46

汉森
J。
,
帕利瓦尔语
英国。
,
Y。
利用深循环和卷积结构集成精确预测蛋白质内在紊乱的单序列
.
化学杂志。信息模型。
2018
;
58
:
2369
2376
.

47

梅萨罗斯
B。
,
鄂尔多斯
G.公司。
,
多斯塔尼
Z.公司。
IUPred2A:作为氧化还原状态和蛋白质结合功能的蛋白质紊乱的上下文相关预测
.
核酸研究。
2018
;
46
:
第329页
第337页
.

48

F、。
,
库尔干
L。
DFLpred:蛋白质序列中无序柔性连接区的高通量预测
.
生物信息学
.
2016
;
32
:
i341型
i350型
.

49

Z.公司。
,
C、。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
使用DisoRDPbind预测紊乱的RNA、DNA和蛋白质结合区域
.
方法分子生物学。
2017
;
1484
:
187
203
.

50

Z.公司。
,
库尔干
L。
内源性疾病介导的RNA、DNA和蛋白质结合区高通量预测
.
核酸研究。
2015
;
43
:
e121(电子121)
.

51

雁鸣声
J。
,
Dunker公司
英国。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
生命三个领域的分子识别特征
.
分子生物晶体。
2016
;
12
:
697
710
.

52

马利斯
N。
,
雅各布森
M。
,
Gsponer公司
J。
MoRFchibi SYSTEM:用于识别蛋白质序列中MoRFs的软件工具
.
核酸研究。
2016
;
44
:
第488周
W493型
.

53

奥尔德菲尔德
C.J.公司。
,
Z.公司。
,
库尔干
L。
用DisoRDPbind预测无序RNA结合区
.
方法分子生物学。
2020
;
2106
:
225
239
.

54

卡图瓦拉
A。
,
B。
,
库尔干
L。
DisoLipPred:利用深度递归网络和转移学习准确预测蛋白质序列中紊乱的脂质结合残基
.
生物信息学
.
2021
;
38
:
115
124
.

55

雁鸣声
J。
,
Dunker公司
英国。
,
乌弗斯基
V.N.V.N。
,
库尔干
L。
生命三个领域的分子识别特征
.
分子生物晶体。
2016
;
12
:
697
710
.

56

Vacic公司
五、。
,
奥尔德菲尔德
C.J.公司。
,
莫汉
A。
,
拉迪沃亚茨
第页。
,
科尔特斯
医学硕士。
,
乌弗斯基
V.N.V.N。
,
Dunker公司
英国。
分子识别特征、MoRFs及其结合伙伴的表征
.
蛋白质组研究杂志。
2007
;
6
:
2351
2366
.

57

西科雷洛
A。
,
凯莉
G.公司。
,
奥雷基奥尼
A。
,
11月切克
J。
,
斯克伦亚奥
五、。
,
帕斯托尔
A。
固有混合折叠蛋白Ataxin-3溶液的结构特性
.
生物物理学。J。
2018
;
115
:
59
71
.

58

Masino公司
L。
,
穆西
五、。
,
梅农
相对湿度。
,
福斯
第页。
,
凯莉
G.公司。
,
法国人
T.A.公司。
,
特罗蒂尔
Y。
,
帕斯托尔
A。
聚谷氨酰胺蛋白ataxin-3的结构域:球状结构域后接柔性尾巴
.
FEBS信函。
2003
;
549
:
21
25
.

59

伯内特
B。
,
F、。
,
皮特曼
注册号。
聚谷氨酰胺神经变性蛋白ataxin-3结合多泛素化蛋白并具有泛素蛋白酶活性
.
嗯,分子遗传学。
2003
;
12
:
3195
3205
.

60

唐纳森
K.M.公司。
,
西。
,
Ching(清)
K.A.公司。
,
巴塔洛夫
美国。
,
C.-C。
,
约阿塞罗
C.A.P.公司。
泛素介导的正常细胞蛋白在聚谷氨酰胺聚集体中的固定
.
程序。国家。阿卡德。科学。美国。
2003
;
100
:
8892
8897
.

61

J.J.公司。
,
萨法迪
S.S.公司。
,
Mercier公司
第页。
,
理发室
K.R.公司。
,
G.S.公司。
Ataxin-3是parkin-Ubl结构域的多价配体
.
生物化学
.
2013
;
52
:
7369
7376
.

62

细谷
Y。
,
奥坎达
J。
作为短暂生物过程调节器和未开发药物靶点的内在无序蛋白质
.
分子
.
2021
;
26
:
2118
.

63

比萨加
M。
,
弗里戈勒·维瓦斯
M。
,
萨尔瓦泰拉
十、。
作为药物靶点的内在无序蛋白质和生物分子缩合物
.
货币。操作。化学。生物。
2021
;
62
:
90
100
.

64

布伦德尔
T.L.公司。
,
古普塔
制造商编号。
,
哈斯奈恩
S.E.公司。
蛋白质的内在紊乱:与蛋白质组装、药物设计和人-猪相互作用的相关性
.
掠夺。生物物理学。分子生物学。
2020
;
156
:
34
42
.

65.

H.J.公司。
,
K.H.公司。
,
G.公司。
,
球鞋
P.J.公司。
基于结构的虚拟筛选的机器学习评分函数
.
电线计算分子科学
.
2021
;
11
:
电子1478
.

66

B。
,
卡图瓦拉
A。
,
奥尔德菲尔德
C.J.公司。
,
Dunker公司
英国。
,
法拉吉
E.公司。
,
Gsponer公司
J。
,
科洛茨科夫斯基
A。
,
马利斯
N。
,
米尔迪塔
M。
,
奥布拉多维奇
Z.公司。
等。
描述PROT:氨基酸水平蛋白质结构和功能预测数据库
.
核酸研究。
2021
;
49
:
D298型
D308天
.

这是一篇根据知识共享署名-非商业许可条款发布的开放存取文章(https://creativecommons.org/licenses/by-nc/4.0/),允许在任何媒体上进行非商业性的重复使用、分发和复制,前提是正确引用了原始作品。如需商业再使用,请联系日记.permissions@oup.com

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。