摘要
动态行为是蛋白质最重要的特性之一。尽管在蛋白质结构解析和预测领域取得了进展,但蛋白质动力学特性的分析和预测仍然是一个主要挑战,这主要是由于数据的可访问性低及其多样性和异质性。为了解决这个问题,我们提出了ATLAS,一个标准化的全原子分子动力学模拟数据库,并以交互式图表和轨迹可视化的形式进行了分析。ATLAS通过将分子动力学模拟获得的数据与从实验结构中提取的信息相结合,为一组具有代表性的大型蛋白质的蛋白质动力学提供了大规模视图和有价值的见解。用户可以很容易地分析功能蛋白区域的动态特性,例如域极限(铰链位置)和与其他生物分子相互作用的残基。此外,该数据库能够探索受环境制约的具有不寻常动态特性的蛋白质,如变色龙子序列和双重人格片段。ATLAS数据库可在https://www.dsimb.inserm.fr/ATLAS.
介绍
蛋白质是动态实体,经历不同程度的连续构象变化,这在酶催化、蛋白质相互作用和变构酶激活等生物过程中至关重要(1–3).
蛋白质柔韧性的信息可以通过实验方法获得,例如X射线晶体学(B因子)或核磁共振波谱(顺序参数),但这些方法有局限性。首先,实验方法只能提供蛋白质动力学的间接信息,而不能提供相应跃迁的原子细节。第二,实验条件差异很大,使实验之间的比较复杂,通常与预期条件相差甚远体内(4–7). 而AlphaFold2带来的当前结构生物信息学领域的革命(8)释放使许多蛋白质的静态三维结构的获取大大民主化,主要由于缺乏可靠的数据,蛋白质动力学的分析和预测仍然是最重要的挑战之一(9,10).
在过去的几十年中,分子动力学(MD)模拟被证明可以在局部和全球范围内提供有关蛋白质构象行为的有价值信息(11–16). 特别是,使用几十纳秒的MD轨迹生成的蛋白质结构集合提高了对接性能(17–21),允许检测参与蛋白质相互作用的口袋(22)或检测蛋白质-蛋白质界面形成残基的柔韧性模式特征(23). 持续数百纳秒的MD模拟可以检测变构途径(24–26),而较长的MD可以为主要构象变化带来有价值的见解(27,28). 然而,由于系统设置、MD仿真协议以及用于仿真的软件和力场的差异,不同研究小组进行的仿真的系统比较分析非常复杂。为了克服这个问题,一些倡议导致了特定蛋白质类的公共数据库的发布。示例包括MemProtMD(29)主要研究膜蛋白的粗颗粒模拟,GPCRmd(30)收集G蛋白偶联受体(GPCR)蛋白和SCoV2-MD的轨迹(31),收集SARS-CoV-2蛋白的模拟和分析。在我们工作之前,只有两个数据库试图提供可溶性蛋白质MD的通用数据集:MoDEL(32)和动力学(33). 然而,只有MoDEL仍然可以访问,尽管它只是部分功能,不再更新。动力学包含本机状态和展开动力学,但目前无法访问。此外,这两个数据库都面临着问题,主要的一个问题是缺乏一个统一的协议,这是在多个蛋白质模拟之间进行严格比较所必需的,而复制则是为了确保模型的可靠性。
在这里,我们介绍了ATLAS,它是一个标准化的全原子分子动力学数据库,模拟了大量具有代表性的蛋白质结构。所有轨迹、它们的分析以及它们的生物注释都可以通过包含交互式图表和轨迹可视化的网站的形式在线免费访问,网址为https://www.dsimb.inserm.fr/ATLASATLAS由三个分子动力学模拟数据集组成。目前,主要的ATLAS数据集包括1390个蛋白质链,经过精心选择,以提供蛋白质数据库(PDB)内构象空间的详尽采样(34). 另外两组数据集中于具有特定动力学行为的蛋白质。第一篇报道了含有双重人格片段(DPF)的100个蛋白质的MD。DPF是在同一蛋白质的不同晶体结构中以无序和有序状态存在的蛋白质区域(35). DPF向有序状态的转变通常与蛋白质伴侣的存在或与配体的相互作用有关。第二篇报道了32种含有变色龙序列的蛋白质的动力学(36)它可以在不同的蛋白质中采用不同的有序二级结构构象(α-螺旋或β-链)。变色龙序列和双个性片段都具有重要的生物学意义,了解它们的动态特性可以为相应的蛋白质功能和进化机制带来新的信息。
材料和方法
蛋白质选择
代表性数据集(ATLAS数据集)
PDB(2022年7月版本)中的高质量蛋白质链被彻底过滤,通过消除X类ECOD的冗余来确保结构多样性(37)结构域(表示相似的折叠和可能的同源性)。我们首先根据MolProbity的质量阈值,选择了长度至少为38个残基的蛋白质链的所有X射线结构,分辨率小于或等于2º(38). 我们过滤掉了没有ECOD ID(v285)的蛋白质和膜蛋白(OPM的共识(39)、PDBTM(40)、MemProtMD(29)和RCSB PDB的mpstruc-2023年4月)(41). 然后,我们为每个ECOD X类域选择最佳链。为此,排除了具有10个以上连续缺失残基的蛋白质。在剩下的蛋白质中,我们优先考虑了质量过滤转子异构体数据集Top8000和Top2018中的蛋白质(38,42). 我们还优先考虑单体状态下结晶的蛋白质,选择结晶的第一个结构作为单体,并由PISA预测(43)因此,单体结构被PISA预测为多元结构,最后是多元结构。在多个解析结构的情况下,我们基于i)最低数量的连续间隙,ii)最大的序列长度,以及iii)相对于蛋白质序列长度的最低比例的间隙位置来选择其中一个。因此,ATLAS数据集包含1068个具有1149个严格非冗余X类ECOD结构域的蛋白质,我们将其进一步称为“非冗余核心”。
对于非冗余核心的322个蛋白质,我们对共享相同ECOD X类的替代高质量蛋白质结构进行了MD模拟。ATLAS的主要目标是为每个结构类提供几个具有代表性的动力学并逐步扩展。目前,ATLAS数据集包含1390个不同蛋白质的MD轨迹。
变色龙序列
对于ChSeq数据库中的所有变色龙序列(36)超过7个氨基酸,我们手动选择那些含有高质量结构的氨基酸。我们为每个变色龙序列选择了两种蛋白质结构:一种用于螺旋构象,另一种用于β链构象。
双重人格碎片
为了识别含有DPF的蛋白质,我们使用了以下方案。首先,我们从PDB中收集了分辨率为2º或更高的所有高质量蛋白质结构,匹配相同的蛋白质序列。在每组结构中,我们确定了在折叠和无序状态(PDB文件中缺失残基)中观察到的最大连续蛋白质片段,不包括末端。然后,我们选择了折叠状态下质量最好的代表性结构。为了确保多样性,我们使用MMseqs2筛选出序列共享20%以上的蛋白质(44). 从剩下的候选分子中,我们选择了100个长度从8到20个氨基酸的DPF,同时以相同比例采样采用α、β和线圈二级结构的片段。我们使用蛋白质二级结构词典(DSSP)赋值来定义这些类别(45). 具有四个或更多连续螺旋残基的片段被分配给α螺旋类,具有3个连续链残基的片段被分配给β片类。如果这些条件都未得到验证,则碎片被指定为线圈。
MD模拟的蛋白质结构制备
从晶体结构中去除所有水和配体分子,以确保协议的一致性。使用MODELLER v10.1对缺失残基进行建模(46)对于不超过五个连续间隙(或修饰残基)的蛋白质和AlphaFold v2.1.0(8)对于在其解析结构中有6到10个连续缺口的蛋白质。选择这些阈值是为了在合理的计算时间内最大限度地提高模型的可靠性。事实上,只有2.5%的用MODELLER重建的残留物对五残留物长回路重建具有较低的精度,并且低于此阈值的精度为0%(47). 对于DPF和变色龙序列,我们只使用MODELLER来完成缺失残基。
分子动力学模拟协议
使用GROMACS v2019.4进行了全原子分子动力学模拟(48)利用CHARMM36m力场(2020年7月版),对折叠和内在无序蛋白质的折叠和未折叠构象进行平衡采样(49)并提供蛋白质、脂类和糖等各种化合物的广泛参数(50). 每个蛋白质被放置在周期性三斜盒中,用TIP3P水分子溶解,并用钠中和+/氯离子−浓度为150 mM的离子。
为了在模拟之前优化系统的几何结构,我们使用5000步的最速下降算法执行能量最小化。随后,我们在标准系综(NVT)中以1 fs的时间步长进行了200 ps的平衡。随后,采用跳跃积分器,在等温-等压热力学系综(NPT)中以2 fs的时间步长平衡1 ns。使用Nosé-Hoover恒温器将温度保持在300 K,NVT和NPT信号群每1 ps(τT)进行校正。在NPT平衡期间,我们使用各向同性Parrinello-Rahman恒压器将压力保持在1 bar第页值为5ps。在整个最小化和平衡阶段,使用力常数为1000kJ/mol/nm的调和势来约束重原子位置2对于所有蛋白质,在前100 ps NPT平衡结束时观察到密度稳定,平均值为1045 kJ/mol/nm2随后,为NPT生产步骤释放了重原子约束,使用与NPT平衡相同的恒温器和恒压器。最终的生产分子动力学模拟在三个重复中进行,使用不同的种子对波尔兹曼分布指定的随机起始速度进行模拟。每个100 ns的复制以2 fs的时间步长运行,每10 ps保存一次原子坐标。在所有模拟中,使用LINCS算法约束涉及氢原子的共价键。长程静电相互作用采用颗粒-网格-埃瓦尔德(PME)方法进行管理。
这些计算是在Juliot-Curie的Irene-Rome超级计算机(TGCC/CEA)上进行的,使用双处理器计算节点,运行频率为2.6 GHz,每个处理器64个核。模拟为三个数据集中的1522个蛋白质链生成了13.2 TB的原始数据(.xtc和.trr文件)。总的来说,考虑到这三个重复,这相当于456.6μs的模拟时间,包括4566个100 ns的轨迹,对应超过100万个模拟氨基酸。
蛋白质动力学报告和描述
对获得的MD轨迹进行各种分析,以评估蛋白质的整体行为及其骨架的局部灵活性。这些分析在可下载数据的交互式网页上显示,例如从MD数据计算的指标、晶体结构中可用的信息以及其他生物数据库的注释。报告了以下参数:
全球蛋白质行为:
均方根偏差(RMSD)(单位:Au):RMSD测量蛋白质结构与其初始构象的偏差。它是使用GROMACS对主链原子进行计算的。
回转半径(单位:Å):回转半径表示结构的紧凑性,通过GROMACS模拟计算。
接触图:接触图显示最近残基的重原子之间的成对距离,用MDTraj计算(51)使用4.5º阈值定义触点。
蛋白质骨架的局部柔韧性:
均方根波动(RMSF)(单位:Au):RMSF表示轨道中原子位置的标准偏差。它是使用GROMACS在α-碳上计算的。
Phi和Psi角(单位:°):蛋白质中肽键的两个主要二面角,Phi和Psi,使用MDTraj计算轨迹的每一帧。
基于熵的指数Neq:Neq量化了蛋白质块的平均数量(PB)(52)在序列中的给定位置,反映了骨架在动力学过程中的局部变形能力。其范围为1至16,表示动态期间观察到的PB数量(1:无PB变化,16:完全随机PB分布)。蛋白质块的分配基于Phi/Psi角并用PBxplore进行处理(53).
二级结构分配:DSSP为轨迹的每一帧将二级结构元素分配为八个类别,使用MDTraj确定。
从α-碳的初始PDB文件中提取的实验B因子(单位:Ω):B类-因子反映了X射线散射因热运动、捕获原子振动和静态结构无序而衰减。
为了全面评估灵活性,还包括以下附加信息:
共晶相互作用:残基与共晶蛋白质链、配体、离子或核苷酸相互作用。相互作用由目标残留物的α-碳与共结晶伙伴的任何重原子之间的距离定义,低于6º。
蛋白质结构域:ECOD/SCOPe/CATH(37,54,55)从各个数据库的可下载版本中提取的域分配,以及使用本地版本SWORD2分配的域(56,57).
三个重复序列中第一个构象和最后一个构象之间的最小TM-核:一个自定义指标,估计轨迹末端蛋白质结构与起始构象的偏差,用TM-align计算(58)(值越大,稳定性越高)。
最大分歧构象之间的最小TM-score:一种自定义指标,用于评估复制品之间最大分歧构像之间的距离,用TM-align计算(值越高表示再现性越好)。
AlphaFold2预测局部距离差检验(pLDDT):AlphaFold2 pLDDT,这是一种每残差预测置信度度量,而不是一种灵活性度量。使用AlphaFold2 Collab v1.5.1本地计算(59).
从PDB或UniProt中提取的其他一般属性,如有机物或实验分辨率。
在截断动力学的前100 ps后,对除RMSD和回转半径以外的MD轨迹进行了计算。这种截断是为了减少在模拟开始时释放约束所产生的噪声。
结果
数据库内容
在其当前版本中,主要的ATLAS数据集包含1390条蛋白质链,使我们能够捕获广泛的蛋白质运动。事实上,我们提供了1149个具有独特ECOD X类(表示可能的同源性)的蛋白质结构域的MD轨迹。这涵盖了100个最常见的ECOD结构域中的97个,从而涵盖了91%具有可用ECOD ID的蛋白质。
虽然它目前不包括ECOD中所有2458个已识别的褶皱,该数据库包含每个X类ECOD结构域,其可用结构满足我们严格的标准。数据库中没有的1309个折叠要么仅在膜蛋白中发现,要么在当前版本的PDB中没有任何具有代表性的高分辨率X射线结构。
从结构多样性的角度来看,我们涵盖了从全α到全β结构的各种不同褶皱(图1安培)蛋白质大小从38到2128个残基不等(图S1A),分辨率从0.72到2.0Ω(图S1B)。ATLAS中报告的大多数蛋白质来自细菌或真核生物(图1B年). 然而,该数据库还包含来自古菌和病毒的蛋白质,这些蛋白质具有原始折叠。卷曲区域平均对应每种蛋白质40%的蛋白质残基(图S1C)。最后,我们报告了近6%的蛋白质残基与晶体结构中的其他链形成界面,而分别有4%、2%和不到1%的残基与配体、离子或核苷酸相互作用(图1摄氏度). 对于DPF和变色龙蛋白区域,这一比例显著增加,因此突出了分子间相互作用在其稳定中的作用(图S2A,B)。
![ATLAS主要数据库内容涉及不同蛋白质结构域(A)、本地物种(B)和晶体结构中发现的接触物(C)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/52/D1/10.1093_nar_gkad1084/1/m_gkad1084fig1.jpeg?Expires=1721152393&Signature=KNRcg3LbXLeSdHq99TL9bcXFV8Vtp8k8hgXbG0GmjDqMMdIAZcDzttBPobmzjSwMoO1rtgUMZGuoJKWo-uRdzR8P2gebR5N5tDlpe~IyIvQwqxAAQ-bXstv4orcBxf0IMPZY0tS83gXgRtT~g5fuOndD0l7W5RE4pHAW~qg6Gg9myfXkphf1YDlEFsQAQ5jz~w7MAtHbdJjpW9CmxpMZbPsyhoXBvMaBnO8lUMviDdxaVlyyTPL-zaFpMy3OCwbbH2R68ppuZYW14N5A~a28~cfFcSKmvhO4E8nkADXuX2D7C2wsoV8ibCqaxxn4UlbvIme-mBP2cs16So5XDzApzw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
不同蛋白质结构域的ATLAS主数据库内容(A类),本地物种(B类)以及在晶体结构中发现的触点(C类).
在模拟蛋白质中,大多数显示出与初始构象的适度偏差,轨迹的任何框架与起始构象之间的TM-核最小,约为0.8(图S1E)。32%的蛋白质在复制品之间的起始构象和最终构象之间的最小TM-score高于0.9,这表明模拟过程中的构象波动是可逆的(图S1D),并且大多数蛋白质结构在模拟过程中趋于稳定(图S3和S4)。
按结构域浏览
用户可以选择使用ECOD、SCOPe或CATH域分类按域浏览ATLAS数据集。浏览页面提供可折叠的树,便于导航。
在数据库中搜索
可以使用三种方法在ATLAS数据库中搜索蛋白质。
按功能搜索
该程序使用户能够使用蛋白质动力学描述符(例如平均RMSF、平均Neq、轨迹期间的构象差异)以及从外部数据库收集的一般蛋白质属性(例如域分类、UniProt/PDB注释)来过滤数据库。结果以用户友好的表格格式显示,并可以导出为文本文件。还提供了高级搜索生成器,允许用户创建更复杂的过滤规则(图2安培).
![搜索输出示例。(A)按特征搜索,(B)按顺序搜索,(C)按结构搜索。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/52/D1/10.1093_nar_gkad1084/1/m_gkad1084fig2.jpeg?Expires=1721152393&Signature=gvb8z8a9eyCfsX9-mfaxxnLrHEPqN-k46puciLNMhsrEKuUsWaPfMKia49FJwAfPRA2XcRrP-HSFgN7Pjr92egA-RWxkkRPxpUgOUkBUCqU-f9ilF0NPkJZ93mjdHvAlJwHIDaLxDFLJdmBIcYUWiu7AwW3Q5MeJOyUe~N4~lpjYYAmBxiTSCxi~kouL3tpzIQwY83hrco5qiKIl~wBbZHWFdrnmLK1v4Ce-z9x3O2tMOxkP6hpk02aTT3la-T9OahwEzEJCaksLg2GTro1lTrOklwdOanERwekZdgG1YDYZ-6arPv758omuuUt17-4PqkaPVzu5d5eYzIZGo5zaGg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
搜索输出示例。 (A类)按功能搜索(B类)按顺序搜索和(C类)按结构搜索。
按顺序搜索
序列搜索系统允许用户使用fasta36 v36.3.8软件中的local-global、local-local和global-global搜索方法,根据不同的数据库查询蛋白质序列,以查找类似的蛋白质(60). 对齐结果表显示可单击的目标ID、标识百分比、对齐分数、位核和匹配的E值E类-值小于10。此外,还提供了路线的图形摘要,以便快速概述对齐区域和路线质量(图第2页).
按结构搜索
使用结构搜索方法,用户可以使用ProDy查询蛋白质结构以在ATLAS数据库中找到类似的折叠(61)提取所需的蛋白质链和Kpax 5.1.3(62)用于结构对齐。他们可以选择在三个数据库中搜索整个蛋白质,或通过ATLAS数据集中特定的ECOD域搜索,这对于查询多域蛋白质很有用。”“灵活对齐”选项可用,允许在刚性查询结构上灵活叠加目标结构,以解释主干波动。对齐结果表包括可单击的目标ID、对齐长度、RMSD和前10个最佳匹配项的TM-核心。此外,还提供了一个3D结构查看器,以可视化查询(以白色显示)和目标(以绿色显示)之间的对齐(图2摄氏度).
蛋白质页面
页眉
此部分显示来自外部数据库和程序的信息,例如UniProt ID、二级结构内容和域描述。它还提供了通过分子动力学模拟计算的一般参数,例如平均RMSF和起始构象和最终构象之间的最小TM-核。用户可以使用“download”(下载)按钮以简化格式下载轨迹数据作为.zip存档,并附带相应的分析(每个复制1000帧,去掉溶液分子)和完整格式(每个复制10000帧),无论是否有溶剂(图3A级).
![蛋白质页面示例(PDB ID:1k5n链A)。(A)带有注释和可下载数据的页眉。(B)一般剩余特征。(C)复制概述(左:RMSD,右:回转半径)。(D)详细分析(左:动态接触图,右:拉马钱德兰图)。(E)详细分析部分中可用结构可视化的示例(复制1–顶部:RMSF着色,中间:Neq着色,底部:初始二级结构着色的MD轨迹可视化)。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/52/D1/10.1093_nar_gkad1084/1/m_gkad1084fig3.jpeg?Expires=1721152393&Signature=UmHkLWQmL9BzIjT2FEN8tYNWStk8Vyx3FBPBoxWzngh3hecuYCSZg24Gnnex85OFNkcORwjvkAkOADxspCb3OILNAG38RMrq0g1vohVyHqLKj30ymkhhRAMl6BAe399H4Fw71R3HoJWyBXXcnyS6BADEcHSeKinaD~qx6q~HhHYFMUgoPL3wa-3ClrOOEyE2dUdXSqymZxgmk0mnqdAk1qa3PSqKyu-ys9txzaZErYX6okdqWzuvkk3m1TAw98LFvEmmiw2btxgPTD~ePohnzchhd57QOVMl0ihe6mPeJZ1gOh1ggTKkGvAiiSp4NQDYpNpISjhihtrIoMBoP2wjnQ__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
蛋白质页面示例(PDB ID:1k5n链A)。 (A类)带有注释和可下载数据的页眉。 (B类)一般剩余特征。 (C类)复制概述(左:RMSD,右:回转半径)。 (D类)详细分析(左图:动态联系图,右图:Ramachandran图)。 (E类)详细分析部分中可用的结构可视化示例(复制编号1–顶部:RMSF着色,中间:Neq着色,底部:初始二级结构着色的MD轨迹可视化)。
常规属性
在这里,用户可以获得复制品中平均的主要蛋白质属性的概述。本节包括二级结构的可视化、蛋白质结构域描述(ECOD、CATH、SCOPe和SWORD2)、实验B因子值、三个MD复制品的平均柔韧性曲线(RMSF和Neq)以及AlphaFold2 Collab pLDDT。鼠标悬停时可以访问序列中的详细值和位置(从PDB中提取的作者特定编号和从1开始的序列编号)。此外,用户可以选择从蛋白质中对柔韧性曲线进行最小-最大归一化,以便更好地查看细微变化,或从整个数据库(日志中)对柔韧性剖面进行最小-最多归一化2比例尺)比较不同蛋白质的柔韧性(图3B公司).
复制概述
在本节中,提供了详细的柔度曲线(RMSF、B因子、Neq+pLDDT)和模拟期间蛋白质构象迁移率的全局分析(RMSD和回转半径)。用户可以通过单击图例一起或单独查看不同复制的图表,并通过单击和拖动功能放大特定的感兴趣区域(图3C公司).
详细分析
为了深入研究检测到的构象变化,用户可以可视化每个复制品的结构和MD轨迹、接触图、Ramachandran图和DSSP图。在3D查看器中,蛋白质可以按序列位置或初始二级结构着色。灵活性可视化可以在结构上实现,修改结构的颜色和宽度,也可以通过在“动态”选项卡上可视化轨迹本身(图第三方). 此外,动画接触图说明了沿轨迹接触的形成和破坏,而拉马钱德兰图确保了大多数残留物的连贯构象(图三维).
在补充信息中,我们提供了ATLAS蛋白页面分析的详细示例(“蛋白页面分析示例”部分)。我们解决了域间铰链的问题,分析了共结晶伴侣对人类HLA 1类(图S5-S8)组织相容性抗原的影响,并分析了位于次黄嘌呤-鸟嘌呤磷酸核糖转移酶活性位点附近的双重人格片段的动力学(图S9-S12)。
可下载数据
下载页面提供了对GROMACS分子动力学协议(.mdp)和力场文件(CHARMM36m)的访问,组成不同数据集的蛋白质列表,以及用于更高级蛋白质选择的蛋白质页面注释的可解析内容。此页面还用于跟踪数据库更新。
REST API
也可以使用“API”选项卡中记录的REST API以编程方式访问数据库数据。用户可以下载三种可能格式的蛋白质模拟数据(“分析”、“蛋白质”和“总量”),以及每个条目可用的.json格式的蛋白质页面摘要。API还允许用户按序列和结构在数据集中搜索蛋白质(有关详细信息,请参阅“在数据库中搜索”),下载MD参数以及转储数据库可解析版本的最新版本(请参阅“可下载数据”部分)。
讨论和观点
ATLAS数据库提供了代表PDB结构多样性的全原子分子动力学模拟。蛋白质选择和MD模拟的标准化协议,以及对结果轨迹的彻底分析,为不同尺度的蛋白质动力学提供了有价值和可比较的信息来源。事实上,在其自然环境中,蛋白质表现出与各种分子的相互作用以及在各种条件下的生物功能潜在相关的动态特性。我们的数据库捕获了这种固有多样性的可能场景,提供了无法直接从X射线结构获得的信息。将所报道的动力学信息与实验数据中所报道的蛋白质注释和接触相结合,有助于加深我们对蛋白质序列-结构-功能关系的理解。
ATLAS的主要目标是在没有其他分子相互作用的情况下,提供溶液中预期蛋白质柔韧性的信息。虽然100ns模拟的三个重复为具有相对稳定结构的蛋白质的动力学特性提供了有价值的见解,但探索大型蛋白质的罕见事件或主要构象重排可能需要更长的模拟时间。目前,用户可以使用报告模拟的最后一个或最分歧的框架作为进一步构象采样的起点,轻松扩展蛋白质MD模拟。从中期来看,我们将在模拟时间和蛋白质含量方面扩展ATLAS数据库的内容。ATLAS将继续扩展,以涵盖高质量解决的新兴褶皱,以及具有发散序列的现有褶皱的新代表。特别是,所开发的用于选择代表性高质量蛋白质结构的协议将定期应用于更新的PDB内容。最后,开发统一的MD存储库,如即将推出的欧洲倡议MDDB(https://mddbr.eu网址/)这将对ATLAS模拟的扩展、共享和长期可持续性特别有益。
关于蛋白质动态功能关系的最有趣的结论往往取决于分子间相互作用的建模。目前,准确的蛋白质-甘露相互作用的MD建模需要广泛的人类专业知识,与我们的自动化和可复制协议不兼容,由于缺乏涵盖不同化合物化学变化的适应力场参数,以及正确识别生物相关相互作用的问题(63). 然而,我们的第一个专门的双个性片段数据集旨在阐明对配体/伴侣去除特别敏感的蛋白质片段的构象行为。我们将继续扩展ATLAS,为具有特殊生物学意义的蛋白质(如月光蛋白)添加几个MD模拟的专门数据集。从长远来看,这些模拟将通过与蛋白质伙伴的显式MD模拟及其翻译后修饰来完成,以探索其对蛋白质动力学的影响,而这一点目前尚不清楚。这些扩展将增强ATLAS数据库的多样性和范围,使用户能够探索更广泛的蛋白质动力学和行为。
数据可用性
数据库网站在网上免费提供,无需登录https://www.dsimb.inserm.fr/ATLAS.
补充数据
补充数据可从NAR Online获取。
致谢
作者感谢法国巴黎卓越实验室GR-Ex。
基金
研究部(法国);巴黎城市大学(法国);国家卫生和医学研究所(INSERM,法国);IdEx【ANR-18-IdEx-0001】;法国国家研究局[ANR-21-CE45-0019];所有生产模拟均使用CINES(国家信息中心)[A0090712053]的高性能计算(HPC)资源进行;TGCC(Très Grand Centre de Calcul)[A0110712053,A0140712053]由GENCI(法国国家Calcul密集型装备总公司)资助。开放存取费用资助:INSERM和巴黎大学。
利益冲突声明。未声明。
工具书类
1科基尼迪斯
M。
,Glykos公司
N.M.(最小值)。
,法杜洛格楼
V.E.公司。
蛋白质柔韧性与酶催化
.高级蛋白质化学。结构。生物。
2012
;87
:181
–218
. 2朱布
H。
,布伦德尔
T.L.公司。
,阿谢尔
D.B.公司。
蛋白质界面的灵活性和小口袋:对药物可药性的新见解
.掠夺。生物物理学。分子生物学。
2015
;119
:2
–9
. 三。Teilum公司
英国。
,奥尔森
J.G.公司。
,克拉格隆德
商业银行。
蛋白质柔韧性的功能方面
.单元格。分子生命科学。CMLS公司
.2009
;66
:2231
–2247
. 4卡鲁戈
O。
蛋白质晶体结构中的B因子有多大
.BMC生物信息。
2018
;19
:61
. 5卡鲁戈
O。
蛋白质晶体结构中的最大B因子
.Z.Für Krist克里斯特。马特。
2019
;234
:73
–77
. 6卡鲁戈
O。
各向异性和各向同性原子位移参数如何监测蛋白质共价键刚度:各向同性B因子低估了键刚度
.氨基酸
.2021
;53
:779
–782
. 7卡鲁戈
O。
蛋白质晶体结构的B因子精度
.《水晶学报》。教派。结构。生物。
2022
;78
:69
–74
. 8跳跃者
J。
,埃文斯
R。
,普里策尔
答:。
,绿色
T。
,菲古尔诺夫
M。
,龙内贝格尔
O。
,Tunyasuvunakool公司
英国。
,贝茨
R。
,希德克
答:。
,波塔片科
答:。
等。
AlphaFold高精度蛋白质结构预测
.自然
.2021
;596
:583
–589
. 9范德密尔施
年。
,克雷汀
G.公司。
,德布雷文
美国政府。
,凝胶
J.-C.公司。
,伽罗基纳
T。
MEDUSA:根据序列预测蛋白质弹性
.分子生物学杂志。
2021
;433
:166882
. 10马切蒂
F。
,莫罗尼
E.公司。
,潘迪尼
答:。
,科伦坡
G.公司。
基于分子动力学的变构药物活性机器学习预测
.《物理学杂志》。化学。莱特。
2021
;12
:3724
–3732
. 11汉臣
T。
,奥斯汀布里克
C、。
,范甘斯特伦
西。
分子动力学模拟
.货币。操作。结构。生物。
2002
;12
:190
–196
. 12科利尔
T.A.公司。
,猪
总工程师。
,艾利森
J.R.公司。
蛋白质的分子动力学模拟
.方法分子生物学。新泽西州克利夫顿
.2020
;2073
:311
–327
. 13卡普拉斯
M。
,佩茨科
总会计师。
生物学中的分子动力学模拟
.自然
.1990
;347
:631
–639
. 14林多夫-拉森
英国。
,皮亚纳
美国。
,德罗尔
R.O.公司。
,肖
D.E.公司。
快速折叠蛋白质如何折叠
.科学类
.2011
;334
:517
–520
. 15海拉特
答:。
,帕奇尼
L。
,巴蒂斯塔
V.S.公司。
,维隆
L。
,勒西厄尔
C、。
,里瓦尔塔
一、。
用动态微扰网络研究V型酶的变构途径
.《物理学杂志》。化学。B类
.2019
;123
:3452
–3461
. 16萨尔塔拉马基亚
答:。
,卡萨利诺
L。
,鲍里舍克
J。
,巴蒂斯塔
V.S.公司。
,里瓦尔塔
一、。
,马吉斯特拉托
答:。
解密剪接体机械的信息交换路径
.美国化学杂志。Soc公司。
2020
;142
:8403
–8411
. 17桑托斯
L.H.S.有限公司。
,费雷拉
相对应力。
,卡法雷娜
E.R.公司。
集成分子对接和分子动力学模拟
.方法分子生物学。
2019
;2053
:13
–34
. 18瓦塔纳贝
年。
,福美
美国。
,加藤
英国。
,平冢
M。
,山松
N。
,Hirono公司
美国。
,古达
H。
,奥达
答:。
利用对接和分子动力学模拟研究水分子介导的细胞色素P450 1A2的底物识别
.J.摩尔图。模型。
2017
;74
:326
–336
. 19特雷费
E.M.公司。
,高希
答:。
从红豆杉中分离的植物化学物质对HIV-1逆转录酶的分子对接、验证、动力学模拟和药代动力学预测
.生物信息。生物学见解
.2022
;16
:11779322221125604
. 20田
美国。
,太阳
H。
,平移
第页。
,锂
D。
,镇
十、。
,锂
年。
,侯
T。
考虑蛋白质柔性的基于集合对接的激酶靶点虚拟筛选策略评估
.化学杂志。信息模型。
2014
;54
:2664
–2679
. 21王
B。
,布赫曼
客户尽职调查。
,锂
L。
,赫尔利
财政部。
,梅鲁厄
S.O.公司。
蛋白质构象集成化学库的富集及其在醛脱氢酶2中的应用
.化学杂志。信息模型。
2014
;54
:2105
–2116
. 22埃里希
美国。
,赫尔姆斯
五、。
蛋白质表面涉及蛋白质相互作用的瞬时囊
.医学化学杂志。
2007
;50
:3457
–3464
. 23弗尼利
答:。
,潘迪尼
答:。
,卢
高-中。
,弗拉泰尔纳利
F。
用模拟构象系综揭示杂乱残基的特殊动力学性质
.化学杂志。理论计算。
2013
;9
:5127
–5147
. 24里瓦尔塔
一、。
,苏丹
医学硕士。
,李
北-南。
,曼利
总会计师。
,洛里亚
J.P.公司。
,巴蒂斯塔
V.S.公司。
咪唑甘油磷酸合成酶的变构途径
.程序。国家。阿卡德。科学。美国。
2012
;109
:E1428型
–图1436
. 25里瓦尔塔
一、。
,利斯
G.P.公司。
,斯诺伯格
北-南。
,曼利
G.公司。
,洛里亚
J.P.公司。
,巴蒂斯塔
V.S.公司。
与咪唑甘油磷酸合成酶蛋白-蛋白质界面结合的小分子干扰变构通讯
.生物化学
.2016
;55
:6484
–6494
. 26乌尔姆
J.P.公司。
,宋朝
美国。
,膝关节
交流。
,霍普菲尔德
E.公司。
,斯特纳
R。
,维尔曼斯
M。
,Sprangers公司
R。
异二聚咪唑甘油磷酸合成酶复合物变构活化机制的分子基础
.国家公社。
2021
;12
:2748
. 27克莱佩斯
法学博士。
,林多夫-拉森
英国。
,德罗尔
R.O.公司。
,肖
D.E.公司。
蛋白质结构和功能的长时间分子动力学模拟
.货币。操作。结构。生物。
2009
;19
:120
–127
. 28阿亚兹
第页。
,利泽克
答:。
,彭
年。
,明吉奥内
V.R.公司。
,亚科布
R.E.公司。
,德瓦尔
P.W.公司。
,恩根
J.R.公司。
,泽利格
文学硕士。
,掸邦
年。
,肖
D.E.公司。
药物结合过程中蛋白质靶点构象发生较大变化的结构机制
.国家公社。
2023
;14
:1885
. 29纽波特
财政部。
,桑索姆
M.S.P.公司。
,斯坦斯菲尔德
P.J.公司。
MemProtMD数据库:膜包埋蛋白质结构及其脂质相互作用的资源
.核能。酸。物件。
2019
;47
:D390号
–第397页
. 30罗德里格斯·埃斯皮加雷斯
一、。
,Torrens-Fontanals山洞
M。
,蒂曼
韩国期刊。
,阿兰达·加西亚
D。
,拉米雷斯-安吉塔
J.M.公司。
,斯蒂芬妮夫斯基
总经理。
,蜗牛
N。
,瓦雷拉-瑞尔
答:。
,莫拉莱斯-巴斯特
答:。
,梅德尔·拉克鲁斯
B。
等。
GPCRmd揭示了3D-GPCRome的动态
.自然方法
.2020
;17
:777
–787
. 31Torrens-Fontanals山洞
M。
,佩拉塔·加西亚
答:。
,塔拉里科
C、。
,吉克斯-冈萨雷斯
R。
,焦尔吉诺
T。
,塞伦特
J。
SCoV2-MD:SARS-CoV-2蛋白质组动力学和变异影响预测数据库
.核能。酸。物件。
2022
;50
:D858号
–D866型
. 32迈耶
T。
,达布拉莫
M。
,医院
答:。
,鲁埃达
M。
,费雷尔·科斯塔
C、。
,佩雷斯
答:。
,卡里略
O。
,营地
J。
,芬诺洛萨
C、。
,雷普切夫斯基
D。
等。
MoDEL(分子动力学扩展库):原子分子动力学轨迹数据库
.结构。伦敦。英语。
2010
;18
:1399
–1409
. 33范德坎普
M.W.公司。
,谢弗
钢筋混凝土。
,琼森
A.L.公司。
,斯科拉斯
公元
,西姆斯
上午。
,图凡尼
钢筋混凝土。
,本森
北卡罗来纳州。
,安德森
第页。
,默克利
E.D.公司。
,里萨维
美国。
等。
动力学:蛋白质动力学的综合数据库
.结构。伦敦。英语。
2010
;18
:423
–435
. 34伯曼
H.M.公司。
,韦斯特布鲁克
J。
,冯
Z.公司。
,吉利兰
G.公司。
,巴特
电话号码。
,韦西格
H。
,辛迪亚洛夫
身份证号码。
,伯恩
体育。
蛋白质数据库
.核酸研究。
2000
;28
:235
–242
. 35张
年。
,Stec公司
B。
,戈德齐克
答:。
蛋白质结构的有序与无序之间:蛋白质中“双重人格”片段的分析
.结构。伦敦。英语。
2007
;15
:1141
–1147
. 36锂
西。
,扭结
法律公告。
,卡普拉斯
私人助理。
,格里申
不适用。
变色龙序列数据库
.蛋白质科学。出版物。蛋白质Soc。
2015
;24
:1075
–1086
. 37谢弗
钢筋混凝土。
,廖
年。
,程
H。
,格里申
不适用。
ECOD:领域进化分类的新发展
.核酸研究。
2017
;45
:D296型
–D302号
. 38辛采
B.J.公司。
,刘易斯
S.M.公司。
,理查森
J.S.公司。
,理查森
哥伦比亚特区。
MolProbity用于模型验证的最终转子支架分布
.蛋白质
.2016
;84
:1177
–1189
. 39洛米兹
文学硕士。
,洛米兹
A.L.公司。
,波哥热娃
身份证。
,莫斯伯格
H.I.公司。
OPM:膜数据库中蛋白质的定位
.生物信息学
.2006
;22
:623
–625
. 40科兹马
D。
,西蒙
一、。
,图斯纳迪
通用电气公司。
PDBTM:8年后跨膜蛋白质的蛋白质数据库
.核酸研究。
2013
;41
:D524型
–D529型
. 41比特里希
美国。
,玫瑰色
年。
,塞古拉
J。
,洛
R。
,韦斯特布鲁克
J.D.(医学博士)。
,杜阿尔特
J.M.公司。
,白肋烟
S.K.公司。
RCSB蛋白质数据库:改进PDB中膜蛋白结构的注释、搜索和可视化
.生物信息学
.2022
;38
:1452
–1454
. 42威廉姆斯
C.J.公司。
,理查森
哥伦比亚特区。
,理查森
J.S.公司。
残留物水平过滤的重要性和优质蛋白质残留物的Top2018最佳部分数据集
.蛋白质科学。出版物。蛋白质Soc。
2022
;31
:290
–300
. 43克里斯内尔
E.公司。
,亨里克
英国。
从结晶状态推断大分子组装
.分子生物学杂志。
2007
;372
:774
–797
. 44施泰因格尔
M。
,索丁
J。
MMseqs2支持对大量数据集进行敏感的蛋白质序列搜索分析
.自然生物技术。
2017
;35
:1026
–1028
. 45图乌
W.G.公司。
,巴克曼
C、。
,黑色
J。
,te Beek公司
T.A.H.公司。
,克里格
E.公司。
,尤斯登
钢筋混凝土。
,弗里恩
G.公司。
满足日常需求的一系列PDB相关数据库
.核能。酸。物件。
2015
;43
:第364页
–D368号
. 46韦伯
B。
,萨利
答:。
基于MODELLER的比较蛋白质结构建模
.货币。协议。生物信息学。
2016
;54
:5.6.1
–5.6.37
. 47菲泽
答:。
,做
R.K.(英国)。
,萨利
答:。
蛋白质结构中环的建模
.蛋白质科学。出版物。蛋白质Soc。
2000
;9
:1753
–1773
. 48亚伯拉罕
医学博士。
,穆托拉
T。
,舒尔茨
R。
,帕尔
美国。
,史密斯
J.C.公司。
,赫斯
B。
,林达尔
E.公司。
GROMACS:通过从笔记本电脑到超级计算机的多级并行进行高性能分子模拟
.软件X
.2015
;1–2
:19
–25
. 49黄
J。
,劳舍尔
美国。
,纳鲁洛基
G.公司。
,跑
T。
,菲格
M。
,德格罗
B.L.公司。
,格鲁布米勒
H。
,麦克雷尔
公元前。
CHARMM36m:折叠和内在无序蛋白质的改进力场
.自然方法
.2017
;14
:71
–73
. 50霍林斯沃思
南非。
,德罗尔
R.O.公司。
所有人的分子动力学模拟
.神经元
.2018
;99
:1129
–1143
. 51麦吉本
R.T.公司。
,波尚
K.A.公司。
,哈里根
M.P.(医学博士)。
,克莱因
C、。
,沼泽地
J.M.公司。
,埃尔南德斯
C.X.公司。
,施万特斯
首席风险官。
,王
左旋-右旋。
,车道
总工程师。
,潘德
V.S.公司。
MDTraj:一个用于分析分子动力学轨迹的现代开放库
.生物物理学。J。
2015
;109
:1528
–1532
. 52德布雷文
美国政府。
,埃切贝斯特
C、。
,哈佐特
美国。
用蛋白质块预测骨架结构的贝叶斯概率方法
.蛋白质
.2000
;41
:271
–287
. 53巴努
J。
,桑图斯
H。
,克雷维尔
第页。
,约瑟夫
A.P.公司。
,贾鲁
五、。
,德布雷文
美国政府。
,普兰
第页。
PBxplore:利用蛋白质块分析局部蛋白质结构和可变形性的工具
.同行J
.2017
;5
:电子4013
. 54福克斯
不适用。
,布伦纳
瑞典。
,钱多尼亚
J.-M.公司。
SCOPe:蛋白质的结构分类——扩展、整合SCOP和ASTRAL数据以及新结构的分类
.核酸研究。
2014
;42
:D304号
–D309号
. 55Sillitoe公司
一、。
,博尔丁
N。
,道森
N。
,瓦曼
副总裁。
,阿什福德
第页。
,斯科尔斯
H.M.公司。
,庞
C.S.M.公司。
,伍德里奇
L。
,劳尔
C、。
,森
N。
等。
CATH:增加功能空间的结构覆盖率
.核酸研究。
2021
;49
:D266型
–D273型
. 56Postic公司
G.公司。
,古扎姆
年。
,切布雷克
R。
,凝胶
J.-C.公司。
蛋白质结构域分配的模糊原则
.科学。副词。
2017
;三
:e1600552号
. 57克雷汀
G.公司。
,伽罗基纳
T。
,范德密尔施
年。
,德布雷文
美国政府。
,Postic公司
G.公司。
,凝胶
J.-C.公司。
SWORD2:蛋白质3D结构的层次分析
.核酸研究。
2022
;50
:W732型
–W738型
. 58张
年。
,斯科尔尼克
J。
TM-align:一种基于TM-score的蛋白质结构对齐算法
.核酸研究。
2005
;33
:2302
–2309
. 59米尔迪塔
M。
,Schütze公司
英国。
,森崎
年。
,你好
L。
,夫钦尼科夫
美国。
,施泰因格尔
M。
ColabFold:让所有人都可以进行蛋白质折叠
.自然方法
.2022
;19
:679
–682
. 60皮尔逊
W.R.公司。
,利普曼
D.J.公司。
改进的生物序列比较工具
.程序。国家。阿卡德。科学。美国。
1988
;85
:2444
–2448
. 61张
美国。
,克里格
J.M.公司。
,张
年。
,卡亚
C、。
,卡纳克语
B。
,米库斯卡·鲁米斯卡
英国。
,多鲁克
第页。
,锂
H。
,巴哈尔
一、。
ProDy 2.0:使用Python进行10年的蛋白质动力学建模后,规模和范围有所增加
.生物信息。
2021
;37
:3657
–3659
. 62里奇
D.W.公司。
计算和评分高质量的多重柔性蛋白质结构比对
.生物信息学
.2016
;32
:2650
–2658
.
©作者2023。由牛津大学出版社代表核酸研究出版。