1.简介
在X射线晶体学中,解决蛋白质的三维结构问题仍然是一项艰巨的任务。即使晶体衍射到高分辨率,许多项目仍因克服相位问题。对于含有数百个以上原子的大分子相位问题direct目前不可行,因此必须使用另一种方法。分子替换(MR)是解决问题最流行的方法,因为它快速、廉价并且可以高度自动化(Evans&McCoy,2008; 长等。, 2008). MR利用具有相似氨基酸序列的蛋白质通常形成相似的三维结构这一事实。如果已知结构与目标具有相似的序列,则假设存在相应的结构相似性,则来自已知结构的相位信息通常可用作未知结构相位的起点。该程序要求将已知结构重新定向并正确定位在单位电池目标的。包含复杂评分系统的项目,如相位器(麦考伊等。, 2007)和MOLREP公司(Vagin和Teplyakov,2010年)已开发用于执行此任务。然而,选择合适的搜索模型仍然是MR的一个限制因素。序列相似性并不总是能确保结构相似性,尤其是在相似性低于30%的情况下(Krissinel和Henrick,2004; Krissinel,2007年). 最近的一些研究已经找到了寻找结构相似搜索模型的替代方法。通过近似目标结构从头算钱教授已经证明,建模并将其用作搜索模型是可行的等。(2007)和里格登等。(2008)可以使用充足的应用程序(Bibby等。, 2012). 其他方法利用理想片段或已知结构中经常出现的片段和基序作为MR中的搜索模型。阿西姆博尔多(罗德里格斯等。, 2009)和弗拉贡(詹金斯,2018年)是利用这种方法的两个发展。所有这些应用程序都主要依赖于小而高精度的片段正确放置在单位电池目标的。在最极端的情况下,1 分辨率或更好,已经表明可以使用单个原子作为成功的搜索模型(麦考伊等。, 2017).
对于更传统的基于序列的方法,已经投入了大量精力开发软件管道,试图从大量精心设计的搜索模型中找到解决方案,这些模型来自潜在合适的同源物。这些示例包括MoRDa公司(Vagin&Lebedev,2015年),BUMP先生(基冈等。, 2018),棒球(长等。, 2008)和M页(麦考伊等。, 2007). 由于多种原因,这些应用程序或用户手动选择的搜索模型可能会给出较差的结果。其中包括模板搜索的不敏感性(即同源序列与实际结构差异太大),误导序列信息(即污染物已被结晶代替所需的蛋白质)或序列相似性提供了不完善的结构相似性代理(即其中具有高序列相似性的亲属在不同构象状态下结晶)。在这种情况下,阿尔金堡和弗拉贡可以通过正确放置理想碎片(如螺旋线)来获取解决方案,但受分辨率要求的限制SHELXE公司(∼2.4 Å; Thorn&Sheldrick,2013年)和橡子(∼1.7 Å; 福亚迪等。, 2000; 姚明等。, 2005)分别在改进碎片初始放置的阶段时相位器一些发展试图通过对PDB的强制搜索来挖掘合适的搜索模型来克服这些问题(Stokes-Rees&Sliz,2010); 哈蒂等。, 2016).ContaMiner公司(饥饿等。, 2016)是另一种专门通过测试MR中已知污染物库来发现污染物的方法。
这里,我们展示了一条新的管道,辛巴德(基于现有数据库的序列无关分子替换),可用于污染和暴力方法。它检测污染物晶体结构的能力与基冈等案例有关等。(2016)该结构14年来一直未解决。它通过只测试非冗余PDB条目来确保可接受的低运行时间,如MoRDa公司数据库并通过首先测试熟悉的单位电池或含有已知污染物。MoRDa公司是基于MOLREP公司程序。它的数据库包含来自PDB数据库的冗余删除版本的链,以及如何从单个链构建结构域、低聚物、复合物和系综的定义。在目前的实施中,辛巴德仅使用域定义创建搜索模型。总的来说,辛巴德包含三个步骤:格参数搜索、污染物搜索和非冗余PDBMoRDa公司数据库搜索(以下简称为MoRDa公司DB搜索)。每个模块都可以作为单独的模块运行,完整的运行包括所有三个步骤,称为组合搜索。
在缺乏相关序列标识信息以帮助隔离和评分合适的搜索模型的情况下,辛巴德在执行完整MR搜索之前,利用MR中的旋转函数步骤对搜索模型进行排序。旋转函数是一种三维搜索,用于确定搜索模型的正确方向。霍普(Hoppe,1957)首先在自我模式的背景下讨论了这一点)和Huber(1965年). 然而,我们今天知道的旋转函数是由Rossmann&Blow(1962)首次提出的). 利用此初始旋转函数非晶体对称性恢复所需的阶段结构确定。Rossmann和Blow也认识到,这个概念可以应用于将已知分子定位在未知分子中的问题晶格通过应用额外的翻译程序。Crowther&Blow(1967)首次将旋转搜索应用于此). 最初的旋转函数是一个缓慢的计算。Crowther根据球谐函数和球贝塞尔函数扩展了Patterson函数,以创建快速旋转函数(Crowther1972). Navaza进一步完善了快速旋转函数,使用数值积分规则代替径向函数的展开式(Navaza,1987). 正是这个版本的旋转功能被合并到AMoRe公司(纳瓦扎,1993年).
最近,里德开始探索最大似然方法作为另一种接近旋转函数的方法(Read,2001). 添加到的初始实现野兽(阅读,1999, 2001)与基于Patterson的旋转函数相比,当应用于困难病例时,显示出更高的灵敏度。这个首字母最大似然该方法计算速度慢。Storoni及其同事在相位器(斯托罗尼等。2004年). 似然增强的快速旋转函数利用快速傅里叶变换快速计算的全似然目标的级数近似。这种对完全似然目标的近似将速度提高了几个数量级。最近,卡利安德罗和同事开发了一种概率方法来解决雷诺09(卡利安德罗等。, 2009). 类似于最大似然已经讨论过的方法,概率方法为给定环境中的旋转模型构造了概率分布,尽管最终推导的公式与获得的公式不同通过 最大似然原则。
辛巴德执行旋转搜索~90 000次筛选完整MoRDa公司DB以及速度和效率非常重要。有鉴于此AMoRe公司选择了旋转函数,因为程序的模块化特性使我们能够从90°坐标系中预先计算出球谐系数数据库 000个型号,这是进行旋转搜索的先决条件。最终,这种方法没有被采用,但它是选择AMoRe公司然而AMoRe公司旋转函数(秒的数量级)使得处理如此大量的搜索模型在一个适度的集群上是可以处理的。
在所有情况下,MR和精炼确定他们是否给出了解决方案。辛巴德可以利用多核集群来加速搜索模型的处理,从而使其组合的三步功能能够在100核机器上运行数小时(2.8 GHz,AMD Opteron 4184)。该软件随中央对手方清算所4套(Winn等。, 2011)并将通过中央对手方清算所未来的4项在线/云开发。它也可以作为同步加速器束线数据处理管道的一部分运行,以测试结构解析过程早期是否存在污染物。
2.方法
2.2. 格参数搜索
这个辛巴德格参数搜索采用了与最近的细胞服务器(Ramraj等。, 2012)和SAUC公司服务器(McGill等。, 2014). 从PDB创建了一个包含Niggli的数据库还原细胞,减少的P(P)1个细胞(安德鲁斯和伯恩斯坦,2014),对于使用探索_度量_对称中的例程cctbx公司(计算晶体学工具箱;https://github.com/cctbx/cctbx_project项目). 尼格利家族还原电池对于未知数据集,以相同的方式生成,并与数据库中的Niggli约简单元进行比较。
比较分两步进行。首先,在Niggli简化细胞数据库中搜索每个晶格参数在实验数据中各自晶格参数±5%范围内的细胞。其次,为每个Niggli生成一个罚款分数还原电池使用
哪里一,b条和c(c)表示单元格边缘的长度α,β和γ表示它们之间的角度。下标e表示实验导出的晶格参数,下标d用于Niggli简化的cell数据库导出的晶格参量。
为了测试惩罚分数较低更有可能导致解决的直觉,从PDB中随机选择了125个数据集组成的测试集(补充表S1)。通过对每个数据集执行格参数搜索,总共获得了2009个具有不同惩罚分数的唯一候选。对于每个候选人,MR和精炼根据相关数据集使用MOLREP公司和雷夫马克5(穆尔舒多夫等。, 2011). 如果R(右)自由的跌至0.45以下。这些数据用于训练逻辑回归分类器(图2). 该训练用于将S形函数拟合到数据中,并给出方程式
| 图2 Logistic回归结果表明,罚分可能会导致成功的MR。描述分布的紫色线是使用sigmoid模型拟合的。系数和截距由中的“LogisticRegression”模块确定sklearn公司(https://www.scikit-learn.org). (一)散点表示2009年的原始数据点,其中x个值对应于总罚分和年值设置为1或0表示MR中的成功或失败(b条)直方图表示箱子大小为1的成功/失败比例。该数字已被截断,以显示罚分高达13分的结果;然而,sigmoid模型是根据惩罚分数高达26分的数据集计算得出的。 |
模型预测候选搜索模型是否会导致MR成功的准确性在测试集上评估为87%,与训练集上的87%相匹配(补充表S2)。此模型已实施到辛巴德向用户指示候选用户是否可能返回解决方案。
我们的模型表明,如果罚分低于2.1,则找到解决方案的概率超过50%。在我们的数据集中,没有一个例子显示,罚分超过12就可以得到解决方案。因此,格参数搜索被设置为返回最多50个默认惩罚分数低于12的模型。
2.3. 循环搜索
辛巴德使用AMoRe公司快速旋转功能,为合适的MR候选人筛选数据库。通过跳过估计无法适应单位电池(通过要求溶剂含量高于30%),并通过在多CPU集群上利用粗粒度并行化,将旋转功能所需的时间降到最低。辛巴德使用晶体的观测振幅与模型的计算振幅(CC_F)之间的相关系数对以下结果进行评分AMoRe公司。顶级解决方案的CC_F分数中的较大峰值表示结构方向正确。因此,为了比较所使用的每个模板结构的解决方案,AMoRe公司已修改为返回Z轴-CC_F分数的分数。这个AMoRe公司 ROTNDO公司子程序修改为输出Z轴-根据CC_F和相关图得出的分数。基于CC_FZ轴-score使用200个随机方向估计模板的平均值和方差。
2.3.1. 污染物搜索
已经编译了一组349个结构,代表了60种常见的污染物蛋白质的不同同源物和空间群。这组包括在开发过程中确定的污染物辛巴德以及其他来源列出的常见污染物(Niedzialkowska等。, 2016; 亨格勒等。, 2016). 此外,来自MoRDa公司DB可能会形成污染物的子成分,从而增加原始数据库。完整列表在AMoRe公司旋转搜索和模型排序Z轴-得分。前20名被传给MOLREP公司和雷夫马克5表示完全MR和细化。
2.3.2.MoRDa公司数据库搜索
这个MoRDa公司第个DB步骤,共个辛巴德筛选MoRDa公司潜在MR模板数据库。MoRDa公司包括其自己编辑的PDB版本,该版本包含~90的非冗余域数据库 000个域(在本研究时)。这个辛巴德流水线使用快速AMoRe公司旋转搜索。模型按照MoRDa公司没有其他修改的数据库。然后按以下方式对每一项进行排名Z轴-分数和前200个解决方案被传递给MOLREP公司然后雷夫马克5执行完整MR和精细化。根据初步测试,这个200人的数字能够捕捉到一些非同寻常的病例。随后的工作表明,它在速度和灵敏度之间取得了很好的平衡,尽管还没有进行过广泛的测试。
2.4. 全面MR和细化
每个晶格参数、污染物和MoRDa公司DB搜索是使用first处理最佳得分匹配MOLREP公司执行完整MR搜索,然后雷夫马克5以优化最终定位模型。默认情况下,雷夫马克5次执行30个循环约束细化对于晶格参数和污染物搜索以及100个循环约束细化对于MoRDa公司数据库搜索。默认值用于两个程序中的所有其他参数。结果将显示给用户通过 jsrview公司(克里斯内尔等。, 2018),一个报告生成工具,随一起分发中央对手方清算所4.得分表和曲线图R(右)/R(右)自由的按决赛排序的统计数据R(右)自由的之后的值精炼呈现给用户。安R(右)自由的0.45表示解决方案,但用户也可以检查地图和定位模型。什么时候?辛巴德本地运行,可以使用库特(埃姆斯利等。, 2010). 在线执行时,分子粒度工具UglyMol公司(https://github.com/uglymol)而是使用。这个Z轴-来自AMoRe公司轮换搜索污染物和MoRDa公司DB阶段也可用。补充图S1显示了运行的报告页面辛巴德.
3.结果
3.1. 测试辛巴德管道
的前两个步骤辛巴德格参数搜索和污染物搜索是一种快速而彻底的方法,可以在存在污染物或存在具有非常相似单元尺寸的相关结构的情况下,找到适用于MR的搜索模型。单独调用这两个选项非常适合用于数据收集后快速筛选数据集,以确保不存在污染物。筛选整个MoRDa公司除了发现新污染物或识别错误的情况外,可能的搜索模型数据库还可以为新目标结构找到不明显的搜索模型。
现实地评估辛巴德,我们进行了两组测试。首先,我们测试了它通过格参数和污染物搜索来发现污染物的能力。设计了第二组测试,以调查它从MoRDa公司DB用于确定新结构的解决方案。
3.1.1. 污染物结构溶液测试
识别已知污染物存在的两个主要途径是通过格参数搜索,如果搜索失败,则通过显式测试污染物列表中的每个条目通过这个AMoRe公司旋转搜索。前者具有速度优势,但依赖于几乎相同的污染物结晶单位单元格。后者更彻底,但需要更长的时间。下一节给出了对模拟新型结构进行晶格参数搜索的测试结果。这里,我们展示了污染物搜索的测试结果。
为了模拟污染物在新的空间组/晶胞中结晶的场景,选择了十种结构,代表了一种独特的空间组在我们的污染物列表中的同源物子集中。将这些结构从我们的数据库中删除,以确定污染物搜索是否能够成功识别其他空间群中的同源物,作为MR搜索模型的合适候选。这十个案例代表了广泛的空间组、分辨率和结构类型。
辛巴德在十个测试案例中有九个成功(补充表S3)。失败案例分析(PDB条目3英尺(apo D138L CAP突变体)表明,与9例成功病例相比,该结构的同源物具有更大的构象差异。使用成对结构排列特征测量构象差异GESAMT公司(克里斯内尔,2012年). 最佳搜索模型与目标在C方面进行了比较αr.m.s.d.和a问-得分。对于成功达到平均C的9个案例αr.m.s.d.和问-得分分别为0.51分和0.89分,其中一例未通过污染物数据库中最接近的匹配(PDB条目3英尺)只给了一个Cαr.m.s.d.和问-得分分别为1.56分和0.75分。该车型排名第172位Z轴-3.2分。已经证明apo野生型CAP(PDB条目3英尺)为了结合DNA(Sharma等。, 2009). 这种构象变化可以解释apo D138L CAP突变体(PDB进入)之间的分子内差异3英尺)和apo野生型CAP(PDB条目3英尺)(图3).
| 图3 载脂蛋白D138L CAP突变体(PDB入口)C末端DNA结合域的结构比对3英尺)链条B类(粉红色)和apo野生型CAP(PDB条目3英尺)链条B类(紫色),突出了构象变化。 |
总之,辛巴德能够识别在类似环境中结晶的污染物单位电池使用晶格参数搜索来识别现有结构,但也能够识别以新的方式结晶的污染物,当具有足够相似的(Cα有效值标准偏差<1 结构包含在我们的污染物数据库中。
3.1.2. 测试新型结构解决方案
为了模拟给定目标的序列可能未知的情况,我们测试了辛巴德组合搜索(晶格参数、污染物和MoRDa公司DB搜索)针对PDB中最近发布的一组25个结构。这些案件均于2017年2月或3月发布。这个辛巴德晶格数据库和的版本MoRDa公司测试时使用的数据库不包含任何带有从这组PDB结构或任何随后发布的PDB条目中派生的信息的条目。除此标准外,未对所选PDB条目设置任何特定约束。该集合包含范围广泛的分辨率限制非对称单元,空间群、单体尺寸和二级结构类型(补充表S4)。它还包括最初通过MR、SAD、MAD和SIRAS方法解决的案例。测试结果见补充表S4。辛巴德25个测试案例中有13个成功,成功率为52%。通过地图验证解决方案相关系数(map CC),使用phenix.get_cc_mtz_mtz公司(亚当斯等。, 2010). 正确的解决方案的平均图CC为0.88。六个案例通过格参数搜索解决,其余七个案例通过MoRDa公司数据库搜索。
我们测试的目标之一是检查生成解决方案所需的模型和目标之间的相似程度。为此,我们用三种不同的方法对25个案例中的每一个案例检查了得分最高的成功搜索模型与其各自目标之间的相似性。首先,我们看一下序列恒等式。成功搜索模型对目标的平均序列一致性在格参数搜索中为98%,在格参数检索中为83%MoRDa公司数据库搜索。成功搜索模型与目标之间的最低序列一致性为44%[PDB条目5克使用搜索模型3亿A_1(MoRDa公司DB格式:PDB代码3亿,链条一个,域1)]。然后,我们通过搜索模型检查了目标结构的覆盖率。与目标相对大小最小的搜索模型为3jwn号H_2,约占总含量的14%非对称单元PDB条目的5jqi公司(8条链,共1157个残基)。该型号在MoRDa公司DB搜索并对目标部分进行100%序列识别。平均而言,一个成功的搜索模型占了非对称单元目标的。最后,通过在GESAMT公司,我们将搜索模型与目标进行了C比较αr.m.s.d.和a问-分数(结构相似性的度量,其中1表示相同,0表示结构无关)。成功解决方案的结果显示平均Cαr.m.s.d.s和问-格参数搜索的得分分别为0.63和0.93MoRDa公司数据库搜索。最高Cα模型与成功目标之间的相对标准偏差为0.88 ?(PDB条目5毫克1)格参数搜索与1.08 ?(PDB条目5克)在中MoRDa公司数据库搜索。这个MoRDa公司DB搜索将该车型排在第35位Z轴-得分5.6。
总之,在我们的测试集中辛巴德能够使用搜索模型生成MR解决方案,这些搜索模型在序列一致性(≥44%)、模型覆盖率(≥14%)和C方面与目标显著不同α均方根s.d.(≤1.07 Å). 这证明了辛巴德对于不仅仅是已知的污染物检测,表明它能够找到新结构的解决方案,其中一些搜索模型可用,其特征在上述阈值内,甚至可能超过阈值。值得注意的是,实验数据的分辨率并不影响找到解决方案的能力。成功案例的解决方案在1.5到3.3之间 Å.
作为上述考试的后续,我们考察了辛巴德从MoRDa公司给定C中结构可用性的DBα均方根误差阈值为1.07 Å. 一个GESAMT公司的存档搜索MoRDa公司DB透露辛巴德在17个案例中,只有4个案例失败,其中在MoRDa公司1.07范围内的DB 奥·Cα目标结构的r.m.s.d.(假设最小对准目标的30%)。在四个没有产生解决方案的案例中,有三个(PDB条目5升,5百万立方英尺和5酰基)是至少七个域的多链或多域目标。这个MoRDa公司与这些目标最接近的模型提供的信号太小,无法在AMoRe公司旋转搜索步骤。其余情况(PDB条目5小时)有131个残基的单链MoRDa公司模型(3英尺5A_1、Cα有效值s.d.=0.97 ?)未能在中生成解决方案辛巴德该模型在旋转搜索中提供了微弱信号(Z轴=4),被许多类似但得分较高的搜索模型降级为较低的整体排名,其中包含较长的α-螺旋线。如果使用MoRDa公司DB搜索,最终的最佳搜索模型三次排名第一。最低的AMoRe公司成功搜索模型的排名为170。通过此步骤试验超过90 000个搜索模型,它显示了Z轴-得分已添加到AMoRe公司但也要考虑到在MR和精炼阶段。这个Z轴-成功解决方案的分值范围为5.5(PDB条目5立方英尺)至14.0(PDB条目5uca公司)平均值为8.9。
最后,我们查看了各种测试用例的运行时间。晶格参数步骤中成功的平均运行时间为0.7 最多20芯(2.8 GHz,AMD Opteron 4184)。完成综合搜索平均需要11.6 在40个核上运行h,无论成功与否。
3.2. 用户案例
在本节中,我们将介绍三个案例,其中辛巴德已用于确定由于污染物未经察觉结晶而难以解决的情况。尽管这些目标最终对他们提供的结构洞察力的重要性很低,但他们的解决方案阻止了参与研究人员的进一步错误努力。所有情况都涉及已知污染物的结晶。涉及使用辛巴德对于新的结构解决方案,可以在其他地方获得,例如PDB条目6年前,6c87号和5沃尔.说明使用的案例辛巴德对于之前未排序的目标,由于在编写本报告时正在进行出版物,因此未显示。标签错误晶体的解决方案也未显示。一旦意识到这个错误,研究人员对这些案例就不感兴趣,也没有进一步努力完成结构。
3.2.2。变形沙雷菌氰酶蛋白污染物
污染物蛋白(氰化酶)的晶体在预期结晶细胞因子复合物的条件下生长:用0.1 M(M)醋酸镁,10%聚乙二醇10K,0.1 M(M)MES pH 6.5和悬挂液由井水溶液和蛋白质复合物的1:1混合物组成。在室温下六个月后出现晶体。用20%乙二醇对晶体进行冷冻保护。这些晶体属于空间组 C121,带晶格参数一= 136.56,b条 = 94.13,c(c)= 89.11 Å,α= 90,β= 125.49,γ=90°,其中有五个分子不对称单元。在澳大利亚同步加速器的MX2光束线上,使用ADSC Q315探测器收集衍射数据。这些数据被编入索引,并与扩展数据集.
这个辛巴德 MoRDa公司DB搜索获得了成功的结构解决方案,其中含有来自变形链球菌(PDB条目第4年42). 之后精炼很明显,这是结晶的蛋白质,而不是细胞因子复合物。
用菲尼克斯定义(亚当斯等。, 2010)至1.91 λ分辨率,产生R(右)和R(右)自由的值分别为16.0%和20.2%。使用库特在晶体中,蛋白质的十个分子形成一个二聚五边形环(图5). 坐标和结构因子已作为条目保存在蛋白质数据库中6b6米.
| 图5 的卡通表示变形链球菌氰酶十聚体,通过颜色识别原聚体。 |
以下精细化,发现结晶的氰酸酶与PDB进入序列相同第4年42尽管细胞因子是在大肠杆菌昆虫细胞中产生了细胞系和受体。这表明其中一种表达生物体受到了变形链球菌从而导致污染物结晶。
两者都是辛巴德污染物搜索和ContaMiner公司污染物搜索允许用户将搜索限制在来自特定宿主生物的常见污染物。通常,这是一个节省计算时间的逻辑步骤;然而,这个案例证明了在涉及污染物来源的情况下不进行假设的价值。
该案例还强调了辛巴德使用晶格参数搜索。PDB条目第4年42通过格参数搜索将其识别为一个搜索模型。然而,随后的MR/改进未能提供解决方案。PDB进入原因分析第4年42未能在格参数阶段提供解决方案表明,在如何将结构作为搜索模型输入方面存在疏忽。在本案例运行时,通过晶格参数搜索识别的所有模型都被输入到MR中,从PDB下载后没有修改。事实证明,这种方法足以解决以与PDB中已有结构相同的形式结晶的结构。然而,这将打破结构在对称相关空间群中结晶的情况。
在这个例子中,我们的搜索模型(PDB条目第4年42)在中结晶空间组 P(P)1中有10个分子非对称单元,而我们的晶体在空间组 C121中只有五个分子不对称单元。使用PDB条目第4年42因为没有修改的搜索模型导致MR搜索失败,因为MR搜索试图放置太多单体。辛巴德由于这种情况,随后进行了修改,以使用马修斯系数来检查搜索模型是否适合非对称单元如果完整的PDB条目太大,无法用作搜索模型,则只使用第一个链。这种改变允许在晶格参数搜索中找到解决方案,而不是MoRDa公司后续测试中的数据库搜索。
4.讨论
辛巴德设计用于传统序列MR方法失败的一系列不同场景。到目前为止,辛巴德已被证明在识别晶体污染物方面是有效的,其他类似的方法也被证明是有效的,例如马拉松MR(哈蒂等。, 2016)和ContaMiner公司(饥饿等。, 2016)这表明污染是传统方法失败的主要原因之一。沿着马拉松MR(哈蒂等。, 2017),辛巴德在晶体被错误标记的情况下也被证明是有效的。这可能由于各种原因发生,尤其是在多实验室合作中。辛巴德还成功地确定了未测序蛋白质的结构和交换结晶托盘的情况(数据未显示)。更有雄心壮志,辛巴德还提供了一种可能的方法来解决新的靶点,该靶点在结构上与MoRDa公司但其与该结构的关系仅通过序列比较并不明显。
The different elements of the辛巴德流水线具有非常不同的计算需求。流水线中最快的一步是格参数搜索。将实验晶格参数与储存在Niggli细胞数据库(129)中的晶格参数进行比较 写作时为947),少于10 s.后续MR只需30分钟 当得分最高的搜索模型产生解决方案并且通常少于15分时 min用于更困难的情况。下一个最快的步骤是污染物搜索,通常需要大约15个步骤 最小使用四芯(3.2 GHz,Intel i5-6500),针对完整污染物数据库(349个结构和443个关联MoRDa公司编写时的域)。用户可以通过使用UniProt助记符指定表达有机体来减少搜索模型的数量(UniProt Consortium,2017年); 例如,大肠杆菌将是ECOLI,而酿酒酵母(ATCC 204508/S288c菌株)为酵母。这可以提高污染物搜索的速度,尽管在表达生物体细胞系被不同微生物污染的情况下也可能降低其有效性。晶格参数和污染物搜索非常快速,在束线上收集数据后可以很容易地例行运行,以检查是否存在污染物/标记错误的蛋白质。这将允许识别问题,并建议在可用时从不同的结晶试验中收集额外的数据。
管道中最耗时的步骤是MoRDa公司数据库搜索。使用100核集群(2.8 GHz,AMD Opteron 4184),适用于所有90 共尝试了1000种搜索模型MoRDa公司数据库搜索通常需要4到12个时间 h.小于90时 共尝试了1000种搜索模型MoRDa公司数据库搜索速度明显加快。例如,在TOXD上使用100核集群(一种59氨基酸α-树突毒素中含有一个分子非对称单元CCP4将其作为示例进行分发)只花了不到一个小时(约20 000个搜索模型可能适合单位单元格。虽然晶格参数搜索和污染物搜索适用于台式计算机,但MoRDa公司数据库搜索主要针对集群。尽管如此,测试发现MoRDa公司DB搜索也可以在现代多核桌面上快速运行。使用八芯/16螺纹机器(3.0 GHz,英特尔i7-5960X)MoRDa公司数据库搜索时间介于1和2之间 d在一系列没有排除搜索模型的测试用例上。这个MoRDa公司DB本身需要2.8 GB的存储空间。
4.1. 未来发展
未来将探讨几个领域,以确定它们是否能提高辛巴德。一个关键领域是扩展MoRDa公司数据库搜索还包括蛋白质的截断变体和寡聚形式。作为MoRDa公司DB是一个简化的数据库,顶级模型由辛巴德 MoRDa公司数据库搜索不一定是PDB中最接近的可用匹配项。因此,另一个需要探索的领域是,最佳搜索模型的同系物是否在构造MoRDa公司DB可以提供更好的MR解决方案。
迄今为止,很难准确描述常见污染物,因为这些结构往往要么没有解决,要么没有发表。
作为辛巴德我们预计有可能收集更多关于常见污染物的数据,从而改进我们的污染物数据库。我们也在发展辛巴德使用ContaBase(由提供ContaMiner公司)作为更新污染物数据库的来源。因此,如果用户发现了新污染物,我们建议将该污染物提交给ContaBase,这样对未来都有好处辛巴德和ContaMiner公司搜索。
另一个需要探索的途径是替代评分系统是否能提高辛巴德以及替代当前基于模式的旋转搜索的替代MR程序AMoRe公司搜索。特别是,我们计划在相位器使用其方便的功能在单个作业中处理一批搜索模型。重要的是其他MR程序如何影响管道的灵敏度和速度。
目前,格参数搜索和污染物搜索在中央对手方清算所4我和中央对手方清算所4我2个基于nix的体系结构,计划带来辛巴德到中央对手方清算所4在线服务。
5.结论
晶体污染是每个晶体学家在进行实验时都应该牢记的一种可能性。辛巴德提供了快速可靠的方法来检查是否存在污染物。辛巴德在错误识别晶体的情况下也很有用,在没有明显同源物可用作搜索模型或最合适的搜索模型不是按序列比较排名最高的搜索模型的情况下,也很有用。格参数和污染物搜索辛巴德非常快速,因此我们建议在束线上收集数据后定期运行它们,以确定可能出现的污染物结晶或蛋白质标记错误的情况。
致谢
发展辛巴德灵感来自于与伦敦大学学院的Jon Cooper的合作。我们还要感谢Martyn Winn对开发辛巴德管道。我们感谢2016年CCP4/APS学校在DPS蛋白方面所做的部分工作。RW感谢Weill Cornell Medicine的Gregory A.Petsko对该研究的支持。
资金筹措信息
发展辛巴德得到了BBSRC CCP4赠款BB/L009544/1、利物浦大学和同步加速器SOLEIL的支持。通用汽车/CA@APS全部或部分由美国国家癌症研究所(ACB-12002)和美国国家普通医学科学研究所(AGM-12006)的联邦基金资助。本研究使用了先进光子源的资源,这是美国能源部(DOE)科学办公室用户设施,由阿贡国家实验室根据合同DE-AC02-06CH11357为DOE科学办公室运营。细胞因子/氰化酶方面的工作得到了澳大利亚国家卫生和医学研究委员会(NHMRC)APP1004945拨款的支持,并通过维多利亚州政府运营基础设施支持和澳大利亚NHMRC独立研究院基础设施支持计划在WEHI得以实现。M-NL获得了ANII(乌拉圭国家投资局)的博士后奖学金。
工具书类
P.D.亚当斯。等。(2010).《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Andrews,L.C.和Bernstein,H.J.(2014)。J.应用。克里斯特。 47, 346–359. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。《水晶学报》。D类68, 1622–1631. 科学网 交叉参考 IUCr日志 谷歌学者
Bricogne,G.、Blanc,E.、Brandl,M.、Flensburg,C.、Keller,P.、Paciorek,W.、Roversi,P.和Sharff,A.、Smart,O.S.、Vonrhein,C.和Womack,T.O.(2017)。巴斯特v.2.10.3。英国剑桥Global Phasing Ltd谷歌学者
Caliandro,R.、Carrozzini,B.、Cascarano,G.L.、Giacovazzo,C.、Mazzone,A.和Siliqi,D.(2009年)。《水晶学报》。一个65, 512–527. 科学网 交叉参考 IUCr日志 谷歌学者
Crowther,R.A.(1972年)。分子置换法,由M.G.Rossmann编辑,第173–178页。纽约:Gordon&Breach。 谷歌学者
Crowther,R.A.&Blow,D.M.(1967年)。《水晶学报》。 23, 544–548. 交叉参考 IUCr日志 科学网 谷歌学者
Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。《水晶学报》。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.&McCoy,A.(2008年)。《水晶学报》。D类64, 1–10. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Evans,P.R.和Murshudov,G.N.(2013)。《水晶学报》。D类69, 1204–1214. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Foadi,J.、Woolfson,M.M.、Dodson,E.J.、Wilson,K.S.、Jia-xing,Y.和Chao-de,Z.(2000)。《水晶学报》。D类56, 1137–1147. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Hatti,K.、Biswas,A.、Chaudhary,S.、Dadiredy,V.、Sekar,K.和Srinivasan,N.&Murthy,M.R.N.(2017年)。J.结构。生物。 197, 372–378. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Hatti,K.、Gulati,A.、Srinivasan,N.和Murthy,M.R.N.(2016)。《水晶学报》。D类72, 1081–1089. 科学网 交叉参考 IUCr日志 谷歌学者
Hoppe,W.(1957)。安圭。化学。 69, 659–674. 交叉参考 科学网 谷歌学者
Huber,R.(1965年)。《水晶学报》。 19, 353–356. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Hungler,A.、Momin,A.、Diederichs,K.和Arold,S.T.(2016)。J.应用。克里斯特。 49, 2252–2258. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Jenkins,H.T.(2018)。《水晶学报》。D类74, 205–214. 科学网 交叉参考 IUCr日志 谷歌学者
Kabsch,W.(2010年)。《水晶学报》。D类66, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Keegan,R.M.、McNicholas,S.J.、Thomas,J.M.H.、Simpkin,A.J.、Simkovic,F.、Uski,V.、Ballard,C.C.、Winn,M.D.、Wilson,K.S.和Rigden,D.J.(2018年)。《水晶学报》。D类74, 167–182. 科学网 交叉参考 IUCr日志 谷歌学者
Keegan,R.、Waterman,D.G.、Hopper,D.J.、Coates,L.、Taylor,G.、Guo,J.、Cooker,A.R.、Erskine,P.T.、Wood,S.P.和Cooper,J.B.(2016)。《水晶学报》。D类72,933–943页科学网 交叉参考 IUCr日志 谷歌学者
Krissinel,E.(2007)。生物信息学,23, 717–723. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Krissinel,E.(2012)。分子生物化学杂志。 1,76–85中国科学院 公共医学 谷歌学者
Krissinel,E.和Henrick,K.(2004年)。《水晶学报》。D类60, 2256–2268. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Krissinel,E.、Uski,V.、Lebedev,A.、Winn,M.和Ballard,C.(2018年)。《水晶学报》。D类74, 143–151. 科学网 交叉参考 IUCr日志 谷歌学者
Long,F.、Vagin,A.A.、Young,P.和Murshudov,G.N.(2008年)。《水晶学报》。D类64, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.M.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。程序。美国国家科学院。科学。美国,114, 3637–3641. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
McGill,K.J.、Asadi,M.、Karakasheva,M.T.、Andrews,L.C.和Bernstein,H.J.(2014)。J.应用。克里斯特。 47, 360–364. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Morin,A.,Eisenbraun,B.,Key,J.,Sanschagrin,P.C.,Timony,M.A.,Ottaviano,M.&Sliz,P.(2013)。埃利夫,2,e01456科学网 交叉参考 公共医学 谷歌学者
Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。《水晶学报》。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Murzin,A.G.、Brenner,S.E.、Hubbard,T.和Chothia,C.(1995年)。分子生物学杂志。 247, 536–540. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Navaza,J.(1987)。《水晶学报》。一个43, 645–653. 交叉参考 科学网 IUCr日志 谷歌学者
Navaza,J.(1993年)。《水晶学报》。D类49, 588–591. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Navaza,J.(1994)。《水晶学报》。一个50, 157–163. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
Niedzialkowska,E.、Gasiorowska,O.、Handing,K.B.、Majorek,K.A.、Porebski,P.J.、Shabalin,I.G.、Zasadzinska,E.和Cymborowski,M.&Minor,W.(2016)。蛋白质科学。 25, 720–733. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Qian,B.、Raman,S.、Das,R.、Bradley,P.、McCoy,A.J.、Read,R.J.和Baker,D.(2007)。自然(伦敦),450, 259–264. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Ramraj,V.、Evans,G.、Diprose,J.M.和Esnouf,R.M.(2012)。《水晶学报》。D类68, 1697–1700. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
里德,R.J.(1999年)。《水晶学报》。D类55, 1759–1764. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Read,R.J.(2001)。《水晶学报》。D类57, 1373–1382. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Rigden,D.J.、Keegan,R.M.和Winn,M.D.(2008)。《水晶学报》。D类64, 1288–1291. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
罗德里格斯(Rodríguez,D.D.)、格罗斯(Grosse,C.)、希梅尔(Himmel,S.)、冈萨雷斯(González,C.),德伊拉杜亚(de Ilarduya,I.M.)、贝克尔(Becker,S.,Sheldrick,G.M.&Usón,I.(2009)。自然方法,6, 651–653. 科学网 公共医学 谷歌学者
Rossmann,M.G.和Blow,D.M.(1962)。《水晶学报》。 15, 24–31. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
Sharma,H.、Yu,S.、Kong,J.、Wang,J.&Steitz,T.A.(2009年)。程序。美国国家科学院。科学。美国,106, 16604–16609. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Stokes-Rees,I.&Sliz,P.(2010年)。程序。美国国家科学院。科学。美国,107, 21476–21481. 科学网 中国科学院 公共医学 谷歌学者
Storoni,L.C.、McCoy,A.J.和Read,R.J.(2004)。《水晶学报》。D类60, 432–438. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
UniProt联盟(2017年)。核酸研究。 45,第158天至第169天科学网 交叉参考 公共医学 谷歌学者
Thorn,A.和Sheldrick,G.M.(2013)。《水晶学报》。D类69, 2251–2256. 科学网 交叉参考 IUCr日志 谷歌学者
Vagin,A.和Lebedev,A.(2015)。《水晶学报》。一个71,第19节交叉参考 IUCr日志 谷歌学者
Vagin,A.和Teplyakov,A.(2010年)。《水晶学报》。D类66, 22–25. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
医学博士温恩。等。(2011).《水晶学报》。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Yao,J.、Woolfson,M.M.、Wilson,K.S.和Dodson,E.J.(2005)。《水晶学报》。D类61, 1465–1475. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Yonekura,K.、Watanabe,M.、Kageyama,Y.、Hirata,K.、Yamamoto,M.和Maki Yonekura,S.(2013)。公共科学图书馆一号,8,e78216科学网 交叉参考 公共医学 谷歌学者
| 结构 生物学 |
国际标准编号:2059-7983
打开访问