SIMBAD: a sequence-independent molecular-replacement pipeline

Simpkin, A.J.; Simkovic, F.; Thomas, J.M.H.; Savko, M.; Lebedev, A.; Uski, V.; Ballard, C.; Wojdyr, M.; Wu, R.; Sanishvili, R.; Xu, Y.; Lisa, M.-N.; Buschiazzo, A.; Shepard, W.; Rigden, D.J.; Keegan, R.M.

doi:10.1107/S2059798318005752

研究论文

结构
生物学

国际标准编号：2059-7983

第74卷| 第7部分| 2018年7月| 第595-605页

https://doi.org/10.107/S2059798318005752

打开

访问

辛巴德：序列相关的分子置换管道

^一利物浦大学综合生物学研究所，利物浦L69 7ZB，英格兰，^b条同步加速器SOLEIL，L'Orme des Merisiers，Saint Aubin，BP 48，91192 Gif-sur-Yvette，法国，^c（c）STFC，Rutherford Appleton实验室，Harwell Oxford，Didcot OX11 0FA，英国，^d日英国Didcot OX11 0FA哈维尔牛津卢瑟福阿普尔顿实验室哈维尔研究中心CCP4，^{e（电子）}Global Phasing Ltd，英国剑桥CB3 0AX，^（f）美国纽约州纽约市10021号威尔康奈尔医学院费尔家庭脑与精神研究所，^克总经理/CA@APS美国伊利诺伊州莱蒙市阿贡国家实验室先进光子源X射线科学部，邮编：60439，^小时澳大利亚维多利亚州3052帕克维尔沃尔特和伊丽莎霍尔医学研究所结构生物学部，^我澳大利亚维多利亚州3050帕克维尔皇家游行墨尔本大学医学生物学系^j个乌拉圭蒙得维的亚马托霍巴斯德研究所分子和结构微生物学实验室2020，11400
^*通信电子邮件：drigden@liverpool.ac.uk,ronan.keegan@stfc.ac.uk

英国剑桥大学R.J.Read编辑(2018年3月8日收到； 2018年4月12日接受；在线2018年6月8日)

查找结构相似的搜索模型以用于分子置换（MR）是使用目标的序列来搜索一组已知结构的序列。序列相似性通常与结构相似性相关。给定足够的相似性，通过MR过程正确定位在目标细胞中的已知结构可以提供对目标的未知相位的近似。识别适合MR的同源结构的另一种方法是直接利用测量数据，将晶格参数或实验推导的结构因子振幅与已知结构的振幅进行比较。在这里，辛巴德提出了一种实现这些方法的新的序列相关MR流水线。辛巴德可以识别污染物结晶和其他事故，如错误识别（交换结晶托盘），解决未排序的目标，并提供一种强制方法，其中顺序相关的搜索模型识别可能很重要，例如，由于可识别同源物之间的构象多样性。该程序实现了一个三步流水线，以在已知结构的数据库中有效地识别合适的搜索模型。第一步对整个蛋白质数据库（PDB）执行晶格参数搜索，快速确定同源物是否以相同的晶体形式存在。第二步设计用于筛选目标数据中是否存在结晶污染物，这在大分子晶体学中并不罕见。在这种情况下，使用MR求解结构可能会持续多年，因为假设与感兴趣的结构相似的搜索模型不一定与实际结晶的结构相关。为了应付这种情况，辛巴德根据已知污染物结构的数据库快速筛选数据。当前两个步骤无法产生解决方案时辛巴德可以调用以对由提供的非冗余PDB数据库执行强制搜索MoRDa公司MR软件。通过早期访问使用辛巴德，这种方法解决了其他方面难以解决的新情况。

关键词：分子置换管道;辛巴德;污染物;晶格搜索;结构解决方案.

PDB参考：大肠杆菌DPS，6b0d;大肠杆菌过氧化氢酶HPII，6by0;变形沙雷菌氰化酶，6b6m

类似文章

1.简介

在X射线晶体学中，解决蛋白质的三维结构问题仍然是一项艰巨的任务。即使晶体衍射到高分辨率，许多项目仍因克服相位问题。对于含有数百个以上原子的大分子相位问题direct目前不可行，因此必须使用另一种方法。分子替换（MR）是解决问题最流行的方法，因为它快速、廉价并且可以高度自动化（Evans&McCoy，2008 ; 长等。, 2008 ). MR利用具有相似氨基酸序列的蛋白质通常形成相似的三维结构这一事实。如果已知结构与目标具有相似的序列，则假设存在相应的结构相似性，则来自已知结构的相位信息通常可用作未知结构相位的起点。该程序要求将已知结构重新定向并正确定位在单位电池目标的。包含复杂评分系统的项目，如相位器（麦考伊等。, 2007 )和MOLREP公司（Vagin和Teplyakov，2010年 )已开发用于执行此任务。然而，选择合适的搜索模型仍然是MR的一个限制因素。序列相似性并不总是能确保结构相似性，尤其是在相似性低于30%的情况下（Krissinel和Henrick，2004 ; Krissinel，2007年 ). 最近的一些研究已经找到了寻找结构相似搜索模型的替代方法。通过近似目标结构从头算钱教授已经证明，建模并将其用作搜索模型是可行的等。(2007 )和里格登等。(2008 )可以使用充足的应用程序（Bibby等。, 2012 ). 其他方法利用理想片段或已知结构中经常出现的片段和基序作为MR中的搜索模型。阿西姆博尔多（罗德里格斯等。, 2009 )和弗拉贡（詹金斯，2018年 )是利用这种方法的两个发展。所有这些应用程序都主要依赖于小而高精度的片段正确放置在单位电池目标的。在最极端的情况下，1 分辨率或更好，已经表明可以使用单个原子作为成功的搜索模型（麦考伊等。, 2017 ).

对于更传统的基于序列的方法，已经投入了大量精力开发软件管道，试图从大量精心设计的搜索模型中找到解决方案，这些模型来自潜在合适的同源物。这些示例包括MoRDa公司（Vagin&Lebedev，2015年 ),BUMP先生（基冈等。, 2018 ),棒球（长等。, 2008)和M页（麦考伊等。, 2007). 由于多种原因，这些应用程序或用户手动选择的搜索模型可能会给出较差的结果。其中包括模板搜索的不敏感性(即同源序列与实际结构差异太大），误导序列信息(即污染物已被结晶代替所需的蛋白质）或序列相似性提供了不完善的结构相似性代理(即其中具有高序列相似性的亲属在不同构象状态下结晶）。在这种情况下，阿尔金堡和弗拉贡可以通过正确放置理想碎片（如螺旋线）来获取解决方案，但受分辨率要求的限制SHELXE公司(∼2.4 Å; Thorn&Sheldrick，2013年 )和橡子(∼1.7 Å; 福亚迪等。, 2000 ; 姚明等。, 2005 )分别在改进碎片初始放置的阶段时相位器一些发展试图通过对PDB的强制搜索来挖掘合适的搜索模型来克服这些问题（Stokes-Rees&Sliz，2010）; 哈蒂等。, 2016 ).ContaMiner公司（饥饿等。, 2016 )是另一种专门通过测试MR中已知污染物库来发现污染物的方法。

这里，我们展示了一条新的管道，辛巴德(基于现有数据库的序列无关分子替换)，可用于污染和暴力方法。它检测污染物晶体结构的能力与基冈等案例有关等。(2016 )该结构14年来一直未解决。它通过只测试非冗余PDB条目来确保可接受的低运行时间，如MoRDa公司数据库并通过首先测试熟悉的单位电池或含有已知污染物。MoRDa公司是基于MOLREP公司程序。它的数据库包含来自PDB数据库的冗余删除版本的链，以及如何从单个链构建结构域、低聚物、复合物和系综的定义。在目前的实施中，辛巴德仅使用域定义创建搜索模型。总的来说，辛巴德包含三个步骤：格参数搜索、污染物搜索和非冗余PDBMoRDa公司数据库搜索（以下简称为MoRDa公司DB搜索）。每个模块都可以作为单独的模块运行，完整的运行包括所有三个步骤，称为组合搜索。

在缺乏相关序列标识信息以帮助隔离和评分合适的搜索模型的情况下，辛巴德在执行完整MR搜索之前，利用MR中的旋转函数步骤对搜索模型进行排序。旋转函数是一种三维搜索，用于确定搜索模型的正确方向。霍普（Hoppe，1957）首先在自我模式的背景下讨论了这一点 )和Huber（1965年 ). 然而，我们今天知道的旋转函数是由Rossmann&Blow（1962）首次提出的 ). 利用此初始旋转函数非晶体对称性恢复所需的阶段结构确定。Rossmann和Blow也认识到，这个概念可以应用于将已知分子定位在未知分子中的问题晶格通过应用额外的翻译程序。Crowther&Blow（1967）首次将旋转搜索应用于此 ). 最初的旋转函数是一个缓慢的计算。Crowther根据球谐函数和球贝塞尔函数扩展了Patterson函数，以创建快速旋转函数（Crowther1972 ). Navaza进一步完善了快速旋转函数，使用数值积分规则代替径向函数的展开式（Navaza，1987 ). 正是这个版本的旋转功能被合并到AMoRe公司（纳瓦扎，1993年 ).

最近，里德开始探索最大似然方法作为另一种接近旋转函数的方法（Read，2001 ). 添加到的初始实现野兽（阅读，1999 , 2001)与基于Patterson的旋转函数相比，当应用于困难病例时，显示出更高的灵敏度。这个首字母最大似然该方法计算速度慢。Storoni及其同事在相位器（斯托罗尼等。2004年 ). 似然增强的快速旋转函数利用快速傅里叶变换快速计算的全似然目标的级数近似。这种对完全似然目标的近似将速度提高了几个数量级。最近，卡利安德罗和同事开发了一种概率方法来解决雷诺09（卡利安德罗等。, 2009 ). 类似于最大似然已经讨论过的方法，概率方法为给定环境中的旋转模型构造了概率分布，尽管最终推导的公式与获得的公式不同通过最大似然原则。

辛巴德执行旋转搜索～90 000次筛选完整MoRDa公司DB以及速度和效率非常重要。有鉴于此AMoRe公司选择了旋转函数，因为程序的模块化特性使我们能够从90°坐标系中预先计算出球谐系数数据库 000个型号，这是进行旋转搜索的先决条件。最终，这种方法没有被采用，但它是选择AMoRe公司然而AMoRe公司旋转函数（秒的数量级）使得处理如此大量的搜索模型在一个适度的集群上是可以处理的。

在所有情况下，MR和精炼确定他们是否给出了解决方案。辛巴德可以利用多核集群来加速搜索模型的处理，从而使其组合的三步功能能够在100核机器上运行数小时（2.8 GHz，AMD Opteron 4184）。该软件随中央对手方清算所4套（Winn等。, 2011 )并将通过中央对手方清算所未来的4项在线/云开发。它也可以作为同步加速器束线数据处理管道的一部分运行，以测试结构解析过程早期是否存在污染物。

2.方法

2.1、。战略

的流程图辛巴德管道如图1所示.在三步程序中辛巴德，使用两种不同的方法独立于序列识别未知晶体。第一种方法搜索PDB中晶格参数与未知结构相似的结构。类似的晶格参数通常表明，一种不同的、先前描述的蛋白质被错误结晶（Niedzialkowska等。, 2016 ). 第二种方法利用AMoRe公司（纳瓦扎，1994年 )旋转搜索，筛选候选搜索模型的数据库。这分为两个步骤。第一步包括筛选一个小型结构数据库，这些结构已被确定为通常会污染晶体。第二步包括筛选完整的MoRDa公司数据库。这个MoRDa公司DB运行是迄今为止计算成本最高的步骤，因此首先运行格参数/污染物搜索。

图1
流程图详细说明了辛巴德管道。每种情况下的完整MR步骤是指使用初始搜索（晶格参数、污染物或MoRDa公司DB）。

2.2. 格参数搜索

这个辛巴德格参数搜索采用了与最近的细胞服务器（Ramraj等。, 2012 )和SAUC公司服务器（McGill等。, 2014 ). 从PDB创建了一个包含Niggli的数据库还原细胞，减少的P（P）1个细胞（安德鲁斯和伯恩斯坦，2014 )，对于使用探索_度量_对称中的例程cctbx公司(计算晶体学工具箱;https://github.com/cctbx/cctbx_project项目). 尼格利家族还原电池对于未知数据集，以相同的方式生成，并与数据库中的Niggli约简单元进行比较。

比较分两步进行。首先，在Niggli简化细胞数据库中搜索每个晶格参数在实验数据中各自晶格参数±5%范围内的细胞。其次，为每个Niggli生成一个罚款分数还原电池使用

$[\eqaligno{{rm惩罚}&=|（a{\rme}-a{\rmd}）|+|（b{\rme}-b{\rmd}{\rm d}）|，&（1）}]$

哪里一,b条和c（c）表示单元格边缘的长度α,β和γ表示它们之间的角度。下标e表示实验导出的晶格参数，下标d用于Niggli简化的cell数据库导出的晶格参量。

为了测试惩罚分数较低更有可能导致解决的直觉，从PDB中随机选择了125个数据集组成的测试集（补充表S1）。通过对每个数据集执行格参数搜索，总共获得了2009个具有不同惩罚分数的唯一候选。对于每个候选人，MR和精炼根据相关数据集使用MOLREP公司和雷夫马克5（穆尔舒多夫等。, 2011 ). 如果R（右）_自由的跌至0.45以下。这些数据用于训练逻辑回归分类器（图2). 该训练用于将S形函数拟合到数据中，并给出方程式

$[{\rm概率}={1\over{1+\exp[-（-1.01\times{\rm-pension}+2.11）]}}。\方程式（2）]$

图2
Logistic回归结果表明，罚分可能会导致成功的MR。描述分布的紫色线是使用sigmoid模型拟合的。系数和截距由中的“LogisticRegression”模块确定sklearn公司(https://www.scikit-learn.org). (一)散点表示2009年的原始数据点，其中x个值对应于总罚分和年值设置为1或0表示MR中的成功或失败(b条)直方图表示箱子大小为1的成功/失败比例。该数字已被截断，以显示罚分高达13分的结果；然而，sigmoid模型是根据惩罚分数高达26分的数据集计算得出的。

模型预测候选搜索模型是否会导致MR成功的准确性在测试集上评估为87%，与训练集上的87%相匹配（补充表S2）。此模型已实施到辛巴德向用户指示候选用户是否可能返回解决方案。

我们的模型表明，如果罚分低于2.1，则找到解决方案的概率超过50%。在我们的数据集中，没有一个例子显示，罚分超过12就可以得到解决方案。因此，格参数搜索被设置为返回最多50个默认惩罚分数低于12的模型。

2.3. 循环搜索

辛巴德使用AMoRe公司快速旋转功能，为合适的MR候选人筛选数据库。通过跳过估计无法适应单位电池（通过要求溶剂含量高于30%），并通过在多CPU集群上利用粗粒度并行化，将旋转功能所需的时间降到最低。辛巴德使用晶体的观测振幅与模型的计算振幅（CC_F）之间的相关系数对以下结果进行评分AMoRe公司。顶级解决方案的CC_F分数中的较大峰值表示结构方向正确。因此，为了比较所使用的每个模板结构的解决方案，AMoRe公司已修改为返回Z轴-CC_F分数的分数。这个AMoRe公司 ROTNDO公司子程序修改为输出Z轴-根据CC_F和相关图得出的分数。基于CC_FZ轴-score使用200个随机方向估计模板的平均值和方差。

2.3.1. 污染物搜索

已经编译了一组349个结构，代表了60种常见的污染物蛋白质的不同同源物和空间群。这组包括在开发过程中确定的污染物辛巴德以及其他来源列出的常见污染物（Niedzialkowska等。, 2016; 亨格勒等。, 2016). 此外，来自MoRDa公司DB可能会形成污染物的子成分，从而增加原始数据库。完整列表在AMoRe公司旋转搜索和模型排序Z轴-得分。前20名被传给MOLREP公司和雷夫马克5表示完全MR和细化。

2.3.2.MoRDa公司数据库搜索

这个MoRDa公司第个DB步骤，共个辛巴德筛选MoRDa公司潜在MR模板数据库。MoRDa公司包括其自己编辑的PDB版本，该版本包含～90的非冗余域数据库 000个域（在本研究时）。这个辛巴德流水线使用快速AMoRe公司旋转搜索。模型按照MoRDa公司没有其他修改的数据库。然后按以下方式对每一项进行排名Z轴-分数和前200个解决方案被传递给MOLREP公司然后雷夫马克5执行完整MR和精细化。根据初步测试，这个200人的数字能够捕捉到一些非同寻常的病例。随后的工作表明，它在速度和灵敏度之间取得了很好的平衡，尽管还没有进行过广泛的测试。

2.4. 全面MR和细化

每个晶格参数、污染物和MoRDa公司DB搜索是使用first处理最佳得分匹配MOLREP公司执行完整MR搜索，然后雷夫马克5以优化最终定位模型。默认情况下，雷夫马克5次执行30个循环约束细化对于晶格参数和污染物搜索以及100个循环约束细化对于MoRDa公司数据库搜索。默认值用于两个程序中的所有其他参数。结果将显示给用户通过 jsrview公司（克里斯内尔等。, 2018 )，一个报告生成工具，随一起分发中央对手方清算所4.得分表和曲线图R（右）/R（右）_自由的按决赛排序的统计数据R（右）_自由的之后的值精炼呈现给用户。安R（右）_自由的0.45表示解决方案，但用户也可以检查地图和定位模型。什么时候？辛巴德本地运行，可以使用库特（埃姆斯利等。, 2010 ). 在线执行时，分子粒度工具UglyMol公司(https://github.com/uglymol)而是使用。这个Z轴-来自AMoRe公司轮换搜索污染物和MoRDa公司DB阶段也可用。补充图S1显示了运行的报告页面辛巴德.

3.结果

3.1. 测试辛巴德管道

的前两个步骤辛巴德格参数搜索和污染物搜索是一种快速而彻底的方法，可以在存在污染物或存在具有非常相似单元尺寸的相关结构的情况下，找到适用于MR的搜索模型。单独调用这两个选项非常适合用于数据收集后快速筛选数据集，以确保不存在污染物。筛选整个MoRDa公司除了发现新污染物或识别错误的情况外，可能的搜索模型数据库还可以为新目标结构找到不明显的搜索模型。

现实地评估辛巴德，我们进行了两组测试。首先，我们测试了它通过格参数和污染物搜索来发现污染物的能力。设计了第二组测试，以调查它从MoRDa公司DB用于确定新结构的解决方案。

3.1.1. 污染物结构溶液测试

识别已知污染物存在的两个主要途径是通过格参数搜索，如果搜索失败，则通过显式测试污染物列表中的每个条目通过这个AMoRe公司旋转搜索。前者具有速度优势，但依赖于几乎相同的污染物结晶单位单元格。后者更彻底，但需要更长的时间。下一节给出了对模拟新型结构进行晶格参数搜索的测试结果。这里，我们展示了污染物搜索的测试结果。

为了模拟污染物在新的空间组/晶胞中结晶的场景，选择了十种结构，代表了一种独特的空间组在我们的污染物列表中的同源物子集中。将这些结构从我们的数据库中删除，以确定污染物搜索是否能够成功识别其他空间群中的同源物，作为MR搜索模型的合适候选。这十个案例代表了广泛的空间组、分辨率和结构类型。

辛巴德在十个测试案例中有九个成功（补充表S3）。失败案例分析（PDB条目3英尺（apo D138L CAP突变体）表明，与9例成功病例相比，该结构的同源物具有更大的构象差异。使用成对结构排列特征测量构象差异GESAMT公司（克里斯内尔，2012年 ). 最佳搜索模型与目标在C方面进行了比较^αr.m.s.d.和a问-得分。对于成功达到平均C的9个案例^αr.m.s.d.和问-得分分别为0.51分和0.89分，其中一例未通过污染物数据库中最接近的匹配（PDB条目3英尺)只给了一个C^αr.m.s.d.和问-得分分别为1.56分和0.75分。该车型排名第172位Z轴-3.2分。已经证明apo野生型CAP（PDB条目3英尺)为了结合DNA（Sharma等。, 2009 ). 这种构象变化可以解释apo D138L CAP突变体（PDB进入）之间的分子内差异3英尺)和apo野生型CAP（PDB条目3英尺)（图3).

图3
载脂蛋白D138L CAP突变体（PDB入口）C末端DNA结合域的结构比对3英尺)链条B类（粉红色）和apo野生型CAP（PDB条目3英尺)链条B类（紫色），突出了构象变化。

总之，辛巴德能够识别在类似环境中结晶的污染物单位电池使用晶格参数搜索来识别现有结构，但也能够识别以新的方式结晶的污染物，当具有足够相似的（C^α有效值标准偏差<1 结构包含在我们的污染物数据库中。

3.1.2. 测试新型结构解决方案

为了模拟给定目标的序列可能未知的情况，我们测试了辛巴德组合搜索（晶格参数、污染物和MoRDa公司DB搜索）针对PDB中最近发布的一组25个结构。这些案件均于2017年2月或3月发布。这个辛巴德晶格数据库和的版本MoRDa公司测试时使用的数据库不包含任何带有从这组PDB结构或任何随后发布的PDB条目中派生的信息的条目。除此标准外，未对所选PDB条目设置任何特定约束。该集合包含范围广泛的分辨率限制非对称单元，空间群、单体尺寸和二级结构类型（补充表S4）。它还包括最初通过MR、SAD、MAD和SIRAS方法解决的案例。测试结果见补充表S4。辛巴德25个测试案例中有13个成功，成功率为52%。通过地图验证解决方案相关系数（map CC），使用phenix.get_cc_mtz_mtz公司（亚当斯等。, 2010 ). 正确的解决方案的平均图CC为0.88。六个案例通过格参数搜索解决，其余七个案例通过MoRDa公司数据库搜索。

我们测试的目标之一是检查生成解决方案所需的模型和目标之间的相似程度。为此，我们用三种不同的方法对25个案例中的每一个案例检查了得分最高的成功搜索模型与其各自目标之间的相似性。首先，我们看一下序列恒等式。成功搜索模型对目标的平均序列一致性在格参数搜索中为98%，在格参数检索中为83%MoRDa公司数据库搜索。成功搜索模型与目标之间的最低序列一致性为44%[PDB条目5克使用搜索模型3亿A_1(MoRDa公司DB格式：PDB代码3亿，链条一个，域1）]。然后，我们通过搜索模型检查了目标结构的覆盖率。与目标相对大小最小的搜索模型为3jwn号H_2，约占总含量的14%非对称单元PDB条目的5jqi公司（8条链，共1157个残基）。该型号在MoRDa公司DB搜索并对目标部分进行100%序列识别。平均而言，一个成功的搜索模型占了非对称单元目标的。最后，通过在GESAMT公司，我们将搜索模型与目标进行了C比较^αr.m.s.d.和a问-分数（结构相似性的度量，其中1表示相同，0表示结构无关）。成功解决方案的结果显示平均C^αr.m.s.d.s和问-格参数搜索的得分分别为0.63和0.93MoRDa公司数据库搜索。最高C^α模型与成功目标之间的相对标准偏差为0.88 ？（PDB条目5毫克1)格参数搜索与1.08 ？（PDB条目5克)在中MoRDa公司数据库搜索。这个MoRDa公司DB搜索将该车型排在第35位Z轴-得分5.6。

总之，在我们的测试集中辛巴德能够使用搜索模型生成MR解决方案，这些搜索模型在序列一致性（≥44%）、模型覆盖率（≥14%）和C方面与目标显著不同^α均方根s.d.（≤1.07 Å). 这证明了辛巴德对于不仅仅是已知的污染物检测，表明它能够找到新结构的解决方案，其中一些搜索模型可用，其特征在上述阈值内，甚至可能超过阈值。值得注意的是，实验数据的分辨率并不影响找到解决方案的能力。成功案例的解决方案在1.5到3.3之间 Å.

作为上述考试的后续，我们考察了辛巴德从MoRDa公司给定C中结构可用性的DB^α均方根误差阈值为1.07 Å. 一个GESAMT公司的存档搜索MoRDa公司DB透露辛巴德在17个案例中，只有4个案例失败，其中在MoRDa公司1.07范围内的DB 奥·C^α目标结构的r.m.s.d.（假设最小对准目标的30%）。在四个没有产生解决方案的案例中，有三个（PDB条目5升,5百万立方英尺和5酰基)是至少七个域的多链或多域目标。这个MoRDa公司与这些目标最接近的模型提供的信号太小，无法在AMoRe公司旋转搜索步骤。其余情况（PDB条目5小时)有131个残基的单链MoRDa公司模型(3英尺5A_1、C^α有效值s.d.=0.97 ？）未能在中生成解决方案辛巴德该模型在旋转搜索中提供了微弱信号(Z轴=4），被许多类似但得分较高的搜索模型降级为较低的整体排名，其中包含较长的α-螺旋线。如果使用MoRDa公司DB搜索，最终的最佳搜索模型三次排名第一。最低的AMoRe公司成功搜索模型的排名为170。通过此步骤试验超过90 000个搜索模型，它显示了Z轴-得分已添加到AMoRe公司但也要考虑到在MR和精炼阶段。这个Z轴-成功解决方案的分值范围为5.5（PDB条目5立方英尺)至14.0（PDB条目5uca公司)平均值为8.9。

最后，我们查看了各种测试用例的运行时间。晶格参数步骤中成功的平均运行时间为0.7 最多20芯（2.8 GHz，AMD Opteron 4184）。完成综合搜索平均需要11.6 在40个核上运行h，无论成功与否。

3.2. 用户案例

在本节中，我们将介绍三个案例，其中辛巴德已用于确定由于污染物未经察觉结晶而难以解决的情况。尽管这些目标最终对他们提供的结构洞察力的重要性很低，但他们的解决方案阻止了参与研究人员的进一步错误努力。所有情况都涉及已知污染物的结晶。涉及使用辛巴德对于新的结构解决方案，可以在其他地方获得，例如PDB条目6年前,6c87号和5沃尔.说明使用的案例辛巴德对于之前未排序的目标，由于在编写本报告时正在进行出版物，因此未显示。标签错误晶体的解决方案也未显示。一旦意识到这个错误，研究人员对这些案例就不感兴趣，也没有进一步努力完成结构。

3.2.1.大肠杆菌DPS蛋白质污染物

污染蛋白DPS（饥饿期间的DNA-保护蛋白）的晶体在先前确定的半胱天冬酶1条件下生长：蒸汽扩散法，含有0.1 M（M）氯化钠，0.1 M（M）双三pH 6.5，1.5 M（M）硫酸铵和悬挂液滴由井液和8的1:1混合物组成毫克毫升⁻¹50的缓冲液中的蛋白质米M（M）乙酸钠pH 5.9，100 米M（M）NaCl，5%甘油（R.Wu，未发表结果）。晶体没有在预期的时间范围内生长，但在环境温度下几个月后出现。通过向井溶液中加入20%甘油对它们进行冷冻保护，并在液氮中冷冻冷却。这些晶体属于空间组 C222₁，具有晶格参数一= 117.62,b条= 133.97,c（c）=139.11 Å,α = β=γ=90°，推测在不对称单元。衍射数据在100时测量 K使用PILATUS3 6M探测器（Dectris）在23ID-D波束线上GMCA@亚太地区在美国阿贡国家实验室的高级光子源中，数据被索引、整合并用扩展数据集（卡布施，2010年 ).

这个辛巴德 MoRDa公司DB搜索成功地获得了一种167-残留蛋白质的结构，该蛋白质被鉴定为在饥饿期间保护DNA的蛋白质大肠杆菌（PDB条目第1页，共30页)在SCOP数据库（Murzin等。, 1995 ). 之后精细化，很明显，这是结晶的蛋白质，而不是半胱天冬酶1。DPS的结构用雷夫马克中的5中央对手方清算所4套至1.5套分辨率，导致R（右）和R（右）_自由的值分别为17.64%和20.77%。使用库特在晶体中，蛋白质的12个分子形成一个空心球体，与铁蛋白晶体中形成的球体非常相似（图4). 坐标和结构因子已保存在带有登录代码的蛋白质数据库中6b0天原始数据保存在SBGrid（Morin）等。，2013年 ).

图4
的卡通表示大肠杆菌DPS十二聚体，通过颜色识别原聚体。

半胱氨酸天冬氨酸蛋白酶1先前已成功纯化和结晶，其结构已通过MR（R.Wu，未发表的结果）进行了解析。虽然有迹象表明新蛋白制剂可能受到污染，但它们不够清楚或有合理的替代解释。例如，当前蛋白质样品中的晶体看起来与半胱天冬酶1结构溶液中使用的晶体不同，并且具有非常不同的单位-细胞参数。然而，这归因于caspase 1在当前样品中交联。人们认为交联可能干扰了正确的折叠，因为胱天蛋白酶1从两个折叠肽类分两步进行。因此，人们认为最终产物的结构可能与之前结构已被解决的分子有显著不同。MR最初的困难也归因于同样的可能性。

3.2.2。变形沙雷菌氰酶蛋白污染物

污染物蛋白（氰化酶）的晶体在预期结晶细胞因子复合物的条件下生长：用0.1 M（M）醋酸镁，10%聚乙二醇10K，0.1 M（M）MES pH 6.5和悬挂液由井水溶液和蛋白质复合物的1:1混合物组成。在室温下六个月后出现晶体。用20%乙二醇对晶体进行冷冻保护。这些晶体属于空间组 C121，带晶格参数一= 136.56,b条 = 94.13,c（c）= 89.11 Å,α= 90,β= 125.49,γ=90°，其中有五个分子不对称单元。在澳大利亚同步加速器的MX2光束线上，使用ADSC Q315探测器收集衍射数据。这些数据被编入索引，并与扩展数据集.

这个辛巴德 MoRDa公司DB搜索获得了成功的结构解决方案，其中含有来自变形链球菌（PDB条目第4年42). 之后精炼很明显，这是结晶的蛋白质，而不是细胞因子复合物。

用菲尼克斯定义（亚当斯等。, 2010)至1.91 λ分辨率，产生R（右）和R（右）_自由的值分别为16.0%和20.2%。使用库特在晶体中，蛋白质的十个分子形成一个二聚五边形环（图5). 坐标和结构因子已作为条目保存在蛋白质数据库中6b6米.

图5
的卡通表示变形链球菌氰酶十聚体，通过颜色识别原聚体。

以下精细化，发现结晶的氰酸酶与PDB进入序列相同第4年42尽管细胞因子是在大肠杆菌昆虫细胞中产生了细胞系和受体。这表明其中一种表达生物体受到了变形链球菌从而导致污染物结晶。

两者都是辛巴德污染物搜索和ContaMiner公司污染物搜索允许用户将搜索限制在来自特定宿主生物的常见污染物。通常，这是一个节省计算时间的逻辑步骤；然而，这个案例证明了在涉及污染物来源的情况下不进行假设的价值。

该案例还强调了辛巴德使用晶格参数搜索。PDB条目第4年42通过格参数搜索将其识别为一个搜索模型。然而，随后的MR/改进未能提供解决方案。PDB进入原因分析第4年42未能在格参数阶段提供解决方案表明，在如何将结构作为搜索模型输入方面存在疏忽。在本案例运行时，通过晶格参数搜索识别的所有模型都被输入到MR中，从PDB下载后没有修改。事实证明，这种方法足以解决以与PDB中已有结构相同的形式结晶的结构。然而，这将打破结构在对称相关空间群中结晶的情况。

在这个例子中，我们的搜索模型（PDB条目第4年42)在中结晶空间组 P（P）1中有10个分子非对称单元，而我们的晶体在空间组 C121中只有五个分子不对称单元。使用PDB条目第4年42因为没有修改的搜索模型导致MR搜索失败，因为MR搜索试图放置太多单体。辛巴德由于这种情况，随后进行了修改，以使用马修斯系数来检查搜索模型是否适合非对称单元如果完整的PDB条目太大，无法用作搜索模型，则只使用第一个链。这种改变允许在晶格参数搜索中找到解决方案，而不是MoRDa公司后续测试中的数据库搜索。

3.2.3.大肠杆菌过氧化氢酶HPII蛋白污染物

污染蛋白过氧化氢酶HPII的晶体从10 毫克毫升⁻¹靶蛋白A的溶液（图6一). 蛋白质A产生于大肠杆菌TOP10F′细胞，作为具有6×His标签的重组融合物过表达，并通过连续的金属亲和力和尺寸排除色谱法步骤。质谱法（4800 MALDI-TOF/TOF，Abi Sciex）证实了纯化目标蛋白的预期特性。随后，在600℃下19°C培养三个月后，通过蒸汽扩散获得晶体 nl液滴由蛋白质和储液溶液的1:1混合物组成，采用90°的坐滴装置 µl储液罐溶液[0.085 M（M）Na HEPES pH 7.5，17%(w个/v（v）)聚乙二醇4000，15%(v（v）/v（v）)甘油，8.5%(v（v）/v（v）)2-丙醇或0.1 M（M）HEPES pH 7.0，20%(w个/v（v）)聚乙二醇6000，1.0 M（M）氯化锂]。单晶长度约为60 μm，并在液氮中闪蒸冷却。使用波长0.97946的辐射在英国钻石光源的光束线I04上收集X射线衍射数据 Å. 衍射数据使用扩展数据集和缩放比例无AIMLESS（Evans&Murshudov，2013年 )来自中央对手方清算所4程序套件。晶体生长在空间组 P（P）1，带单位-细胞参数一=69.34，b条 = 90.14,c（c） = 114.76 Å,α= 107.10,β= 105.60,γ=95.98°，衍射X射线至2.93 奥分辨率。使用失败的初始阶段化尝试分子置换（MR），模型显示我们目标的20-30%序列身份（PDB中可用的最佳点击数）作为搜索探针。从头算/MR阶段化策略，如阿西姆博尔多也被证明是不成功的，可能是因为决议有限。我们决定优化结晶条件，以获得衍射X射线到更高分辨率的晶体，并应用实验定相方法。从2个 µl悬挂液滴 ml的储液器溶液，表明即使使用了新的蛋白质批次，晶体发生也是可重复的。然而，此时使用辛巴德易于识别的PDB条目3伏3（Yonekura）等。，2013年 )作为一个成功的MR搜索模型。84份副本 kDa产品大肠杆菌 凯特基因发现于P（P）1单位电池，揭示过氧化氢酶HPII的已知同源四聚体组装（图6b条). 通过使用库特和精炼具有巴斯特（布里科涅等。, 2017 )，进入决赛R（右）和R（右）_自由的值分别为0.183和0.236。原子坐标和结构因子作为入口保存在PDB中6按0原始数据已存放在SBGrid中。质谱法采用四极轨道混合动力质谱仪（Q-Exactive Plus，Thermo）透露大肠杆菌在用于结晶的蛋白质样品中，过氧化氢酶HPII与我们的靶蛋白的比例为～1:40。尽管过氧化氢酶HPII是一种已知的易于结晶的污染物（Yonekura等。，2013年)，的P（P）1晶格之前没有报告，逃过了PDB范围内的搜索辛巴德格参数搜索。

图6
(一)用于结晶的蛋白质样品的SDS-PAGE。分子质量标记以kDa为单位进行标记。(b条)的卡通表示大肠杆菌过氧化氢酶HPII四聚体，通过颜色识别原聚体。

4.讨论

辛巴德设计用于传统序列MR方法失败的一系列不同场景。到目前为止，辛巴德已被证明在识别晶体污染物方面是有效的，其他类似的方法也被证明是有效的，例如马拉松MR（哈蒂等。, 2016)和ContaMiner公司（饥饿等。, 2016)这表明污染是传统方法失败的主要原因之一。沿着马拉松MR（哈蒂等。, 2017 ),辛巴德在晶体被错误标记的情况下也被证明是有效的。这可能由于各种原因发生，尤其是在多实验室合作中。辛巴德还成功地确定了未测序蛋白质的结构和交换结晶托盘的情况（数据未显示）。更有雄心壮志，辛巴德还提供了一种可能的方法来解决新的靶点，该靶点在结构上与MoRDa公司但其与该结构的关系仅通过序列比较并不明显。

The different elements of the辛巴德流水线具有非常不同的计算需求。流水线中最快的一步是格参数搜索。将实验晶格参数与储存在Niggli细胞数据库（129）中的晶格参数进行比较写作时为947），少于10 s.后续MR只需30分钟当得分最高的搜索模型产生解决方案并且通常少于15分时 min用于更困难的情况。下一个最快的步骤是污染物搜索，通常需要大约15个步骤最小使用四芯（3.2 GHz，Intel i5-6500），针对完整污染物数据库（349个结构和443个关联MoRDa公司编写时的域）。用户可以通过使用UniProt助记符指定表达有机体来减少搜索模型的数量（UniProt Consortium，2017年 ); 例如，大肠杆菌将是ECOLI，而酿酒酵母（ATCC 204508/S288c菌株）为酵母。这可以提高污染物搜索的速度，尽管在表达生物体细胞系被不同微生物污染的情况下也可能降低其有效性。晶格参数和污染物搜索非常快速，在束线上收集数据后可以很容易地例行运行，以检查是否存在污染物/标记错误的蛋白质。这将允许识别问题，并建议在可用时从不同的结晶试验中收集额外的数据。

管道中最耗时的步骤是MoRDa公司数据库搜索。使用100核集群（2.8 GHz，AMD Opteron 4184），适用于所有90 共尝试了1000种搜索模型MoRDa公司数据库搜索通常需要4到12个时间 h.小于90时共尝试了1000种搜索模型MoRDa公司数据库搜索速度明显加快。例如，在TOXD上使用100核集群（一种59氨基酸α-树突毒素中含有一个分子非对称单元CCP4将其作为示例进行分发）只花了不到一个小时（约20 000个搜索模型可能适合单位单元格。虽然晶格参数搜索和污染物搜索适用于台式计算机，但MoRDa公司数据库搜索主要针对集群。尽管如此，测试发现MoRDa公司DB搜索也可以在现代多核桌面上快速运行。使用八芯/16螺纹机器（3.0 GHz，英特尔i7-5960X）MoRDa公司数据库搜索时间介于1和2之间 d在一系列没有排除搜索模型的测试用例上。这个MoRDa公司DB本身需要2.8 GB的存储空间。

4.1. 未来发展

未来将探讨几个领域，以确定它们是否能提高辛巴德。一个关键领域是扩展MoRDa公司数据库搜索还包括蛋白质的截断变体和寡聚形式。作为MoRDa公司DB是一个简化的数据库，顶级模型由辛巴德 MoRDa公司数据库搜索不一定是PDB中最接近的可用匹配项。因此，另一个需要探索的领域是，最佳搜索模型的同系物是否在构造MoRDa公司DB可以提供更好的MR解决方案。

迄今为止，很难准确描述常见污染物，因为这些结构往往要么没有解决，要么没有发表。

作为辛巴德我们预计有可能收集更多关于常见污染物的数据，从而改进我们的污染物数据库。我们也在发展辛巴德使用ContaBase（由提供ContaMiner公司)作为更新污染物数据库的来源。因此，如果用户发现了新污染物，我们建议将该污染物提交给ContaBase，这样对未来都有好处辛巴德和ContaMiner公司搜索。

另一个需要探索的途径是替代评分系统是否能提高辛巴德以及替代当前基于模式的旋转搜索的替代MR程序AMoRe公司搜索。特别是，我们计划在相位器使用其方便的功能在单个作业中处理一批搜索模型。重要的是其他MR程序如何影响管道的灵敏度和速度。

目前，格参数搜索和污染物搜索在中央对手方清算所4我和中央对手方清算所4我2个基于nix的体系结构，计划带来辛巴德到中央对手方清算所4在线服务。

5.结论

晶体污染是每个晶体学家在进行实验时都应该牢记的一种可能性。辛巴德提供了快速可靠的方法来检查是否存在污染物。辛巴德在错误识别晶体的情况下也很有用，在没有明显同源物可用作搜索模型或最合适的搜索模型不是按序列比较排名最高的搜索模型的情况下，也很有用。格参数和污染物搜索辛巴德非常快速，因此我们建议在束线上收集数据后定期运行它们，以确定可能出现的污染物结晶或蛋白质标记错误的情况。

支持信息

3D视图

PDB参考：大肠杆菌DPS，6b0d;大肠杆菌过氧化氢酶HPII，6by0;变形沙雷菌氰化酶，6b6m

补充图S1。内政部：https://doi.org/10.107/S2059798318005752/rr5159sup1.pdf

补充表S1。125个随机选择的数据集用于计算格参数搜索的概率分数。内政部：https://doi.org/10.107/S2059798318005752/rr5159sup2.xlsx

补充表S2。概率模型的训练集和测试集的分类报告。使用scikit-learn生成(https://www.scikit-learn.org). 内政部：https://doi.org/10.107/S2059798318005752/rr5159sup3.xlsx

补充表S3。污染物测试结果。内政部：https://doi.org/10.107/S2059798318005752/rr5159sup4.xlsx

补充表S4。晶格和MoRDa DB测试的结果。内政部：https://doi.org/10.107/S2059798318005752/rr5159sup5.xlsx

脚注

‡当前地址：阿根廷罗萨里奥，Predio CCT，奥坎波-埃斯梅拉达，2000年，罗萨里奥·科勒勒·德·罗萨里奥·生物研究所（IBR，CONICET–UNR）。

致谢

发展辛巴德灵感来自于与伦敦大学学院的Jon Cooper的合作。我们还要感谢Martyn Winn对开发辛巴德管道。我们感谢2016年CCP4/APS学校在DPS蛋白方面所做的部分工作。RW感谢Weill Cornell Medicine的Gregory A.Petsko对该研究的支持。

资金筹措信息

发展辛巴德得到了BBSRC CCP4赠款BB/L009544/1、利物浦大学和同步加速器SOLEIL的支持。通用汽车/CA@APS全部或部分由美国国家癌症研究所（ACB-12002）和美国国家普通医学科学研究所（AGM-12006）的联邦基金资助。本研究使用了先进光子源的资源，这是美国能源部（DOE）科学办公室用户设施，由阿贡国家实验室根据合同DE-AC02-06CH11357为DOE科学办公室运营。细胞因子/氰化酶方面的工作得到了澳大利亚国家卫生和医学研究委员会（NHMRC）APP1004945拨款的支持，并通过维多利亚州政府运营基础设施支持和澳大利亚NHMRC独立研究院基础设施支持计划在WEHI得以实现。M-NL获得了ANII（乌拉圭国家投资局）的博士后奖学金。

工具书类

P.D.亚当斯。等。(2010).《水晶学报》。D类66, 213–221. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Andrews，L.C.和Bernstein，H.J.（2014）。J.应用。克里斯特。 47, 346–359. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Bibby，J.、Keegan，R.M.、Mayans，O.、Winn，M.D.和Rigden，D.J.（2012）。《水晶学报》。D类68, 1622–1631. 科学网交叉参考 IUCr日志谷歌学者
 Bricogne，G.、Blanc，E.、Brandl，M.、Flensburg，C.、Keller，P.、Paciorek，W.、Roversi，P.和Sharff，A.、Smart，O.S.、Vonrhein，C.和Womack，T.O.（2017）。巴斯特v.2.10.3。英国剑桥Global Phasing Ltd谷歌学者
 Caliandro，R.、Carrozzini，B.、Cascarano，G.L.、Giacovazzo，C.、Mazzone，A.和Siliqi，D.（2009年）。《水晶学报》。一个65, 512–527. 科学网交叉参考 IUCr日志谷歌学者
 Crowther，R.A.（1972年）。分子置换法，由M.G.Rossmann编辑，第173–178页。纽约：Gordon&Breach。谷歌学者
 Crowther，R.A.&Blow，D.M.（1967年）。《水晶学报》。 23, 544–548. 交叉参考 IUCr日志科学网谷歌学者
 Emsley，P.、Lohkamp，B.、Scott，W.G.和Cowtan，K.（2010年）。《水晶学报》。D类66, 486–501. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.&McCoy，A.（2008年）。《水晶学报》。D类64, 1–10. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Evans，P.R.和Murshudov，G.N.（2013）。《水晶学报》。D类69, 1204–1214. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Foadi，J.、Woolfson，M.M.、Dodson，E.J.、Wilson，K.S.、Jia-xing，Y.和Chao-de，Z.（2000）。《水晶学报》。D类56, 1137–1147. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Hatti，K.、Biswas，A.、Chaudhary，S.、Dadiredy，V.、Sekar，K.和Srinivasan，N.&Murthy，M.R.N.（2017年）。J.结构。生物。 197, 372–378. 科学网交叉参考中国科学院公共医学谷歌学者
 Hatti，K.、Gulati，A.、Srinivasan，N.和Murthy，M.R.N.（2016）。《水晶学报》。D类72, 1081–1089. 科学网交叉参考 IUCr日志谷歌学者
 Hoppe，W.（1957）。安圭。化学。 69, 659–674. 交叉参考科学网谷歌学者
 Huber，R.（1965年）。《水晶学报》。 19, 353–356. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Hungler，A.、Momin，A.、Diederichs，K.和Arold，S.T.（2016）。J.应用。克里斯特。 49, 2252–2258. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Jenkins，H.T.（2018）。《水晶学报》。D类74, 205–214. 科学网交叉参考 IUCr日志谷歌学者
 Kabsch，W.（2010年）。《水晶学报》。D类66, 125–132. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Keegan，R.M.、McNicholas，S.J.、Thomas，J.M.H.、Simpkin，A.J.、Simkovic，F.、Uski，V.、Ballard，C.C.、Winn，M.D.、Wilson，K.S.和Rigden，D.J.（2018年）。《水晶学报》。D类74, 167–182. 科学网交叉参考 IUCr日志谷歌学者
 Keegan，R.、Waterman，D.G.、Hopper，D.J.、Coates，L.、Taylor，G.、Guo，J.、Cooker，A.R.、Erskine，P.T.、Wood，S.P.和Cooper，J.B.（2016）。《水晶学报》。D类72，933–943页科学网交叉参考 IUCr日志谷歌学者
 Krissinel，E.（2007）。生物信息学,23, 717–723. 科学网交叉参考公共医学中国科学院谷歌学者
 Krissinel，E.（2012）。分子生物化学杂志。 1，76–85中国科学院公共医学谷歌学者
 Krissinel，E.和Henrick，K.（2004年）。《水晶学报》。D类60, 2256–2268. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Krissinel，E.、Uski，V.、Lebedev，A.、Winn，M.和Ballard，C.（2018年）。《水晶学报》。D类74, 143–151. 科学网交叉参考 IUCr日志谷歌学者
 Long，F.、Vagin，A.A.、Young，P.和Murshudov，G.N.（2008年）。《水晶学报》。D类64, 125–132. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Grosse-Kunstleve，R.W.、Adams，P.D.、Winn，M.D.、Storoni，L.C.和Read，R.J.（2007年）。J.应用。克里斯特。 40, 658–674. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Oeffner，R.D.、Wrobel，A.G.、Ojala，J.R.M.、Tryggvason，K.、Lohkamp，B.和Read，R.J.（2017）。程序。美国国家科学院。科学。美国,114, 3637–3641. 科学网交叉参考中国科学院公共医学谷歌学者
 McGill，K.J.、Asadi，M.、Karakasheva，M.T.、Andrews，L.C.和Bernstein，H.J.（2014）。J.应用。克里斯特。 47, 360–364. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Morin，A.，Eisenbraun，B.，Key，J.，Sanschagrin，P.C.，Timony，M.A.，Ottaviano，M.&Sliz，P.（2013）。埃利夫,2，e01456科学网交叉参考公共医学谷歌学者
 Murshudov，G.N.、Skubák，P.、Lebedev，A.A.、Pannu，N.S.、Steiner，R.A.、Nicholls，R.A、Winn，M.D.、Long，F.&Vagin，A.（2011）。《水晶学报》。D类67, 355–367. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Murzin，A.G.、Brenner，S.E.、Hubbard，T.和Chothia，C.（1995年）。分子生物学杂志。 247, 536–540. 交叉参考中国科学院公共医学科学网谷歌学者
 Navaza，J.（1987）。《水晶学报》。一个43, 645–653. 交叉参考科学网 IUCr日志谷歌学者
 Navaza，J.（1993年）。《水晶学报》。D类49, 588–591. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Navaza，J.（1994）。《水晶学报》。一个50, 157–163. 交叉参考中国科学院科学网 IUCr日志谷歌学者
 Niedzialkowska，E.、Gasiorowska，O.、Handing，K.B.、Majorek，K.A.、Porebski，P.J.、Shabalin，I.G.、Zasadzinska，E.和Cymborowski，M.&Minor，W.（2016）。蛋白质科学。 25, 720–733. 科学网交叉参考中国科学院公共医学谷歌学者
 Qian，B.、Raman，S.、Das，R.、Bradley，P.、McCoy，A.J.、Read，R.J.和Baker，D.（2007）。自然（伦敦）,450, 259–264. 科学网交叉参考公共医学中国科学院谷歌学者
 Ramraj，V.、Evans，G.、Diprose，J.M.和Esnouf，R.M.（2012）。《水晶学报》。D类68, 1697–1700. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 里德，R.J.（1999年）。《水晶学报》。D类55, 1759–1764. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Read，R.J.（2001）。《水晶学报》。D类57, 1373–1382. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Rigden，D.J.、Keegan，R.M.和Winn，M.D.（2008）。《水晶学报》。D类64, 1288–1291. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 罗德里格斯（Rodríguez，D.D.）、格罗斯（Grosse，C.）、希梅尔（Himmel，S.）、冈萨雷斯（González，C.），德伊拉杜亚（de Ilarduya，I.M.）、贝克尔（Becker，S.，Sheldrick，G.M.&Usón，I.（2009）。自然方法,6, 651–653. 科学网公共医学谷歌学者
 Rossmann，M.G.和Blow，D.M.（1962）。《水晶学报》。 15, 24–31. 交叉参考中国科学院 IUCr日志科学网谷歌学者
 Sharma，H.、Yu，S.、Kong，J.、Wang，J.&Steitz，T.A.（2009年）。程序。美国国家科学院。科学。美国,106, 16604–16609. 科学网交叉参考公共医学中国科学院谷歌学者
 Stokes-Rees，I.&Sliz，P.（2010年）。程序。美国国家科学院。科学。美国,107, 21476–21481. 科学网中国科学院公共医学谷歌学者
 Storoni，L.C.、McCoy，A.J.和Read，R.J.（2004）。《水晶学报》。D类60, 432–438. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 UniProt联盟（2017年）。核酸研究。 45，第158天至第169天科学网交叉参考公共医学谷歌学者
 Thorn，A.和Sheldrick，G.M.（2013）。《水晶学报》。D类69, 2251–2256. 科学网交叉参考 IUCr日志谷歌学者
 Vagin，A.和Lebedev，A.（2015）。《水晶学报》。一个71，第19节交叉参考 IUCr日志谷歌学者
 Vagin，A.和Teplyakov，A.（2010年）。《水晶学报》。D类66, 22–25. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 医学博士温恩。等。(2011).《水晶学报》。D类67, 235–242. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Yao，J.、Woolfson，M.M.、Wilson，K.S.和Dodson，E.J.（2005）。《水晶学报》。D类61, 1465–1475. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Yonekura，K.、Watanabe，M.、Kageyama，Y.、Hirata，K.、Yamamoto，M.和Maki Yonekura，S.（2013）。公共科学图书馆一号,8，e78216科学网交叉参考公共医学谷歌学者

这是一篇根据知识共享署名（CC-BY）许可证它允许在任何介质中不受限制地使用、分发和复制，前提是引用了原始作者和来源。

结构
生物学

国际标准编号：2059-7983

第74卷| 第7部分| 2018年7月| 第595-605页

https://doi.org/10.107/S2059798318005752

打开

访问

格式		BIBTeX公司
		尾注
		RefMan参考手册
		请参阅
		Medline公司
		到岸价格
		SGML公司
		纯文本
		文本

格式		BIBTeX公司
		尾注
		RefMan参考手册
		请参阅
		Medline公司
		到岸价格
		SGML公司
		纯文本
		文本

搜索IUCr日志		国防部		高级搜索
作者		体积	第页

研究论文\（\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\）

辛巴德：序列相关的分子置换管道

1.简介

2.方法

2.1、。战略

2.2. 格参数搜索

2.3. 循环搜索

2.3.1. 污染物搜索

2.3.2.MoRDa公司数据库搜索

2.4. 全面MR和细化

3.结果

3.1. 测试辛巴德管道

3.1.1. 污染物结构溶液测试

3.1.2. 测试新型结构解决方案

3.2. 用户案例

3.2.1.大肠杆菌DPS蛋白质污染物

3.2.2。变形沙雷菌氰酶蛋白污染物

3.2.3.大肠杆菌过氧化氢酶HPII蛋白污染物

4.讨论

4.1. 未来发展

5.结论

支持信息

脚注

致谢

资金筹措信息

工具书类

研究论文