The JCSG MR pipeline: optimized alignments, multiple models and parallel searches

Schwarzenbacher, R.; Godzik, A.; Jaroszewski, L.

doi:10.1107/S0907444907050111

研究论文

生物
结晶学

国际标准编号：1399-0047

第64卷| 第1部分| 2008年1月| 第133-140页

doi:10.1107/S090744490705011

JCSG MR管道：优化对齐、多模型和并行搜索

罗伯特·施瓦岑巴赫,^一亚当·戈齐克 ^b条和卢卡斯·雅罗斯泽夫斯基 ^b条 ^*

^一萨尔茨堡大学，结构生物学，Billrothstrasse 11，5020 Salzburg，Austria，and^b条伯纳姆医学研究所结构基因组学、生物信息学核心联合中心，10901 North Torrey Pines Road，La Jolla，CA 92093，美国
^*通信电子邮件：lukasz@burnham.org

(2007年2月26日收到； 2007年10月12日接受)

的成功率分子置换当搜索模型与其模板的序列一致性小于35%时，（MR）会显著下降，但使用折叠识别方法结合穷举MR搜索可以显著改进。基于折叠式识别算法计算的比对的模型比基于传统比对方法的模型更准确，例如美国金融服务贸易协会或爆炸，仍然广泛用于MR。此外，通过设计集成相位和自动化的MR管道精炼并允许并行处理此类计算，可以有效地提高MR的成功率。这里，给出了JCSG MR流水线的更新结果，迄今为止，该流水线已解决了33个MR结构，与已知结构的最接近同源序列的同源性小于35%。通过使用困难的MR问题作为示例，证明了即使在模型和模板之间的相似性只能通过折叠式识别算法检测到的情况下，也可以成功地进行MR相位调整。在第一步中，通过折叠式识别算法，基于PDB中发现的所有同源物建立了多个搜索模型。该过程产生的模型用于MR相位算法的不同输入参数组合的并行MR搜索。假定的解决方案受到刚体和约束晶体的影响精炼并根据free的最终值进行排名R（右）因子、优值和与理想几何的偏差。最后，检查晶体堆积和电子密度图以确定正确的解决方案。如果这个过程没有产生一个具有可解释电子密度图的解决方案，那么就可以准备更多的替代模型。基于序列比对和该家族的已知结构识别蛋白质家族的结构可变区域，并提出适当的模型修正。这些修剪的所有组合都应用于搜索模型，并在MR管道中使用生成的模型集。据估计，随着模型构建的改进和现有阶段化算法的穷举并行搜索，MR可以成功地处理已知结构50%以上的可识别同源序列，低于35%的序列一致性阈值。这意味着典型细菌蛋白质组中约三分之一的蛋白质是潜在的MR靶点。

关键词：分子置换;序列对齐精度;同源模拟法;参数空间筛选;结构基因组学.

1.简介

分子替换（MR；罗斯曼，2001 )与实验相位技术相比，它具有优势，因为它只需要一组从天然蛋白质晶体获得的反射数据，而天然蛋白质晶体的资源密集度远低于用替代蛋白质晶体进行的多波长实验。

由于结构生物学的进步，越来越多的结构可以通过蛋白质数据库（PDB；Berman等。, 2000 ). 随着已知蛋白质结构数量的迅速增长，主要兴趣从研究单个结构转移到研究蛋白质复合物，这对于我们理解蛋白质在代谢、细胞周期或凋亡等生物机制中的相互作用至关重要。MR是解决蛋白质复合物结构的首选方法，因为单个蛋白质的结构通常是已知的。因此，MR测定的蛋白质结构数量每年都在增加，因此对该方法的任何改进都可以节省大量的时间和资源。

Hoppe（1957）开创的MR相位算法 )和Rossmann&Blow（1962年 )需要识别结构模型在不对称单元一种新的水晶。目前，一些用于解决此问题的自动计算算法在流行程序中可用，例如相位器（斯托罗尼等。, 2004 ),AMoRe公司（纳瓦扎，2001年 ),X-脉冲/中枢神经系统（布伦格尔等。, 1998 ),MOLREP公司（Vagin&Teplyakov，2000年 ),EPMR公司（基辛格等。, 1999 )和黑桃皇后（Glykos&Kokkindis，2000年 ). 这些MR方法的成功与否关键取决于所用模型的质量，不同的模型制备方法仍在探索中。MR是用只覆盖分子的一小部分（<30%）的模型完成的（Bernstein等。, 1997 )，但经验表明，为了使该过程成功，需要分子的很大一部分（>60%），并且模型和分子的坐标之间的差异必须很小[通常具有C的平方根距离^α原子（CαRMSD）低于2.5º]。MR最佳搜索模型的要求仍在探索中。一些关于搜索模型的有趣想法已经在个别案例或小组结构上提出或测试（Kleywegt，1998）). 这些想法包括使用复合搜索模型去除或减少残留物或具有高温因子的区域，省略序列保守性低的区域（Chen，2001 )以及基于次优路线建立替代模型（Jones，2001 ). 最近，我们中心对几个疑难MR问题的分析表明，对齐精度和侧链建模对MR成功率有显著影响（Schwarzenbacher等。, 2004 ). 模型准备的一些方法已在CHAINSAW公司该程序由Norman Stein编写，包含在中央对手方清算所4套（协作计算项目，第4期，1994年 ).CHAINSAW公司为MR准备修剪（混合）搜索模型的不同变体。

蛋白质结构预测的最有效方法是建立感兴趣的蛋白质和已经表征的蛋白质之间的同源性。然而，标准序列比较方法在“曙光区”迅速失去敏感性，在那里感兴趣的蛋白质和最接近的已知结构（Holm等。, 1992 ). 利用进化信息可以提高折叠识别的灵敏度，进化信息可以从大家族蛋白质序列中提取。不是比较两个序列，而是将一个蛋白质序列与由序列配置文件表示的整个蛋白质家族的序列进行比较，如PSI-爆炸（阿尔特舒尔等。, 1997 )或通过隐马尔可夫模型（HMM；Eddy，1998 ). 此策略的下一个逻辑步骤是比较中介绍的两个序列配置文件金融流量账户（莱奇勒夫斯基等。, 2000 )或中实现的两个隐马尔可夫模型HHSEARCH公司（草皮，2005年 ).

层序剖面的应用对一组已知构造的褶皱预测数量有重大影响。测试同源预测方法的一种广为接受的方法是将其应用于已知结构的代表集合，并计算对应于不同错误水平的不同得分阈值的正确预测和假阳性数。使用此程序，我们使用三种不同的方法重新评估了远程同源检测的灵敏度。我们使用了ASTRAL公司资源（Chandonia等。, 2004 )基于SCOP数据库（Murzin等。, 1995 )以构建5868个彼此序列同一性小于25%的蛋白质结构域结构的基准集合。通过以下方式获得的预测爆炸,PSI-爆炸和金融流量账户对于这个基准，清楚地说明了使用序列图谱检测远距离同源物的优势（见图1). 在5%误差水平下，剖面-序列比较法PSI-爆炸（阿尔特舒尔等。, 1997)给出的正确预测几乎是序列比较算法的两倍爆炸（阿尔特舒尔等。, 1990 ). 剖面-剖面比较方法金融流量账户灵敏度再提高20%。

图1
正确和错误结构预测的百分比爆炸, PSI-爆炸和金融流量账户用于基于SCOP数据库的序列一致性小于25%的同源蛋白对的代表性基准集。5%的假阳性，爆炸正确检测35%的此类对PSI-爆炸找到60%，而金融流量账户可以预测高达72%。

其他基于序列轮廓或使用进化信息的类似方法的高级折叠识别方法包括3种D-PSSM公司（凯利等。, 2000 ),FUGUE公司（史等。, 2001 ),BIOINBGU公司（费舍尔，2000年 ),前景（徐和徐，2000 )和SAMT公司98（卡尔普斯等。, 1998 ). 这些方法比序列比对方法更敏感，例如爆炸通常比剖面-序列比对方法更敏感，例如PSI-爆炸.

除了模型的准确性之外，对于更困难的MR问题，成功与否可能关键取决于定相算法的某些设置，例如应用于晶体学数据的低分辨率和高分辨率限制。MR相位算法对分辨率极限和截止值的强烈依赖性尤其明显，因为它们不是基于最大似然原则。很难提出任何有用的经验法则来选择最佳的低分辨率和高分辨率截止值，正如MR程序的作者所建议的那样，测试这些截止值的几种组合是有益的。通常，在困难的MR病例中，使用不同的模型和输入参数手动执行多阶段试验，这对测试组合的数量造成了实际限制。

我们证明，通过在并行化和自动化的MR管道中使用基于轮廓-轮廓折叠识别和穷举MR搜索的几种专门设计的蛋白质模型，可以扩展MR方法的局限性（Schwarzenbacher等。, 2004)建造于结构基因组学联合中心（莱斯利等。, 2002 ).

至少还有三个其他小组也参与了先进和公开可用的MR管道的开发，包括CaspR公司（克劳德等。, 2004 ),BUMP先生（基根和温恩，2008年 )和棒球（长等。, 2008 ). 此外，还进行了一些有趣的尝试，以超越“刚性搜索模型”，并使用正态模式分析生成搜索模型（Suhre&Sanejouand，2004）; Jeong（郑）等。2006 ).

在本文中，我们简要介绍了JCSG MR流水线，讨论了使用敏感折叠识别算法的优点，并展示了将参数空间筛选应用于MR搜索的好处。我们还对流水线结果的统计数据进行了更新，并进一步探索了生成MR替代模型的方法。

2.方法和结果

2.1. JCSG MR管道及其结果

JCSG中使用的并行MR管道自动执行从同源性检测到模型准备和MR搜索到自动化的所有步骤精致。管道包括以下步骤（见图2).

（i）首先，在PDB中使用金融流量账户profile–profile折叠识别方法，用于确保找到同源模板时的最佳灵敏度和最高对齐精度。一旦可以用金融流量账户，该蛋白质被视为潜在的MR靶点[序列一致性应超过15%，并且金融流量账户得分应高于（低于）−15]。在大多数情况下，我们还要求搜索模型中至少包含三分之二的结构。然而，MR可能适用于精度较高的较小模型。例如，具有确定结构的单个蛋白质结构域可用于全多结构域蛋白质的阶段化。在这种情况下，可以使用管道尝试MR定相。
（ii）获得得分最高的同源物的PDB文件，包括其生物相关低聚物（如果可用）。
（iii）使用该程序建立不同类型模型的库WHATIF公司（弗里德，1990年 )：根据优化的排列和侧链构象替换侧链的全原子模型，具有从模板转移的保守残基的侧链构像和用丝氨酸替换的其他残基的“混合”模型（Schwarzenbacher等。, 2004)以及基于模板生理相关低聚物的可能低聚物全原子和“混合”模型。
（iv）使用程序进行MR搜索MOLREP公司.穷尽参数空间筛选应用于的相似性（SIM）和完整性（COMPL）参数MOLREP公司，其他参数设置为默认值。对于这两个参数，测试了0.1、0.3、0.5、0.7和1.0的值，得出总共25个参数组合。我们发现，使用100个组合进行精细搜索并不能提供25个组合无法实现的解决方案。然而，在某些情况下，为了便于说明，我们执行了更精细的网格搜索（见图3).
（v）所有溶液都受到刚性体的影响精炼和约束细化具有REFMAC公司5（穆尔舒多夫等。, 1997 )和最低的溶液R（右）_自由的值。在大多数情况下，我们进行了5到20步刚体训练精炼和100–500步有节制的精致。这个REFMAC公司5控制X射线和几何部分权重的WEIG参数设置为0.05，在最困难的情况下，测试0.02–0.05范围内的附加值。
（vi）如果无法使用上述程序对结构进行阶段划分，则可能会生成大量修剪模型。正如Kleywegt（1998）所建议的)，修剪包括回路区域、与间隙相对应的区域和路线中的低序列保守性区域。按照上述（iv）和（v）所述，在MR搜索中测试具有所有可能组合的此类配饰的模型。组合修剪步骤是可选的，尚未完全自动化。
（vii）检查电子密度图，并将求解的结构完全细化并沉积在PDB中。

图2
JCSG MR管道的架构。

图3
参数筛选结果应用于JCSG目标TM0332的MR定相和自动细化。相似性（SIM）和完整性（COMPL）参数的所有组合MOLREP公司程序通过0.1到1.0之间的穷举网格搜索以0.1为间隔进行测试。所有得到的溶液都经过20步的刚体精炼和500步有节制的精致。决赛R（右）_自由的之后的值约束细化绘制为等高线图。

MR管道为33个蛋白质结构提供了解决方案，其与建模模板的序列一致性小于35%（表1中的P列). 将这些结果与“简单”MR运行的结果进行比较（表1中的S列)其中一个模型基于爆炸在MR搜索中使用默认参数进行对齐。同样的模型也用于详尽的MR搜索（表1中的E列)具有广泛的参数。通过使用基于精确比对和并行处理的不同类型的模型，我们实际上可以将MR可以求解的蛋白质结构的数量增加一倍。我们的结果表明，如果模型与其模板共享超过30–35%的相同残基，MR通常是简单的（Schwarzenbacher等。, 2004)这与广泛接受的高精度同源建模极限（Vogt等。, 1995 ). 几乎所有在模型和结构之间序列一致性超过35%的MR病例都是用“简单方法”解决的，未解决的问题很可能表明晶体数据的问题，而不是模型的准确性。序列一致性低于35%的“简单方法”在33例中仅10例无效且成功（表1中的S列). 使用标准模板进行详尽的MR搜索，得到了六个额外的MR解决方案（E列，表1). 基于生物相关低聚物、混合和全原子同源模型的不同类型模型的穷尽MR搜索金融流量账户路线（P列，表1)解决了17个额外的结构，它们的模板序列一致性小于35%。尽管对多个模型进行了详尽的搜索，但序列一致性低于35%的14个结构仍未解决。

表1
JCSG MR项目用于序列同一性低于模板35%的结构

靶蛋白、TIGR或GeneBank ID和靶蛋白的名称；五十、目标序列长度；SG，晶体空间群；M、不对称单元中的分子数；R、晶体数据集的分辨率（λ）；o/a，每个原子的观测次数；T、与已知结构最接近的同源物（PDB码）；Id，目标和模板之间的序列标识；S、使用简单模板进行单个MR搜索的结果；E、使用简单模板进行详尽的MR搜索的结果；P、 MR管道的结果（不同类型的模型基于金融流量账户比对加上详尽的MR搜索）；十、成功的MR定相和自动细化；所求解的MR结构的PDB、PDB、PDB代码（如果已经沉积在PDB中）。

目标	L（左）	新加坡	M（M）	R（右）	o/a（零/年）	T型	身份证件	S公司	E类	P（P）	PDB公司
17134165，假设蛋白质，Nostoc公司服务提供商。	165	P（P）2₁2₁2	2	1.50	18.7	第1组76	14			X（X）	1伏7
tm1459，碳水化合物结合蛋白，马里蒂玛锥虫	114	P（P）32	2	1.75	11.8	1升5	18			X（X）	库存1件5件
tm1287，草酸脱羧酶，马里蒂玛锥虫	121	C2	2	1.70	8.9	1伏2	18		X（X）	X（X）	1o4吨
15079298，胶质细胞成熟因子-γ,小家鼠	142	P（P）1	1	1.35	15.7	1小时	19	X（X）	X（X）	X（X）	1vkk公司
tm0603，30s核糖体蛋白s6，马里蒂玛锥虫	128	P（P）4₁2₁2	1	1.70	15	1楼	19			X（X）	1千兆位
17391249，卤酸脱卤酶类水解酶，小M	248	P（P）6₁22	1	1.90	12	1x42个	19			X（X）	每小时2加仑
tm1394，热休克蛋白33，马里蒂玛锥虫	290	P（P）2₁2₁2₁	2	2	8.6	第1页	20			X（X）	1个vq0
18044849，双功能辅酶A合成酶，小M	269	C2	1	1.70	15	1n3b号机组	22			X（X）	第二页第六页
tm0820、NADH依赖性丁醇脱氢酶，马里蒂玛锥虫	395	P（P）2₁	2	1.78	10	1月2日	24			X（X）	1伏
tm0332，鸟氨酸5′-磷酸脱羧酶，马里蒂玛锥虫	201	C2	1	1.90	9.2	1eix公司	24			X（X）	1伏夸脱
10175646，BH3024蛋白质，耐盐芽孢杆菌	126	P（P）4₁2₁2	1	2.40	6.5	1公斤	25	X（X）	X（X）	X（X）	2b4a公司
NP_394403，GMP合成酶，嗜酸乳杆菌	212	P（P）2₁2₁2	4	2.45	4.4	1加仑	25			X（X）	2a9伏
tm0262，DNA聚合酶III，β亚单位，马里蒂玛锥虫	366	P（P）4₂2₁2	1	2.70	4.8	1个jqj	26			X（X）	1vpk（虚拟专用密钥）
tm1419，肌-肌醇-1-磷酸合成酶，马里蒂玛锥虫	382	我222	1	1.58	22.5	1克	26		X（X）	X（X）	1vjp格式
YP_290749.1，NADH脱氢酶亚基C，富斯卡锥虫YX公司	252	P（P）4_三2₁2	1	2.60	8.6	2英尺	27			X（X）
tm1088A，假设蛋白质，马里蒂玛锥虫	143	P（P）2	1	1.50	20.3	1ls秒	27	X（X）	X（X）	X（X）	2g1单位
tm0748，SAM依赖O（运行）-甲基转移酶，马里蒂玛锥虫	265	我222	1	1.70	16.7	1i9克	28	X（X）	X（X）	X（X）	1至54
tm0544，ABC转运蛋白ATP-结合蛋白，马里蒂玛锥虫	244	P（P）三₁2₁	1	2.10	10.6	1个ji0	29			X（X）	1伏/升
tm1128，铁蛋白，马里蒂玛锥虫	182	H（H）32	8	2.35	8.1	1微米	30	X（X）	X（X）	X（X）	1磅
tm0295，转醛酶，马里蒂玛锥虫	218	P（P）2₁	20	2.40	5.1	1升6瓦	30			X（X）	1vpx（虚拟专用交换机）
tm0343，DAHP合成酶，马里蒂玛锥虫	338	P（P）2₁2₁2₁	三	1.90	8.5	1英尺	31	X（X）	X（X）	X（X）	1伏6
tm1385，葡萄糖-6-磷酸异构酶，马里蒂玛锥虫	448	我2₁2₁2₁	三	2.90	6.8	10赫兹	31		X（X）	X（X）
tm1645，喹啉磷酸核糖转移酶，马里蒂玛锥虫	273	我222	2	2.80	6.9	1qpn	31			X（X）	库存1o4件
tm0066，2-脱氢-3-脱氧葡萄糖醛缩酶，马里蒂玛锥虫	205	C222₁	三	2.30	6.8	1欧元	31		X（X）	X（X）	1伏
tm1393，MEP胞苷基转移酶，马里蒂玛锥虫	222	P（P）6₁	2	2.60	6.7	1vgz（1vgz）	31			X（X）	1个vpa
tm1244，磷酸核糖基甲酰甘氨酸合酶，马里蒂玛锥虫	82	我4₁22	4	2.50	7	1t4a公司	32			X（X）	1个vq3
tm0166，二氢叶酸合成酶，马里蒂玛锥虫	430	P（P）6₁22	1	2.75	8.9	1组	32	X（X）	X（X）	X（X）	1o5赫兹
tm0919，抗过氧化氢蛋白OsmC，马里蒂玛锥虫	138	P（P）2₁	4	1.80	12.9	1毫升8	33			X（X）	1个vla
tm1698、天冬氨酸转氨酶，马里蒂玛锥虫	397	P（P）2₁	6	2.50	4.1	1个i9	29	X（X）	X（X）	X（X）	2立方厘米3
tm0604，单链DNA结合蛋白，马里蒂玛锥虫	141	F类222	1	2.40	10	1季度风险投资	34		X（X）	X（X）	1z9英尺
tm1169，3-氧酰基-（酰基载体蛋白）还原酶，马里蒂玛锥虫	237	P（P）2₁2₁2₁	4	2.50	4.3	1i01号机组	34		X（X）	X（X）	1o5i
17130499，邻氨基苯甲酸磷酸核糖基转移酶2，Nostoc公司服务提供商。	345	P（P）2₁	2	2.50	4.8	1千克z	35	X（X）	X（X）	X（X）	1vqu
tm0159，三磷酸黄嘌呤焦磷酸酶，马里蒂玛锥虫	191	P（P）4₁2₁2	2	1.78	18.3	1v7版本	35	X（X）	X（X）	X（X）	1伏2

2.2. MR搜索中的参数空间筛选

对晶体学软件的不同输入参数进行详尽测试的过程称为参数空间筛选（Liu等。, 2005 ). 为了在合理的时间内完成计算，通常使用计算机集群并行执行参数空间筛选。MR相位算法的结果通常取决于与应用于数据的滤波器相连的几个输入参数以及搜索模型的预期精度。在我们的渠道中，我们依赖于该计划MOLREP公司（Vagin&Teplyakov，2000年)来自中央对手方清算所4套（协作计算项目，第4期，1994年)因为它的健壮性、速度和使用简单。程序的两个输入参数与搜索模型的预期完整性及其与所求解结构的预期相似性有关。完整性参数（COMPL）与应用于晶体学数据的软低分辨率截止值相关联，相似性参数（SIM）与高分辨率截止值相关联。由于在求解实际结构之前，我们没有关于模型准确性的确切信息，因此按照程序作者的建议，对这两个参数的不同组合进行了详尽的测试。特别是，众所周知，低分辨率反射和低分辨率截止在MR相位调整中起着重要作用。然而，我们没有检查数据的低分辨率部分并试图找到最佳的低分辨率截止值，而是通过改变COMPL参数来应用不同的低分辨率截止值，并通过细化它们来测试所有解决方案的正确性。事实上，我们的测试表明，在一些情况下MOLREP公司以一种不可预测的方式依赖于这些输入参数，这突出了详尽的参数空间筛选的重要性。例如，参数空间筛选用于来自海洋热藻.金融流量账户从中检测到与鸟氨酸5′-磷酸脱羧酶结构的相似性大肠杆菌（PDB代码1eix公司)得分为-60分，序列一致性为24%，比对覆盖了98%的序列，有6个缺口。图3显示了final的等高线图R（右）_自由的之后的值约束细化得到了用不同相似性和完备性参数值计算的MR解。程序不同输入参数的MR解MOLREP公司最终进入决赛R（右）_自由的值来自REFMAC公司范围为0.464至0.546。最低的解决方案R（右）_自由的值被手动细化并保存在PDB中（PDB代码1伏夸脱). C类α完全优化的TM0332结构和1eix公司为2.27奥。不同最终解决方案的详细分析R（右）_自由的值表明，大多数具有R（右）_自由的高于0.5的数值是不正确的，这突出了参数空间筛查对该病例的重要性。

2.3. 搜索模型的组合裁剪

对于穷举参数空间筛选与基于不同模板的多个模型相结合的应用无法产生解决方案的困难情况，可以通过使用可能不可靠区域的不同修剪组合的模型来增加管道中使用的模型的可变性。

人们普遍认为，MR相位的最佳模型应包含所有能够准确预测的原子，并且不应包含任何具有高坐标误差的原子。模型的不可靠区域通常包括模型和模板之间序列相似性低的循环、间隙和片段。此类区域更有可能包含重大错误。因此，通过从模型中删除这些区域，可以显著提高其整体精度，但也可以删除一些准确预测的区域，因为在求解结构之前，不准确区域的准确位置是未知的。MR模型所需的精度水平也不明显，并且可能因不同的数据集而异。这个问题的强力解决方案是使用并行化MR管道的能力，并测试模型的所有可能微调组合。该程序允许对NADH脱氢酶亚基C的结构进行MR分期fusca热裂菌（GenBank登录代码YP_290749）。根据金融流量账户，与该蛋白同源的唯一结构是来自嗜热菌（PDB代码2英尺).金融流量账户YP_290749序列的66%与2英尺得分为−79，序列一致性为27%。目标序列的残基213-249与2英尺亚单位5，从球状结构域延伸并与复合体中的另一亚单位结合。然而，由于目前的晶体只包含孤立的结构域，我们预计这个特定区域可能具有不同的构象，并将其从模型中删除。这导致序列一致性下降到22%，模型的序列覆盖率下降到50%（见图4一). 自从不对称单元属于2英尺包含四个稍有不同的亚单位5拷贝（链5、E、N、W），每个拷贝用于构建目标模型。基于序列比对提出了模型裁剪，其中识别了模型的六个潜在不可靠区域。我们在每个区域中应用了多达四种替代装饰（见图4一). 通过应用这些修剪的所有组合，我们从亚单位5的每个副本中生产了540个修剪模型，总共生产了2160个模型。所有搜索模型都提交给MR管道。MR搜索在一个50 CPU的Linux集群上大约5小时内完成。由于时间限制，未使用参数空间筛选，默认情况下获得MR解决方案MOLREP公司参数直接进入30个循环约束细化在里面REFMAC公司5

图4
(一)基于PDB结构的目标YP_290749.1建模对准2英尺。线形可靠性较低的区域标记在线形和模型上。下表显示了这些区域中应用的装饰。(b条)最终R（右）_自由的值来自约束细化在管道中测试的修剪模型获得。2000年的所有结果都是根据最终结果进行排名的R（右）_自由的.已排序R（右）_自由的1000个最佳排名模型的值以图表形式显示。

有趣的是，只有一小部分经过修剪的模型成功地实现了阶段化，这表现为显著降低R（右）_自由的值来自REFMAC公司5（见图4b条).

3.讨论

JCSG MR流水线通过使用精确的建模方法、大量替代模型以及将参数空间筛选应用于相位算法，提高了MR的成功率。我们观察到，当靶点和模板的序列一致性超过35%时，MR相对简单。根据我们的结果，我们倾向于接受35%作为直接MR的极限，因为这个范围内的几乎所有情况都可以使用标准方法解决。

当序列一致性下降到35%以下时，这种情况会发生变化：标准比对方法开始变得不准确，Cα相关蛋白质结构之间的RMSD值显著增加（Chothia&Lesk，1986 ). 尽管成对蛋白质结构的序列同一性与其CαRMSD值得到了很好的确定，这种关系的特征在蛋白质家族之间有很大的差异，当计算和分析大家族的结构比对时，这种关系变得明显（Reeves等。, 2006 ). 因此，可以预计，对于不同的蛋白质家族，精确同源建模的极限（这也是可行MR的极限）可能不同。在某些情况下，可以根据从感兴趣的蛋白质家族的已知结构中观察到的结构变异性来估计MR定相成功的可能性。如果一个家族的已知结构在蛋白核心上只显示出微小的差异，那么这个家族的未知结构也可能有一个非常保守的核心。这种蛋白质家族的成员可能适合MR，即使与最接近的已知结构的序列同源性很低。因此，作为实验设计的一部分，可以使用敏感的折叠识别方法（如金融流量账户服务器（Jaroszewski等。, 2005 ; 可在获取https://ffas.burnham.org). 然后，如果发现同源结构，可以使用多重结构比对方法评估它们之间的结构相似性，例如邮政总局（Ye&Godzik，2005）; 可在获取https://fatcat.burnham.org/POSA网站). 这个邮政总局服务器提供了提交结构之间结构相似性的定量测量以及图形界面，我们发现这对确定家族中保守结构核心的程度非常有帮助。目前，基于此类分析很难提供MR适用性的一般定量限值，但在许多情况下，可以判断MR定相是否值得考虑。

低于35%的序列识别模型基于爆炸比对的成功率较低，因为在大多数情况下，比对比PSI-爆炸和金融流量账户此外，在两种情况下（目标17134165和TM0603）爆炸根本无法检测到同源结构，而使用金融流量账户导致MR阶段化成功。这一观察结果表明，一些困难的MR问题可以通过使用公开可用的折叠识别服务器来解决。

由于计算成本高，组合模型修剪方法仅适用于少数未解决的MR问题。使用这种方法对NADH脱氢酶亚基C进行定相的例子很有趣，因为R（右）_自由的修剪模型的值有一个非常窄的最小值。根据一个例子不可能得出一般性结论，但这一观察结果表明，MR和精炼对搜索模型中正确预测和错误预测的原子的比率非常敏感。这意味着组合修剪可以在某些模型中最大化该比率，它可以为基于一个最优对齐的模型无法解决的问题提供解决方案。需要注意的是，组合修剪方法目前仅部分自动化，需要人工干预。例如，根据对路线的目视检查，提出了要修剪的模型区域。原则上，人们可以通过使用已知的评估模型局部准确性的方法来想象这样一个过程的完全自动化。该方法需要在更多示例上进行测试，然后才能完全自动化。

47个数据集的结果仍然不允许对MR的可行性进行彻底的统计分析，这取决于数据和模型的太多特征。然而，我们可以粗略估计，对于具有金融流量账户得分高于（低于）-15，序列一致性在15-35%之间，模型至少覆盖序列的三分之二。

我们测试的主要结论是，基于敏感折叠识别算法比对的搜索模型，结合最新的MR定相技术和参数空间筛选，确实提高了MR定相的成功率。这种改进对于解决蛋白质复合物至关重要，并可能节省大量时间和资源，特别是对于结构基因组学项目。

需要注意的是，上述过程对CPU的要求很高，在大多数情况下，如果没有计算机集群，这些过程是不切实际的。在JCSG，我们使用Linux集群的25–50个CPU进行大多数计算。大多数搜索仍需数小时才能完成。

这个金融流量账户程序可以作为web服务器在https://ffas.burnham.org并链接到建模服务器，该服务器可以基于金融流量账户路线。作者正在准备JCSG MR管道脚本的分发版本，并将根据要求提供给学术界。

鸣谢

由于整个JCSG团队的努力，本出版物中呈现的结果是可能的。作者特别感谢JCSG的同事结构确定斯坦福同步辐射实验室（Stanford Synchrotron Radiation Laboratory）的核心，他获得了这项工作中使用的所有数据集，并帮助他们掌握了晶体学专业知识。JCSG由美国国家普通医学科学研究所（National Institute of General Medical Sciences）的NIH蛋白质结构倡议（NIH Protein Structure Initiative）资助U54 GM074898(网址：https://www.nigmas.nih.gov). RS由欧盟拨款MEXT-CT-2006-033534支持。

工具书类

Altschul，S.F.、Gish，W.、Miller，W.、Myers，E.W.和Lipman，D.J.（1990年）。分子生物学杂志。 215, 403–410. 交叉参考中国科学院公共医学科学网谷歌学者
 Altschul，S.F.，Madden，T.L.，Schaffer，A.A.，Zhang，J.，Z.，Miller，W.&Lipman，D.J.（1997）。核酸研究。 25, 3389–3402. 交叉参考中国科学院公共医学科学网谷歌学者
 Berman，H.M.、Westbrook，J.、Feng，Z.、Gilliland，G.、Bhat，T.N.、Weissig，H.、Shindyalov，I.N.和Bourne，P.E.（2000）。核酸研究。 28, 235–242. 科学网交叉参考公共医学中国科学院谷歌学者
 Bernstein，B.E.，Michels，P.A.&Hol，W.G.（1997）。自然（伦敦）,385, 275–278. 交叉参考中国科学院公共医学科学网谷歌学者
 Brünger，A.T.，Adams，P.D.，Clore，G.M.，DeLano，W.L.，Gros，P.，Grosse-Kunstleve，R.W.，Jiang，J.-S.，Kuszewski，J.，Nilges，M.，Pannu，N.S.，Read，R.J.，Rice，L.M.，Simonson，T.&Warren，G.L.（1998）。《水晶学报》。D类54, 905–921. 科学网交叉参考 IUCr日记账谷歌学者
 Chandonia，J.M.，Hon，G.，Walker，N.S.，Lo Conte，L.，Koehl，P.，Levitt，M.&Brenner，S.E.（2004年）。核酸研究。 32，D189–D192科学网交叉参考公共医学中国科学院谷歌学者
 陈永伟（2001）。《水晶学报》。D类57, 1457–1461. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Chothia，C.&Lesk，A.M.（1986年）。EMBO J。 4, 823–826. 谷歌学者
 Claude，J.B.、Suhre，K.、Notredame，C.、Claverie，J.M.和Abergel，C.（2004）。核酸研究。 32，W606–W609科学网交叉参考公共医学中国科学院谷歌学者
 协作计算项目，第4期（1994年）。《水晶学报》。D类50, 760–763. 交叉参考 IUCr日记账谷歌学者
 Eddy，S.R.（1998）。生物信息学,14, 755–763. 科学网交叉参考中国科学院公共医学谷歌学者
 Fischer，D.（2000）。派克靴。交响乐团。生物计算机。 5, 119–130. 谷歌学者
 Glykos，N.M.和Kokkindis，M.（2000年）。《水晶学报》。D类56, 169–174. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Holm，L.、Ouzounis，C.、Sander，C.、Tuparev，G.和Vriend，G.（1992年）。蛋白质科学。 12, 1691–1698. 交叉参考谷歌学者
 Hoppe，W.（1957）。《水晶学报》。 10, 750–751. 谷歌学者
 Jaroszewski，L.、Rychlewski，L.，Li，Z.、Li，W.和Godzik，A.（2005）。核酸研究。 33，W284–W288科学网交叉参考公共医学中国科学院谷歌学者
 Jeong，J.I.、Lattman，E.E.和Chirikjian，G.S.（2006年）。《水晶学报》。D类62, 398–409. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Jones，D.T.（2001年）。《水晶学报》。D类57, 1428–1434. 交叉参考中国科学院 IUCr日记账谷歌学者
 Karplus，K.、Barrett，C.和Hughey，R.（1998）。生物信息学,14, 846–856. 科学网交叉参考中国科学院公共医学谷歌学者
 Keegan，R.M.和Winn，M.D.（2008年）。《水晶学报》。D类64, 119–124. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Kelley，L.A.、MacCallum，R.M.和Sternberg，M.J.E.（2000）。分子生物学杂志。 299, 501–522. 交叉参考谷歌学者
 Kissinger，C.R.、Gehlhaar，D.K.和Fogel，D.B.（1999）。《水晶学报》。D类55, 484–491. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Kleywegt，G.J.（1998）。来自乌普萨拉软件工厂的消息。 https://xray.bmc.uu.se/usf/factory_6.html 谷歌学者
 莱斯利，S.A。等。(2002).程序。美国国家科学院。科学。美国,99, 11664–11669. 科学网交叉参考公共医学中国科学院谷歌学者
 Liu，Z.-J.，Lin，D.，Tempel，W.，Praissman，J.L.，Rose，J.P.&Wang，B.-C.（2005）。《水晶学报》。D类61, 520–527. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Long，F.、Vagin，A.A.、Young，P.和Murshudov，G.N.（2008年）。《水晶学报》。D类64, 125–132. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Murshudov，G.N.、Vagin，A.A.和Dodson，E.J.（1997）。《水晶学报》。D类53, 240–255. 交叉参考中国科学院科学网 IUCr日记账谷歌学者
 Murzin，A.G.、Brenner，S.E.、Hubbard，T.和Chothia，C.（1995年）。分子生物学杂志。 247, 536–540. 交叉参考中国科学院公共医学科学网谷歌学者
 Navaza，J.（2001）。《水晶学报》。D类57, 1367–1372. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Reeves，G.A.、Dallman，T.J.、Redfern，O.C.、Akpor，A.和Orengo，C.A.（2006）。分子生物学杂志。 360, 725–741. 科学网交叉参考公共医学中国科学院谷歌学者
 Rossmann，M.G.（2001）。《水晶学报》。D类57, 1360–1366. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Rossmann，M.G.和Blow，D.M.（1962）。《水晶学报》。 15, 24–31. 交叉参考中国科学院 IUCr日记账科学网谷歌学者
 Rychlewski，L.、Jaroszewski，L.，Li，W.和Godzik，A.（2000）。蛋白质科学。 9, 232–241. 科学网交叉参考公共医学中国科学院谷歌学者
 Shi，J.、Blundell，T.L.和Mizuguchi，K.（2001）。分子生物学杂志。 310, 243–257. 科学网交叉参考公共医学中国科学院谷歌学者
 Schwarzenbacher，R.、Godzik，A.、Grzechnik，S.K.和Jaroszewski，L.（2004）。《水晶学报》。D类60, 1229–1236. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Soding，J.（2005）。生物信息学,21, 951–960. 科学网交叉参考公共医学谷歌学者
 Storoni，L.C.、McCoy，A.J.和Read，R.J.（2004）。《水晶学报》。D类60, 432–438. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Suhre，K.和Sanejouand，Y.-H（2004年）。《水晶学报》。D类60, 796–799. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Vagin，A.和Teplyakov，A.（2000年）。《水晶学报》。D类56, 1622–1624. 科学网交叉参考中国科学院 IUCr日记账谷歌学者
 Vogt，G.、Etzold，T.和Argos，P.（1995）。分子生物学杂志。 249, 816–831. 交叉参考中国科学院公共医学科学网谷歌学者
 Vriend，G.J.（1990年）。J.摩尔图。 8, 52–56. 交叉参考中国科学院公共医学科学网谷歌学者
 Xu，Y.和Xu，D.（2000）。蛋白质,40, 343–354. 科学网交叉参考公共医学中国科学院谷歌学者
 Ye，Y.和Godzik，A.（2005）。生物信息学,21, 2362–2369. 科学网交叉参考公共医学中国科学院谷歌学者