How good are AlphaFold models for docking-based virtual screening?

Valeria Scardino; Juan I. Di Filippo; Claudio N. Cavasotto

doi:10.1016/j.isci.2022.105920

iScience。2023年1月20日；26(1): 105920.

2022年12月30日在线发布。数字对象标识：2016年10月10日/j.isci.2022.105920

预防性维修识别码：项目经理C9852548

PMID：36686396

AlphaFold模型在基于对接的虚拟放映方面有多好？

瓦莱丽亚·斯卡迪诺,^1,^2,⁵ 胡安·迪·菲利波,^2,^三，⁵和克劳迪奥·卡瓦斯托^2,^三，^4,^6,^∗

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 文件S1。表S1
毫米c1.pdf（96K）
GUID:23215F97-7003-41F5-8C91-9E77C5A649F8

数据可用性声明

•
本文分析了现有的公开数据。数据库列在关键资源表.
•
本文不报告原始代码。
•
重新分析本文中报告的数据所需的任何其他信息可从引线触点根据要求。

总结

基于结构的药物发现的一个关键组成部分是蛋白质靶点的高质量三维结构的可用性。当实验结构不可用时，到目前为止，同源建模一直是首选方法。最近，AlphaFold（AF），一种基于人工智能的蛋白质结构预测方法，在模型准确性方面显示了令人印象深刻的结果。这一杰出的成功促使我们从对接药物发现的角度评估AF模型的准确性。我们使用22个靶标的基准集，将AF模型的高通量对接（HTD）性能与其相应的实验PDB结构进行了比较。使用四个对接程序和两种共识技术，AF模型的性能始终较差。虽然AlphaFold显示出预测蛋白质结构的非凡能力，但这可能不足以保证AF模型可以可靠地用于HTD，而建模后的精细化策略可能是增加成功机会的关键。

主题领域：计算化学、蛋白质、蛋白质折叠、人工智能

图形摘要

在单独的窗口中打开

集锦

•
使用4个对接程序评估著名的AF模型的HTD能力
•
与PDB结构相比，原样AF模型的性能显著降低
•
即使在非常精确的模型上，小的侧链变化也会影响性能
•
AF模型的改进对于最大限度地提高HTD的成功机会至关重要

计算化学；蛋白质；蛋白质折叠；人工智能。

介绍

分子对接的一个关键组成部分是蛋白质靶的三维结构的可用性。尽管PDB中沉积结构的数量¹持续增加（2022年11月～199000），非冗余蛋白质序列和实验结构之间的差距正在稳步扩大。在过去20年里，结构基因组学联合会倡议²^,^三一直在加速表征具有代表性的蛋白质结构，主要来自PDB中代表性较差的家族。

当实验结构不可用或不易获得时，生物信息学同源性建模已被广泛用于获得目标（或至少结合位点）的可靠3D表示，以用于基于对接的药物发现工作。⁴同源建模是一种利用已知实验结构（模板）的相关同源蛋白质表征未知蛋白质结构（目标）的计算方法。⁵这种方法基于一个基本假设，即具有相似序列的蛋白质应该显示相似的结构。⁶同源模型在对接项目中的使用已经得到了巩固，其性能与实验结构相当。⁷^,⁸^,⁹^,¹⁰

尽管同源模型的质量取决于多个方面，例如目标模板序列的相似性、对齐的准确性以及模板的选择和分辨率，但众所周知，建模后精炼过程对于获得结合位点（BS）的可靠3D表示至关重要。¹¹^,¹²^,¹³^,¹⁴这可以从结合位点结构对结合配体的依赖性来理解，这突出了在同源性建模过程中，至少在结合位点水平上考虑蛋白质灵活性的重要性。¹⁵^,¹⁶^,¹⁷因此，在结合位点的联合建模中纳入现有配体的信息是很自然的，例如在配体同源性方法中，¹⁶^,¹⁸其中配体的六个刚性坐标、配体扭转角的构象空间和结合位点侧链通过基于Monte-Carlo的柔性连接进行优化。¹⁹已经发布了类似的方法，表明改进的模型在高通量对接（HTD）中表现出了增强的性能。²⁰^,²¹^,²²^,²³

最近，DeepMind的人工智能模型AlphaFold（AF）的实施，²⁴在蛋白质结构预测领域树立了里程碑。第14届蛋白质结构预测临界评估（CASP14）中令人惊讶且表现优异的结果²⁵^,²⁶《科学》杂志（doi.org/10.1126/Science.acx9810）将AlphaFold定为年度突破，《自然》杂志将其定为年度方法。²⁷AlphaFold的预测已经变得声名狼藉；不仅已经进行了整个人类蛋白质组的结构预测²⁸但DeepMind与欧洲分子生物学实验室的欧洲生物信息学研究所（EMBL-EBI）的合作促成了AlphaFold蛋白质结构数据库的创建，²⁹^,³⁰在撰写本文时（2022年11月），它包含了2亿多个预测结构。显然，AF带来的巨大兴奋正导致结构生物学领域的范式转变。³¹甚至包含实验确定结构的PDB也包含AF预测。³²此外，不仅正在积极开发具有特定改进的AF的不同实现³³^,³⁴而且实现AF模型预测的发展正在以快速的速度出现，³⁵^,³⁶包括将AlphaFold与低温电子显微镜图耦合，以确定结构，³⁷分子替换，³⁸^,³⁹核磁共振结构改进，⁴⁰蛋白质-DNA结合位点预测，⁴¹蛋白质设计，⁴²^,⁴³以及蛋白质相互作用的预测，⁴⁴在其他中。

值得注意的是，“AlphaFold经过训练可以预测蛋白质的结构可能出现在PDB中” (https://alphafold.ebi.ac.uk/faq（英文）); 此外，“在存在离子（例如，锌结合位点）或辅因子（例如，与血红素结合相一致的侧链几何结构）的情况下，主链和侧链坐标通常与预期结构一致”(https://alphafold.ebi.ac.uk/faq（英文）). 这些事实，以及AF在整体模型准确性方面的公开和令人印象深刻的成功，促使我们评估as-is AF模型在基于停靠的药物发现背景下的准确性和实用性，作为PDB结构的替代方法。在22种不同的蛋白质上，我们比较了AF模型（从AlphaFold蛋白质结构数据库中提取）与PDB结构在HTD中的性能。我们的结论是，尽管在再现蛋白质拓扑结构和结合位点方面总体上具有很好的准确性，但AF模型上的HTD与实验结构相比表现出一致的较差性能，在一些蛋白质中的富集因子为零。

结果

我们从早期研究中使用的不同蛋白质家族中选择了一组22个靶点作为基准⁴⁵(表1). 考虑到前面所说的AF模型对配体结合络合物的代表性，为了评估as-is AF模型在HTD中的性能，我们选择与全息PDB结构进行比较。由于AlphaFold无法预测辅因子、金属、配体、离子或水分子的位置，因此我们将PDB结构从水分子、离子、辅因子等中剥离出来，以便在同等条件下进行结构比较。；我们还避免了PDB结构与天然或其他配体的任何联合修饰，这也会提高结果。AF模型结构来自AlphaFold蛋白质结构数据库。³⁰使用了四个对接程序，AutoDock 4、ICM、rDock和PLANTS，它们具有不同的搜索算法和评分功能。我们使用两种经验证有效的一致性技术（ECR）评估了AF模型的HTD性能⁴⁶和中国。⁴⁵尽管ECR是一种基于排名的共识方法，但PRC是基于排名和停靠的共识的组合，与以前的共识方法和单个停靠程序相比，其性能有了显著提高。此外，我们对接了晶体结构中存在的天然配体，以与它们在AF模型上的姿势进行比较。

表1

用于HTD的靶蛋白

受体	接收器代码	PDB公司	分辨率（Ω）
β₂肾上腺素能受体	美国存托凭证2	4LDO公司	3.2
雄激素受体	安德烈	2个月9	1.6
细胞周期蛋白依赖性激酶2	CDK2型	1FVV型	2.8
环氧合酶-1	舵手1	2OYU公司	2.7
雌激素受体α	ESR1系列	3ERD公司	2
脂肪酸结合蛋白4	FABP4公司	2个NNQ	1.8
热休克蛋白90α	热休克蛋白90a	1UYG公司	2
胰岛素样生长因子1受体	IGF1R型	2009年2月	2
白细胞功能相关抗原1	LFA1型	2ICA公司	1.6
孕酮受体	项目风险评级	3千BA	2
蛋白激酶Cβ	KPCB公司	2I0E公司	2.6
蛋白质酪氨酸磷酸酶1B	PTN1型	2安零	2
嘌呤核苷磷酸化酶	PNPH公司	3BGS公司	2.1
瑞宁	雷尼	3G6Z公司	2
酪氨酸蛋白激酶ABL	ABL1公司	2HZI公司	1.7
尿激酶型纤溶酶原激活物	UROK公司	第一季度	1.9
多巴胺D_三受体	DRD3号机组	3桶	2.8
胸苷激酶	厨房	2UZ3型	2.5
磷酸二酯酶5A	PDE5A型	1美元	2.3
凝血因子VII	FA7公司	1宽7倍	1.8
己糖激酶IV型	HXK4型	3F9米	1.5
二氢戊酸脱氢酶	PYRD公司	1DG（1DG）	1.6

在单独的窗口中打开

分析AF模型的拓扑结构以评估它们是否适用于HTD

AF模型与PDB结构的比较如所示表2显示pLDDT指标以及整个结构主干之间和结合位点残基内的RMSD值。大多数AF模型与使用骨架RMSD测量的完整蛋白质和结合位点残基的相应PDB结构有很好的重叠（参见表2). 一些靶点在干扰结合位点的某些二级结构元素中显示出细微差异，其中一些靶点显示出直接阻碍在结合位点内进行对接的结构差异；例如，在RENI中，AF结构中的口袋被N-末端环阻断，与晶体结构中的相应残基相比，N-末端环采用完全无序的构象（参见图1).

表2

AF结构模型分析及其与实验结构的比较

受体	pLDDT公司^一	骨干^b条RMSD（澳元）	骨干^c（c）RMSD（澳元）	绑定站点主干RMSD（Au）	一般性意见
ABL1公司	92 ± 5	1.43	0.47	0.79	Gly-rich环被拉向装订袋。
PNPH公司	95 ± 3	1.69	0.50	0.85	N55:G66环的模型朝向蛋白质的内部，靠近但不与配体接触。
美国存托凭证2	97 ± 2	2.53	2.06	0.81	PDB有缺失的残基K1232:S1262，这些残基包含在AF模型中。
IGF1R型	82 ± 16	1.84	1.29	1.64	富含Gly的环处于保守位置，而DFG环（D1123:E1132）被拉向蛋白质的外部。
CDK2型	92 ± 4	3.73	2.04	0.71	激活环和C-螺旋的主干差异较大。
COX1公司	96 ± 1	0.59	0.49	0.61	PDB有D164G和S193G突变，对结合位点没有影响；AF模型和PDB结构在口袋附近缺少血红素组，这不会影响对接。
项目风险评级	95 ± 1	0.61	0.52	0.47	—
安德烈	95 ± 1	0.61	0.44	0.16	—
LFA1型	85 ± 12	0.73	0.68	1.52	螺旋α7（D297:I306）被拉向蛋白质内部，使结合腔空间变窄。
PTN1型	96 ± 6	0.34	0.27	0.22	—
乌鲁克	72 ± 17	1.32	0.46	0.95	PDB有M36I突变（远离口袋）。PDB具有对配体结合很重要的结晶水。
FABP4公司	96 ± 3	0.46	0.39	0.47	PDB具有对配体结合很重要的结晶水。
KPCB公司	92 ± 5	2.71	2.50	1.4	残基T500和S660在PDB中磷酸化，但远离结合位点。C末端区域（C622:H636）内存在序列差异，主干被拉向结合位点的内侧。
热休克蛋白90	94 ± 5	9.23	4.91	4.56	整个蛋白质的高骨架RMSD。残基N106:G137在结合位点附近的位置差异很大。PDB具有对配体结合很重要的结晶水。
ESR1型	96 ± 2	1.36	0.38	0.29	AF模型为激动剂结合构象。
雷尼	84 ± 13	7.76	0.59	10.24	AF模型显示了一个无序的N末端回路，它阻塞了结合腔并阻止使用AF结构进行对接。
DRD3号机组	93 ± 3	1.09	0.51	0.35	残基R219:G320之间的模型结构差异很大，远离结合位点。
厨房	94 ± 6	0.75	0.63	0.69	—
PDE5A型	95 ± 3	1.45	1.02	0.43	PDB残留物Y664:Y676之间存在间隙。AF模型显示，这两个残基的位置不同，它们被拉向蛋白质外部，从而扩大结合位点。PDB具有对配体结合很重要的结晶水。
FA7公司	73 ± 16	1.53	0.71	1.02	—
HXK4型	90 ± 6	1.38	0.95	1.70	V62:G71环被拉向结合位点的内侧，缩小了配体结合的可用空间。
PYRD公司	98 ± 1	0.55	0.37	0.40	—

在单独的窗口中打开

pLDDT指标用于结合位点内的残基，作为模型置信度的度量：pLDDT>90：高度置信预测；70<pLDDT<90：自信预测；50<pLDDT<70：低置信预测；pLDDT<50：不应解释。报告的值对应于平均值和标准差。在主干层计算的RMSD值也会显示出来。

^一BS中残留物的每残留物局部距离差测试（pLDDT）（参见STAR方法).

^b条考虑到所有蛋白质氨基酸。

^c（c）仅考虑二级结构基序中涉及的氨基酸。

在单独的窗口中打开

图1

RENI受体（青色）AF模型显示结合位点受阻

含有残基N80的N末端环阻塞了配体结合空间（以橙色显示）。相应的PDB结构3G6Z公司以黄色显示以进行比较。

核受体ESR1、ANDR和PRGR存在于PDB中两种结构不同的生物构象（激动剂和拮抗剂结合）中。在ESR1的情况下，通过对AF模型的目视检查，我们发现螺旋12（H12）被拉向结合位点，其拓扑结构最符合激动剂结合构象。因此，激动剂结合的PDB结构3ERD比相应的拮抗剂结合PDB具有更充分的骨架叠加(3ERT（应急响应小组）)，如所示图2，因此选择它进行比较。ANDR和PRGR的AF模型也呈激动剂结合构象。

在单独的窗口中打开

图2

雌激素受体的AF模型

ESR1 AF模型（青色）叠加到（A）拮抗剂结合构象（PDB）上3ERT（应急响应小组）)和（B）激动剂结合构象（PDB3ERD公司). 配体结合空间显示为橙色表面。

在KPCB的情况下，AF模型和PDB结构在C端子部分的序列级别上存在差异，我们使用可用的AF Colab笔记本生成了建模结构(https://github.com/deepmind/alphafold网站)使用PDB2I0E型序列作为输入。然而，在我们生成的模型和AF蛋白质结构数据库模型之间几乎没有观察到差异。在这两种AF结构中，C末端环（C622:H636）被拉向蛋白质内部，与结合位点近距离接触并改变其拓扑结构。然而，在这种情况下，由于装订袋没有被阻塞，我们仍然使用HTD的模拟AF结构来评估其性能。

与它们的PDB结构相比，蛋白激酶CDK2、IGFR1和ABL1平均显示出非常好的RMSD。CDK2的AF模型在激活环（包含DFG基序）和C螺旋（与PDB相比）内有很大差异1FVV型). 在ABL1的情况下，富含Gly的环被模拟为结合位点（与PDB相比2HZI公司). 正如Kosinska及其同事所述，在KITH中，根据配体结合情况，可以发现K49:S68形成的柔性环的两种可能构象。⁴⁷我们发现尽管PDB2B8T型在结合位点PDB中与4.11º的AF模型具有高骨架叠加2UZ3型重叠较好，RMSD为0.69º（参见。表2). 因此，后一种PDB结构用于比较AF模型的性能。

对于其余的靶点，从主干叠加中观察到非常细微的差异，详见表2.

AF模型侧链的微小变化可能会对分子对接的结果产生很大影响

表3显示了使用AF结构的HTD结果。ICM显示的EF为1%（EF1），这是平均表现最好的程序。第2列显示了使用ECR一致性方法获得的结果。此外，还显示了PRC一致性方法的EF和HR结果以及天然配体对接的RMSD值。很容易看出，AF模型的性能非常低。平均而言，ICM和ECR的EF1值分别为8.4和8.8。PRC也有同样的趋势，平均EF为8.9，平均HR为0.16。许多靶点的EF结果小于3.0，在某些情况下甚至小于0.0。值得注意的是，PRC方法在AF模型上提供的EF平均比单一对接程序更好，以及共识ECR，这构成了PRC在蛋白质模型上的小规模验证。

表3

使用AF结构模型对接结果

受体	信息与控制模块EF1	ECR EF1（电子控制室EF1）	中华人民共和国			天然配体RMSD（Au）
受体	信息与控制模块EF1	ECR EF1（电子控制室EF1）	A/S公司^一	EF公司	人力资源	天然配体RMSD（Au）
ABL1公司	24.8	16	21/65	19.5	0.32	0.66
PNPH公司	13.6	18.6	18/69	17.9	0.26	1.2
美国存托凭证2	6.3	3.4	1/16	2.5	0.06	2.03
IGF1R型	9.5	7.5	3/19	10.1	0.16	5.01
CDK2型	8.1	10.2	3/10	10.9	0.30	8.3
COX1公司	1.9	1.3	4/74	2.5	0.05	>10
项目风险评级	15.7	12.6	36/107	18.3	0.34	0.93
安德烈	0.8	0	0/169	0	0	6.5
LFA1型	1.5	2.9	0/14	0	0	7.7
PTN1型	24.1	29.5	15/40	21.3	0.38	1.6
UROK公司	17.3	2.5	1/25	2.5	0.04	2.01
FABP4公司	0	0	0/11	0	0	5.2
KPCB公司	3.7	11.8	1/35	1.9	0.03	6.3
热休克蛋白90	4.6	0	0/32	0	0	4.5
ESR1系列	1.1	8.3	36/206	10.2	0.17	2.5
DRD3号机组	0.6	10.4	7/33	8.5	0.21	7.2
厨房	18.7	22.1	13/32	20.7	0.41	1
PDE5A型	3.5	10.3	29/141	14.4	0.21	9.32
FA7公司	9.6	13.1	5/12	23.2	0.42	2.33
HXK4型	4.3	1.1	0/5	0	0	9.64
PYRD公司	7.2	3.6	3/53	3.3	0.06	8.8
平均	8.4	8.8	–	8.9	0.16	–

在单独的窗口中打开

显示ICM和ECR的EF1。PRC一致性方法通过EF和HR进行评估。相应的方程式可以在STAR方法所有这些指标都是无量纲的。

^一活动/选定。

表4显示了使用两种一致性方法在AF模型和PDB结构中获得的结果的比较。可以看出，与相应的晶体结构相比，AF模型大大恶化了HTD性能。如图所示，四个对接程序也是如此表S1PRGR、PTN1、DRD3和KITH的结果与PDB结构相似。与PDB结构对接相比，UROK、KPCB、ANDR、FABP4、ADRB2和PYRD显示出最大的ECR EF1下降，其次是PNPH和LFA1。与此一致，表5结果表明，尽管大多数PDB结构实现了非常低的天然配体对接RMSD值，但AF模型却发现了相反的趋势。

表4

AF模型和PDB结构的VS结果比较

受体	ECR EF1（电子控制室EF1）		中国EF		结合部位与PDB结构对比的目视检查意见。
受体	PDB公司	空军	PDB公司	空军	结合部位与PDB结构对比的目视检查意见。
ABL1公司	25.3	16	26.4	19.5	D381被拉向结合部位的内侧。Gly-rich循环位置的微小差异。
PNPH公司	37.1	18.6	34.9	17.9	S33在OH组中有一个差异，即2.66º拉向袋内。
美国存托凭证2	24.5	3.4	23.4	2.5	N1293和S1203侧链变化较小。
IGF1R型	18.3	7.5	38.6	10.1	DFG环位于蛋白质的外部。在AF模型中，G1125距离为4°。
CDK2型	12.8	10.2	16.3	10.9	将K89和F80侧链轻轻拉入口袋，缩小了装订位置。
COX1公司	3.4	1.3	5.8	2.5	F518侧链轻微拉入装订位置。
项目风险评级	9.2	12.6	17.3	18.3	W755倒置。Q725侧链的差异：OH距离为2.45°。
安德烈	9	0	13.5	0	Q711和T877侧链的差异（参见图3C） ●●●●。
线性调频1	10.9	2.9	11.6	0	螺旋α7（D297:I306）被拉入蛋白质内部，收缩结合位点。
PTN1型	29.5	29.5	23.9	21.3	D48和D181侧链向装订位置旋转。
UROK公司	25.9	2.5	47	2.5	N322、S323和T324被拉向结合位点，平均骨架RMSD为2.28º。
FABP4公司	22.1	0	26.4	0	F57从口袋中拉出，RMSD为1.6º。
KPCB公司	45.3	11.8	53.8	1.9	C末端残基C622:H636被极大地拉向结合位点，从而改变其拓扑结构。将F353拉出。
热休克蛋白90	0	0	0	0	N106:G137的结构差异很大，靠近结合位点。缺少重要的结晶水，这可能对配体结合至关重要。
ESR1系列	34.3	8.3	29.7	10.2	M421和H524侧链的微小差异，轻微拉向结合部位。
DRD3号机组	3.2	10.4	5	8.5	S192从口袋中轻轻拉出。T369倒置。
厨房	22.1	22.1	20	20.7	残留物R53和R61的侧链存在微小差异。
PDE5A型	17	10.3	23.2	14.4	Y664明显被拉向蛋白质的外部，而在PDB中，它干扰结合位点。Q817和M816侧链倒置。
FA7公司	47.1	13.1	48	23.2	残留物K189的位置差异，从口袋中稍微拉出。
HXK4型	5.5	1.1	15.2	0	残基S64:P66明显被拉入结合腔，缩小了配体结合的空间。Y214侧链也被轻轻拉向型腔。
PYRD公司	27.7	3.6	25.5	3.34	R136和Y147侧链位置略有不同。L68指向结合位点，而它在PDB中指向远处。H56和T360侧链翻转。
平均	20.5	8.8	24.1	8.9	—

在单独的窗口中打开

显示了ECR和PRC两种共识方法的结果。在最后一列中可以找到关于结合位点残基的侧链水平的注释。有关单对接程序的结果，请参见表S1.

表5

使用ICM对接姿势比较天然配体RMSD与PDB结构

受体	PDB（奥兰多）	AF（奥兰多）
ABL1公司	0.15	0.66
PNPH公司	0.59	1.2
美国存托凭证2	0.35	2
IGF1R型	1.06	5
CDK2型	1.5	8.3
舵手1	1.8	>10.0
项目风险评级	1.03	0.93
安德烈	0.17	6.5
LFA1型	1.9	7.7
PTN1型	0.53	1.6
UROK公司	0.24	2
FABP4公司	0.54	5.2
KPCB公司	1.2	6.3
热休克蛋白90	6.3	4.5
ESR1系列	0.2	2.5
DRD3号机组	0.65	7.2
厨房	0.51	1
PDE5A型	3.37	9.32
FA7公司	3.13	2.33
HXK4型	0.92	9.64
PYRD公司	0.23	8.8

在单独的窗口中打开

尽管用于进行HTD的AF模型通常在与其相应的PDB结构的结合位点中表现出足够的主链叠加（参见表2)，可以在结合位点内的侧链水平上观察到一些显著的变化（参见表4).

在UROK中，可以观察到配体结合残基N143、S144和T145在主干水平上的差异，这些残基被进一步拉入AF模型中的囊中，主干RMSD值为2.3º，从而缩小了配体结合的可用空间。此外，在Q194和S192的侧链中也观察到偏差，如所示图3答：关于KPCB，AF模型的结合位点也在骨架水平上被修改，来自C末端区域C622:H636的残基被拉入蛋白质内部，干扰了BS。正如预期的那样，这对HTD结果产生了巨大影响。对于ANDR，可以注意到Q711和T877侧链的变化，如所示图3B.尽管对于Q711，Pereira de Jesús等人展示了这一点。⁴⁸T877可以出现在两种构象中，它对配体结合至关重要，在结晶PDB结构中与天然配体发生重要的相互作用。在HSP90中，使用AF模型和没有结晶水的PDB结构都获得了很差的性能。应注意，在之前的研究中，带水的PDB结构的PRC EF为15.4，⁴⁵这表明了将它们纳入HTD的重要性。在PYRD中，L68侧链指向结合囊，干扰配体结合，而它指向PDB结构。在残留物R136、Y147、H56和T360的侧链中也观察到微小变化。

在单独的窗口中打开

图3

选定靶点的结合位点比较

AF模型以青色显示，PDB结构以黄色显示。天然配体以棒状表示，结合位点以橙色表面表示。

（A） UROK结合位点：在N143:T145中可以观察到主干的差异。

（B） ANDR结合位点：在T877侧链中可以观察到微小的变化，这为配体结合提供了重要的相互作用。

（C） PNPH结合位点：S33侧链差异最显著。

（D） LFA1结合位点：在含有K305的螺旋中观察到骨架差异，在E284和K287的侧链中观察到微小变化。

在FABP4的情况下，尽管大多数侧链都被正确建模，但F57被拉回了更远的位置，从而在BS中打开了更多空间。该残基参与了与PDB中天然配体的重要疏水相互作用。对于PNPH，发现OH组与S33组几乎只有一个显著差异，S33组在AF模型中被进一步拉入2.7º的口袋，如所示图3这可能很关键，因为丝氨酸残基通常参与配体结合的重要相互作用。图3D显示了LFA1结合位点，在含有残基L302:I306的螺旋α7的骨架水平上可以观察到显著差异。这个螺旋被拉入AF模型的口袋中，从而改变了配体结合的可用空间。还观察到残基E284和K287侧链的微小变化。

从该分析可以看出，必需配体结合残基的侧链水平的微小变化可能会对HTD活动中获得的EF和天然配体结构的对接产生非常大的影响。然而，通过查看主干RMSD或pLDDT度量，不可能预先预料到这种影响，因为总的来说，这些都是可以接受的。在HTD性能恶化最严重的五种AF模型中，有四种模型的pLDDT度量值等于或大于结合位点中每个残基的70（参见表2)，表明对这些建模结构有很高的信心。

讨论

在实际的基于结构的药物发现场景中，大多数研究人员将直接使用PDB中的结构，如果无法获得，现在可以从AlphaFold蛋白质结构数据库中选择AlphaFolde结构。本研究的目的是判断这些as-is AlphaFold结构用于基于停靠的虚拟筛选的效果如何。

为了评估这些AlphaFold模型的对接性能，我们选择与holo-PDB结构中HTD的性能进行比较。由于AlphaFold结构没有结合配体，因此很容易判断这种全息PDB与“类载脂蛋白”AF的比较是不公平的，因为已经证明全息结构更适合HTD。⁴⁹^,⁵⁰然而，情况并非如此，因为AF的设计不是为了预测apo构象中的结构：AF是用apo和holo结构训练的，正如引言中所述，在存在非蛋白成分的情况下，主链和侧链坐标通常与预期结构一致(https://alphafold.ebi.ac.uk/faq（英文）).

此外，鉴于本研究的目标是评估AF模型对HTD的适用性，很明显，必须对AF数据库中的最佳选项和PDB数据库中的最优选项进行比较。给定蛋白质靶标，AF数据库提供单一结构；对于PDB，合理的选择是选择全息结构。那么，本文所做的比较是最符合本研究主要目标的比较。

从中可以看出表4与相应PDB结构的HTD相比，AF模型上的HTD显示使用两种共识方法（ECR和PRC）评估的EF值始终较低，同时还补充了较差的天然配体RMSD值（参见。表5); 在一些情况下，AF模型上的EF甚至为零。每个对接项目的结果也会恶化。发件人表2和和4，4可以推断，这些较差的EF值可能是由于（i）结合位点内主干水平上的巨大差异（如RENI中，由于结合位点的畸变而无法进行对接）和（ii）主干水平上较小的差异（例如UROK）或者在侧链级别（例如ANDR和PYRD）。在一些情况下，即使结合位点中非常细微的差异也可能对EF产生巨大影响，例如在ANDR和FABP4中。与其他人的表现一致，²⁴^,²⁵^,⁵¹与PDB结构相比，AF模型显示出较低的骨架RMSD值，从而证明AlphaFold预测蛋白质结构的显著能力；此外，来自表2很容易看出，我们的模型在结合位点内也显示出低骨架RMSD和良好的pLDDT值。因此，我们必须得出结论，AlphaFold在复制蛋白质拓扑结构和结合位点解剖结构方面的准确性以及pLDDT度量的良好值不足以保证AF模型可以可靠地用于分子对接目的。因此，如果不执行建模后优化技术，原始AF模型似乎不适合用于HTD。¹¹一方面，这些结果与当代的两项研究相一致，即Zhang等人。，⁵²评估了使用Glide对接软件从DUD-E提取的28个目标的AF模型，⁵³和Díaz-Rovira等人。，⁵⁴他对DUD-E的10个目标的AF模型进行了评估。虽然在后一项研究中，使用的对接软件也是Glide，但评估是在“真实场景”中进行的，开发了一个自定义AF版本，将所有高序列身份模板从训练集中排除。⁵⁵除了评估现成的AF结构外，Zhang等人。已经表明，使用IFD-MD诱导式对接方法细化AF结构⁵⁶显著提高富集因子。另一方面，Wong等人。⁵⁷开发了一个基于AF结构和分子对接的模型来预测蛋白质-键相互作用，并指出，与我们的结果相反，“使用AlphaFold2预测的结构进行分子对接与使用实验确定的结构类似。”除提及得出这一结论的比较仅针对八种实验结构进行外，还值得考虑的是，通过使用实验结构或AlphaFold结构，模型性能较弱：接收器工作特性曲线（AUROC）下的平均面积约为0.48，这比随机更糟糕。当使用机器学习评分函数时，获得了轻微的改善（平均AUROC为0.63）。

还应强调的是，AF从给定序列提供的单一结构模型不能代表（i）蛋白质的不同生物状态（例如激动剂和拮抗剂结合构象，如GPCR和核受体，或开放与闭合，如通道）；（ii）蛋白质动力学（例如蛋白激酶中富含Gly、催化和活化环的不同构象）；（iii）结构构象差异，特别是在与配体结合相关的结合位点内。事实上，有人强调指出，目前AF的主要局限之一是对未处于理想生物状态的受体进行建模；⁵⁸虽然AF模型可能对应于训练集中最具代表性的状态，但也可以观察到中间状态构象。⁵⁸因此，应该承认，PDB中相同蛋白质的不同结构在一定程度上可能确实代表了结构多样性，而目前AF模型尚不具备这种多样性。

在这篇文章中，我们将AF模型与它们在骨干RMSD方面的最佳PDB匹配进行了比较。然而，在现实世界的前瞻性案例中，在建模阶段应考虑生物和生化知识，以确保建模结构处于所需的生物构象。应该注意的是，通过使用同源建模多次避免了这个问题，其中PDB的结构模板是根据目标的生物状态选择的；⁶例如，为了在激动剂结合构象中模拟给定的GPCR，从PDB中选择那些显示激动剂结合构型的模板。⁵⁹还应注意的是，最近有报道称，AlphaFold的使用范围扩大到预测蛋白质靶的活性和非活性状态。⁶⁰

关于AlphaFold限制，其他地方已经讨论过，³²^,³⁵^,³⁶^,⁵⁸据观察，从基于结构的药物发现角度来看，由于缺乏水分子、金属离子和辅因子，AF也提供了不完整的结构模型。为了进一步说明这一问题，在HSP90中，使用AF模型和忽略结晶水的PDB结构获得了非常差的性能（参见。表4)，而通过在对接中加入水分子，可获得15.4的PRC EF⁴⁵（有水分子和无水分子的配体RMSD值(表5)分别为0.8 Au和6.3 Au），这突出了将水分子用于HTD在某些靶点中的重要性。与PDB结构的常规操作一样，AF模型还应仔细检查组氨酸互变异构体、天冬酰胺和谷氨酰胺翻转、质子化状态（尤其是最终参与金属结合的酸性残基、组氨酸和半胱氨酸）以及极性氢构象是否正确。

从实用的角度来看，如果AF模型处于所需的生物状态，则以配体导向的方式将结合囊与已知配体（只要可用）联合精炼¹⁶这可能是对结合位点构象多样性进行取样并最大限度地提高预期HTD成功机会的最佳策略。

尽管本研究的分析重点是AlphaFold模型中与其相应PDB结构的结晶结构域重叠的区域，但值得一提的是，在某些情况下，通过简单的视觉检查，从AF模型中切下的区域似乎表现出高度的紊乱。正如预期的那样，这些先验的无序区域的pLDDT值较低，但匹配区域和非匹配区域结果中感知到的模型质量存在显著差异。尽管低pLDDT区域（pLDDT<50）被认为很有可能是孤立的非结构化区域，或仅作为复合体的一部分进行结构化，²⁸这个问题显然值得进一步分析。

我们的结论将有助于理解AlphaFold模型在HTD中的当前局限性，并根据这些知识制定策略来规避其缺点，从而提高其在药物发现中的进一步应用。

研究的局限性

本研究得出的评估AF模型对HTD富集的影响的结论基于22种不同蛋白质的基准；虽然这个基准可以扩展，但我们希望在这种情况下得出的结论与前面概述的结论一样是定性的。本研究利用了AlphaFold数据库（2022年11月访问）中报告的AlphaFold结构。虽然AlphaFold数据库中的更新或使用最新版本的AlphaFold生成的结构可能会导致略有不同的结果，但我们并不期望对所得结果或从中得出的结论进行重大修改。

STAR★方法

关键资源表

试剂或资源	来源	标识符
软件和算法

PDB公司	（伯曼等人。，¹2002)	https://www.rcsb.org
DUD-E公司	（Mysinger等人。，⁶¹2012)	http://dude.docking.org
NRLiSt公司	（拉加德等人。，⁶²2014)	http://nrlist.drugdesign.fr
GLL/GDD公司	（加蒂卡和卡瓦斯托，⁶³2012)	https://cavastot-lab.net
Alpha折叠数据库	（Jumper等人。，²⁴2021; Varadi等人。，³⁰2022)	https://alphafold.ebi.ac.uk网址
Alpha-Fold（Colab版本）	（Jumper等人。，²⁴2021)	https://github.com/deepmind/alphafold网站
集成电路管理	（Abagyan等人。，⁶⁴1994)	https://www.molsoft.com
自动停靠4	（莫里斯等人。，⁶⁵2009)	https://autodock.scripps.edu
植物	（Korb等人。⁶⁶2009)	网址：www.tcd.uni-konstanz.de
r停靠	（Ruiz-Carmona等人。，⁶⁷2014)	https://rdock.sourceforge.net网址

在单独的窗口中打开

资源可用性

引线触点

更多信息和资源请求应发送给首席联系人克劳迪奥·卡瓦斯托，并由其完成(CCavasotto@austral.edu.ar;cnc@cavasto-lab.net).

材料可用性

这项研究没有产生新的独特试剂。

方法详细信息

目标准备

本研究中使用的22个蛋白质靶点(表1)已从PDB下载。水分子和辅因子全部被删除。对于每个靶点，从Alpha-Fold蛋白质结构数据库检索AF模型³⁰使用相应的Uniprot标识。KPCB使用了一个额外的Alpha Fold结构，该结构是使用稍微简化的AF版本生成的，该版本可公开获得(https://github.com/deepmind/alphafold网站). 在每种情况下，AF模型都被切割以匹配PDB中存在的相应结晶畴。

PDB结构和AF模型的制备方法与ICM程序相同⁶⁴（版本3.9-2e；MolSoft，加利福尼亚州圣地亚哥，2022年5月），采用与早期作品类似的方式。⁴⁵^,⁶⁸缺失的氨基酸和氢原子被添加到PDB结构中；对PDB结构和AF模型进行了局部能量最小化。结合位点内的极性氢在二面体空间中使用蒙特卡罗采样进行优化。谷氨酸和天门冬氨酸残基被赋予-1电荷，赖氨酸和精氨酸被赋予+1电荷。对于PDB结构，天门冬酰胺和谷氨酰胺残基被检查是否翻转并随时修正，His互变异构体根据其氢键网络被赋予。

蛋白质指标

为了与PDB结构进行比较，AF模型使用主链原子（C，C_α，N）考虑：i）完整蛋白质；ii）参与规定二级结构元素（α-、π-或3.10螺旋或β-片）的残基（参见。表2). 计算了整个结构和配体结合残基的骨架间RMSD值，这些残基是根据它们与PDB结构中天然配体的距离确定的：如果重原子与配体中任何重原子的距离在4.0°以内，则该残基被视为结合位点残基。预测的局部距离差异测试（pLDDT）是Alpha-Fold蛋白质结构数据库中报告的每残基指标³⁰作为模型置信度在0到100之间的估计值；LDDT是一种无叠加分数，用于评估模型中所有原子的局部距离差异，并包括立体化学合理性验证。⁶⁹根据这一评估标准，我们研究了pLDDT指标，尤其是结合位点残基。

停靠库

对于每个目标，相应的对接化学库由一组活性分子及其相应的匹配诱饵组成，根据相似的物理化学性质和结构差异，这已证明可确保对接模拟中的无偏计算。⁶³^,⁷⁰对于所有分子，手性和质子化状态都继承自相应的原始数据库。从DUD-E数据库中获得文库，⁶¹除了从NRLiSt获得的ESR1激动剂库⁶²数据库和取自GLL/GDD的ADRB2库。⁶³CDK2中存在的分子数量从～2200到ESR1中的～23000不等。

对接方法

共使用了四个对接程序：ICM、，⁶⁴自动停靠4，⁶⁵r停靠⁶⁷和植物。⁶⁶这些程序具有不同的搜索算法和评分功能，如之前的研究所述。⁴⁵^,⁴⁶自动停靠工具实用程序⁶⁵用于准备Auto Dock 4的输入文件。使用拉马克遗传算法对每种化合物进行20次搜索，使用175万次能量评估。对于ICM，搜索算法使用彻底性2。在PLANTS中使用ChemPLP评分功能，并将速度1设置为搜索速度。对于rDock，参考配体结合模式的半径为8.0°±2.0°，用于表示空腔。对于Vina，将耗尽值设置为8。每个软件的所有其他参数都保持在默认值。此参数设置与先前研究中使用的相同，⁴⁵允许AF对接结果与早期计算结果直接比较的因素。只有在需要时，AF模型上的对接盒才稍作修改，以适应结合位点的微小差异。

共识方法

使用了两种共识方法来结合对接项目的结果。指数共识排名（ECR）⁴⁶将使用不同评分函数确定的每个分子的等级与指数分布结合起来，计算如下

E类 C类 对 (我) = \frac{1}{σ} \sum_{j个} 经验 [- \frac{{第页}_{j个} (我)}{σ}]

哪里第页_j个（i）是分子的秩我使用程序的评分功能确定j个、和σ是指数分布的预期值，并确定了将要考虑的每个评分函数的分子数；ECR被发现与σ，我们使用σ=每个对接库分子总数的10%。

姿势/排名共识法（PRC）⁴⁵由一种混合共识技术组成，该技术将不同对接程序获得的秩和对接姿势相结合，并选择满足以下标准的分子：如果一个分子最多有两个匹配姿势，则相应的秩应在相应对接程序的前5%内；在最多三个匹配姿势的情况下，对应三个等级的姿势应在前10%之内，而在四个匹配姿势下，四个等级应在前20%之内。最后，只选择上述ECR一致性方法中排名前1.5%的分子。结果表明，通过富集因子测量，这一分子子集增加了发现真实命中的机会(EF公司)和命中率(人力资源).

这个EF公司定义为

E类 F类 (x个) = \frac{H（H） 我 t吨 秒_{x个}}{{N个}_{x个}} / \frac{H（H） 我 t吨 秒_{t吨 o个 t吨 一 我}}{{N个}_{t吨 o个 t吨 一 我}}

哪里击打_x个表示子集中存在的活动数x个停靠的图书馆，N个_x个子集中的分子数x个,击打_全部的是整个化学库中配体的总数，以及N个_全部的它的分子总数。当子集x是分子总数的百分比时，例如前1%，我们称之为EF公司1%(EF1型).

命中率(人力资源)计算为

H（H） 对 (x个) = \frac{H（H） 我 t吨 秒_{x个}}{{N个}_{x个}}

是介于0和1之间的度量值，表示在子集中找到实际配体的概率x个.

致谢

CNC感谢Molsoft LLC（加利福尼亚州圣地亚哥）为ICM项目提供学术许可。作者感谢科尔多瓦国立大学（Centro de Cálculo de Alto Desempeño）允许使用他们的计算资源。

作者贡献

概念化，C.N.C。；方法学，V.S.，J.I.DF。，和C.N.C。；软件，V.S.，J.I.DF。，和C.N.C。；验证、V.S.和J.I.DF。；形式分析，V.S.和J.I.DF。；调查，V.S.，J.I.DF。，和C.N.C。；资源，V.S.，J.I.DF。，和C.N.C。；书面原稿，V.S.，J.I.DF。，和C.N.C。；Writing-Review&Editing，V.S.、J.I.DF.、。，和C.N.C。；可视化，V.S。；监管，C.N.C。

利益声明

作者声明没有相互竞争的利益。

笔记

发布日期：2023年1月20日

脚注

补充信息可在网上找到https://doi.org/10.1016/j.isci.2022.105920.

补充信息

文件S1。表S1：

单击此处查看。^{（96K，pdf格式）}

数据和代码可用性

•
本文分析了现有的公开数据。数据库列在关键资源表.
•
本文不报告原始代码。
•
重新分析本文中报告的数据所需的任何其他信息可从引线触点根据要求。

工具书类

1Berman H.M.、Battistuz T.、Bhat T.N.、Bluhm W.F.、Bourne P.E.、Burkhardt K.、Feng Z.、Gilliland G.L.、Iype L.、Jain S.等。蛋白质数据库。《水晶学报》。D生物结晶仪。2002;58:899–907.[公共医学][谷歌学者]

2Levit M.新蛋白质结构数据的增长。程序。国家。阿卡德。科学。美国。2007;104:3183–3188. doi:10.1073/pnas.0611678104。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

三。Lundstrom K。结构基因组学与药物发现。细胞分子医学杂志。2007;11:224–238. doi:10.1111/j.1582-4934.2007.0028.x。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

4卡瓦斯托C.N.对接和高通量对接中的同源模型。货币。顶部。医药化学。2011;11:1528–1534. doi:10.2174/156802611795860951。[公共医学] [交叉参考][谷歌学者]

5Fiser A.蛋白质组学时代的蛋白质结构建模。蛋白质组学专家评论。2004;1:97–110. doi:10.1586/14789450.1.1.97。[公共医学] [交叉参考][谷歌学者]

6Cavastoto C.N.，Phatak S.S.药物发现中的同源建模：当前趋势和应用。药物研发。今天。2009;14:676–683.[公共医学][谷歌学者]

7Tuccinardi T.基于对接的虚拟筛查：最新进展。梳子。化学。高通量屏幕。2009;12:303–314.[公共医学][谷歌学者]

8Spyrakis F.，Cavasotto C.N.基于结构的虚拟筛选面临的公开挑战：受体建模、靶标灵活性考虑和活性位点水分子描述。架构（architecture）。生物化学。生物物理学。2015;583:105–119. doi:10.1016/j.abb.2015.08.002。[公共医学] [交叉参考][谷歌学者]

9Novoa E.M.、Ribas de Pouplana L.、Barril X.、Orozco M.同源模型的集成对接。化学杂志。理论计算。2010;6:2547–2557.[公共医学][谷歌学者]

10Vilar S.、Ferino G.、Phatak S.S.、Berk B.、Cavastoto C.N.、Costanzi S.基于对接的G蛋白偶联受体配体虚拟筛选：不仅是晶体结构，还包括硅模型。J.摩尔。图表。模型。2011;29:614–623. doi:10.1016/j.jmgm.2010.11.005。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

11Cavastoto C.N.、Aucar M.G.、Adler N.S.药物先导发现和设计中的计算化学。国际量子化学杂志。2019;119：e25678.doi:10.1002/qua.25678。[交叉参考][谷歌学者]

12Kufareva I.，Katritch V.，2013年GPCR码头参与者。Stevens R.C.、Abagyan R.《2013年全球产品责任码头评估：迎接新挑战》评估的全球产品责任建模进展。结构。2014;22:1120–1139. doi:10.1016/j.str.2014.06.012。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

13Kufareva I.、Rueda M.、Katritch V.、Stevens R.C.、Abagyan R.、GPCR Dock 2010参与者GPCR建模和对接状态，如2010年社区GPCR Dock2010评估所反映。结构。2011;19:1108–1126. doi:10.1016/j.str.2011.05.012。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

14Michino M.、Abola E.、GPCR Dock 2008参与者。Brooks C.L.，3rd，Dixon J.S.，Moult J.，Stevens R.C.GPCR结构建模和配体对接的社区评估：GPCR Dock 2008。Nat.Rev.药物发现。2009;8:455–463. doi:10.1038/nrd2877。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

15Bordogna A.、Pandini A.、Bonati L.预测同源模型上蛋白质-配体对接的准确性。J.计算。化学。2011;32:81–98. doi:10.1002/jcc.21601。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

16Phatak S.S.、Gatica E.A.、Cavastoto C.N.配体化建模和对接：A类G-蛋白偶联受体的基准研究。化学杂志。信息模型。2010;50:2119–2128. doi:10.1021/ci100285f。[公共医学] [交叉参考][谷歌学者]

17Thomas T.、McLean K.C.、McRobb F.M.、Manallack D.T.、Chalmers D.K.、Yuriev E.人类毒蕈碱型乙酰胆碱受体的同源建模。化学杂志。信息模型。2014;54:243–253. doi:10.1021/ci400502u。[公共医学] [交叉参考][谷歌学者]

18Cavastoto C.N.、Orry A.J.W.、Murgolo N.J.、Czarniecki M.F.、Kocsi S.A.、Hawes B.E.、O'Neill K.A.、Hine H.、Burton M.S.、Voigt J.H.等。通过配体同源建模和基于结构的虚拟筛选发现G蛋白偶联受体的新化学型。医学杂志。化学。2008;51:581–588.[公共医学][谷歌学者]

19.Cavasotto C.N.，Abagyan R.A.配体对接和蛋白激酶虚拟筛选中的蛋白质灵活性。J.摩尔。生物。2004;337:209–225.[公共医学][谷歌学者]

20Cavastoto C.N.，Kovacs J.A.，Abagyan R.A.通过相关正常模式表示配体对接中的受体灵活性。美国期刊。化学。Soc公司。2005;127:9632–9640. doi:10.1021/ja042260c。[公共医学] [交叉参考][谷歌学者]

21道尔顿J.A.R.，杰克逊R.M.蛋白质-配体相互作用的同源性建模：允许配体诱导的构象变化。J.摩尔。生物。2010;399:645–661. doi:10.1016/j.jmb.2010.04.047。[公共医学] [交叉参考][谷歌学者]

22.Moro S.、Deflorian F.、Bacilieri M.、Spalluto G.基于配体的同源建模是检查GPCR结构塑性的一个有吸引力的工具。货币。药物设计。2006;12:2175–2185.[公共医学][谷歌学者]

23.Pala D.、Beuming T.、Sherman W.、Lodola A.、Rivara S.、Mor M.MT2褪黑激素受体的基于结构的虚拟筛选：模板选择和结构优化的影响。化学杂志。信息模型。2013;53:821–835. doi:10.1021/ci4000147。[公共医学] [交叉参考][谷歌学者]

24Jumper J.、Evans R.、Pritzel A.、Green T.、Figurnov M.、Ronneberger O.、Tunyasuvunakool K.、Bates R.、Zhiídek A.、Potapenko A.等人。用AlphaFold进行高精度蛋白质结构预测。自然。2021;596:583–589. doi:10.1038/s41586-021-03819-2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

25Jumper J.、Evans R.、Pritzel A.、Green T.、Figurnov M.、Ronneberger O.、Tunyasuvunakool K.、Bates R.、Zhiídek A.、Potapenko A.等人。在CASP14中应用和改进AlphaFold。蛋白质。2021;89:1711–1721. doi:10.1002/port.26257。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

26Lupas A.N.、Pereira J.、Alva V.、Merino F.、Coles M.、Hartmann M.D.蛋白质结构预测的突破。生物化学。J。2021;478:1885–1890. doi:10.1042/BCJ20200963。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

27马克思五世2021年的方法：蛋白质结构预测。自然方法。2022;19：5-10.doi:10.1038/s41592-021-01380-4。[公共医学] [交叉参考][谷歌学者]

28Tunyasuvunakool K.、Adler J.、Wu Z.、Green T.、Zielinski M.、Chiendek A.、Bridgeland A.、Cowie A.、Meyer C.、Laydon A.等。人类蛋白质组的高精度蛋白质结构预测。自然。2021;596:590–596. doi:10.1038/s41586-021-03828-1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

29David A.、Islam S.、Tankhilevich E.、Sternberg M.J.E.蛋白质结构的AlphaFold数据库：生物学家指南。J.摩尔。生物。2022;434：167336.doi:10.1016/j.jmb.2021.167336。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

30.Varadi M.、Anyango S.、Deshpande M.、Nair S.、Natassia C.、Yordanova G.、Yuan D.、Stroe O.、Wood G.、Laydon A.等人。AlphaFold蛋白质结构数据库：利用高精度模型大规模扩展蛋白质序列空间的结构覆盖范围。核酸研究。2022;50：D439–D444。doi:10.1093/nar/gkab1061。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

31Subramaniam S.，Kleywegt G.J.结构生物学的范式转变。自然方法。2022;19:20–23. doi:10.1038/s41592-021-01361-7。[公共医学] [交叉参考][谷歌学者]

32Laskowski R.A.、Thornton J.M.PDBsum额外服务：SARS-CoV-2和AlphaFold模型。蛋白质科学。2022;31:283–289. doi:10.1002/pro.4238。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

33Evans R.、O'Neill M.、Pritzel A.、Antropova N.、Senior A.、Green T.、Cahidek A.、Bates R.、Blackwell S.、Yim J.等人。用AlphaFold-Multimer预测蛋白质复合物。生物Rxiv。2022 doi:10.1101/20210.10.04.463034。预打印于[交叉参考][谷歌学者]

34Mirdita M.、Schütze K.、Moriwaki Y.、Heo L.、Ovchinnikov S.、Steinegger M.ColabFold：让所有人都可以进行蛋白质折叠。自然方法。2022;19:679–682. doi:10.1038/s41592-022-01488-1。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

35Akdel M.、Pires D.E.V.、Porta Pardo E.、Jänes J.、Zalevsky A.O.、Mészáros B.、Bryant P.、Good L.L.、Laskowski R.A.、Pozzati G.等。AlphaFold 2应用的结构生物学社区评估。生物Rxiv。2021年doi:10.1101/2021.09.26.461876。预打印位置。[PMC免费文章][公共医学] [交叉参考][谷歌学者]

36Jones D.T.、Thornton J.M.《AlphaFold2一年后的影响》。自然方法。2022;19:15–20. doi:10.1038/s41592-021-01365-3。[公共医学] [交叉参考][谷歌学者]

37Gupta M.、Azumaya C.M.、Moritz M.、Pourmal S.、Diallo A.、Merz G.E.、Jang G.、Bouhaddou M.、Fossati A.、Brilot A.F.等人。CryoEM和AI揭示了参与关键宿主过程的多功能蛋白SARS-CoV-2 Nsp2的结构。生物Rxiv。2021年doi:10.1101/2021.05.10.443524。预打印于[交叉参考][谷歌学者]

38McCoy A.J.、Sammito M.D.、Read R.J.《AlphaFold2对分子置换晶体相位的影响》。《水晶学报》。D结构。生物。2022;78：1–13.doi:10.1107/S2059798321012122。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

39Pereira J.、Simpkin A.J.、Hartmann M.D.、Rigden D.J.、Keegan R.M.、Lupas A.N.CASP14中的高精度蛋白质结构预测。蛋白质。2021;89:1687–1699. doi:10.1002/电话：26171。[公共医学] [交叉参考][谷歌学者]

40Fowler N.J.、Williamson M.P.通过AlphaFold和NMR测定溶液中蛋白质结构的准确性。结构。2022;30：925–933.e2。doi:10.1016/j.str.2022.04.005。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

41袁琦，陈S.，饶J.，郑S.，赵H.，杨Y.AlphaFold2感知蛋白-DNA结合位点的图变换预测。简介。生物信息。2022;23：bbab564.doi:10.1093/bib/bbab564。[公共医学] [交叉参考][谷歌学者]

42Jendrusch M.、Korbel J.O.、Sadiq S.K.AlphaDesign：基于AlphaFold的蛋白质从头设计框架。生物Rxiv。2021年doi:10.1101/2021.10.11.463937。预打印于[交叉参考][谷歌学者]

43Moffat L.、Greener J.G.和Jones D.T.使用AlphaFold快速准确地设计固定骨架蛋白。生物Rxiv。2021年doi:10.1101/2021.08.24.457549。预打印于[交叉参考][谷歌学者]

44Bryant P.、Pozzati G.、Elofsson A.使用AlphaFold2改进蛋白质相互作用的预测。国家公社。2022;13：1265.网址：10.1038/s41467-022-28865-w。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

45Scardino V.、Bollini M.、Cavastoto C.N.在基于停靠的虚拟筛选中姿势和排名共识的结合：两个世界中的最佳。RSC高级。2021;11:35383–35391. doi:10.1039/d1ra05785e。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

46Palacio-Rodríguez K.、Lans I.、Cavastoto C.N.、Cossio P.指数共识排名提高了对接和受体集合对接的结果。科学。代表。2019;9：5142.doi:10.1038/s41598-019-41594-3。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

47Kosinska U.，Carnrot C.，Eriksson S.，Wang L.，Eklund H.解脲支原体胸苷激酶底物复合物的结构和该酶可能的药物靶点的研究。2月J日。2005;272:6365–6372. doi:10.1111/j.1742-4658.2005.05030.x。[公共医学] [交叉参考][谷歌学者]

48Pereira de Jésus-Tran K.，CótéP.L.，Cantin L.，Blanchet J.，Labrie F.，Breton R.与各种激动剂复合的人类雄激素受体配体结合域晶体结构的比较揭示了负责结合亲和力的分子决定因素。蛋白质科学。2006;15:987–999. doi:10.1110/ps.051905906。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

49An X.，Lu S.，Song K.，Shen Q.，Huang M.，Yao X.，Liu H.，Zhang J.载脂蛋白是否适合合理发现变构药物？化学杂志。信息模型。2019;59:597–604. doi:10.1021/acs.jcim.8b00735。[公共医学] [交叉参考][谷歌学者]

50Guterres H.、Park S.J.、Jiang W.、Im W.配体结合位点精细化，从载脂蛋白结构生成可靠的全蛋白结构构象。化学杂志。信息模型。2021;61:535–546. doi:10.1021/acs.jcim.0c01354。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

51Stevens A.O.，He Y.对AlphaFold 2在回路结构预测中的准确性进行基准测试。生物分子。2022;12：985.doi:10.3390/biom12070985。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

52Zhang Y.、Vaaa M.、Shi D.、Abualrous E.、Chambers J.、Chopra N.、Higgs C.、Kasavajhala K.、Li H.、Nandekar P.等人。为发现命中目标而对精制和未精制AlphaFold2结构进行基准测试。化学研究。2022年doi:10.26434/chemrxiv-2022-kcn0d-v2。预打印于[公共医学] [交叉参考][谷歌学者]

53Friesner R.A.、Murphy R.B.、Repasky M.P.、Frye L.L.、Greenwood J.R.、Halgren T.A.、Sanschagrin P.C.、Mainz D.T.超精密滑翔：对接和记分，结合了蛋白质-配体复合物的疏水外壳模型。医学杂志。化学。2006;49:6177–6196. doi:10.1021/jm051256o。[公共医学] [交叉参考][谷歌学者]

54Díaz-Rovira A.M.、Martín H.、Beuming T.、Días.L.、Guallar V.、Ray S.S.深度学习结构模型对于虚拟筛选是否足够准确？对接算法在AlphaFold2预测结构中的应用。生物Rxiv。2022年doi:10.1101/2022.08.18.504412。预打印于[公共医学] [交叉参考][谷歌学者]

55Beuming T.、Martín H.、Díaz-Rovira A.M.、Dáaz L.、Guallar V.、Ray S.S.深度学习结构模型对于自由能计算是否足够准确？FEP+在AlphaFold2预测结构中的应用。化学杂志。信息模型。2022;62:4351–4360. doi:10.1021/acs.jcim.2c00796。[公共医学] [交叉参考][谷歌学者]

56Miller E.B.、Murphy R.B.、Sindhikara D.、Borrelli K.W.、Grisewood M.J.、Ranalli F.、Dixon S.L.、Jerome S.、Boyles N.A.、Day T.等人。蛋白质与蛋白质结合诱导配合对接问题的可靠准确解决方案。化学杂志。西奥。计算。2021;17:2630–2639. doi:10.1021/acs.jctc.1c00136。[公共医学] [交叉参考][谷歌学者]

57.Wong F.、Krishnan A.、Zheng E.J.、Stärk H.、Manson A.L.、Earl A.M.、Jaakkola T.、Collins J.J.将AlphaFold启用的分子对接预测作为抗生素发现的基准。摩尔系统。生物。2022;18：e11081。doi:10.252522/msb.202211081。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

58Schauperl M.，Denny R.A.，药物发现中基于AI的蛋白质结构预测：影响和挑战。化学杂志。信息模型。2022;62:3142–3156. doi:10.1021/acs.jcim.2c00026。[公共医学] [交叉参考][谷歌学者]

59Cavastoto C.N.，Palomba D.使用同源模型拓展基于G蛋白偶联受体结构的配体发现和优化的视野。化学。Commun公司。（英国剑桥）2015;51:13576–13594. doi:10.1039/c5cc05050b。[公共医学] [交叉参考][谷歌学者]

60Heo L.，Feig M.实验准确性下G蛋白偶联受体的多状态建模。蛋白质。2022;90:1873–1885. doi:10.1002/port.26382。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

61Mysinger M.M.、Carchia M.、Irwin J.J.、Shoichet B.K.有用诱饵目录，增强型（DUD-E）：更好的配体和诱饵，以实现更好的基准测试。医学杂志。化学。2012;55:6582–6594. doi:10.1021/jm300687e。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

62Lagarde N.、Ben Nasr N.、Jérémie A.、Guillemain H.、Laville V.、Labib T.、Zagury J.F.、Montes M.NRLiSt BDB，人工策划的核受体配体和结构基准数据库。医学杂志。化学。2014;57:3117–3125. doi:10.1021/jm500132p。[公共医学] [交叉参考][谷歌学者]

63Gatica E.A.、Cavastoto C.N.配体和诱饵组用于对接G蛋白偶联受体。化学杂志。信息模型。2012;52：1-6.数字对象标识代码：10.1021/ci200412p。[公共医学] [交叉参考][谷歌学者]

64Abagyan R.、Totrov M.、Kuznetsov D.ICM——蛋白质建模和设计的新方法——应用于从扭曲的天然构象进行对接和结构预测。J.计算。化学。1994;15:488–506. [谷歌学者]

65Morris G.M.、Huey R.、Lindstrom W.、Sanner M.F.、Belew R.K.、Goodsell D.S.、Olson A.J.AutoDock4和AutoDockTools4：具有选择性受体灵活性的自动对接。J.计算。化学。2009;30:2785–2791. doi:10.1002/jcc.21256。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

66Korb O.，Stützle T.，Exner T.E.先进蛋白质与植物对接的经验评分函数。化学杂志。信息模型。2009;49:84–96. doi:10.1021/ci800298z。[公共医学] [交叉参考][谷歌学者]

67Ruiz-Carmona S.、Alvarez-Garcia D.、Foloppe N.、Garmendia-Doval A.B.、Juhos S.、Schmidtke P.、Barril X.、Hubbard R.E.、Morley S.D.rDock：一个用于将配体对接到蛋白质和核酸的快速、多功能和开源程序。公共科学图书馆计算。生物。2014;10：e1003571.doi:10.1371/journal.pcbi.1003571。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

68Cavastoto C.N.，Aucar M.G.使用量子力学评分进行高通量对接。前面。化学。2020;8：246.doi:10.3389/fchem.2020.00246。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

69Mariani V.、Biasini M.、Barbato A.、Schwede T.lDDT：使用距离差检验比较蛋白质结构和模型的局部无叠加评分。生物信息学。2013;29:2722–2728. doi:10.1093/bioinformatics/btt473。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

70Huang N.，Shoichet B.K.，Irwin J.J.分子对接基准测试集。医学杂志。化学。2006;49:6789–6801. doi:10.1021/jm0608356。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自iScience公司由以下人员提供爱思维尔