核酸研究。2010年7月1日;38(Web服务器问题):W469–W473。
3DLigandSite:使用类似结构预测配体结合位点
英国伦敦帝国理工学院生物信息学中心结构生物信息学小组,SW7 2AZ
2010年2月11日收到;2010年4月15日修订;2010年5月2日接受。
- 补充资料
【补充资料】
GUID:666F22B8-9AD6-425A-84B0-ADC55501E7B9
GUID:DD1600C5-927D-4E2A-BFD8-D165421B4035
摘要
3DLigandSite是一个用于预测配体结合站点的web服务器。它基于第八轮蛋白质结构预测技术关键评估(CASP8)中使用的成功手动方法。3DLigandSite利用蛋白质结构预测为尚未解决的蛋白质提供结构模型。绑定到与查询类似的结构的配体被叠加到模型上,并用于预测绑定位置。在对CASP8目标进行基准测试时,3DLigandSite获得了0.64的Matthew相关系数(MCC),覆盖率和准确率分别为71%和60%,与我们在CASP8中的手动性能类似。在使用大量蛋白质结构的进一步基准测试中,3DLigandSite的MCC为0.68。web服务器允许用户提交查询序列或结构。预测通过交互式Jmol小程序直观显示。3DLigandSite可用于http://www.sbg.bio.ic.ac.uk/3dligandsite网站.
简介
蛋白质通常在配体(如酶底物)上发挥作用或受其调节。因此,配体结合位点的鉴定非常重要。基因组测序项目中蛋白质序列的爆炸式增长使得自动化方法预测配体结合位点变得至关重要。此外,蛋白质结构通常是在没有配体的情况下解决的,这使得我们能够识别此类蛋白质的结合位点非常重要。
已经开发了许多预测配体结合位点的方法(在1中进行了综述)。序列保守性通常用于预测结合位点(2,三). 许多方法将序列保持与结构数据相结合(4–6). 进化追踪是通过将保守残基映射和聚类到蛋白质结构来实现这一目的的第一种方法(4,5). 其他方法使用探针来识别蛋白质表面可能是结合位点的口袋(7–9). 最近的方法侧重于使用类似结构的配体结合数据(10–13). Firestar公司(10)使用蛋白质数据库(PDB)中的配体结合蛋白生成查询的序列比对,并将这些与残基保护结合起来进行预测。查找网站(11)将类似结构中的配体叠加并聚集到查询结构上,并对簇中与配体接触的残基进行一致预测。FINDSITE作为PSiFR web服务器的一部分提供(12).
在这里,我们介绍了3DLigandSite,一个用于预测配体结合位点的网络服务器,它自动化了我们在第八轮蛋白质结构预测技术关键评估(CASP8)中用于配体结合位点预测的手动过程(13),我们是表现最好的团队之一(14). 在CASP8中,我们以类似于FINDSITE的方法将类似结构的配体叠加到目标蛋白的结构模型上。我们还将残基保守性映射到蛋白质表面,并结合两种方法的数据进行预测。3DLigandSite使用类似结构的配体进行预测。它还提供了保存的详细信息,作为用户的进一步指导,但残留物保存信息目前未用于预测过程。
3DLigandSite的性能已在两组蛋白质上进行了评估;CASP8靶点和一组来自FINDSITE测试集的617个蛋白质(11). 在CASP8上,一组28个蛋白质靶点3DLigandSite获得了马太相关系数(MCC)(15)覆盖率和准确度分别为71%和60%。
方法
3DLigandSite算法
显示了3DLigandSite算法的概述。用户可以提交蛋白质结构或序列。对于序列提交,Phyre(16)运行我们的内部结构预测服务器来生成蛋白质模型。使用MAMMOTH标识与查询类似的结构(17)针对具有结合配体的蛋白质结构库,对用户提供的结构或Phyre模型(称为查询结构)进行结构扫描。相似结构与查询的比对将它们结合的配体叠加到查询结构上。保留前25个MAMMOTH点击中的配体进行分析。要删除弱结构匹配,只保留–LnE得分>7的MAMMOTH命中。在配体上进行单链簇聚,簇中配体之间的最大间距为0.5º+范德瓦尔斯半径。选择配体数目最多的簇作为结合位点的一般区域。每个残基距离阈值内的配体数量用于预测作为结合位点一部分的残基。还计算残留物保护,并将其映射到目标结构上(见下文)。这些步骤的更多详细信息将在下面的部分中进行描述。
生成结构库
PDB中配体的鉴定(18)与生物相关且不作为溶剂分子存在的药物可能难以自动执行。我们使用了Uniprot提供的异源基因列表(19)它们不太可能以溶剂的形式存在于蛋白质结构中,并用我们认为可能具有生物学相关性的其他杂基因手动补充。
选择残留物
所选择的聚类用于预测查询蛋白中的结合位点。使用残基固定距离(距离截止)内的配体数量来确定其是否预计会形成结合位点的一部分。配体的阈值数量是簇中配体总数的一部分,使用公式设置(1)(其中m是一个常数,它决定了配体的比例,这些配体需要在被预测为结合位点一部分的截断距离内)。阈值需要考虑模型结构和实际结构之间以及簇中配体之间的变化,因此距离范围为0.2º至2.0º(“评估3DLigandSite性能”部分和)并且考虑了方程中在0.10和0.35之间的m个值的范围。服务器使用0.8°的距离设置和等式(1)m设置为0.24。
3DLigandSite性能。(A类)MCC在不同距离切断处获得。(B类)距离阈值(A)的精确度与覆盖率关系图。
计算残留物保守性
使用Jensen Shannon散度(JSD)得分计算残留物保守性(20). PSI-爆炸(21)为查询序列运行。PSI-BLAST点击的全长序列E类-值低于1电子-03与肌肉对齐(22)生成用于计算守恒的多序列比对。JSD使用Capra和Singh描述的默认设置计算(20),它使用BLOSUM-62作为后台分发。3DLigandSite预测中未使用残留物保护。它是作为服务器的一项功能提供的,用户可以将其与3DLigandSite预测结合使用。
评估3DLIGANDSITE性能
3DLigandSite已经在用于FINDSITE评估的一组结构上进行了基准测试(11)以及在CASP8中评估的配体结合类靶点(14). 使用我们接受的配体列表过滤FINDSITE数据集,得到一组617个测试结构。3DLigandSite对除三个结构外的所有结构进行了预测。3DLigandSite性能评估采用0.2º到2.0º之间的距离截止值范围,间隔为0.2º,方程中为m(1)设置为0.10–0.35范围内的值。我们使用MCC评估了预测(15)以及覆盖范围和准确性,所有这些都已在最近的CASP实验中用于评估(14,23). m设置为0.24的结果显示在(全套结果如所示补充图S1). 在低距离截止时,可以获得高精度和低覆盖率,并且随着距离截止的增加,精度会降低,而覆盖率会增加。最大MCC为0.68,在0.8°距离截止时获得。MCC在较低和较高截止时减小(). 在这个距离上,截止到70%的覆盖范围和准确度。选择此设置用于3DLigandSite服务器和CASP8目标的分析。
为了使我们对28个CASP8目标的预测与CASP8期间的预测相比较,结构库仅限于2008年5月(CASP8开始)之前PDB中存在的结构。使用前面描述的设置,3DLigandSite的MCC为0.64,覆盖率和准确性分别为71%和60%。这些结果与我们在CASP8中的人因表现相当,我们在CASP中获得了0.63的MCC,83%的覆盖率和56%的准确率(13).
3DLIGANDSITE WEB服务器
3DLigandSite服务器位于http://www.sbg.bio.ic.ac.uk/3dligandsite网站用户可以提交蛋白质序列或结构。对于序列提交,预测过程的第一步是使用Phyre建模蛋白质的结构(16).
结果输出
3DLigandSite输出分为四个主要部分。第一个提供了所使用的phyre模型的详细信息(仅在提交了序列的情况下)以及针对结构库的搜索详细信息。此信息提供了预测过程中两个单独步骤的置信度详细信息,可帮助用户确定其对预测的置信度。
第二部分显示了识别的配体簇表。3DLigandSite会自动选择包含最多配体的簇进行预测。此表提供了其他集群的详细信息,并允许用户查看与这些集群关联的潜在站点。为每个集群提供了指向Jmol小程序的链接,类似于主预测的链接(参见下文和).
CASP8中目标T0483预测的3DLigand现场可视化。Jmol applet显示蛋白质结构,预测的结合位点为蓝色。用于预测的簇中配体显示为空间填充中的离子和线框格式的有机分子。在本例中,镁、AMP、ADP和ATP形成配体簇。右边的面板使用户能够修改蛋白质和配体簇的显示。
最后两部分显示3DLigandSite预测。下表列出了所有预测的结合位点残基,详细说明了它们接触的配体数量、残基之间的平均距离和残基保守性得分(JSD)。提供了集群中存在的异构体的表,以及结构库中源结构的详细信息。A Jmol(焦耳)(网址:www.jmol.org)applet可以可视化建模的蛋白质、配体簇和预测的结合位点(). Jmol是基于java的,只需要用户在其机器上安装java运行时环境。默认情况下,蛋白质以卡通格式显示,金属配体在空格填充中,非金属配体在线框表示中。小程序右侧的一个表提供了控件,供用户修改小程序中的显示。可以选择修改整个蛋白质、预测残基和配体的显示。蛋白质和预测的结合位点可以用卡通、空格填充或线框格式显示。蛋白质可以着色以显示预测的结合位点或残基保守性。用户还可以标记预测的残基,以便他们更容易调查预测的结合位点。此外,空格填充和线框选项也可用于显示配体簇。这些多个查看选项为用户查询小程序中显示的预测提供了一种强大的方法。
结束语
3DLigandSite的开发是为了自动化我们的手动方法,以预测CASP8中使用的配体结合位点(13). 我们已经证明,3DLigandSite能够在CASP8中获得与我们相当的性能,并且这种性能也可以用于更大的测试集。在CASP8中,我们发现大量使用残留物保守性降低了我们方法的性能,因此,3DLigandSite中的残留物保护的使用受到了限制,因此,未来的工作将尝试以提高预测性能的方式结合保护。我们还打算在3DLigandSite当前使用的简单距离度量上开发更复杂的阈值。
基金
生物技术和生物科学研究委员会(分别向M.N.W.和L.A.K.授予BB/F020481/1和BB/E00940/1)。开放获取费用的资助:生物技术和生物科学研究理事会。
利益冲突声明M.J.E.S.是Equinox Pharma Ltd的创始人兼董事,持有该公司股份,并从该公司获得报酬。Equinox Pharma Ltd正在开发药物发现和市场软件的计算方法。
参考文献
1Gheradini PF,Helmer-Citterich M.基于结构的函数预测:方法和应用。简介。功能。基因组蛋白质组学。2008;7:291–302.[公共医学][谷歌学者] 2Berezin C、Glaser F、Rosenberg J、Paz I、Pupko T、Fariselli P、Casadio R、Ben-Tal N.ConSeq:蛋白质序列中功能和结构重要残基的鉴定。生物信息学。2004;20:1322–1324.[公共医学][谷歌学者] 三。Fischer JD,Mayer CE,Soding J.通过概率密度估计预测序列中的蛋白质功能残留物。生物信息学。2008;24:613–620.[公共医学][谷歌学者] 4Lichtarge O,Bourne HR,Cohen FE。进化追踪方法定义了蛋白质家族常见的结合表面。分子生物学杂志。1996;257:342–358.[公共医学][谷歌学者] 5Aloy P、Querol E、Aviles FX、Sternberg MJ。蛋白质功能位点的基于结构的自动预测:应用于评估从基因组注释同源性继承蛋白质功能的有效性和蛋白质对接。分子生物学杂志。2001;311:395–408.[公共医学][谷歌学者] 6Capra JA、Laskowski RA、Thornton JM、Singh M、Funkhouser TA。结合进化序列保守性和3D结构预测蛋白质配体结合位点。公共科学图书馆计算。生物。2009;5:e1000585。 [PMC免费文章][公共医学][谷歌学者] 7Glaser F、Morris RJ、Najmanovich RJ、Laskowski RA、Thornton JM。蛋白质结构中定位配体结合囊的方法。蛋白质。2006;62:479–488.[公共医学][谷歌学者] 8Huang B,Schroeder M.LIGSITEcsc:使用Connolly表面和保守度预测配体结合位点。BMC结构。生物。2006;6:19. [PMC免费文章][公共医学][谷歌学者] 9Hernandez M,Ghersi D,Sanchez R.SITEHOUND-web:蛋白质结构中配体结合位点识别的服务器。核酸研究。2009;17:W413–W416。。 [PMC免费文章][公共医学][谷歌学者] 10Lopez G、Valencia A、Tress-ML、firestar–使用结构模板和比对可靠性预测功能重要残基。核酸研究。2007;35:W573–W577。 [PMC免费文章][公共医学][谷歌学者] 11Brylinski M,Skolnick J.配体结合位点预测和功能注释的基于线程的方法(FINDSITE)。程序。美国国家科学院。科学。美国。2008;105:129–134. [PMC免费文章][公共医学][谷歌学者] 12Pandit SB、Brylinski M、Zhou H、Gao M、Arakaki AK、Skolnick J.PSiFR:蛋白质结构和功能预测的综合资源。生物信息学。2010;26:687–688. [PMC免费文章][公共医学][谷歌学者] 13Wass MN、Sternberg MJ。使用同源结构和在CASP8的保守性预测配体结合位点。蛋白质。2009;77(补充9):147–151。 [PMC免费文章][公共医学][谷歌学者] 14Lopez G,Ezkurdia I,Tress-ML。CASP8中配体结合残基预测的评估。蛋白质。2009;77(补充9):138–146。 [PMC免费文章][公共医学][谷歌学者] 15Matthews BW。T4噬菌体溶菌酶二级结构预测值与观察值的比较。生物化学。生物物理学。行动。1975;405:442–451.[公共医学][谷歌学者] 16Kelley LA,Sternberg MJ。网上蛋白质结构预测:使用Phyre服务器的案例研究。《国家协议》。2009;4:363–371.[公共医学][谷歌学者] 17Ortiz AR、Strauss CE、Olmea O.MAMMOTH(从理论上获得的匹配分子模型):模型比较的自动化方法。蛋白质科学。2002;11:2606–2621. [PMC免费文章][公共医学][谷歌学者] 18Berman HM、Westbrook J、Feng Z、Gilliland G、Bhat TN、Weissig H、Shindyalov IN、Bourne PE、蛋白质数据库。核酸研究。2000;28:235–242. [PMC免费文章][公共医学][谷歌学者] 19UniProt联盟。2009年全球蛋白质资源(UniProt)。核酸研究。2009;37:D169–D174。 [PMC免费文章][公共医学][谷歌学者] 20.Capra JA,Singh M.残留物测定蛋白质功能的表征和预测。生物信息学。2008;24:1473–1480. [PMC免费文章][公共医学][谷歌学者] 21Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者] 23Lopez G,Rojas A,Tress M,Valencia A。对CASP7功能预测类别提交的预测进行评估。蛋白质。2007;69(补充8):165–174。[公共医学][谷歌学者]