原始结构数据集是使用脚本“rsyncPDB.sh”从PDB的文件传输协议(FTP)存档(版本:2012年12月)下载的。数据集是通过用Perl语言编写的命令程序逐步自动挖掘的数据(图1).
可以推断出分辨率≥3.0Ω的原子结构。因此,从PDB中选择分辨率<3.0Å(67793个条目)的X射线蛋白质结构用于提取配体及其结合位点。为了避免溶剂分子的选择,从选定的PDB文件中提取含有8个以上重原子的配体。结果,获得了62423个配体坐标文件。结合位点定义为结合配体中每个原子半径为6.0º内的所有蛋白质残基。输出了5个以上残基的结合位点,提取了54936个结合位点,可与12138个配体结合。在这些配体中,发现3371个配体与一个以上的PDB结构结合,并选择这些配体进行下一次过滤。为了消除与同一配体结合的晶体结构条目的冗余,蛋白质对之间的序列一致性限制在<35%。最终,从PDB中提取了1732个MTL并存档在MTLD中。
每个配体条目包含五条信息。首先,提供了直接从已知晶体结构中提取的配体的3D结构。其次,给出了已转换为“SMILES”格式的配体的二维结构。第三,详细描述了根据配体坐标输出的结合位点的结构。第四,给出了配体结合的PDB的原始晶体结构。最后,从PDB或Universal Protein Resource(UniProt;网址:www.uniprot.org)提供了。
总的来说,MTLD包含1732个MTL,约占未复制提取配体总数(12138个条目)的14.3%,与12759个晶体结构中的14996个结合位点结合。总的来说,MTLD(表1)与其他现有的MTL数据库相比,是最全面、详细和完整的MTL数据。
MTLD的统计分析
为了更好地了解MTLD中MTL的构成,对MTLD进行了统计分析(图2). 首先,使用KEGG数据库(小分子、生物聚合物和其他与生物系统有关的化学物质数据库)分析MTLD条目与生物过程之间的关系。总的来说,MTLD中的815个MTL条目也属于KEGG数据库(≈47.1%的总条目;图2A) ,包括各种氨基酸、糖、核苷酸和脂质。同样,与DrugBank中列出的已知药物相比,MTLD中发现222种批准的药物(≈12.8%的总条目;图2B) ●●●●。特别是,通过使用分子操作环境(加拿大蒙特利尔化学计算小组)中包含的模块“QuaSAR-Descriptor”,根据Lipinski的五法则,预测1334个条目为类药物化合物(≈76.9%的总条目;图2C) ●●●●。MTL分子量在MTLD中的分布分析表明,大多数MTL的分子量<500 Da,而极少数MTL的相对分子量>1000 Da(图2D) ●●●●。因此,统计分析表明,MTLD可能与生物过程和药物作用机制高度相关。
在1732个MTL中,≈45.9%的配体(795个条目)与两种不同的蛋白质结合(图2E) 这低于No-Sturm等人报告的结果(65%)[19]. 这可能是由于他们采用sc-PDB(一个源自PDB的数据库)时使用了不同的数据集源造成的。值得注意的是,222种配体与10多种蛋白质结合,包括批准的药物,如异维甲酸、亚精胺和水杨酸。配体的杂乱性与其构象的灵活性有关[19]. 因此,通过使用结构生物学多尺度建模工具(美国加利福尼亚州圣地亚哥斯克里普斯研究所)的结构比对,对每个配体的提取PDB结构的构象复杂性进行了分析。排列后计算结构对的均方根偏差(RMSD)。将结构对的最大RMSD值作为构象变化的判据。大多数MTL(1270个条目,≈73.3%)的计算RMSD值<2.0º(图2F) 表明大多数MTL可以通过采用类似的构象与不同的蛋白质结合。然而,需要进行进一步的综合分析,以确定其他参数的影响,例如:MTL的分子大小和灵活性;潜在目标数量;MTL和目标之间的交互模式。
MTLD的互联网接口
MTLD的互联网服务器(mtdcadd.com网站)是从PDB的数据挖掘中获得的MTL的免费、可访问的数据库。互联网服务器是使用MySQL、Java、Javascript和HTML语言在带有四个2.13-GHz处理器的机器上构建的。Java和Javascript启用搜索功能。需要在客户端/客户端安装Java Runtime Environment。配体和蛋白质的3D结构使用开源Java查看器Jmol可视化。配体的结构相似性通过开源化学工具包open Babel使用FP2指纹计算。
MTLD是一个易于使用且完全可搜索的数据库,具有许多内置工具。在MTLD主页和“关于”网页上,简要介绍了MTLD。“下载”网页提供了所有数据的下载选项,包括批准的药物、KEGG配体和一些激酶抑制剂。所有内容都可以方便地下载。在“统计”网页上,提供了统计分析的结果(如上所述),未来将在该页面上显示更多统计结果。
“搜索”链接提供了三个选项。第一个是“蛋白质”选项,可以根据蛋白质的名称、PDB-ID或UniProt-ID进行搜索。例如,提交了一个使用蛋白质名称“雄激素受体”的查询。结果页面上有五个条目以表格形式显示:配体的3D结构;配体的名称、公式、分子量;PDB的配体ID。还可以使用指向其他数据库(如PDB、KEGG、DrugBank和UniProt)的超链接访问每个条目的每个对应网页(图三A) ●●●●。可以通过PDB的配体ID、配体名称或InChI键搜索“Lig”选项。例如,使用水杨酸(配体ID:SAL)进行搜索,结果页面上获得了16个与其结合的非冗余蛋白质靶点(图三B) ●●●●。“结构”选项允许用户在Journal Molecular Editor窗口中绘制所查询的配体结构。例如,用户将二氢睾酮绘制为Tanimoto分数截止值为0.8的查询复合物(Tanimoton分数截止值可以从下拉菜单中选择)。结果页面上以表格形式显示了15个“点击”(图三C) ●●●●。