PDB存档
在该RCSB PDB网站上执行的搜索和报告利用了PDB档案中的数据。PDB存档由wwPDB网站在主存档中,files.wwpdb.org(数据下载详细信息)以及版本化存档文件files-versioned.wwpdb.org(版本控制详细信息).
所有数据都可以通过HTTPS协议协议。此外文件传输协议该协议在逐步淘汰的过程中仍受支持。请注意,FTP用户应在下载数据文件之前切换到二进制模式。还要注意的是,大多数web浏览器(例如Chrome)都放弃了对FTP的支持。您需要一个单独的FTP客户端来通过FTP协议下载。
请注意FTP协议将于2024年11月1日逐步取消。请参阅公告.
RCSB PDB还将档案作为亚马逊网络服务(AWS)开放数据注册表的一部分托管在https://s3.rcsb.org网址遵循相同的目录结构。
文件访问URL
对PDB存档下载进行编程访问需要DNS名称:
DNS名称与协议不匹配的URL(例如。,网址:https://ftp.rcsb.org,网址://files.rcsb.org)不支持。对于单个文件下载,首选HTTPS协议(超过FTP)。
自动下载数据
本文档中的URL对于使用诸如wget公司。例如,您可以考虑使用批下载shell脚本.
RCSB PDB还提供远程同步功能,在维护存档的完整副本时非常有用。以下是两个示例脚本,用于帮助使用rsync自动下载数据:
有关获取和维护整个PDB档案或其某些部分副本的其他信息,请访问https://www.wwpdb.org/downloads.html.
PDB存档中的主要目录
目录发布/个人数据广播是ftp站点的入口目录。
一些一般注意事项:
- 条目文件带有日期戳,以显示其发布日期
- 条目按4个字符PDB标识符中间的两个字符分组。例如,条目文件pdb100d.ent可以在pub/pdb/data/strustructures/divided/pdb/00/pdb100d.ent.gz
- 结构物的两个字母命名约定保留在/pub/pdb/data/strustructures/divided和/pub/pdb/data/structures/divided/过时但不适用于中的目录/pub/pdb/data/strustructures/all,其中包含未分割布局中的结构物。
- PDB条目有PDB、mmCIF和PDBML/XML格式。
- 仅UNIX压缩文件支持坐标、结构因子和约束。
有关无法用传统PDB文件格式表示的大型结构的信息,请参阅在这里.
/pub/pdb/data/assembles/mmCIF
|
mmCIF格式的生物装配坐标文件 |
/pub/pdb/data/biounit/pdb
|
PDB格式的生物组装坐标文件 |
/pub/pdb/data/单体
|
PDB化学成分词典和单体的其他信息 |
/发布/pdb/data/status
|
待处理和正在处理的条目的详细信息 |
/pub/pdb/data/strustructures/all
|
类似于已划分的目录,包含pdb、mmCIF、nmr_restrict和structure_factors目录,带有指向已划分子目录中文件的符号链接。在中/但是,所有目录中的文件都不分为两个字母的目录。 |
/pub/pdb/data/strustructures/divided
|
这是用户查找结构的入口点。该目录包含当前PDB,位于PDB、mmCIF、XML、nmr_restrict和structure_factors目录中,文件按照两个字母的组织进行划分。条目按识别码的中间两个字符分组。例如,条目文件pdb1abc.ent可以在pub/pdb/data/strustructures/divided/pdb/ab中找到 |
/pub/pdb/数据/结构/模型
|
与主存档分开维护的理论模型文件 |
/pub/pdb/数据/结构/过时
|
结构和关联的数据文件不再是存档的一部分 |
/pub/pdb/衍生数据
|
列出从所有PDB条目派生的信息的纯文本文件,例如FASTA格式的所有PDB序列。 |
/发布/发布/文档
|
文件,包括文件格式说明和RCSB PDB通讯 |
RCSB PDB提供的其他下载
上面的一些http链接也以简短的形式提供(例如。/下载/4hhb.cif.gz). 此外,对于短式链接,有2个URL可用:
- 看法:客户端的HTTP/HTTPS响应标头设置为:内容类型:text/plain
- 下载:客户端的HTTP/HTTPS响应标头设置为:Content-Type:application/octet-stream和Content-Transfer-Encoding:binary
PDB条目文件
PDB条目文件有多种文件格式(PDB、PDBx/mmCIF、XML、BinaryCIF),可压缩或未压缩,并可选择下载仅包含“标题”信息的文件(摘要数据,无坐标)。
小分子文件
小分子文件,包括化学成分词典和生物有趣分子参考词典(BIRD)中保存的配体/化学成分,有多种格式。
实验数据文件和3DEM地图
该表包括结构因子、核磁共振约束、化学位移、电子密度图和图系数文件。
序列数据
FASTA格式的序列数据(SEQRES记录中的完整沉积序列)。
请注意,FASTA下载服务位于URL/pdb/download/downloadFastaFiles.do?structureIdList=4hhb&compressionType=未压缩
已停产。用户需要迁移到下面的新端点。请注意,新端点的输出是按实体(标头中提供了链标识符)而不是按链。
序列簇数据
PDB中蛋白质序列的每周聚类结果MMseqs2系列30%、40%、50%、70%、90%、95%和100%的序列一致性。请注意,这些文件使用聚合物实体标识符,而不是链标识符,以避免冗余。这些文件是纯文本,每行有一个簇,从最大簇到最小簇进行排序。
文件 |
类型 |
存储压缩 |
统一资源定位地址 |
<identity>%的序列聚类 |
下载 |
未压缩 |
https://cdn.rcsb.org/resources/sequence/clusters/clusters-by-entity-<标识>.txt |
持股数据
PDB id持有json格式的数据。有关更多信息,请参阅数据API文档.
化学成分字典(CCD)数据
为来自化学成分词典(CCD)它描述了PDB档案中所有分子的化学性质。atom文件(cca.bcif)提供以下CIF列:原子id
,组件id
,指控
、和pdbx目标配置
债券文件(ccb.bcif)提供以下CIF列:原子_id_1
,原子_id_2
,组件id
,molstar_质子化_变体
,pdbx _注释_标记
,pdbx目标配置
、和值_顺序
.
此数据可由Mol*模型服务器.