目录结构
发布/
此目录包含所有CATH-Gene3D数据库版本从头到尾。所有早期版本都位于发布/先前发布/
最新版本在发布/最新发布/
.
发布/每日发布/
该目录提供了蛋白质结构域的摘要信息自上次发布以来已在CATH中分类。
对于CATH-B条目的每个日期,应该有五个文件,例如:
cath-b-20170519-all.gz
- “最新版本”和“假定条目”文件的组合
cath-b-20170519最新发布.gz
- CATH最新版本中的所有域
cath-b-20170519-推定.gz
- 自最新版本以来在CATH中分配/重新分配/重新指定的域
cath-b-20170519-names-all.gz
- CATH层次结构中每个节点的名称描述。A combination of the “最新版本”和“假定条目”文件
cath-b-20170519-s35-all.gz
- CATH-B中的所有域id及其S35集群id和域边界信息。
笔记:
./存档/
此子目录包含所有CATH-B文件当天。
./最新/
该子目录包含当天的五个CATH-B文件:
- cath-b-newst-all.gz
- cath-b-最新发布.gz
- cath-b-最新推测.gz
- cath-b-newest-names-all.gz
- cath-b-s35最新.gz
发布/最新发布/
此子目录包含CATH的最新版本。请注意这些文件不包含版本号。
发布/所有发布/
每个子目录包含所有CATH版本,并命名为根据其版本号:
第2.0版v24版第25版v2_5_1版v2_5_3版v2_6_0版v3_0_0版版本3_1_0v3_3_0版v3_4_0版v3_5_0版版本4_0_0v4_1_0版v4_2_0版v4_3_0版
发布/<发布类型>/<版本>/cath-classification-data/
此目录中的文件包含描述CATH分类的数据。
cath-chain-list目录-.txt文件
- 列出CATH中的所有PDB链ID,无论它们是否被切成域或者没有。有关文件格式的说明,请参见
./README-路径-文件格式.txt
(也称为CLF格式)。
- 例如cath-chain-list-v4_3_0.txt
组织蛋白酶域边界-*-.txt文件
- 划分为以下类别的域和段边界的描述CATH电缆。有关文件格式的说明,请参见
./README-域边界-file-format.txt
(也称为CDF格式)。
- 例如,cath-domain-boundaries-v4_3_0.txt
- 例如,cath-domain-boundaries-seqreschopping-v4_3_0.txt
目录域描述文件-.txt文件
- CATH中每个蛋白质域的描述(参见README.CDDF_FORMAT_2.0更多详细信息)。有关文件格式的说明,请参见
./README-cath-domain-desc-file-format.txt
(也称为CDDF格式)。
- 例如,cath-domain-description-file-v4_3_0.txt
目录域列表--.txt文件
- 分类为CATH的域列表。有关文件格式的说明,请参见
./README-cath-list-file-format.txt
(也称为CLF格式)。
- 例如,cath-domain-list-S35-v4_3_0.txt
cath-domain数据库-*-.txt文件
- 分类为CATH的每个域PDB的描述。
- 例如cath-domaindb-v4_3_0.tgz
- 例如cath-domaindb-S35-v4_3_0.tgz
- 这些是压缩文件;下载后,您应该使用使用前使用合适的程序(例如gunzip)。
国名-.txt文件
- CATH层次结构中每个节点的名称描述,以及示例域。有关文件格式的说明,请参见
./README-cath-names-file-format.txt
(也称为CNF格式)。
cath-superfamily列表-.txt文件
- CATH层次结构中所有超家族的列表。
- 例如cath-superfamily-list-v4_3_0.txt
分类列表-.txt文件
- 所有未分类的蛋白质链和结构域列表处理。有关文件格式的说明,请参见
./README-cath-list-file-format.txt
(也称为CLF格式)。
- 例如cath-unclassified-list-v4_3_0.txt
版本/<release-type>/<version>/非冗余数据集/
非冗余数据集包含CATH域的非冗余子集,这些域:*没有序列>=20或40%的域对(根据BLAST)标识(取决于所选的数据集),超过60%的重叠(越长序列*是我们能做的最大的。
文件夹
cath-dataset-nonredundant-S[20|40]-v4_1_0.atom.fa
- 数据集中域的ATOM序列(仅包含残基在PDB文件中包含ATOM记录)
cath-dataset-nonredundant-S[20|40]-v4_3_0.fa
- 数据集中域的序列
cath-dataset-nonredundant-S[20|40]-v4_3_0.list目录
- 数据集中的域列表;每行一个域ID
cath-dataset-nonredundant-S[20|40]-v4_3_0.pdb.tgz
- (一个gzipped tar文件,包含)数据集中域的PDB文件
施工方法
序列比较是用我们的域序列。然后,我们使用这些结果确定与以下内容的任何链接:*>=40%序列一致性(即pident>=40)和*在较长序列上>=60%的重叠(即100.0*长度/max(slen,qlen)>=60)
我们使用它来形成一个不包含链接项对的域列表。为了使列表尽可能大,我们通过以下方式构建列表反复选择要添加到列表中的每个域,确保域只有当它的链接邻居与任何其他域一样少时才添加。这意味着该算法应该尽可能多地蚕食簇的边缘而不是在集群中心获取少量域。
发布/<发布类型>/<版本>/序列数据/
该目录包含基于蛋白质域序列的数据。
cath-domain-seqs-*-.fa型
- 每个CATH域的序列。
- 例如cath-domain-seqs-S35-v4_3_0.fa
S35 rep序列提供了隐马尔可夫模型(HMM)库集群和功能族(FunFams)。为每个S35生成HMM序列簇和每个功能族使用hmmbuild公司
来自HMMER3软件包。所有S35序列簇HMM和功能串联系列HMM以创建这两个HMM库文件:
- 导管-S35--hm3.磅.gz
- funfam-hmm3乐团-.lib.gz文件
这些是压缩文件;下载后,应使用使用前使用合适的程序(例如gunzip)。程序hm压力
应该然后在每个文件上运行以构建二进制压缩数据文件。
./按超家族排序/
cath-superfamily-eqs公司--.fa型
- FASTA格式的每个CATH超系列的序列。这些文件有这个格式:
- 例如cath-superfamily-yseqs-1.10.10.10-v4_3_0.fa
./补充文件/
此目录包含与特定版本。
辅助材料/
此目录包含来自组。每个子目录表示不同的发布。
./2015_nar_cath-funfhmmer-web-server服务器/
./2016_ploscompbiol_功能分类和特征化-嘌呤-β-内酰胺酶/
- 151-型-uniprot-cath-gene3d.dat
- SSPA突变位置扩展光谱电阻.dat