SUPERFAMILY 1.75 HMM库和基因组分配服务器

SUPERFAMILY 2可从supfam.org。拜托联系我们如果你遇到任何问题。

领域体系结构相似性功能的解释

类似域架构的链接可以是在任何基因页面或域组合页面上都可以找到。

相似性函数比较两种域体系结构:感兴趣的域体系结构和“查询”域体系结构。感兴趣的域体系结构依次与所有其他域进行比较SUPERFAMILY数据库中的体系结构。这10个域体系结构是选择与感兴趣的架构最相似的进行显示。

相似函数有三个主要组成部分。

1:域体系结构副本编号

相似性函数的第一个组件关注共享感兴趣的域结构和“查询”的基因组集域体系结构。每个域中每个域体系结构的副本数基因组被考虑在内。域体系结构中只有一个副本基因组和在同一基因组中具有100个拷贝的另一个结构域结构可以两者都有助于该生物体的新陈代谢,但最有可能的是不同程度。因此,对于每个包含这两个结构域的共享基因组架构此组件通过取比率来比较拷贝数相似性较小的拷贝数超过较大的拷贝数,

哪里A类B是域体系结构的副本号A类B在基因组中.

2:基因组信息含量

相似性函数的这个组件说明了基因组的相对重要性。包含少量具有相似系统发育分布的域架构副本不太可能出现在随机选择的领域体系结构的系统发育图中而不是拥有大量域结构副本的基因组。这个前基因组不仅在基因上更具特异性,而且在统计学上也更具针对性重要。因此,信息含量被用作衡量基因组的相对重要性。基因组的信息含量计算为,

哪里S公司是所有副本数的总和基因组中的域结构、和S公司是蛋白质拷贝数的总和超级家族数据库中的所有基因组。S公司计算为,

哪里C第个基因组中的结构域n个基因组中独特结构域的数量.

S计算为,

哪里N个是SUPERFAMILY数据库中的基因组数。

3:基因组的系统发育多样性

相似函数因子的最后一个组成部分基因组的系统发育多样性。如果两个结构域共享基因组它们之间的进化距离很遥远,这表明域架构之间的关系在进化上彼此接近。为了测量系统发育多样性,我们使用基因组之间的系统发育距离为每个基因组分配权重根据其与其他共享基因组的相对距离。

计算了所有基因组的相对距离数据使用基于来自SUPERFAMILY数据库。这个任意两个基因组之间的距离定义为它们到最近的共同祖先。距离加权因子D类基因组由到所有其他共享基因组的平均距离决定,

哪里N个S公司是共享基因组的数量d日免疫球蛋白是基因组之间的距离和基因组来自邻接树。

相似性评分功能

评估相似性的完整评分功能在域体系结构A和域体系结构B之间,为

哪里N个L(左)是指结构域的系统发育概况A类B、和N个N个.

描述改编自:
蛋白质结构域结构的基因组分布模式匹配
周一多,布里斯托尔大学计算机科学系硕士论文,2008年。