蛋白质簇帮助

介绍

蛋白质簇是由序列相似性簇组成的蛋白质数据库。聚类是统计学和计算机科学中的一种著名方法。对于给定的实体集，集群被定义为同构且分离良好的子集。蛋白质簇被定义为同源蛋白质组。两个蛋白质序列之间的相似性通过BLAST计算的序列之间的最大比对来衡量。

范围

蛋白质簇数据集由来自RefSeq微生物集合的完整基因组和草图基因组编码的蛋白质组成：原核生物、病毒、真菌、原生动物；它还包括来自植物、叶绿体和线粒体的Refseq完整基因组的精选蛋白质簇。每个组的簇分别创建和精选，并赋予不同的加入前缀。蛋白质簇数据集包含自动生成的簇，这些簇不区分正相关和副相关。

数据模型

蛋白质簇由蛋白质标识符（gi编号）和编码蛋白质的基因组列表表示。每个集群都有一个稳定的唯一标识符（字母前缀后跟数字）和一个功能集群名称（标题）。集群名称是自动计算的，然后是手动查看。

例子

PCLA_5029913糖基水解酶家族蛋白

蛋白质：	17
保存位置：	芽孢杆菌目
总属数：	2
生物总数：	13
假设Paralogs：	4
COG功能类别：	碳水化合物运输和代谢仅通用功能预测
客户尽职调查：	cd08996（超家族：第14647条),智能00640,pfam08244型（超家族：第07030条)

方法

NCBI蛋白质簇使用两种聚类方法：分区（团）和分层。

集团方法

使用BLAST对所有蛋白质进行序列相似性比较（E值截止值10^-5); 搜索空间的有效长度设置为5×10⁸). 然后根据BLAST命中的蛋白质长度×对齐长度修改每个BLAST得分，并对修改后的得分进行排序。簇（也称为团）由蛋白质集组成，这样簇中的每个成员都会命中其他每个蛋白质成员（通过修改的分数得到最佳命中数的倒数）。簇成员关系是指对于簇中的任何给定蛋白质（蛋白质A），簇的所有其他成员对蛋白质A的修改分数都比簇外的任何蛋白质对蛋白质A有更大的修改分数。在聚类过程中没有使用截止值，也没有对直系群簇的严格要求，或者任何关于系统发育距离的检查。2005年创建的最初一组未经处理的集群被用作策展的起点，并自那时起每季度更新一次。

分层聚类

原核生物基因组的一种新方法是基于层次聚类。首先，所有蛋白质被组织成全局簇，然后根据几个标准计算簇之间的链接，以反映簇之间的相似性。

聚类过程。蛋白质的相似性由以下方法获得的聚集BLAST命中数确定爆炸e值为10^-3。如果两个蛋白质之间存在聚集的BLAST命中，并且满足命中长度和得分的标准，则认为这两个蛋白质是相连的。使用完整的链接距离以分层方式聚合集群，另外还要求集群之间的最小距离不应超过阈值。由于连接的稀疏性和应用的阈值，我们构建了一系列树，将其视为集群。

相关集群蛋白质聚类后，基于这些簇中蛋白质的相似性，通过几个标准计算簇之间的链接，并创建链接索引。这些索引用于显示Entrez搜索中簇的邻域。首先，USEARCH程序从冗余和近冗余蛋白质组中选择代表性蛋白质。这些代表性蛋白质被分割成不相交的集合并聚集在一起。为了并行执行聚类，使用基于具有unin-by-rank启发式的不相交集森林的并行实现将数据集划分为不相交集，然后在分区中并行执行聚类。连接指数也根据聚集的BLAST命中和蛋白质对簇的分配并行计算。

手动固化

蛋白质簇管理的最重要方面之一是从文献中获得的功能分配。固化的功能注释可以传播到簇内的所有蛋白质。该过程允许改进Refseq基因组中的功能注释，并统一和标准化跨不同生物体和不同注释管道的命名规则。

通常，蛋白质有几个不同的名称，这种变异会给研究人员带来困惑，并减缓科学进步。为了使蛋白质名称标准化，NCBI工作人员（Refseq基因组管理员）与UniProt的专家密切合作。UniProtKB/SwissPort的推荐名称也用作NCBI蛋白质簇的首选名称。

访问

蛋白质簇主页：http://www.ncbi.nlm.nih.gov/proteinclusters网站

Entrez系统为蛋白质簇和其他NCBI数据库以及外部资源之间的搜索和浏览选项、检索和链接提供了一种机制。

文本搜索聚类可以通过一般文本术语搜索，也可以通过特定术语搜索，例如聚类名称（[标题]或单个蛋白质或基因名称（所有术语的列表可在高级搜索页面中找到）。

例子

按功能搜索：

查询：转录调节器

质询：转录调节器[标题]

查询：转录调节器[蛋白质名称]

按属性搜索

γ蛋白杆菌[保存于]

限制和高级搜索

高级搜索可用于复杂的布尔查询。生成器允许您查找可用的搜索词，并将其与and、OR、NOT操作组合。限制为用户提供了一种在不构建复杂查询的情况下进行简单筛选的方法。搜索可能受到治愈状态、核苷酸来源或生物体组的限制。

例子

“rna解旋酶”搜索从不同的生物体中返回500多个簇。将搜索限制为“治愈”和“病毒”会导致痘病毒科中保守的RNA解旋酶NPH-II的单个簇http://www.ncbi.nlm.nih.gov/proteinclusters/PHA2653

痘病毒RNA解旋酶NPH-II属于普遍存在的依赖ATP的解旋酶家族，是细菌、真核生物和许多病毒中RNA代谢所必需的。在丙型肝炎和各种痘病毒中发现的NPH-II解旋酶家族具有相似的序列、结构和作用机制，对病毒复制至关重要。

浏览

Entrez系统还提供了一个浏览选项。簇可以按功能浏览，按大小和生物群过滤。浏览表允许用户通过单击列标题按每列的内容进行排序。从主页点击浏览链接或直接转到

http://www.ncbi.nlm.nih.gov/proteinclusters/browse

下载

数据快照（带有日期戳）可从FTP目录下载ftp://ftp.ncbi.nih.gov/genomes/细菌/集群/

按主要分类群划分。

蛋白质簇

应用程序的标语

介绍

范围

数据模型

方法

访问