关于相同蛋白质组(IPG)
背景和范围
返回较小的搜索结果集,因为每个独特的蛋白质序列只有一个结果。 拥有较小的集合将使研究人员能够更快地确定感兴趣的蛋白质序列。 相同的蛋白质组包括来自GenBank、RefSeq、SwissProt、PDB和其他来源的蛋白质。 可以使用蛋白质登录号和文本搜索来搜索蛋白质组,例如蛋白质名称或分类术语。 IPG报告在其摘要中强调了“最佳”RefSeq或SwissProt示例加入(如果可用)及其蛋白质名称,因此研究人员可以选择关注这些集合。 可以对所有GenBank蛋白质翻译进行搜索,包括将来不会包含在蛋白质资源中的注释WGS基因组的翻译。 所有GenBank蛋白质都在相同蛋白质报告中,可以通过IPG资源找到。 每个独特的蛋白质都有最低的常见分类群名称(例如哺乳动物或g-蛋白杆菌),可用于识别高度保守的蛋白质。 然而,一些明显的差异可能有其他原因,例如样品混淆、错误分类或其中一个样品受到污染,或者可能反映出该蛋白存在于流动元素中(例如,来自噬菌体或病毒),或者是一个可选标记物(例如,氯霉素乙酰转移酶)。 每个组中相同蛋白质的数量都会显示出来,因此可以识别出更多支持的蛋白质,其中相同的蛋白质已被多次观察到。 -
IPG报告包括一个可下载的表,该表映射了蛋白质接入、核苷酸记录(CDS)坐标和分类信息。 这对于RefSeq细菌蛋白尤其重要,因为RefSeq细菌蛋白使用不同的数据模型,即一种RefSeq蛋白(非冗余WP_材料)可以在许多不同的基因组上进行注释(见 https://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/#identicalprotein ).
记录描述
首选蛋白质添加上的产品名称 自动选择的首选蛋白质添加(“RefSeq selected Product”)和蛋白质长度 组中蛋白质的最低共同分类节点 这个 数 第页,共页: 装配附件 蛋白质来源 CDS区域 总行数 对于GenBank和RefSeq蛋白质,每个蛋白质都作为核苷酸记录的注释存在,因此每个蛋白质加入都有相应的编码区。 然而,相同的蛋白质组资源包括不仅仅是注释的蛋白质; 这些纯蛋白材料来自SwissProt、PDB和专利(PAT)记录,这些记录没有相应的核苷酸编码区。