美国国旗

美国政府的官方网站

关于相同蛋白质组(IPG)

背景和范围

在蛋白质资源中搜索可能会令人望而生畏,因为文本搜索可能会返回大量记录。相同蛋白质组(IPG)资源通过搜索蛋白质记录组来更容易地找到蛋白质信息,其中每个组代表一个独特的蛋白质序列。数据库大小的减少使得通过文本搜索查找信息更加容易。IPG报告页面已作为蛋白质资源的备用显示提供,用于识别蛋白质组的成员,并包含其他信息,如相应的核苷酸编码序列区域、蛋白质名称和生物体名称。现在,这些相同的蛋白质报告可以在单个可搜索资源中找到,即相同的蛋白质组(IPG),网址为https://www.ncbi.nlm.nih.gov/ipg/.

在IPG资源中搜索而不是在蛋白质资源中搜索的优点包括:

  • 返回较小的搜索结果集,因为每个独特的蛋白质序列只有一个结果。拥有较小的集合将使研究人员能够更快地确定感兴趣的蛋白质序列。
  • 相同的蛋白质组包括来自GenBank、RefSeq、SwissProt、PDB和其他来源的蛋白质。可以使用蛋白质登录号和文本搜索来搜索蛋白质组,例如蛋白质名称或分类术语。
  • IPG报告在其摘要中强调了“最佳”RefSeq或SwissProt示例加入(如果可用)及其蛋白质名称,因此研究人员可以选择关注这些集合。
  • 可以对所有GenBank蛋白质翻译进行搜索,包括将来不会包含在蛋白质资源中的注释WGS基因组的翻译。所有GenBank蛋白质都在相同蛋白质报告中,可以通过IPG资源找到。
  • 每个独特的蛋白质都有最低的常见分类群名称(例如哺乳动物或g-蛋白杆菌),可用于识别高度保守的蛋白质。然而,一些明显的差异可能有其他原因,例如样品混淆、错误分类或其中一个样品受到污染,或者可能反映出该蛋白存在于流动元素中(例如,来自噬菌体或病毒),或者是一个可选标记物(例如,氯霉素乙酰转移酶)。
  • 每个组中相同蛋白质的数量都会显示出来,因此可以识别出更多支持的蛋白质,其中相同的蛋白质已被多次观察到。
  • IPG报告包括一个可下载的表,该表映射了蛋白质接入、核苷酸记录(CDS)坐标和分类信息。这对于RefSeq细菌蛋白尤其重要,因为RefSeq细菌蛋白使用不同的数据模型,即一种RefSeq蛋白(非冗余WP_材料)可以在许多不同的基因组上进行注释(见https://www.ncbi.nlm.nih.gov/refseq/about/nonredundantproteins/#identicalprotein).

记录描述

组报告的顶部显示如下。该报告包括以下信息和功能:

A类:报告内容可以作为表格文件下载,供本地使用。

B类:这个报告页面的顶部显示所查看组的产品名称。下面是关于该组的摘要:

  • 首选蛋白质添加上的产品名称
  • 自动选择的首选蛋白质添加(“RefSeq selected Product”)和蛋白质长度
  • 组中蛋白质的最低共同分类节点
  • 这个第页,共页:
    • 装配附件
    • 蛋白质来源
    • CDS区域
    • 总行数
    • 对于GenBank和RefSeq蛋白质,每个蛋白质都作为核苷酸记录的注释存在,因此每个蛋白质加入都有相应的编码区。然而,相同的蛋白质组资源包括不仅仅是注释的蛋白质;这些纯蛋白材料来自SwissProt、PDB和专利(PAT)记录,这些记录没有相应的核苷酸编码区。

C:指示了数据库源。这可能是RefSeq、INSDC(即GenBank和国际核苷酸序列数据库协作组织的其他成员)、SwissProt、PDB、PIR或专利。

D、 电子邮箱:这个核苷酸加入和坐标(D类)对应于注释的CDS特征,其中包含对蛋白质添加的交叉引用(E类). 核苷酸坐标上的链接导航到核苷酸数据库,以GenBank格式显示带注释的CDS区域。蛋白质加入号上的链接以GenPept格式返回该蛋白质记录。

传真:该蛋白质添加的产品名称。

G、 高:“有机体”和“菌株”列报告与核苷酸记录上注释的NCBI分类标识符相对应的信息。如果核苷酸记录不可用,则报告的值与蛋白质记录上的数据相对应。

我:组装栏报告了当相应的核苷酸记录是基因组组装的一部分时,出现该编码区的组装加入

记者:分类学组部分显示了来自列的有机体分类树G公司用于此组。单击树的特定分支将限制报告仅限于该分类谱系中的那些蛋白质。单击出现在表格顶部的“全部显示”链接将返回完整列表。

IPG关于插图

上次更新时间:2017-07-06T10:08:41-04:00