相关结构(CBLAST)帮助文档
 
 
   

本帮助文档描述了相关结构资源(亦称为CBLAST公司),它接受一个蛋白质序列作为输入,然后根据序列相似性找到与查询蛋白质相关的实验解析的3D结构。 (注:单独的资源矢量对齐搜索工具(VAST公司),通过纯粹的几何标准识别类似的蛋白质三维结构,如果查询是蛋白质结构而不是蛋白质序列,则可以使用。)

 
     
相关结构(CBLAST)帮助
 
   
 
返回顶部 什么是Related Structures服务?
 
  这个相关结构服务接受蛋白质序列输入,然后根据序列相似性.这些被称为相关构筑物、和可用于推断查询蛋白的结构,并基于对齐信息识别/预测功能位点,即使查询蛋白本身还没有实验解析的结构。

为此,Related Structures服务使用爆炸将蛋白质查询序列与中所有结构的蛋白质序列进行比较分子模型数据库(MMDB)在两两比较中。然后,它列出了具有统计意义的匹配,并按相似性得分排序。

使用这种方法是因为3D结构(三级构造)蛋白质的氨基酸序列(一级结构)在很大程度上决定了蛋白质的结构。因此,如果蛋白质的氨基酸序列与3D结构已知的蛋白质相似,那么我们可以假设查询序列可能具有类似的3D结构。

这个相关结构服务也称为“CBLAST公司,“在哪里”爆炸“表示序列相似性搜索工具,用于查找与查询蛋白相关的蛋白质(来自实验解析的结构),“C”表示Cn3D公司结构查看器,可用于交互式查看与BLAST建议的序列对齐一起发现的3D蛋白质结构,并将对齐区域映射到3D结构空间。

(注:单独的服务矢量对齐搜索工具(VAST公司),通过纯粹的几何标准识别彼此相似的蛋白质三维结构。这些被称为类似结构、和VAST帮助文档提供了有关该工具的其他详细信息。)

 
 
 
返回顶部 如何使用Related Structures服务来了解有关蛋白质的更多信息?
 
  3D结构通常可以提供有关蛋白质生物功能和作用机制的详细信息,但实验求解3D结构并非易事,也不总是可能的。因此,只有一小部分已知蛋白质具有3D结构信息。

然而,对于其他蛋白质,一些结构信息可以通过与同一序列家族中蛋白质的3D结构进行比较来推断(基于序列相似性)——也就是说,通过检查相关构筑物.

这个相关结构该服务查找与查询蛋白质序列相似的3D蛋白质结构。它提供了每个相关结构的3D视图,以及查询蛋白质序列和3D结构的蛋白质序列的成对对齐。

这个相关结构服务还搜索我们的保留域数据库(CDD)以识别保守域在查询蛋白质序列中,并映射功能性场地从保守域到查询序列。

每个相关结构和成对序列比对都可以在中下载和查看Cn3D公司,或保存在本地计算机上供以后使用。

以下页面提供了举例说明使用人前列腺素-过氧化合酶1亚型1前体(登录号NP_000953.2,gi 18104967),是人类的产品PTGS1基因(GeneID 5742),作为蛋白质查询序列:
 
 
 
返回顶部 如何访问Related Structures服务,它接受什么形式的输入?
 
  可以通过多种方式访问相关结构,例如:
在Related Structures服务中直接搜索,使用蛋白质GI编号作为查询
从Entrez蛋白序列记录到相关结构的链接
使用蛋白质GI编号作为查询,针对PDB数据集进行蛋白质BLAST搜索
使用蛋白质序列数据作为查询,对PDB数据集进行蛋白质BLAST搜索
下面提供了每种方法的详细信息和示例。

 
 

在中直接搜索 相关结构 服务,使用蛋白质GI编号作为查询: 返回顶部

这个相关结构主页 使您能够输入序列标识号(即GI编号)任何蛋白质序列在中提供Entrez蛋白数据库,并检索相关结构(如果可用),这些结构已预先计算以进行快速检索。对于例子:
  • 打开相关结构主页.
  • 在文本框中,输入463989,这是蛋白质添加的GI编号AAC50285型:DNA错配修复蛋白同源物[智人]。)
  • 按下“查找相关结构按钮检索与您的查询序列相似的蛋白质,这些蛋白质具有实验解析的结构(查看相关结构用于此示例查询。)

来自的链接Entrez蛋白相关结构的序列记录: 返回顶部

Entrez蛋白 序列记录显示还通过显示“相关结构”链接在蛋白质序列记录的右边缘显示。对于例子:

针对PDB数据集的蛋白质BLAST,使用蛋白质GI编号作为查询: 返回顶部

蛋白质爆炸搜索结果还通过显示“结构”链接蛋白质上成对序列比对的右边缘爆炸结果页面,如果BLAST命中来自蛋白质数据库(PDB)。对于例子:
  • 打开蛋白质BLAST查询页面,然后输入463989作为蛋白质查询序列(463989是GI编号人类MLH1蛋白同源物)。在“选择搜索集“查询页的节,选择”蛋白质数据库蛋白质(pdb),”并按页面底部附近的“BLAST”按钮开始搜索。在GI 463989的BLAST结果页,单击任何点击的描述以查看蛋白质查询序列和BLAST点击之间的成对对齐。每个双序列比对将显示“相关信息:结构”链接因为所有BLAST点击都来自我们选择作为搜索集的蛋白质数据库,因此具有3D结构。

  • 注:如果选择默认值“nr”(非冗余)数据库(而不是“蛋白质数据库蛋白质(pdb)”)选择搜索集”菜单中,则只有具有3D结构的点击才会在其成对对齐的右边距中显示“相关信息:结构”链接。如果在成对对齐右边距中没有看到“相关信息”链接,则意味着BLAST点击不是来自3D结构记录。

针对PDB数据集的蛋白质BLAST,使用蛋白质序列数据(inFASTA格式)作为查询: 返回顶部

如果您的查询蛋白是但在Entrez蛋白质数据库中公开可用(因此还没有GI编号),您仍然可以通过执行爆炸搜索您的查询蛋白质序列数据与来自蛋白质数据库(PDB)每个都有一个实验解析的3D结构。要执行此操作:
  • 打开蛋白质BLAST搜索页
  • 在“输入查询序列“”部分,键入/粘贴您的查询蛋白质序列数据(最好在FASTA格式)进入文本字段框。
  • 在“选择搜索集页面的节,选择蛋白质数据库蛋白质(pdb)“作为要搜索的数据库。
  • 单击页面底部附近的“BLAST”按钮开始搜索。
  • BLAST搜索完成后,单击感兴趣的点击以查看其与查询序列的成对序列对齐。寻找“结构”链接。单击“结构”链接,相关结构服务将在新窗口/选项卡中打开。
 
 
 
返回顶部 如何从Related Structures服务中读取结果?
 
  下面是一个相关结构搜索结果页面的示例,对于查询蛋白质序列GI 257051069,过渡性内质网ATP酶来自非洲爪蟾查询序列没有实验解析的结构,与具有实验解析的3D结构的类似蛋白质序列对齐。(单击图像以打开GI 257051069的实时相关结构搜索结果页面.)
非洲爪蟾过渡内质网ATP酶查询蛋白序列GI 257051069的相关结构搜索结果示例。单击图像打开实时相关结构搜索结果页面。
这个显示屏顶部总结了有关查询序列的信息,包括其GI编号、登录和定义行(描述)。序列标识符如所示FASTA定义格式(例如,[gi|nnnnnn|db|XXXXXX],其中nnnnnn是GI编号,db是源数据库的缩写(例如“sp”表示瑞士保护),XXXXXX是加入编号). 序列标识符链接到相应的顺序记录在中Entrez蛋白蛋白质数据库,如果需要,可以打开序列记录。(注意:如果输入的蛋白质查询序列在Entrez蛋白质数据库,则显示屏顶部将显示您在FASTA格式查询序列。)

图形显示器,标尺标记为“查询顺序“表示带有标记的氨基酸位置的查询序列,提供定义的规模用于路线。尺子下面是小三角形表明保存的特征/地点和带有独特的颜色/形状表明保守域。这些是在查询序列中由CD搜索服务,使用RPS-爆炸将查询蛋白序列与保护域数据库(CDD)。出现在标记为“Specific hits”的行上的保守域表示查询序列与用于创建域模型的序列属于同一蛋白质家族的高度自信。(请参阅保留域数据库帮助文档、和CD-Search帮助文档,了解有关这些资源的更多信息,包括点击类型例如具体的,非特异性,超家族、和多域的).

相关结构显示在“保守域”面板下方。每个结构占据一整行,其中包含:
  • 结构的缩略图,其中有一个选项可以交互查看中的结构和序列对齐Cn3D公司
  • 相关结构的PDB样式序列ID
  • 对齐足迹(粉线),显示查询蛋白和相关结构之间的序列相似区域
  • 这个BLAST得分(E值(默认),位分数,对齐长度,顺序身份)用于对相关结构进行排序。
查看有关相关结构的更多详细信息,单击列出感兴趣结构的行。这将切换打开/关闭提供其他信息的面板,例如:
  • 结构的较大模型图片
  • 链接到中相应的结构记录分子模型数据库(MMDB),存储所有结构的位置,以及每个结构的更多详细信息可用的位置
  • PubMed数据库中搜索结构参考(出版物)的链接
  • 结构的描述标题
  • 全部四个BLAST得分(E值,位分数,对齐长度和顺序身份)用于查询蛋白质序列和3D结构的蛋白质序列之间的对齐。(关于这些分数以及与序列相似性搜索相关的其他术语的详细信息,请参阅BLAST术语表NCBI手册词汇表.)
  • A类双序列比对,如下图所示,提供了详细的,查询蛋白和3D结构蛋白的残基比较:
    • 图中显示了相同的残留物红色
    • 类似残留物蓝色
    • 非匹配残留物灰色

与查询蛋白序列相关的一个结构的详细视图示例:GI 257051069,非洲爪蟾的过渡性内质网ATP酶。单击图像打开实时相关结构搜索结果页面,您可以在其中滚动到1OFH_A,即本例中显示的蛋白质,并查看实时网页上的详细视图。
详细视图面板还提供了三个按钮(模型图片下方),可用于查看或下载结构/路线数据:
  • 点击下载数据并在中显示Cn3D公司。(Cn3D必须为安装以便按钮工作。A教程显示如何使用程序。)
  • 点击将以人类可读的格式下载数据(ASN文本)并在浏览器窗口中显示它们。
  • 点击将以二进制格式下载数据(ASN二进制,非人类可读)并提示您将文件保存在本地计算机上。
两者都有ASN文本ASN二进制格式由识别Cn3D公司,不考虑文件名或扩展名。如果使用.cn3扩展,在Windows操作系统中,您应该能够通过双击使用Cn3D打开文件。

如果发现的结构太多结果可能会分页。有两个导航栏(图形显示上方的一个栏和图形显示下方的一个相同的栏,只是为了方便起见),允许您使用左右箭头翻阅结果,或通过从箭头之间出现的下拉菜单中选择它来跳到特定页面。
 
 
 
返回顶部 如何自定义结果显示?
 
  在查询序列的图形显示上方有一个控制面板,其中包含多个选项,可用于选择结果的显示方式:
  • 子集”菜单允许您选择希望在搜索结果显示中看到的冗余级别。(默认设置为“低冗余”。)本文档的单独部分提供有关冗余级别的其他信息以及用于聚类结构的方法,以便在搜索结果中提供不同级别的冗余。

  • 排序依据“菜单允许您选择相似性得分(E值,位分数,对齐长度,顺序身份)应该用于对结果进行排序。

  • 显示器“菜单允许您以以下方式查看结果:

    • 图形摘要(“图表,”默认设置),显示路线示意图与查询蛋白相关的结构(粉色条)(图示示例)。它还提供了详细视图显示了双序列比对查询蛋白和相关结构的蛋白(图示示例),以及在中查看3D结构和序列对齐的选项Cn3D公司(单击相关结构缩略图旁边的“+”,或单击粉红色对齐示意图,即可访问详细视图。)

    • ",”显示缩略图分子图形、结构标识符(PDB IDMMDB ID)、说明和BLAST得分(E值,位分数,对齐长度,顺序身份)用于每个相关结构。(表格显示还允许您节约研究结果供日后参考;简单地选择/复制/粘贴将所需结果子集转换为首选文件类型(例如*.txt、*.doc、电子表格)

  • 每页结构“文本框允许您指定一页上应列出多少结构。
选择所有内容后,单击“刷新显示“按钮。
 
 
 
返回顶部 什么是冗余级别,Related Structures服务如何处理它?
 
  这个“子集”菜单在“相关结构”搜索结果页面上,可以选择要在显示中查看的冗余级别。

许多蛋白质可能具有相同或非常相似的氨基酸序列(例如,不同实验室从不同生物体中测序的几个蛋白质可能具有完全相同的氨基酸序列)。显示每个序列的搜索结果可能是多余的。

为了解决这个问题基于蛋白质序列相似性将MMDB中的结构聚类为组.每组结构排列根据结构数据的外观质量和完整性,只有排名最高的结构才会被列为代表从而减少了相关结构的显示冗余。

可用的冗余级别如下所示,并由E值 用于聚类的阈值。较小的E值阈值意味着更严格的聚类,即认为相似的结构较少并聚类到一个组中,这会导致更多的组,因此搜索结果中会有更多冗余。您可以从五个冗余级别中进行选择:
  • 所有类似的MMDB--无群集。列出了所有相关结构。这是最高冗余级别。

  • 非同一性--只对相同的序列进行分组结果中显示了每个集群的一个代表。非常高的冗余度。

  • 高冗余度--基于序列相似性,使用E值阈值为10-80,结果中显示了每个集群的一个代表。

  • 中等冗余--基于序列相似性,使用E值阈值为10-40,结果中显示了每个集群的一个代表。

  • 低冗余度--基于序列相似性,使用E值阈值为10-7个(默认),结果中显示每个集群的一个代表。

这个矢量对齐搜索工具(VAST)它通过纯粹的几何标准(而不是序列相似性)来识别相似的蛋白质三维结构,也使用这种类型的聚类来呈现搜索结果。这个VAST帮助文档提供有关用于聚类的方法的其他详细信息.

请注意,为了方便快捷地浏览“相关结构”搜索结果,提供了冗余级别。然而,即使一个簇包含相同的蛋白质序列,簇成员之间也可能存在有趣的差异。例如,一些可能是游离蛋白,而另一些可能与另一个分子结合。如果对这些变化感兴趣,请从“子集”菜单中选择“所有类似的MMDB”以查看完整的搜索结果集。
 
 
 
返回顶部 如果Related Structures服务找不到我的查询蛋白的匹配项,有没有一个工具可以用来查找更遥远的相关结构,或者查询蛋白保守域的结构?
 
  如果相关结构服务找不到任何点击查询蛋白质序列(或者如果没有“相关结构”链接在Entrez蛋白质序列记录显示的右侧空白处),以下方法可以帮助您找到更为遥远的相关结构:
  • PSI-爆炸返回顶部

    特定位置的重复爆破(PSI-BLAST)可以找到较远相关的蛋白质与常规的蛋白质BLAST程序相比,一些较远相关的蛋白质可能与结构有关。PSI-BLAST搜索结果的第一次迭代可能不包含任何来自3D结构记录的蛋白质序列,但随后的迭代将发现更为遥远的相关蛋白质,其中一些可能已经通过实验解析出3D结构。如果PSI-BLAST命中与3D结构关联,它将具有“结构”链接在的右边距双序列比对查询序列和PSI-BLAST命中。

    使用PSI-BLAST:

    • 打开蛋白质BLAST(爆炸)第页。
    • 选择搜索参数:
      在“搜索集页面的节,选择非冗余蛋白质序列."
      在“程序选择部分,然后选择PSI-BLAST(特定位置重复爆破)”(或者只需单击本段开头的链接,即可打开蛋白质BLAST页面,其中包含已选择的搜索参数。)
    • 输入蛋白质查询序列作为一个GI编号或作为FASTA格式序列数据。
    • 按下页面底部的“BLAST”(爆炸)按钮。

    有关PSI-BLAST的更多信息,请参阅:


  • CD搜索返回顶部

    这个CD搜索服务是一种基于web的工具,用于检测保守域在蛋白质序列中。因此,它可以帮助阐明蛋白质的功能。许多保守域,尤其是NCBI-curated域模型,基于多序列比对包括来自实验解析的3D结构的蛋白质。因此,如果CD-Search服务在您的查询序列中找到了保守域,并且某些点击是NCBI认证的域模型(或保守域的成员超家族与3D结构相关),您可能可以看到与查询序列的功能部分相关的三维结构,即使Related Structures(CBLAST)服务没有找到您的整体查询蛋白的点击量。要使用CD-Search:

    • 打开CD搜索第页。
    • 输入蛋白质查询序列作为一个GI编号或作为FASTA格式序列数据。
    • 调整选项(搜索参数)。
    • 按页面底部的“提交”按钮。
    • 搜索结果第页(图示示例),你可以发现NCBI-curated域模型因为他们有一张“cd”登录号前缀(例如,。cd00400。它们也可能显示为特定命中率如果保守结构域来自另一个源数据库,的超家族它所属的可能与三维结构关联。
    • 单击感兴趣的域模型(或超家族)的彩色图形,以查看保守域数据库中的详细信息。详细视图包括用于管理域模型的蛋白质的多序列比对,您的查询蛋白质嵌入在比对中。如果可用,缩略图图像和/或指向域3D结构的链接.
      • 单击缩略图将在免费的Cn3D结构查看程序中打开3D结构(如果该程序已经安装在您的计算机上),以及用于管理域的蛋白质的对齐。
      • 单击“结构视图”按钮在左边的空白处会打开一个类似的视图,但您的查询蛋白也将存在于多序列比对中.

    在可从以下站点访问的文章中阅读有关CD-Search的更多信息:


 
 
 
返回顶部 如何引用相关结构(CBLAST)服务?
 
  Wang Y,Addess KJ,Chen J,Geer LY,He J,He S,Lu S,Madej T,Marchler-Bauer A,Thiessen PA,Zhang N,Bryant SH.MMDB:用Entrez的三维结构数据库注释蛋白质序列。核酸研究。2007简;35(数据库问题):D298-300。[公共医疗PMID:17135201] [全文]  
   
(请参见所有出版物关于NCBI3D高分子结构资源,包括此处列出的文章以及NCBI结构组描述的结果计算生物学研究分子模型数据库.)
 
 
 
 
2016年9月20日修订