基本搜索


视频:实验结构和计算结构模型(CSM)的简单搜索


概述

什么是基本搜索?

此搜索选项位于网站的顶部栏中,有两种操作模式。在“3D结构”模式中,它可以用于搜索分子结构(实验结构和计算结构模型或CSM),而在“文档”模式中它可以用于在网站上搜索术语的文本描述、使用网站上提供的特定特征和功能的说明,教育材料或新闻公告。

为什么使用基本搜索?

使用默认的“3D结构”模式快速启动基于文本的生物分子结构、配体或组装搜索,或基于序列的搜索,并在PDB条目和/或CSM中查找匹配项。基本搜索可以在实验结构和CSM上运行(当“包含CSM”切换开关打开时)。可以通过以下方式启动搜索

  • 结构中存在的蛋白质名称、基因、作者、配体、关键词等。
  • 与感兴趣结构(例如PDB ID)、基因/蛋白质序列(例如GenBank和UniProt ID)和配体(例如化学成分或BIRD分子ID)相关的特定标识符。注:当“Include CSM”(包括CSM)切换开关处于“on”(打开)状态时,此处也可以使用文献或其他公共数据资源中的CSM标识符(例如,AlphaFold ID、模型存档ID)。
  • 以FASTA格式提交的具有25个以上构建块(如氨基酸、核苷酸)的聚合物序列

在输入查询之前,从文本框左侧的下拉菜单选项中选择“文档”模式后,您可以在所有与网站相关的页面(包括教育材料、教程等)中搜索术语/短语。

基本搜索选项(信息图形)

点击图片访问完整信息图。。。
点击图片访问完整信息图。。。

文档

接口说明

通过在顶部栏的搜索框中输入搜索词或顺序,可以从站点上的任何页面运行基本搜索。首先从下拉菜单中选择要执行的搜索类型(图1)。使用:

  • 用于搜索结构和相关数据的3D结构模式
  • 文档模式,用于搜索包含此单词/短语的网站相关页面。
图1:显示范围选择下拉列表和切换开关选项的基本搜索
图1:显示范围选择下拉列表和切换开关选项的基本搜索

文本框中的切换开关可用于包括或排除CSM。默认情况下,此切换开关处于关闭状态。要包括CSM,请将切换开关“打开”-即,向右滑动开关中的白色圆圈,使其呈青色。要排除CSM,请“关闭”开关,即向左滑动开关,使其变为灰色。

单击文本框右端的放大镜图标启动搜索。

在“3D结构”和“文档”模式下,当您输入术语或短语时,您将在搜索框下方的框中看到列出的建议。

以下是在PDB存档模式下执行基本搜索的一些提示:

  • 全文搜索:
    • 您可以在顶栏搜索框中键入单词或短语,然后单击搜索图标,或按“Enter”键。这将对数据库中的多个字段执行“全文”搜索,以查找与输入的单词或短语匹配的内容。
    • 基本搜索的目的是广泛和包容。它使用存在于存档PDBx/mmCIF数据的各个字段中的基于文本的信息,以及来自映射到PDB结构的外部资源的数据。
    • 搜索检查多个字段中的所有单词,并且术语可能与多个字段匹配。这可能会导致搜索结果中出现远距离相关的匹配项。例如,搜索柠檬酸盐可以找到将这个词作为其名称一部分的酶(例如,柠檬酸合成酶、柠檬酸裂解酶),以及与之结合的小分子柠檬酸盐的结构。
    • 基本搜索全文搜索查询语言支持以下语法来表示布尔运算符,如AND、OR或NOT:
      • 默认情况下,使用布尔OR执行多个关键字搜索,即搜索Word1 Word2将在PDB存档中找到与Word1或Word2匹配的关键字。您还可以使用|(或管道)符号将搜索词与or连接起来。例如,搜索柠檬酸合酶,也可以写成柠檬酸盐|合成酶,将在PDB存档中查找在一个或多个字段中具有柠檬酸或合成酶的条目的匹配项。请注意,在顶栏搜索框中包含单词OR将被解释为搜索词,而不是布尔运算符。
      • 可以使用+(或加号)符号执行布尔AND操作,即搜索Word1+Word2将在PDB存档中找到与Word1和Word2匹配的内容。例如,搜索柠檬酸盐+合成酶将找到同时含有柠檬酸和合成酶的PDB条目。匹配的单词可能被文本中的其他单词分隔开,在句子中以不同的顺序出现,甚至可能在不同的字段中匹配。请注意,在顶栏搜索框中包含单词AND将被解释为搜索词,而不是布尔运算符。
      • 单词周围的“”(或引号)标记表示要搜索的短语-即,搜索“Word1 Word2”将在PDB存档中找到匹配项,其中在短语中相邻包含Word1和Word2,并且短语之间没有其他单词。例如,“柠檬酸合成酶”将在一个或多个字段中查找包含短语的PDB条目。
      • 放置在Word1前面的-(或减号)符号将作为布尔NOT执行,即搜索将在PDB存档中查找不包含Word1的匹配项。请注意,在顶栏搜索框中包含单词NOT将被解释为搜索词,而不是布尔运算符。还要注意,在-Word1周围加引号将搜索包含破折号的短语,即它将查找与搜索词“-Word2”匹配的短语。
      • 查询中单词和/或符号周围的()(或括号)可以指定搜索词的执行顺序。下面列出了两个示例
        • 搜索-(Word1+Word2)将在PDB存档中找到不包含单词Word1或Word2的匹配项,例如-(柠檬酸盐+合成酶)将在PDB中找到在一个或多个字段中不包含柠檬酸或合酶的匹配项。搜索结果可能包括在一个或多个字段中仅包含柠檬酸盐或仅包含合成酶的匹配项。
        • 搜索-(Word1|Word2)会在PDB存档中找到既不包含Word1也不包含Word 2的匹配项,例如-(柠檬酸盐|合成酶)将返回在任何字段中不包含柠檬酸盐、合成酶或这些单词的任何组合的条目。
  • 自动建议列表:
    • 当您在顶栏搜索框中键入查询词或短语时,下面的框中将显示建议列表,按属性或字段名称分组,指示在其中找到搜索词的特定字段。
    • 单击自动建议列表中的任何术语,以执行所选术语与指定属性匹配的搜索。
    • 在基本搜索中,可能会出现一长串自动建议。每组自动建议中的列表按字母顺序组织,只列出了几个最匹配的项。完成查询中的单词可以帮助优化或缩短列表,并显示更多相关匹配项。另请参见高级搜索选项以优化查询结果。
  • 高级查询生成器选项:

此处包含可用于将基本搜索词与布尔运算符组合在一起的符号的表格摘要

行动 操作员 描述 例子
多个关键字| 将查找包含Word1或Word2的条目 柠檬酸合酶柠檬酸盐|合成酶
+或加号 将在条目中的任何位置找到同时包含Word1和Word2的条目。 柠檬酸盐+合成酶
不是 -或减号 将查找条目中任何地方都找不到Word1的条目。 -柠檬酸盐(注意,搜索带引号的“-Citrate”将返回包含短语-Citrate的条目)
指示搜索词的顺序 ()或括号 在搜索词周围放置括号将指示搜索顺序。 -(柠檬酸盐+合成酶) -(柠檬酸盐|合成酶)
搜索短语 “”或引号 在搜索词周围使用引号可以找到包含该短语的条目。 “柠檬酸合成酶”

以下是在文档模式下执行基本搜索的一些提示:

  • 此搜索使用隐含的“包含单词”或“包含短语”策略。这意味着,如果用户输入单词或单词列表并单击“搜索图标”,搜索将被处理为“包含单词”,并将返回包含网页、文件或元数据中与其关联的任何单词的结果。
  • 如果从自动建议列表中选择短语,或在引号中输入短语(例如,“单词集”),则搜索将作为“包含短语”进行处理。
  • 请注意,如果没有与查询短语匹配的文档/页面,则查询将自动更改为“包含单词”搜索。

搜索结果

“3D结构”模式搜索结果以与查询匹配的结构、实体、组件或分子定义的形式列出。默认情况下,搜索结果按定义的查询选项的相关性分数排序。

相关性评分

文本搜索功能由弹性搜索这是一个开源软件,可以构建和执行高度可定制的复杂查询,以检索与研究问题相关的特定结果。默认情况下,搜索结果按Elasticsearch计算的“相关性得分”排序。这要考虑到给定搜索词在每个结果的不同字段中的频率(例如,查询词/短语是否出现在标题、描述、有机体中),以及搜索词与这些字段中的词的匹配程度。该评分过程的最终输出是一组经过排序的结果,其中首先列出计算出的相关性得分较高的结果,然后列出相关性得分较低的结果。有关此搜索算法如何工作的更多详细信息,请参阅这篇Elastic博客帖子(具体请参见标题为“如何在Elasticsearch中对文档进行排名”的部分)。
除了相关性评分外,还有其他几个选项可用于对结果进行重新排序,例如,根据发布日期、结构质量、优先显示实验结构的先后顺序等。请注意,取决于所选的排序选项,一些搜索结果可能会进行排序,以便CSM列在结果页面的顶部。滚动浏览所有结果和/或调整查询和排序条件,以确定满足您需要的结构。

“文档”模式搜索结果分为选项卡:“RCSB PDB”、“News/Announcements”、“PDB101”和“All”(代表所有结果)。

示例

  1. 基本搜索3D结构模式中的“变构调节器”(仅PDB结构).
  2. 基本搜索3D结构模式下的“变构调节器”(PDB结构和CSM).
  3. 基本搜索三维结构中的“胰岛素受体”模式(PDB结构和CSM)。
  4. 基本搜索3D结构模式中的蛋白质序列(PDB结构和CSM)。
  5. 基本搜索三维结构中的核酸序列模式(PDB结构和CSM)。
  6. 基本搜索文献中的变构调节剂模式。


请向报告任何遇到的断开链接info@rcsb.org
上次更新时间:2023年12月21日