Entrez数据库
Entrez系统包括39个分子和文献数据库。随着生物医学科学的进步和新类型的数据可用,新的数据库被添加。下面列出了当前数据库的字母表,并对每个数据库进行了简要描述。
装配
这个装配该资源为提交的数据和NCBI RefSeq程序集提供了对基因组程序集的访问。程序集为提交的程序集和RefSeq程序集提供版本化的登录标识符,链接到核苷酸系统中的组件,并直接访问NCBI FTP站点上的下载。
生物项目
这个生物项目数据库是一个可搜索的完整和不完整(进行中)大规模分子项目的集合,包括基因组测序和组装、转录组、宏基因组、注释、表达和绘图项目。BioProject提供了一个中心点,用于链接NCBI分子和文献数据库中与项目相关的所有数据。
生物样品
生物样品包含在其他NCBI分子数据库(如Assembly、Nucleotide和SRA)中有数据的研究中使用的生物源材料的描述。
生物系统
这个生物系统该数据库收集了涉及代谢和信号通路、疾病状态和其他生物过程的生物分子相互作用集的信息。生物系统目前包含来自京都基因和基因组百科全书(KEGG)和生态循环的生物途径(大肠杆菌K-12 MG1655)是BioCyc数据库的子集,旨在将来容纳其他数据。生物系统记录链接到相关文献、基因、蛋白质序列、结构、化学数据以及相关生物系统。如果可用,每个记录都链接到源数据库网站上各个路径的详细图表和注释。
书架
NCBI书架包含可在线搜索的全文书籍集合,并通过文本中的研究论文引用链接到PubMed记录。收藏包括生物医学教科书、其他科学书籍和NCBI帮助手册。
ClinVar公司
ClinVar公司是一个公开档案,其中包括提交的与临床相关的人类遗传变异及其与表型的关系的报告,以及支持证据。ClinVar提供变体和表型的标准化命名,变体的审查状态,以及相关NCBI文献和分子数据库的链接。
保留的域
保留的域是一个蛋白质结构域数据库,由分子进化中保守的蛋白质结构域的序列比对和剖面表示。它还包括域与MMDB数据库中已知三维蛋白质结构的比对。保留域的源数据库是Pfam、Smart和COG。
数据库间隙P
数据库间隙P(基因型和表型数据库)提供了研究基因型和表现型相互作用的研究结果,包括全基因组关联研究、医学测序、分子诊断分析以及基因型和非临床性状之间的关联。
数据库VAR
数据库VAR(基因组结构变异数据库)包含大规模基因组变异的信息,包括大规模插入、缺失、易位和反转。dbVar还提供了定义的变异体与表型信息的关联。
美国东部时间
这个美国东部时间数据库包含来自GenBank批量EST(表达序列标签)部门的序列记录。这些通常是来自cDNA文库的短单程读取,通常作为大型调查项目生成。EST数据可用于编目特定器官、组织或细胞类型或物种的一般表达基因,并比较不同库源中基因的表达水平。
基因
基因是一个可搜索的基因数据库,重点关注已完成测序的基因组,并有一个活跃的研究社区来提供基因特异性数据。基因记录中的信息包括命名、染色体定位、基因产物及其属性(例如,蛋白质相互作用)、相关标记、表型、相互作用以及引用链接、序列、变异细节、地图、表达报告、同源物、蛋白质域内容和外部数据库。
基因组
这个基因组数据库包含1000多个物种或菌株的全基因组序列和地图数据。基因组既代表完全测序的基因组,也代表正在测序的基因。生命的三个主要领域(细菌、古生菌和真核生物)以及许多病毒、噬菌体、类病毒、质粒和细胞器都被描述出来。
GEO数据集
GEO数据集存储由NCBI从基因表达综合(GEO)微阵列数据存储库中收集的精心策划的基因表达和分子丰度数据集。
全球服务体系
这个全球服务体系数据库包含GenBank的批量GSS(基因组调查序列)部门的序列记录。这些是EST记录的基因组等效物;gDNA库的短单通读取。从BAC和其他用于识别和组装基因组测序候选基因的大型插入基因组库中读取的插入端和其他内容是GSS记录的常见示例。
全球技术法规
这个遗传检测注册中心(GTR)是提供者自愿提交基因测试信息的存储库。GTR的范围包括测试目的、方法、有效性、测试有用性的证据、实验室联系人和证书。GTR包括来自NCBI资源(如Gene、ClinVar和MedGen)的信息和链接,以及NIH以外的许多资源。
同源基因
这个同源基因数据库包含从选定的真核生物中自动生成的同源基因集及其相应的mRNA、基因组和蛋白质序列数据。通过与UniGene簇的序列相似性包括来自其他生物体的潜在同源物。
MedGen公司
MedGen公司是NCBI的门户网站,提供有关人类疾病和其他具有遗传成分的表型的信息。MedGen面向医疗保健专业人员和医学遗传学社区,提供对各种类型内容的集中访问。MedGen将用于特定疾病的各种术语聚合为一个特定的概念。每个概念都可能有相关的临床发现、致病基因变体及其发生的基因、可用的临床和研究测试、分子资源、专业指南、原始和综述文献、消费者资源、临床试验、,以及其他相关NCBI分子和文献数据库以及非NCBI资源的链接。
网格
MeSH(医学主题标题)是国家医学图书馆的受控词汇和分类系统(本体),用于为PubMed中的文章编制索引。MeSH术语提供了一种一致的方法来检索可能对相同概念使用不同术语的信息。Entrez MeSH数据库中的搜索提供同义MeSH术语,可以在PubMed中提供更有用的结果。MeSH数据记录显示副标题访问MeSH浏览器,显示MeSH词汇之间的相关概念和层次关系。
NCBI网站搜索
NCBI网站搜索是静态NCBI网页、文档和在线工具的数据库。搜索此数据库可以快速找到专门的在线序列分析工具、时事通讯的过期问题、遗留资源描述页面、示例代码和其他杂项资源。
NLM目录
这个NLM目录包含国家医学图书馆(NLM)藏书中书籍、期刊、视听资料、计算机软件、电子资源和其他材料的记录。旧的期刊数据库被合并到NLM目录数据库中,通过期刊检索的信息由NLM目录提供。这包括期刊标题、MEDLINE缩写、NLM ID、ISO缩写或ISSN等数据。
弹出集
这个弹出集数据库包含来自比较研究的相关核苷酸序列:系统发育、种群、环境(生态系统)和突变。数据库中的每个记录都是一组核苷酸序列,表示来自同一物种(种群、突变)、不同可识别物种(系统发育)或来自同一生物群落(生态系统)的匿名物种的相同分子。
探查
探查是一个核酸试剂数据库,设计用于多种生物医学研究应用,包括基因分型、基因表达研究、SNP发现、基因组绘图和基因沉默。探针记录包含试剂分配器、探针有效性和计算出的序列相似性的信息。
蛋白质簇
蛋白质簇是由参考序列蛋白质组成的相关蛋白质序列(簇)的集合,参考序列蛋白质由完整的原核基因组以及编码的真核细胞器质粒和基因组编码。该数据库提供了对注释信息、出版物、域、结构、外部链接和分析工具的轻松访问。
PubChem生物检测
PubChem生物检测是一个数据库,包含PubChem物质中描述的化学物质的生物活性筛选。它提供了每种生物测定的可搜索描述,包括筛选程序特定条件和读数的描述。
PubChem化合物
这个PubChem化合物数据库包含独特的、经过验证的化学结构(小分子),可以使用名称、同义词或关键字进行搜索。如果不同的储户提供相同的结构,化合物记录可能链接到多个PubChem物质记录。PubChem化合物中的结构通过身份和相似性群预先聚集和交叉引用。此外,计算出的属性和描述符可用于搜索和筛选化学结构。化合物记录与PubChem BioAssay中提供的相关PubChem-Substance records、PubMed引文、蛋白质3D结构和生物筛选结果相关联。
PubChem物质
这个PubChem物质该数据库包含存款人以电子方式提交给PubChem的化学物质信息,包括混合物。这包括提交的任何化学结构信息,以及化学名称、评论和到存款人网站的链接。
公共医学
公共医学是MEDLINE和其他生命科学期刊生物医学文献的引文和摘要数据库。当文章的全文版本可以通过PubMed Central或其他网站获得时,就会提供链接。
公共医学中心
公共医疗中心(PMC)是美国国家医学图书馆生命科学期刊文献的数字档案。PMC包含作者存放的全文手稿或出版商提供的文章。
SNP公司
这个单核苷酸多态性该数据库是单核苷酸多态性、微卫星和小规模插入和删除的中央存储库。提交的SNP和NCBI都产生了非冗余参考记录(RefSNP),这些记录可以从不同来源获得相同多态性的聚类报告。SNP还包含人群特异性频率和基因型数据、实验条件、分子背景以及中性多态性和临床突变的映射信息。
SRA公司
这个SRA(序列读取存档)包含来自下一代测序平台的测序数据。SRA接受并提供所有当前下一代测序平台的数据,包括454(罗氏)、Illumina、SOLiD(应用生物系统)、HeliScope和Complete Genomics。根据所涉及的平台,数据可以包括序列、质量分数、颜色值和强度图。
结构
这个结构或分子建模数据库(MMDB)包含来自晶体学和核磁共振结构测定的实验数据。MMDB的数据来自蛋白质数据库(PDB)。结构记录链接到书目信息、序列数据库和NCBI分类法。Cn3D公司NCBI 3D结构查看器,允许从Entrez轻松交互式可视化分子结构。
分类学
这个分类学该数据库包含NCBI数据库中分子数据的350000多个物种的名称和系统发育谱系。随着数据的保存,新的分类单元被添加到分类数据库中。分类记录包括指向有机体或类群的所有分子数据的链接,以及指向外部分类资源的链接。分类法提供了主要的受控词汇表,用于跨Entrez系统对分子数据进行分类。
非重复序列
非重复序列是一个数据库,提供自动生成的非冗余转录序列集(簇),每个簇代表一个不同的转录位点(基因或表达的假基因)。UniGene集群还提供了蛋白质相似性、基因表达、cDNA克隆试剂和基因组位置的信息。
进入Entrez系统
NCBI网站上出现的几乎所有搜索框都可以访问Entrez系统。顶部的搜索框NCBI主页是开始Entrez搜索的方便地点。使用默认的All Databases选项,结果显示在全局查询页面如所示。此页面列出Entrez数据库以及每个数据库中查询找到的相应记录数。这些数据库在全球查询页面上分为六大类:文献、健康、基因组、基因、蛋白质和化学物质。当然,通过在跨数据库搜索查询框。在Global Query中单击数字或相邻的数据库名称可以检索该数据库中的结果。
Entrez Global Query结果页面显示数据库中所有记录的搜索结果(all[Filter])。从NCBI主页上的“搜索”框中执行搜索,并选择默认的“所有数据库”。
上的搜索框NCBI主页还有一个下拉列表,允许选择任何单个数据库。或者,可以从各个Entrez数据库页面启动搜索。许多数据库主页直接从右上角的热门资源框或页脚区域的列表链接到NCBI主页。所有Entrez主页都链接自资源列表在NCBI主页上。还可以使用简化的地址直接访问数据库主页,这些地址是通过将数据库名称添加到NCBI主页的名称中而形成的。例如,基因数据库主页的地址很简单网址:www.ncbi.nlm.nih.gov/gene。从数据库主页启动的搜索允许根据数据库定制更精确的搜索策略。这些可以使用布尔运算符和一个或多个搜索字段限制的组合来构造,如下所述。
Entrez搜索选项
Entrez查询可以是单个单词、短语、句子、数据库标识符、基因符号或名称……几乎可以是任何东西。通常,简单的搜索会产生大量结果,甚至根本没有结果。有许多内置的Entrez功能可以帮助创建更有效的查询。其中包括布尔运算符、查询转换和使用数据库可用的任何索引字段的字段搜索。其中任何一个都可以用于手动编写和编辑查询,但也可以合并到界面的各个方面,以便无需编写复杂的查询语句即可获得精确的结果。界面的这些方面包括方面,以及一个带有搜索生成器和搜索历史的高级搜索页面,可用于生成更复杂的查询。下面给出了这些功能的更多详细信息和一些示例。
使用布尔运算符
布尔运算符提供了一种生成精确查询的方法,可以生成定义良好的结果集。Entrez中使用的布尔运算符及其工作方式如下。
和:查找包含运算符术语两边的术语的文档,这是两个搜索的交集。
或者:查找包含任一术语的文档,即两个搜索的并集。
不是:查找包含操作符左边的术语但不包含操作符右边的术语的文档,即从左边的搜索中减去右手搜索。
Entrez要求以大写形式输入布尔运算符AND。对于其他两个操作符,并非所有数据库都要求这样做,但最简单的方法是以大写形式输入所有操作符:
非人类和哺乳动物的启动子或反应元件
Entrez以从左到右的顺序处理所有布尔运算符。将各个概念括在括号中会更改此优先级。括号内的术语首先作为一个单元进行处理,然后纳入整体策略。例如,在下面的搜索语句中,首先生成响应元素和启动子结果的并集,然后与g1p3搜索的结果相交。
g1p3 AND(应答元件OR启动子)
默认布尔组合和短语搜索
由空格分隔的单个搜索词通常会自动组合,就像它们由AND运算符连接一样。查询tp53鼠标总是给出搜索鼠标和搜索tp53的交集。每个Entrez数据库也有一个索引短语列表。如果多词搜索与短语匹配,则只使用短语。例如,查询蛋白激酶c被视为一个完整短语,而不是三个术语的交集。不同数据库的短语索引和行为可能不同。在某些情况下,将搜索词括在引号中可以覆盖词的自动交叉,并强制进行短语搜索。大多数Entrez数据库中胰岛素依赖短语的结果会根据该短语是否加引号而变化。虽然短语搜索很有用,但应该谨慎使用,因为将搜索词括在引号中会将检索的文档限制为仅与引号中的文本字符串完全匹配的文档。引用短语也可能会阻止单个术语自动映射到受控词汇,如医学主题标题或有机体(分类学)。
索引字段、查询翻译和自动术语映射
为了便于搜索,为每个Entrez数据库创建了各种索引。这些索引包括从称为字段的记录的特定方面提取的信息。其中一些字段基本上包含自由文本,而其他字段,如数据库标识符(Accession、PMID)、MeSH和Organism的字段则受到严格控制。Entrez中的默认搜索是“所有字段”搜索。这通常会导致返回的记录数量最多,但可能会产生不需要的结果。例如,在任何一个带有术语“马”的分子数据库中搜索,都会在各种上下文中找到包含该单词的所有记录,其中许多记录与该动物无关。如果目标是查找与该物种具体相关的记录,那么将搜索限制在特定字段会产生更有用的结果集。作为Search Builder的一部分,可以在Advanced Search页面上浏览任何Entrez数据库中的可用字段及其索引项。下面单独一节介绍的“高级搜索”界面链接在Entrez数据库中任何页面的搜索框下方,如下所示为Nucleotide。
搜索后,“搜索”框上方还有一个“创建警报”选项,允许将搜索策略保存在性化服务账户。我的NCBI提供了计划自动运行已保存搜索的功能。这个我的NCBI帮助手册提供了有关已保存搜索和本文档中提到的My NCBI其他功能的更多信息。
Entrez Gene高级搜索页面如所示随着有机体领域索引的扩大。马这个词出现在基因的生物索引中。在搜索之前选择Organism字段,只会找到马的基因记录(卡巴勒斯马)而默认的“所有字段”搜索也会查找其他物种的记录。可以使用搜索生成器执行受限于字段的搜索。也可以通过在术语后面加上方括号“[]”中的字段名称来手动输入受限搜索,如以下示例所示:
Entrez Gene Advanced Search(Entrez基因高级搜索)页面显示Search Builder(搜索生成器),并展开了有机体字段索引。
马[生物体]
肿瘤[MeSH术语]
催乳素[蛋白质名称]
srcdb_refseq[属性]
2010/06【出版日期】
日期和其他范围
某些字段可以接受值的范围。常见的例子有出版日期、修改日期、加入日期、分子量和序列长度。在这些情况下,输入范围的低位和高位数字时,用冒号“:”作为范围运算符,中间跟着字段:
110:500[序列长度]
2015/3/1:2016/4/30【发布日期】
镶嵌面过滤器
许多有用的限制,包括上面描述的一些搜索词,可以应用于通过Entrez搜索页面左侧列上的刻面过滤器链接进行的搜索。显示了PubMed搜索页面,其中选择了几个方面。选择任何一个方面过滤器都会使当前搜索与相应的过滤器项相交。方面过滤器可能会限制某些类型的记录或排除不需要的记录。
PubMed搜索结果页面,选择了多个方面过滤器:Review、Free full text、出版日期2015/01/01至2016/12/31、Humans。结果页面在带有“I”图标的行中报告搜索已被筛选的事实(更多…)
受控词汇字段和查询映射
索引的MeSH(医学主题标题)和Organism字段分别在PubMed和传统生物分子数据库中具有特殊作用。MeSH和Organism字段都是严格控制的词汇表,也是PubMed和分子数据库中数据库记录的层次分类系统。每个PubMed记录都分配了一组MeSH术语,这些术语添加了有关原始论文主题的重要信息。小分子数据库中PubChem成分的记录也与化学成分的MeSH术语相关。PubMed帮助文档详细介绍了MeSH系统的重要性。以类似的方式,几乎所有的生物分子数据库记录都附在源生物及其系统发育分类中NCBI分类数据库. TheMeSH浏览器和分类浏览器是探索这些系统及其相关记录的有用方法。由于这两个系统的重要性,查询会尽可能自动映射到这些词汇表。搜索词也可以扩展和翻译。在某些数据库中,其他字段也可能参与此映射。查询马多巴胺受体D2在PubMed和Protein Entrez搜索系统中成为更复杂的搜索语句,如下框所示。
公共医学:(“马”[MeSH术语]或“马”[所有字段]或“马匹”
[All Fields]或“equidae”[MeSH术语]或“equidae“[所有字段])
AND(“受体,多巴胺d2”[MeSH术语]OR(“受体”[All Fields]
和“多巴胺”[所有字段]和“d2”[所有领域])或“多巴胺d2
受体“[All Fields]OR(“多巴胺”[All Fields]AND“受体”
[所有字段]AND“d2”[所有字段])OR“多巴胺受体d2”[所有字段])
蛋白质:(“Equus caballus”[有机体]或马[所有领域])和(多巴胺
受体D2[蛋白质名称]OR(多巴胺[所有字段]和受体[所有字段
与D2[所有字段]))
特殊情况:作者姓名、数据库标识符和关键词
Entrez中还有其他一些查询解释的特殊情况。以姓氏、不带标点符号的首字母缩写形式输入作者姓名,例如Lipman DJ,会自动映射到作者字段搜索。为某些数据库输入可识别的标识符会绕过常规索引,直接检索记录。这种行为的标识符包括序列记录的接入和gi编号、PubMed标识符(PMID)和基因标识符。另一个特殊情况是,某些单词在Entrez搜索中被忽略。这些单词被称为stopwords,经常出现在记录中的文本中,但并不提供信息。简单的例子有定冠词、连词和介词。Entrez(PubMed)单字的完整列表在PubMed帮助书。搜索词中的标点符号通常也会被Entrez忽略,并可能导致某些字符串丢失。将有问题的术语括在引号中可能会有所帮助。
使用通配符或查询截断
Entrez允许使用单个词干进行搜索,其中词尾被星号“*”替换,以表示任何字符。这通常称为截断搜索。例如,Protein数据库中的搜索词hors*会查找包含词hors、hors4、horse、horse's、horsradish、horst等的记录。字段搜索和所有字段搜索都支持截断,如果单词的拼写不确定,则截断非常有用。它还可以帮助收集标识符的范围。例如,Entrez Nucleotide数据库中的以下搜索语句将查找所有人类染色体的记录:
NC_0000*[加入]和人类[生物体]
由于截断搜索仅使用针对特定字段索引的搜索词的前600个变体,因此确定不准确的词(例如PubMed中的cat*)将给出不完整的结果。
搜索详细信息显示查询解释
在某些情况下,查看Entrez如何如上所述解释、展开或映射查询是很有用的。此信息在搜索详细信息框或搜索结果的“发现”列中。下面的搜索详细信息框显示了PubMed中如何解释以下搜索。
史密斯·T关于马的生活
Entrez忽略了单词“about”、“The”、“of”和“a”;“Smith T”被映射并扩展为作者搜索;术语“生活”和“马”被扩展并映射到MeSH词汇表中
使用高级搜索页面构建复杂的搜索语句
每个Entrez数据库的Advanced Search页面对于构建复杂且高度精确的查询非常有用。显示了Entrez蛋白质的高级搜索页面。该页面作为一个独立的搜索界面,允许制定复杂的查询。Search Builder与Search History结合使用有助于构建更精确的查询。
蛋白质高级搜索界面显示搜索生成器和搜索历史。可以在搜索框中组合搜索生成器和搜索历史记录中的条目来构造复杂的查询。单击搜索中的编号条目(更多…)
Search Builder中的下拉列表显示了为特定数据库编制索引的所有字段。这个显示索引链接打开所选字段的按字母顺序排列的术语列表。当在搜索生成器中输入术语时,索引将打开到索引中最接近的匹配项。这个添加到搜索框按钮将字段受限的查询放入搜索框。可以使用搜索按钮或可以使用“预览”按钮添加到“搜索历史记录”中。
每个Entrez数据库都单独维护搜索历史记录,并跟踪所有搜索,直到关闭Web浏览器或删除历史记录。八小时不活动后,历史记录会自动删除。可以组合搜索历史记录中的条目来创建新的搜索,以提供准确的结果。中的示例将青蛙搜索(#28)、RefSeq蛋白质搜索(#26)与催乳素的蛋白质名称搜索结合起来,以获得以下对象的催乳素蛋白质记录热带非洲爪蟾,NP_001093699号.
显示和保存一组记录
这个显示器设置和发送至Entrez页面左上方和右上方的菜单管理记录的显示、存储或下载方式。这个显示器设置菜单有格式、每页结果数和排序顺序选项。可用的格式和排序选项因数据库而异。Entrez中多个搜索结果的默认格式是跨数据库一致的摘要格式。单个记录的默认格式取决于数据库。默认显示的记录数为每页20条,按数据库的默认排序顺序显示。可以通过在My NCBI帐户中设置个人首选项来修改这些默认设置,如我的NCBI帮助书。
这个发送至菜单提供了将结果发送到My NCBI中“集合”中的联机存储、数据库的NCBI剪贴板或本地文件的选项。根据数据库的不同,可能会提供其他选项。选择文件选项时,可以指定记录格式和排序顺序。默认情况下,所有显示器设置和发送至菜单操作会影响所有记录,除非使用记录标题左侧的复选框选择单个项目。
关于剪贴板和我的收藏
剪贴板是NCBI网站上用于保存记录的临时位置。每个Entrez数据库都有自己的独立剪贴板,限制为500个项目。保存到剪贴板的项目在不活动八小时后会丢失。当剪贴板中有项目时,访问剪贴板的链接将显示在该数据库任何Entrez页面的右上角。剪贴板的行为与数据库中任何其他具有等效项的页面视图的行为相同显示器设置,发送至菜单和该数据库的其他功能。可以通过每个项目旁边的链接,或通过使用复选框选择项目并单击页面顶部的“删除选定项目”链接,从剪贴板中删除记录。当未选择任何记录时,此链接还可以清除剪贴板。
My Collections是My NCBI服务的一部分,是保存记录的更永久的地方。
在Entrez系统中创建指向网页的链接
Entrez系统现在使用标准化的网页地址(URL)结构,这使得构建HTML链接以显示地址页和执行单个搜索变得很容易。标准URL格式包括数据库的基本URL,后跟可以指定要显示的记录、显示选项和搜索词的选项。Entrez编程实用程序(电子实用程序)本文档下一节中描述的应该用于发送频繁查询或从Entrez检索大量记录。
数据库主页、高级搜索、限制
仅基本URL检索资源的主页。也可以直接访问高级搜索和限制页面。