标签:Entrez公司

更新和改进了RefSeq代表性基因组集合,现已可用

我们已经更新了代表性基因组组合细菌和古菌。作为4月宣布,此集合现在每年重新计算三次。我们在RefSeq的192000个集合中选择了11727个原核集合来代表各自的物种。首次收集到635种物种,395种来自未定义物种(例如芽孢杆菌细菌)被清除。由于选择逻辑的改进,我们能够为18%的细菌和古生物物种选择一个比前一组更高质量的代表,而选择逻辑现在是基于组装长度、在PGAP注释,支架的数量,基因数据库中是否有用于当前具有代表性的组装的基因ID,以及类型菌株状态。您可以在原核RefSeq基因组页面。现在新的选择过程已经就绪,我们预计未来的更新更改会更少。只有当程序集已更改RefSeq状态或有更好的程序集可用时,我们才会更换代表。

我们已经更新了微生物核苷酸BLAST页面以及碱性核苷酸BLASTRefSeq代表性基因组数据库,以反映这些变化。

您可以从装配资源。如果您对这些基因组上的注释感兴趣,可以通过添加“refseq_select”来限制对代表基因组上注释的蛋白质的搜索[过滤器]“中的任何查询蛋白质数据库。例如,你可以在该属的代表性基因组上找到所有注释的蛋白质克雷伯菌属通过使用查询:“克雷伯菌属[有机体]和refseq_select[过滤器]“。一个由代表性基因组注释的蛋白质组成的BLAST数据库即将推出。敬请期待!

改进了NCBI数据库中的搜索功能

今年早些时候,我们宣布发布了一个新的改进的搜索功能,该功能可以解释纯语言,为普通搜索提供更好的结果。此功能最初开发于NCBI实验室随后在NCBI上发布所有数据库搜索,现在可用于多种NCBI资源:核苷酸、蛋白质、基因、基因组和组装。无论您是在搜索特定基因还是整个基因组,无论您搜索的数据库是什么,现在都可以检索NCBI的最佳结果。

下图显示了搜索的结果人类INS在核苷酸数据库中。尽管这是一个核苷酸搜索,但结果包括来自基因、蛋白质、分类学的相关信息,以及到NCBI参考序列(RefSeq)的链接,以及在NCBI的基因组浏览器中访问BLAST和胰岛素基因区域基因组数据查看器.KIS_nuccore_小型图1.新的自然语言搜索结果来自人类INS搜索的核苷酸数据库。

试试这个新的搜索功能,让我们知道你的想法。并继续访问NCBI实验室搜索页面尝试我们的最新实验,我们也将在NCBI Insights上发布。

 

EST和GSS数据库即将发生的更改

EST和GSS数据库即将发生的更改

更新: NCBI目前正在将EST和GSS记录合并到核苷酸数据库中,我们预计将于2019年初完成这一过程。在此过程中,Accession.version和GI标识符不会更改。

截至2018年12月1日,来自表达序列标签(EST)和基因组调查序列(GSS)数据库的所有记录将保存在NCBI的核苷酸数据库。此更改将为所有GenBank序列数据提供一个具有通用外观的单一访问点。

阅读更多内容,了解此更改如何影响这些资源:

  • 网站(Entrez)
  • API(电子工具)
  • FTP网站
  • 提交程序
  • 爆炸
  • TSA(如果你不熟悉,请看一看!)

继续阅读“即将对EST和GSS数据库进行的更改”

在NCBI实验室试驾新的序列搜索体验

我们知道,在NCBI中查找您想要的序列数据并不总是容易的。可能是因为您不擅长构造查询,结果往往是没有结果或结果太多。或者你可能是一个Entrez向导,但创建一个充满布尔值和过滤器的查询似乎有些过头了,因为你只需要编写一个简短的自然语言查询,就像你在谷歌中习惯做的那样。下次你搜索特定生物体的基因、转录本或基因组组合时,请尝试我们正在试行的新搜索体验NCBI实验室.

在NCBI实验室中,您现在可以使用自然语言搜索序列并获得最佳结果。

NCBI实验室成绩单搜索界面
图1。指定成绩单搜索的新接口。

NCBI实验室现在提供的改进的搜索体验解决了NCBI搜索中通常失败的3种查询类型:organism-gene(例如人类BRCA1)、组织转录本(例如小鼠p53转录物)和有机物组装(例如犬参考基因组). 对于NCBI实验室中的每种查询类型,我们现在在一个易于查看的面板中返回NCBI的最高质量序列集或引用和代表程序集。

下面显示了一些查询示例,以帮助您入门。

继续阅读“在NCBI实验室试驾新序列搜索体验”

2018年核酸研究数据库期刊5篇NCBI文章

2018年核酸研究数据库期刊5篇NCBI文章

这个2018年核酸研究数据库问题介绍了NCBI工作人员的几篇论文,涵盖了数据库的现状和未来,包括CCDS、ClinVar、GenBank和RefSeq。这些论文也可以在公共医学。要阅读文章,请单击下面列出的PMID编号。

继续阅读“2018年核酸研究数据库期刊5篇NCBI文章”

GenBank 223.0版通过FTP、Entrez和BLAST提供

GenBank 223.0版通过FTP、Entrez和BLAST提供

GenBank版本223.0(2017年12月15日)有206293625个传统记录(包括非批量定向TSA),包含249722163594个碱基对的序列数据。此外,共有551063065条WGS记录包含2466098053327个序列数据碱基对,201559502条TSA记录包含181394660188个序列数据碱对,12695198条TLS记录包含4458042616个序列数据基对。

继续阅读“GenBank 223.0版可通过FTP、Entrez和BLAST获得”

GenBank 221.0版通过FTP、Entrez和BLAST提供

GenBank 221.0版可通过FTP、Entrez和BLAST获得

GenBank 221.0版(2017年8月13日)有203180606条传统记录,包含240343378258个碱基对的序列数据。此外,有499965722条WGS记录包含2242294609510个序列数据碱基对,186777106条TSA记录包含167045663417个序列数据碱对,1628475条TLS记录包含824191338个序列数据基对。

继续阅读“GenBank 221.0版本可通过FTP、Entrez和BLAST获得”

探索Entrez Direct:解析电子工具的XML输出

Entrez Direct是E-utilities的UNIX/LINUX命令行界面,是NCBI Entrez系统的API。Entrez Direct最有用的功能之一是它能够解析和重新格式化EFetch返回的复杂XML数据。在本文中,我们将探索如何使用这些功能解析、重新格式化和处理使用EFetch以XML下载的PubMed记录中的特定数据。尽管本文重点关注PubMed,但该技术是通用的,适用于电子工具从任何数据库返回的任何XML。此处探讨的示例也在Entrez Direct文档; 在这里,我们将深入了解一下它的工作原理。让我们开始吧!

继续阅读“探索Entrez Direct:解析电子工具的XML输出”

NIH第二期“NCBI图书馆员指南”

NCBI与NLM和国家医学图书馆网络合作NLM培训中心(NTC)最近在犹他大学推出了NCBI图书馆员指南.来自17所大学和两个联邦机构的健康科学图书馆员参加了NIH校园的为期五天的强化课程。第二次培训继续为卫生科学图书馆员准备支持NCBI分子数据库和工具,并培训用户在自己的机构中使用NCBI资源。

国家医学图书馆外2014年“NCBI图书馆员指南”的参与者和讲师。
国家医学图书馆外2014年“NCBI图书馆员指南”的参与者和讲师。

如前所述,所有课程材料都可以在线获取。随时向他们学习,根据自己的教学调整他们,并与他人分享。您可以使用以下链接访问2014年更新的课程材料。其中包括带有演示和实践问题的幻灯片集。

继续阅读“NIH第二期《NCBI图书馆员指南》”