摘要
国家生物技术信息中心(NCBI)为生物信息和数据提供了一整套在线资源,包括GenBank®核酸序列数据库和PubMed生命科学期刊上发表的引文和摘要数据库。Entrez系统为来自38个不同数据库的大多数数据提供搜索和检索操作。电子实用程序用作Entrez系统的编程接口。扩展许多web应用程序是BLAST程序的自定义实现,该程序经过优化以搜索专门的数据集。去年发布的新资源包括PubMed实验室和新的序列数据库搜索。去年更新的资源包括PubMed、PMC、Bookshelf、基因组数据查看器、Assembly、原核基因组、genome、BioProject、dbSNP、dbVar、BLAST数据库、igBLAST、iCn3D和PubChem。所有这些资源都可以通过NCBI主页访问,网址为网址:www.ncbi.nlm.nih.gov.
简介
NCBI概述
国家生物技术信息中心(NCBI)成立于1988年,是国立卫生研究院国家医学图书馆内的一个中心,旨在开发分子生物学信息系统。自那时以来,NCBI保存的数据数量和种类大大增加,通常可分为六类:文献、健康、基因组、基因、蛋白质和化学品(表1). NCBI提供了提交和下载数据、分析和可视化软件、有关NCBI产品的教育活动和材料以及软件和服务的设施,以支持不断扩大的开发人员社区。这些服务以及所有其他数据资源可通过NCBI主页获得,网址为网址:www.ncbi.nlm.nih.gov/。在大多数情况下,所述软件的这些资源和可执行文件的基础数据可从以下网址下载:ftp.ncbi.nlm.nih.gov.
数据库. | 记录. | 说明. |
---|
文学类 | | www.ncbi.nlm.nih.gov/home/locaterial网站/ |
公共医学 | 28 809 515 | 科学和医学文摘/引文 |
公共医学中心 | 5 096 212 | 全文期刊文章 |
NLM目录 | 1 586 932个 | NLM集合索引 |
书 | 653 701 | 书籍和报告 |
网格 | 277 030 | 用于PubMed索引的本体 |
健康 | | www.ncbi.nlm.nih.gov/home/health网站/ |
ClinVar公司 | 442 601 | 具有临床意义的人类变异 |
数据库间隙P | 344 078 | 基因型/表型相互作用研究 |
MedGen公司 | 307 690 | 医学遗传学文献和链接 |
全球技术法规 | 55 299 | 基因检测登记处 |
基因组 | | www.ncbi.nlm.nih.gov/home/genomes网站/ |
SNP公司 | 672 043 185 | 短遗传变异 |
核苷酸 | 265 485 730 | DNA和RNA序列 |
GSS公司 | 40 713 027 | 基因组调查序列 |
克隆 | 38 325 184 | 基因组和cDNA克隆 |
探查 | 32 407 891 | 基于序列的探针和引物 |
生物样品 | 9 015 281 | 生物源材料描述 |
SRA公司 | 6 243 265 | 高通量DNA和RNA序列读取档案 |
数据库变量 | 5 227 838 | 基因组结构变异研究 |
分类学 | 1 969 776 | 分类和命名目录 |
生物项目 | 309 309 | 向NCBI提供数据的生物项目 |
装配 | 194 537 | 基因组组装信息 |
基因组 | 38 734 | 生物基因组测序项目 |
生物采集 | 7623 | 博物馆、植物标本馆和其他生物储存库 |
基因 | | www.ncbi.nlm.nih.gov/home/genes/ |
GEO配置文件 | 128 414 055 | 基因表达和分子丰度分布 |
测试 | 76 990 816 | 表达序列标签序列 |
基因 | 32 928 347 | 收集有关基因座的信息 |
非重复序列 | 6 473 284 | 成簇表达的转录物 |
GEO数据集 | 2 756 045 | 功能基因组学研究 |
流行音乐集 | 307 577 | 系统发育和种群研究中的序列集 |
同源基因 | 141 268 | 选定生物体的同源基因集 |
蛋白质 | | www.ncbi.nlm.nih.gov/home/proteins网站/ |
蛋白质 | 568 577 026 | 蛋白质序列 |
相同的蛋白质组 | 182 401 155 | 按身份分组的蛋白质序列 |
蛋白质簇 | 1 137 329 | 基于序列相似性的蛋白质簇 |
结构 | 142 217 | 实验确定的生物分子结构 |
保留的域 | 56 066 | 保守蛋白结构域 |
化学制品 | | 网址:www.ncbi.nlm.nih.gov/home/chemicals/ |
PubChem物质 | 247 411 095 | 沉积物质和化学信息 |
PubChem化合物 | 96 501 627 | 具有结构、信息和链接的化学信息 |
PubChem生物检测 | 1 252 901 | 生物活性筛选研究 |
生物系统 | 983 968 | 与基因、蛋白质和化学物质相关的分子途径 |
数据库. | 记录. | 说明. |
---|
文学类 | | www.ncbi.nlm.nih.gov/home/locaterial网站/ |
公共医学 | 28 809 515 | 科学和医学文摘/引文 |
公共医学中心 | 5 096 212 | 全文期刊文章 |
NLM目录 | 1 586 932 | NLM集合索引 |
书 | 653 701 | 书籍和报告 |
网格 | 277 030 | 用于PubMed索引的本体 |
健康 | | www.ncbi.nlm.nih.gov/home/health网站/ |
ClinVar公司 | 442 601 | 具有临床意义的人类变异 |
数据库间隙P | 344 078 | 基因型/表型相互作用研究 |
MedGen公司 | 307 690 | 医学遗传学文献和链接 |
全球技术法规 | 55 299 | 基因检测登记处 |
基因组 | | www.ncbi.nlm.nih.gov/home/genomes网站/ |
SNP公司 | 672 043 185 | 短遗传变异 |
核苷酸 | 265 485 730 | DNA和RNA序列 |
GSS公司 | 40 713 027 | 基因组调查序列 |
克隆 | 38 325 184 | 基因组和cDNA克隆 |
探查 | 32 407 891 | 基于序列的探针和引物 |
生物样品 | 9 015 281 | 生物源材料描述 |
SRA公司 | 6 243 265 | 高通量DNA和RNA序列读取档案 |
数据库变量 | 5 227 838 | 基因组结构变异研究 |
分类学 | 1 969 776 | 分类和命名目录 |
生物项目 | 309 309 | 向NCBI提供数据的生物项目 |
装配 | 194 537 | 基因组组装信息 |
基因组 | 38 734 | 生物基因组测序项目 |
生物采集 | 7623 | 博物馆、植物标本馆和其他生物储存库 |
基因 | | www.ncbi.nlm.nih.gov/home/genes/ |
GEO配置文件 | 128 414 055 | 基因表达和分子丰度分布 |
测试 | 76 990 816 | 表达序列标签序列 |
基因 | 32 928 347 | 收集有关基因座的信息 |
非重复序列 | 6 473 284 | 成簇表达的转录物 |
GEO数据集 | 2 756 045 | 功能基因组学研究 |
流行音乐集 | 307 577 | 系统发育和种群研究中的序列集 |
同源基因 | 141 268 | 选定生物体的同源基因集 |
蛋白质 | | www.ncbi.nlm.nih.gov/home/proteins网站/ |
蛋白质 | 568 577 026 | 蛋白质序列 |
相同的蛋白质组 | 182 401 155 | 按身份分组的蛋白质序列 |
蛋白质簇 | 1 137 329 | 基于序列相似性的蛋白质簇 |
结构 | 142 217 | 实验确定的生物分子结构 |
保留的域 | 56 066 | 保守蛋白结构域 |
化学制品 | | 网址:www.ncbi.nlm.nih.gov/home/chemicals/ |
PubChem物质 | 247 411 095(邮编:247 411 095) | 沉积物质和化学信息 |
PubChem化合物 | 96 501 627 | 具有结构、信息和链接的化学信息 |
PubChem生物检测 | 1 252 901 | 生物活性筛选研究 |
生物系统 | 983 968 | 与基因、蛋白质和化学品相关的分子途径 |
数据库. | 记录. | 说明. |
---|
文学类 | | www.ncbi.nlm.nih.gov/home/locaterial网站/ |
公共医学 | 28 809 515 | 科学和医学文摘/引文 |
公共医学中心 | 5 096 212 | 全文期刊文章 |
NLM目录 | 1 586 932 | NLM集合索引 |
书 | 653 701 | 书籍和报告 |
网格 | 277 030 | 用于PubMed索引的本体 |
健康 | | www.ncbi.nlm.nih.gov/home/health网站/ |
ClinVar公司 | 442 601 | 具有临床意义的人类变异 |
数据库间隙P | 344 078 | 基因型/表型相互作用研究 |
MedGen公司 | 307 690 | 医学遗传学文献和链接 |
全球技术法规 | 55 299 | 基因检测登记处 |
基因组 | | www.ncbi.nlm.nih.gov/home/genomes网站/ |
SNP公司 | 672 043 185 | 短遗传变异 |
核苷酸 | 265 485 730 | DNA和RNA序列 |
GSS公司 | 40 713 027 | 基因组调查序列 |
克隆 | 38 325 184 | 基因组和cDNA克隆 |
探查 | 32 407 891 | 基于序列的探针和引物 |
生物样品 | 9 015 281 | 生物源材料描述 |
SRA公司 | 6 243 265 | 高通量DNA和RNA序列读取档案 |
数据库变量 | 5 227 838 | 基因组结构变异研究 |
分类学 | 1 969 776 | 分类和命名目录 |
生物项目 | 309 309 | 向NCBI提供数据的生物项目 |
装配 | 194 537 | 基因组组装信息 |
基因组 | 38 734 | 生物基因组测序项目 |
生物采集 | 7623 | 博物馆、植物标本馆和其他生物储存库 |
基因 | | www.ncbi.nlm.nih.gov/home/genes/ |
GEO配置文件 | 128 414 055 | 基因表达和分子丰度分布 |
测试 | 76 990 816 | 表达序列标签序列 |
基因 | 32 928 347 | 收集有关基因座的信息 |
非重复序列 | 6 473 284 | 成簇表达的转录物 |
GEO数据集 | 2 756 045 | 功能基因组学研究 |
流行音乐集 | 307 577 | 系统发育和种群研究中的序列集 |
同源基因 | 141 268 | 选定生物体的同源基因集 |
蛋白质 | | www.ncbi.nlm.nih.gov/home/proteins网站/ |
蛋白质 | 568 577 026 | 蛋白质序列 |
相同的蛋白质组 | 182 401 155 | 按身份分组的蛋白质序列 |
蛋白质簇 | 1 137 329 | 基于序列相似性的蛋白质簇 |
结构 | 142 217 | 实验确定的生物分子结构 |
保留的域 | 56 066 | 保守蛋白结构域 |
化学制品 | | www.ncbi.nlm.nih.gov/home/chemicals网站/ |
PubChem物质 | 247 411 095 | 沉积物质和化学信息 |
PubChem化合物 | 96 501 627 | 具有结构、信息和链接的化学信息 |
PubChem生物检测 | 1 252 901 | 生物活性筛选研究 |
生物系统 | 983 968 | 与基因、蛋白质和化学品相关的分子途径 |
数据库. | 记录. | 说明. |
---|
文学类 | | www.ncbi.nlm.nih.gov/home/locaterial网站/ |
公共医学 | 28 809 515 | 科学和医学文摘/引文 |
公共医学中心 | 5 096 212 | 全文期刊文章 |
NLM目录 | 1 586 932 | NLM集合索引 |
书 | 653 701 | 书籍和报告 |
网格 | 277 030 | 用于PubMed索引的本体 |
健康 | | www.ncbi.nlm.nih.gov/home/health网站/ |
ClinVar公司 | 442 601 | 具有临床意义的人类变异 |
数据库间隙P | 344 078 | 基因型/表型相互作用研究 |
MedGen公司 | 307 690 | 医学遗传学文献和链接 |
全球技术法规 | 55 299 | 基因检测登记处 |
基因组 | | www.ncbi.nlm.nih.gov/home/genomes网站/ |
SNP公司 | 672 043 185 | 短期遗传变异 |
核苷酸 | 265 485 730 | DNA和RNA序列 |
GSS公司 | 40 713 027 | 基因组调查序列 |
克隆 | 38 325 184 | 基因组和cDNA克隆 |
探查 | 32 407 891 | 基于序列的探针和引物 |
生物样品 | 9 015 281 | 生物源材料描述 |
SRA公司 | 6 243 265 | 高通量DNA和RNA序列读取档案 |
数据库变量 | 5 227 838 | 基因组结构变异研究 |
分类学 | 1 969 776 | 分类和命名目录 |
生物项目 | 309 309 | 向NCBI提供数据的生物项目 |
装配 | 194 537 | 基因组组装信息 |
基因组 | 38 734 | 生物基因组测序项目 |
生物采集 | 7623 | 博物馆、植物标本馆和其他生物储存库 |
基因 | | www.ncbi.nlm.nih.gov/home/genes/ |
GEO配置文件 | 128 414 055 | 基因表达和分子丰度分布 |
测试 | 76 990 816 | 表达序列标签序列 |
基因 | 32 928 347 | 收集有关基因座的信息 |
非重复序列 | 6 473 284 | 成簇表达的转录物 |
GEO数据集 | 2 756 045 | 功能基因组学研究 |
流行音乐集 | 307 577 | 系统发育和种群研究中的序列集 |
同源基因 | 141 268 | 选定生物体的同源基因集 |
蛋白质 | | www.ncbi.nlm.nih.gov/home/proteins网站/ |
蛋白质 | 568 577 026 | 蛋白质序列 |
相同的蛋白质组 | 182 401 155 | 按身份分组的蛋白质序列 |
蛋白质簇 | 1 137 329 | 基于序列相似性的蛋白质簇 |
结构 | 142 217 | 实验确定的生物分子结构 |
保留的域 | 56 066 | 保守蛋白结构域 |
化学制品 | | www.ncbi.nlm.nih.gov/home/chemicals网站/ |
PubChem物质 | 247 411 095 | 沉积物质和化学信息 |
PubChem化合物 | 96 501 627 | 具有结构、信息和链接的化学信息 |
PubChem生物检测 | 1 252 901 | 生物活性筛选研究 |
生物系统 | 983 968 | 与基因、蛋白质和化学品相关的分子途径 |
本文简要概述了NCBI Entrez数据库系统,然后总结了在过去一年中引入或显著更新的资源。有关NCBI资源的更完整的讨论可以在各个数据库的主页上的NCBI学习页面上找到(www.ncbi.nlm.nih.gov/学习/),或在NCBI手册中(www.ncbi.nlm.nih.gov/books/NBK143764/).
Entrez系统
Entrez公司(1)是一个集成的数据库检索系统,提供对38个数据库的访问,这些数据库总共包含25亿条记录(表1和图1). Entrez全球搜索页面上提供了每个数据库的门户网站链接(网址:www.ncbi.nlm.nih.gov/search/). Entrez支持使用简单的布尔查询进行文本搜索,下载各种格式的数据,以及基于断言关系在数据库之间链接记录。LinkOut服务扩大了链接范围,包括外部资源,例如特定于生物体的基因组数据库。Entrez中检索到的记录可以以多种格式显示,并可以单独或成批下载。Entrez函数(电子实用程序)的应用程序编程接口可用,详细文档可在eutils.ncbi.nlm.nih.gov.
图1。
截至2018年9月1日,每个Entrez数据库中记录数量的年增长率。自去年发布该数据库以来,不包括相同的蛋白质组。有关dbVar和SNP范围更改的讨论,请参阅文本。
数据源和协作
NCBI从三个来源接收数据:研究人员的直接提交、与数据提供商和研究联盟的国家和国际合作或协议,以及内部管理工作。例如,NCBI管理GenBank数据库(2)并参与EMBL-EBI欧洲核苷酸档案馆(ENA)(三)和日本DNA数据库(DDBJ)(4)作为国际核苷酸序列数据库合作(INSDC)的合作伙伴(5). 有关直接提交流程的详细信息,请参阅NCBI提交页面(www.ncbi.nlm.nih.gov/home/submit.shtml)以及从资源主页(例如GenBank页面,www.ncbi.nlm.nih.gov/genbank/). NCBI工作人员通常在2-5个工作日内向提交者提供其数据的标识符,具体取决于目标数据库和提交的复杂性。有关各种合作、协议和策展工作的更多信息也可以通过个人资源的主页获得。
最近的发展
文献更新
PubMed和PubMed-实验室
随着PubMed中的生物医学文献以指数速度增长(2018年8月超过2800万篇文章),我们不断试验和研究提高生物医学文献整体搜索质量和用户体验的方法。作为我们努力迈向PubMed 2.0的一部分(6)PubMed现在提供了Best Match(最佳匹配):一种新的相关性排序选项,作为默认日期排序的替代方案,该选项使用经过聚合过去用户搜索训练的最先进的机器学习算法。新的最佳匹配算法根据大量相关性信号对搜索结果进行排序,包括文章的受欢迎程度、发表日期和类型以及查询文档的相关性得分(7).
2017年末,我们还推出了PubMed实验室(www.pubmed.gov/labs网站)这是一个实验系统,它公开了新的文献搜索功能和工具,例如搜索结果中的信息性文章片段,以及两种排序顺序之间的方便切换:最佳匹配和最新排序。PubMed实验室(8)还采用了清洁、移动友好的设计,专为近年来越来越受用户欢迎的小屏幕设备量身定制。PubMed实验室也是一个用户提供反馈的平台,它允许我们就潜在的变化做出更明智的决定,以提高PubMeds的搜索质量和整体可用性,最终提供更好的用户体验。
公共医疗中心(PMC)
2018年7月,PubMed Central档案馆的文章数量增至500万篇。这一增长得到了正在进行的生物医学期刊数字化项目的支持(www.ncbi.nlm.nih.gov/pmc/about/scanning网站/)需要公众获取研究的资助政策不断扩大,使用PMC作为数字档案的期刊稳步增加。PMC每年继续收到500多份来自有意加入档案馆的期刊的申请。为了解决有关NLM将期刊纳入PMC的标准以及出版商和期刊期望的问题,PMC发布了一份关于期刊选择的完整声明,包括科学和编辑质量方面的考虑(网址:www.ncbi.nlm.nih.gov/pmc/pub/journalselect/)除了重新评估过程的概述(www.ncbi.nlm.nih.gov/pmc/about/guidelines/#standards). 该新指南旨在提高NLM选拔过程的透明度,并确保公众对NLM资源的持续信任。
尽管PMC中的500万篇文章中有许多受到传统版权限制,无法批量下载,但PMC中有几个集合允许批量检索以用于文本挖掘和其他目的(www.ncbi.nlm.nih.gov/pmc/tools/textmining/). 这些收藏中最大的是PMC开放获取子集,2018年5月超过200万篇。生物医学期刊数字化项目继续将具有历史意义的生物医学期刊的内容添加到这些文本挖掘集合中,其中一些期刊可以追溯到18世纪,这些文本挖掘集现在已经进行了200多年的科学研究。这些集合的文件可以以XML或文本格式获得,并以机器可读格式表示一些最大和最多样化的生物医学文本库。重复使用的许可条款可能因集合而异,甚至在集合内也可能有所不同。
书架
NCBI书架现在提供了对150多个内容提供商提供的6000多本生命科学医疗保健书籍和文档的免费在线访问。在过去的一年里,Bookshelf更好地定义了为资源选择标题的范围和过程,包括科学和技术质量标准(www.ncbi.nlm.nih.gov/books/about/publishers网站/). 此外,Bookshelf还支持按MeSH(医学主题标题)字段进行搜索,包括MeSH主要主题[MAJR]、MeSH副标题[SH]和MeSH术语[MH]。Bookshelf根据NLM Catalog中的MeSH赋值在其索引中填充这些MeSH字段(网址:www.ncbi.nlm.nih.gov/nlmcatalog). Bookshelf还支持按作者提供的关键字进行搜索。这些关键字与自动生成的概念短语一起被索引在书架概念短语和关键字字段[KYWD]中。有关使用这些和其他Bookshelf搜索字段的更多信息,请参阅Bookshelp Help的search Field Descriptions and Tags部分(www.ncbi.nlm.nih.gov/books/NBK45615/). 最后,Bookshelf添加了一个Open Archives Initiative Protocol for Metadata Harvesting(OAI-PMH)服务,该服务提供对Bookshelp存档中所有项目的元数据以及这些项目子集的全文的访问(www.ncbi.nlm.nih.gov/books/about/oai/).
基因组更新
序列数据库搜索
NCBI正在更新序列搜索体验,为基因、转录本、蛋白质和组装数据的更多自然语言查询提供支持,并返回突出高价值内容的结果。与NCBI的Entrez搜索并行运行的新搜索服务可以识别经常无法在Entrez中返回结果或仅在特定Entrez数据库中执行时才返回结果的查询。其中包括几种查询类型:“有机体基因”(例如人类BRCA1)、“有机体转录本”(例如小鼠p53转录本)和“有机体组装”(例如狗参考基因组)。此外,NCBI现在提供了一种改进的能力,可以找到作为RefSeq靶向位点项目的一部分的精选基因集,该项目包括细菌、古菌和真菌中的核糖体RNA基因,以及真菌和卵菌中的内部转录间隔区。这些搜索的特色结果显示在NCBI全球搜索结果页面的顶部,以及基因、核苷酸、蛋白质、组装和基因组数据库页面的顶部。正在继续改进搜索体验,扩展查询识别和特色内容。
装配
为了更好地支持病毒和类病毒基因组的查看和下载,NCBI通过NCBI汇编资源提供了几类病毒和类病毒基因组数据(www.ncbi.nlm.nih.gov/assembly网站/). 该资源支持检索共同构成单个基因组的所有核苷酸记录。该特征对分段病毒特别有用,因为单个片段序列聚合成单个基因组星座,由单个加入表示。
程序集资源(9)支持基于生物和分类名称的搜索,病毒集合可以在www.ncbi.nlm.nih.gov/assembly/?术语=病毒%5组织%5D这些包括病毒RefSeq序列(10)和GenBank序列被国际分类委员会指定为病毒物种样本(11). 这些RefSeq集合的“引用”子集包括实验支持和手动管理的注释,旨在为病毒注释提供高质量的引用模板。GenBank集合包括由国际病毒分类委员会(ICTV)选择的物种样本、用于构建RefSeq集合的集合(在GenBank中),以及一组通过NCBI过程验证的完整病毒基因组。这些NCBI验证的GenBank基因组的初始范围仅限于少数病毒分类群,但正在扩展到最终包括所有病毒。
除了包含更多病毒基因组外,NCBI还对汇编资源进行了几项改进,以便于查找和下载感兴趣的基因组数据集。添加了注释状态过滤器,使用户可以选择具有注释的基因组集合。现在已经公开了过滤器,可以很容易地将搜索结果限制在来自类型菌株或ICTV物种样本的集合中。UCSC程序集名称已添加为UCSC基因组浏览器中大多数最新程序集的可搜索同义词。此外,“下载程序集”菜单中添加了新的文件类型,包括一个“功能计数”文件,其中包含特定类型的基因、RNA和CDS功能的计数,以及一个“翻译CDS”文件,该文件包含基因组上每个CDS特征的概念翻译。
原核基因组
NCBI现在使用平均核苷酸识别方法(12)具有原核生物分类群的最佳阈值范围,以审查GenBank中的所有原核生物基因组组合,并在与类型菌株的基因组进行比较时调整错误分配的名称。这是2015年NCBI研讨会后启动的一个项目的结果,该研讨会涉及细菌学界的多个方面(13)最近更详细地描述了(12).
SRA中的SKESA de-novo组件
SKESA公司(14)是基于DeBruijn图形的德诺沃NCBI开发的组装器,用于组装Illumina读取的微生物基因组。NCBI正在使用SKESA支持SRA和病原体检测项目(www.ncbi.nlm.nih.gov/病原体/). SRA中超过270 000个读取集现在包含SKESA组件,这些组件可供下载。具有SKESA组件的SRA运行将具有运行重新签名文件列在下载选项卡。例如,运行SRR498276有一个运行重新签名名为的文件SRR498276重新校准在此页上列出:trace.ncbi.nlm.nih.gov/Traces/sra/?运行=SRR498276。SKESA的源代码可在以下网站免费获得:github.com/ncbi/SKESA/releases.
基因组数据查看器
NCBI基因组浏览器中的新功能,基因组数据查看器(GDV)(网址:www.ncbi.nlm.nih.gov/genome/gdv),提供分析基因组数据的其他方法。GDV增加了更多选项来支持用户提供的数据分析。除了上传文件外,用户现在还可以选择连接到远程服务器上托管的文件或轨道数据中心的一部分(15). 一旦连接,这些外部提供的数据将与NCBI自己的曲目一起显示为曲目,并可以从浏览器下载到公共质量的PDF。BLAST小部件将基因组BLAST集成到GDV的图形显示中,允许用户以浏览器轨迹的形式查看现有结果,或直接从浏览器运行新查询。相关的BLAST对齐检查器提供了一个图形视图,突出显示对齐结果与NCBI RefSeq注释的关系。此外,BLAST结果页面现在提供了指向与基因组组装或组装上RefSeq注释对齐的序列的GDV视图的链接。
基因组和生物项目数据浏览器
BioProject和Genome数据库有新的接口和后端,可以更好地浏览各自的数据集。组织与研究项目相关的元数据的BioProject和聚合基因组相关数据的Genome都是探索许多其他NCBI资源的切入点。这两种资源的新目标搜索界面(www.ncbi.nlm.nih.gov/生物项目/浏览和www.ncbi.nlm.nih.gov/genemo/browse#/概述/)共享相似的外观,并允许用户通过文本搜索或根据相关类别(例如各种分类限制)过滤数据来开始探索。结果的表格显示是高度可定制的,具有可排序的列和可用于显示的各种字段。可以将结果下载到以tab分隔的文件中,并且每个检索到的记录都链接到其他NCBI数据,例如BioProject、Genome、Taxonomy和PubMed中的特定记录。有关BioProject浏览器的更多详细信息,请参阅文档(www.ncbi.nlm.nih.gov/bioproject/docs/faq/#questions-about-the-browse-page).
数据库SNP
单核苷酸多态性数据库(dbSNP)是一个长度小于50个碱基对的短基因变异库。数据库一直在快速增长:仅人类数据在不到一年的时间里就翻了两番,从149号建筑中的1.5亿参考SNP(RS)增长到151号建筑的6.5亿多RS记录。此外,超过5.8亿条RS记录在Build 151中有频率数据。为了应对处理、注释和交换不断增长的数据量的挑战,我们在过去一年对dbSNP进行了两次重大更改。首先,dbSNP与EMBL-EBI签订了一项新协议,共同负责管理全球遗传变异实验的数据。该协议的结果是,dbSNP现在只管理人类数据,而所有非人类生物都已转移到EMBL-EBI欧洲变异档案(EVA)(ncbiinsights.ncbi.nlm.nih.gov/2017/05/09/逐步淘汰支持非人类基因组组织数据输入-dbsnp和dbvar/). 其次,dbSNP使用新的SPDI数据模型表示变体(www.ncbi.nlm.nih.gov/variation/notation网站/),并公开基于此数据模型的新API。此外,dbSNP发布了一个新的RefSNP页面,用于在web浏览器中显示变体(ncbiinsights.ncbi.nlm.nih.gov/2017/07/07/dbsnp-redesign-supports-future-data-expanding(ncbiinsights.ncbi.nlm.nih.gov/2017/07/07/dbsnp-redesign-supports-future-data-expanding)/).
数据库变量
NCBI dbVar结构变体数据库包含长度超过50个碱基对的人类基因组结构变体(SV)。从dbVar主页(网址:www.ncbi.nlm.nih.gov/dbvar)用户可以搜索、查看和下载150多个研究的变体数据,包括1000个基因组3期(estd219)、西蒙斯基因组多样性项目(nstd128)、ClinGen(nstd45)、ExAC(nstd151)等。用户可以使用研究浏览器或图形化基因组浏览器访问变体。个别研究和变体页面包括原始数据以及其他NCBI和外部资源的相关信息的链接。可通过FTP进行批量数据下载(ftp.ncbi.nlm.nih.gov/pub/dbVar/数据).
2018年,dbVar引入了一组全新的非冗余结构变体(NR SV),包括独特的插入、复制和删除。这些压缩文件适合用作人类SV分析的参考,例如筛选和注释其他SV数据集、SV发现以及识别罕见和/或临床SV。dbVar NR SV目前包括220多万个删除、110万个插入和30万个重复,并将在dbVar中添加新变体时定期更新。用户可以在以下网址找到有关NR SV的更多信息,包括简短教程和NR SVFTP文件的访问:github.com/ncbi/dbvar/tree/master/Structural_Variant_Sets.
BLAST更新
BLAST数据库
NCBI发布了新版本的BLAST数据库(版本5),并进行了一些增强。首先,独立的BLAST+可执行文件(16)现在可以通过分类法限制搜索,而无需下载额外的文件。根据分类法,可以在搜索中包含或排除主题序列。其次,新的数据库版本利用LMDB(Lightning Memory-Mapped database)通过添加来执行更快的序列查找。版本5数据库只能与BLAST+2.8.0或更新版本一起使用。
IgBLAST抗体
IgBLAST抗体(17)NCBI是一种用于分析免疫球蛋白和T细胞受体的工具,在过去一年中得到了重要更新。首先,IgBLAST现在可以使用多线程方法更有效地处理大量查询。其次,IgBLAST可以通过在命令行上指定SRA加入从SRA数据库中获取读取,这样用户就不需要下载序列。最后,IgBLAST现在支持AIRR(自适应免疫受体库)重排格式。该格式是自适应免疫受体库(AIRR)社区支持的标准(docs.airr-community.org/en/latest/)它是专门为使用下一代测序技术进行曲目研究而设计的。
蛋白质更新
iCn3D
2018年4月,NCBI发布了更新的iCn3D版本(2.0),具有更多功能和改进的性能。iCn3D提供的功能与NCBI的独立结构查看器Cn3D类似,但直接在web浏览器中运行,不需要用户安装应用程序。交互式iCn3D视图已嵌入NCBI分子建模数据库(MMDB)的结构摘要页面中,iCn三维可视化了VAST+计算的三维结构比较结果。iCn3D可以同时显示3D结构、2D交互示意图和蛋白质/核苷酸序列,并可以加载注释,例如序列变体、蛋白质域、功能和结合位点。显示器相互作用,便于进行各种选择、高亮显示和分析操作。iCn3D现在支持导出用于3D打印的立体光刻(STL)或虚拟现实建模语言(VRML)文件d55qc.app.goo.gl/HDuWMFAVokxvHMKSA公司). iCn3D的源代码位于https://github.com/ncbi/icn3d.
化学品更新
公共化学(18–20)(pubchem.ncbi.nlm.nih.gov)现在提供了从620多个数据源收集的9600多万种化合物的化学信息。在过去的一年里,PubChem进行了一些重要的改进。BioRad SpectraBase提供的数据提供了超过630000张光谱图像,其中包含225000多种化合物的相关元数据。此外,出版商Springer Nature慷慨贡献了超过2800万个链接,链接了610000多种化合物和400多万篇科学文章,每周更新一次。其中,200万个链接指向超过35万篇开放存取或免费阅读的文章。
为了改进对生物活性内容的访问,现在提供了一组二元页面(pubchemdocs.ncbi.nlm.nih.gov/生物活性-dyad-pages). 这些页面提供了快速访问在分析中测试的给定化学品的生物活性详细信息,以及有助于解释化合物生物活性或为给定基因或蛋白质靶点建立构效关系的有用信息。
新的共生知识面板(pubchemdocs.ncbi.nlm.nih.gov/知识面板)在PubMed文章中列出与给定化合物经常共存的化学品清单。用户可以下载PubMed文章中提到这两种化学物质的列表,以便进一步分析。有关这些和其他PubChem发展的更多详细信息,请访问PubChemblog(pubchemblog.ncbi.nlm.nih.gov网站).
更多信息
这里描述的资源包括文档、其他解释性材料,以及对合作者的引用和他们各自网站上的数据源。NCBI主页左侧类别列表上方的链接提供了按字母顺序排列的NCBI资源列表。NCBI帮助手册和NCBI手册(www.ncbi.nlm.nih.gov/books/NBK143764/),两者都可以在公共页脚中作为链接使用,详细描述了主要的NCBI资源。NCBI学习页面(www.ncbi.nlm.nih.gov/学习/)提供文档、教程、网络研讨会、课程和即将举行的会议展览的链接。NCBI YouTube频道上提供了各种视频教程,可以通过标准NCBI页脚中的链接访问。用户支持人员可以在以下网址回答问题:info@ncbi.nlm.nih.gov,用户可以在support.nlm.nih.gov上查看支持文章。有关NCBI资源和数据库增强功能的更新,请参阅NCBI Insights博客(ncbiinsights.ncbi.nlm.nih.gov公司)、NCBI社交媒体网站(FaceBook、Twitter和LinkedIn),以及提供服务和数据库更新的几个邮件列表和RSS提要。这些资源的链接位于NCBI页面页脚和NCBI Insights上。
致谢
作者感谢所有NCBI工作人员,他们通过不懈努力,继续让NCBI为社区提供全套服务。特别是,作者要感谢这些个人对本书所述资源的贡献:杰夫·贝克、郑铁军、约翰·加纳、刘易斯·吉尔、阿斯塔·金杜利特、何思谦、安妮·凯特、迈克尔·金梅尔曼、安纳托利·库兹涅佐夫、瓦列里·拉什曼诺夫、马丁·拉特纳、约翰·洛佩兹、彼得·梅里克、埃里克·莫耶、本·舒梅克、,Alexandre Souvorov、Tatiana Tatusova、Paul Thiessen、Jiao Wang、Ming Ward、Chunlin Xiao、Eugene Yaschenko、Jian Ye、Bo Yu、Leonid Zaslavsky、Jian Zhang和Dachuan Zhang。
基金
开放存取费用资助:国家卫生研究院院内研究项目,国家医学图书馆。
利益冲突声明。未声明。
参考文献
1舒勒
总直径。
,爱泼斯坦
J.A.公司。
,大川
H。
,凯恩斯
J.A.公司。
Entrez:分子生物学数据库和检索系统
.方法酶制剂。
1996
;266
:141
–162
. 2本森
D.A.公司。
,卡瓦诺
M。
,克拉克
英国。
,Karsch-Mizrachi公司
一、。
,奥斯特尔
J。
,普鲁特
K.D.公司。
,赛耶斯
E.W.公司。
GenBank(基因银行)
.核酸研究。
2018
;46
:D41号机组
–D47号
. 三。西尔维斯特
N。
,阿拉科
B。
,阿米德
C、。
,塞尔德诺·塔拉加
答:。
,克拉克
L。
,克利兰
一、。
,哈里森
P.W.公司。
,贾亚蒂拉卡
美国。
,凯
美国。
,基恩
T。
等
2017年欧洲核苷酸档案
.核酸研究。
2018
;46
:第36天
–D40型
. 4科达玛
年。
,Mashima公司
J。
,Kosuge公司
T。
,卡米努马
E.公司。
,小笠原
O。
,大久保
英国。
,中村
年。
,高木(Takagi)
T。
日本DNA数据库30周年
.核酸研究。
2018
;46
:第30天
–第35天
. 5Karsch-Mizrachi公司
一、。
,高木(Takagi)
T。
,科克伦
G.公司。
国际核苷酸序列数据库,C。
国际核苷酸序列数据库合作
.核酸研究。
2018
;46
:D48号
–D51型
. 6菲奥里尼
N。
,利普曼
D.J.公司。
,卢
Z.公司。
走向PubMed 2.0
.埃利夫
.2017
;6
:1988年2月
. 7菲奥里尼
N。
,卡内塞
英国。
,斯塔尔琴科
G.公司。
,基列夫
E.公司。
,基姆
西。
,米勒
五、。
,奥斯波夫
M。
,科罗多夫
M。
,伊斯马吉洛夫
R。
,莫汉
美国。
等
最佳匹配:PubMed的新相关性搜索
.《公共科学图书馆·生物》。
2018
;16
:e2005343号
. 8菲奥里尼
N。
,卡内塞
英国。
,布列兹古诺夫
R。
,Radetska公司
一、。
,金杜里岩
答:。
,拉特纳
M。
,米勒
五、。
,奥斯波夫
M。
,科罗多夫
M。
,斯塔尔琴科
G.公司。
等
PubMed实验室:改进生物医学文献检索的实验系统
.数据库(牛津)
.2018
;. 9基茨
私人助理。
,教堂
D.M.公司。
,蒂波·尼森
F、。
,崔
J。
,哼
五、。
,萨波尼科夫
五、。
,史密斯
钢筋混凝土。
,塔图索娃
T。
,向
C、。
,哲里科夫
答:。
等
组装:NCBI组装基因组资源
.核酸研究。
2016
;44
:D73型
–D80型
. 10布里斯特
J.R.公司。
,阿科阿杰
D。
,包
年。
,布林科娃
O。
NCBI病毒基因组资源
.核酸研究。
2015
;43
:D571型
–D577型
. 11国王
A.M.Q公司。
,莱夫科维茨
电子工程师。
,穆塞基语
阿拉伯联合酋长国。
,亚当斯
医学博士。
,迪蒂
英国工程师协会。
,戈尔巴利尼亚
阿联酋。
,哈拉赫
B。
,哈里森
相对湿度。
,Junglen公司
美国。
,诺尔斯
新泽西州。
等
国际病毒分类委员会(2018年)批准的分类法和国际病毒分类和命名法的变更
.架构(architecture)。维罗尔。
2018
;163
:2601
–2631
. 12丘福
美国。
,坎南
美国。
,沙尔马
美国。
,巴德雷丁
答:。
,克拉克
英国。
,特纳
美国。
,布罗韦
美国。
,肖克
C.L.公司。
,泡菜
答:。
,迪库乔
M。
利用平均核苷酸一致性改进NCBI原核生物基因组的分类分配
.国际期刊系统。进化。微生物。
2018
;68
:2386
–2392
. 13费德亨
美国。
,罗塞洛·莫拉
R。
,克兰克
高压。
,廷达尔
B.J.公司。
,康斯坦蒂尼迪斯
K.T.公司。
,惠特曼
W.B.公司。
,棕色
D。
,拉贝达
D。
,乌塞里
D。
,加里蒂
总经理。
等
会议报告:GenBank微生物基因组分类学研讨会(2015年5月12-13日)
.站立。基因组科学。
2016
;11
:15
. 14苏沃洛夫号
答:。
,阿加瓦拉
R。
,利普曼
D.J.公司。
SKESA:谨慎装配的战略kmer扩展
.基因组生物学。
2018
;19
:153
. 15雷尼
B.J.公司。
,德雷谢尔
T.R.公司。
,理发室
G.P.公司。
,克劳森
H。
,葛田
私人助理。
,王
T。
,阮(Nguyen)
N。
,专利
B。
,茨威格
美国科学院。
,卡鲁契克
D。
等
跟踪数据中心支持在UCSC基因组浏览器上可视化用户定义的全基因组注释
.生物信息学
.2014
;30
:1003
–1005
. 16卡马乔
C、。
,库洛里斯
G.公司。
,阿瓦吉安
五、。
,妈妈
N。
,帕帕佐普洛斯
J。
,比勒
英国。
,马登
T.L.公司。
BLAST+:体系结构和应用程序
.BMC生物信息学
.2009
;10
:421
. 17Ye(是)
J。
,妈妈
N。
,马登
T.L.公司。
,奥斯特尔
J.M.公司。
IgBLAST:一种免疫球蛋白可变域序列分析工具
.核酸研究。
2013
;41
:第34周
–第40周
. 18基姆
美国。
,蒂森
私人助理。
,博尔顿
例如。
,陈
J。
,傅
G.公司。
,金杜里岩
答:。
,汉族
L。
,他
J。
,他
美国。
,鞋匠
文学学士。
等
PubChem物质和化合物数据库
.核酸研究
.2016
;44
:D1202号
–D1213号
. 19王
年。
,布莱恩特
S.H.公司。
,程
T。
,王
J。
,金杜里岩
答:。
,鞋匠
文学学士。
,蒂森
私人助理。
,他
美国。
,张
J。
PubChem生物测定:2017年更新
.核酸研究。
2017
;45
:D955型
–D963号
. 20基姆
美国。
充分利用PubChem进行虚拟筛选
.专家操作。药物研发。
2016
;11
:843
–855
.
牛津大学出版社代表2018年核酸研究出版。
本作品由(a)美国政府雇员撰写,在美国属于公共领域。