跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2008年1月;36(数据库问题):D13–D21。
2007年11月27日在线发布。 数字对象标识:10.1093/nar/gkm1000
PMCID公司:PMC2238880型
PMID:18045790

国家生物技术信息中心的数据库资源

摘要

除了维护GenBank(R)核酸序列数据库外,国家生物技术信息中心(NCBI)还为GenBank中的数据和通过NCBI网站提供的其他生物数据提供分析和检索资源。NCBI资源包括Entrez、Entrez Programming Utilities、My NCBI、PubMed、Pub Med Central、Entrez-Gene、NCBI分类浏览器、BLAST、BLAST-Link、Electronic PCR、OrfFinder、Spidey、Splign、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、癌症染色体、Entrex基因组、基因组项目和相关工具、Trace、Assembly、,和简短阅读档案、地图查看器、模型生成器、证据查看器、同源群聚类、流感病毒资源、HIV-1/人类蛋白质相互作用数据库、基因表达总览、Entrez探针、GENSAT、基因型和表型数据库、人的在线孟德尔遗传、动物的在线孟氏遗传,分子建模数据库、保守域数据库、保守领域体系结构检索工具和PubChem小分子数据库套件。扩展web应用程序是BLAST程序的自定义实现,该程序经过优化以搜索专门的数据集。可以通过NCBI主页访问这些资源,网址为网址:www.ncbi.nlm.nih.gov.

简介

美国国立卫生研究院的国家生物技术信息中心(NCBI)成立于1988年,旨在开发分子生物学信息系统。除了维护GenBank(R)(1)核酸序列数据库是科学界提交数据的数据库,NCBI提供数据检索系统和计算资源,用于分析GenBank数据以及各种其他生物数据。在本文中,NCBI数据库资源套件分为三大类;最新发展、资源亮点和剩余NCBI资源概要。所有讨论的资源均可从NCBI主页获取,网址为(网址:www.ncbi.nlm.nih.gov). 在大多数情况下,这些资源的基础数据可以从(ftp.ncbi.nih.gov)下载,这是ncbi主页上的一个链接。

最近的发展

基因型和表型数据库(dbGaP)

遗传和环境因素与人类疾病的相关性对于诊断和治疗技术的发展至关重要。为此类分析提供数据的大规模基因型研究涵盖了全基因组关联调查、医学测序、分子诊断分析以及基因型与非临床性状之间关联的调查。基因型和表型数据库(dbGaP)(2) (www.ncbi.nlm.nih.gov/sites/entrez?db=间隙)最近在NCBI创建,用于存档、分发和支持提交基因组特征与可观察性状相关的数据。该数据库是美国国立卫生研究院批准的全基因组关联研究(GWAS)结果库(grants.NIH.gov/ggrants/GWAS/index.htm)。

为了保护研究对象的机密性,dbGaP只接受未经身份验证的数据,并要求研究人员通过授权过程才能访问个人级数据。表型测量和基因型频率的汇总指标,以及研究文件协议和受试者问卷都可以无限制地使用。

分发给主要研究人员用于批准研究项目的授权访问数据包括个别研究对象的未识别表型和基因型、系谱以及基因型和表型之间的一些预先计算的关联。几项研究的结果,包括国家眼科研究所与年龄相关的眼病研究(),NINDS帕金森综合征研究(4)NHLBI Framingham分享和收益(2)dbGaP于2007年发布。

新的BLAST数据库

在过去一年中,推出了两个新的基本局部比对搜索工具(BLAST)数据库,一个用于人类,另一个用于小鼠,其中包含来自NCBI注释的RefSeq转录物和RefSeq基因组序列的组合。对两个数据库的搜索生成一个新的交互式表格显示,该表格按序列类型-基因组或转录-划分BLAST点击,并允许按BLAST得分、比对中查询序列的百分比或比对中的百分比标识进行排序。人类和小鼠的“基因组+转录”MegaBLAST搜索使用更快的索引算法,通常会将运行时间减少三分之二。已过滤预索引数据库,以消除与低复杂度和重复序列的匹配。

BLAST主页重新设计

BLAST主页经过重新设计,以提供更轻松的导航和简化的BLAST程序选择。新页面突出显示了基因组搜索的选项,为带有简短查询的搜索提供了自动参数优化功能,并使用自动完成输入框指定生物体限制。使用新主页,用户可以为其BLAST搜索指定标题,查看最近的BLAST检索结果,并通过My NCBI使用自定义参数无限期保存BLAST表单。作为重新设计的一部分,BLAST请求ID(RID)已从36个字符缩短为11个字符。

短读存档

过去一年,新一代测序仪产生的测序数据大幅增加,包括罗氏454生命科学公司、Illumina Solexa和Applied Biosystems SOLiD公司的测序仪。这推动了短读档案(SRA)的开发,以容纳使用这些平台进行测序实验的沉积物。SRA最近投入使用,目前持有44项研究的数据。

SRA通过将研究、实验和样本参数的表示与实际仪器数据分离,提供了比Entrez系统中更广泛的关联。这些对象的索引将允许呈现从仪器数据到出版的完整科学结果。用于搜索短读数据和可视化多重和成对参考比对的辅助工具预计将在明年出现。

Entrez核苷酸数据库被拆分为CoreNucleotide、EST和GSS

Entrez在过去一年中的一个重要变化是将核苷酸数据库拆分为三个子集数据库,分别称为“CoreNucleotide”、“EST”和“GSS”(在E-Utilities中分别指定为“nuccore”,“nucest”和“nugss”)。CoreNucleotide数据库包含GenBank的Expressed Sequence Tag(EST)或Genome Survey Sequence(GSS)分区中未找到的所有Entrez核苷酸序列的记录。这些包括来自GenBank所有剩余部分的序列、NCBI参考序列(RefSeqs)、全基因组枪式(WGS)序列、第三方注释(TPA)序列和从Entrez Structure数据库导入的序列。EST数据库包含GenBank EST部门内的所有记录。EST记录包含第一次通过的单读cDNA序列,不包含注释的生物学特征。GSS数据库包含GenBank GSS部门内的所有记录。GSS记录包含第一遍单读基因组序列,很少包含注释的生物特征。核苷酸数据库的分区通过将注释最丰富的序列与注释最稀疏的序列分开,使研究人员更容易关注感兴趣的片段。在过渡期内,在Web上搜索核苷酸数据库将返回三个子集中搜索结果的链接。然而,网络上的核苷酸数据库最终将被完全淘汰,取而代之的是三个子数据库。核苷酸数据库将保留供E-Utility使用。

蛋白质簇

新的Entrez蛋白质簇数据库(网址:www.ncbi.nlm.nih.gov/sites/entrez?db=蛋白簇),包含222000多组几乎相同的RefSeq蛋白,由完整的原核或叶绿体基因组编码,并按分类层次组织。这些簇用作NCBI全基因组比较的基础,并通过简明微生物蛋白BLAST提供简化的BLAST访问(www.ncbi.nlm.nih.gov/genomes/prokhits.cgi网站). 蛋白质簇提供注释信息、出版物、域、结构和外部链接以及分析工具,包括多重比对。蛋白质簇也通过基因组ProtMap与基因组邻域相连(www.ncbi.nlm.nih.gov/sutils/promap.cgi?)从COG映射每个蛋白质(5)或VOG(病毒同源群)(www.ncbi.nlm.nih.gov/genomes/VIRUSES/vog.html)返回其基因组,并显示编码其相关蛋白质组成员的基因组片段。

突出显示的资源

公共化学

PubChem是NIH分子库路线图倡议的信息学支柱,重点关注小分子的化学、结构和生物特性,尤其是其作为诊断和治疗剂的应用。一套由三个Entrez数据库组成的数据库,即PCSubstance、PCCompound和PCBioAssay,包含PubChem项目的物质信息、化合物结构和生物活性数据。这些数据库包含超过1960万个化合物的记录,其中有超过1100万个独特结构。PubChem数据库不仅链接到PubMed和PubMed-Central等其他Entrez数据库,还链接到Entrez Structure和Protein,以便在基因组学的大分子和细胞代谢的小有机分子之间架起桥梁。除了文本查询外,PubChem数据库还可以使用基于化学微笑、公式或各种格式的3D化学结构的结构查询进行搜索。在线结构绘图工具(pubchem.ncbi.nlm.nih.gov/search/search.cgi)提供了一种构建基于结构的搜索的简单方法。

基因表达综合(GEO)

地理位置(6)是一个数据存储库和检索系统,用于科学界生成的微阵列和其他形式的高通量分子丰度数据。除了基因表达数据外,GEO还接受阵列比较基因组杂交(aCGH)数据、阵列染色质免疫沉淀(ChIP-ChIP)数据、SNP阵列数据和一些蛋白质组数据类型。GEO存储库接受与微阵列实验(MIAME)兼容的数据提交的最低信息。支持多种数据存储选项和格式,包括web表单、电子表格、XML和文本中的简单综合格式(SOFT)。数据可以从实验(Entrez GEO数据集)和以基因为中心(Entrez GEO Profiles)的角度进行查询和可视化。在撰写本文时,该存储库包含来自20多万个杂交实验的数据,代表了约100亿个个体测量值,来自约4000个阵列定义,跨越400多个生物体。

流感基因组资源

流感基因组测序项目(IGSP)(7)正在为研究人员提供越来越多的病毒序列集合,这些序列对确定流感致病性的遗传决定因素至关重要。迄今为止,该项目已产生近24000个流感序列。NCBI的流感病毒资源通过PubMed将IGSP项目数据链接到最新的流感科学文献以及许多在线分析工具和数据库。这些数据库包括NCBI的流感病毒序列数据库,由GenBank和NCBI RefSeq数据库中的近50000个流感序列组成。使用流感病毒资源的工具,研究人员可以将其分析扩展到56000个流感蛋白序列、111个流感蛋白结构和269个流感人群研究,这些研究可在NCBI的Entrez系统涵盖的生物数据库中访问。一个在线流感基因组注释工具分析一个新序列并以“特征表”格式生成输出,NCBI的GenBank提交工具(如“tbl2asn”)可以使用该工具(8).

保存的CDS数据库(CCDS)

不同群体使用不同方法进行的模型生物基因预测产生了相似但并不总是相同的注释。这些差异通常使研究人员很难将一个数据库中获得的基因序列信息与另一个数据库的信息联系起来。在模型生物中,人类和小鼠基因组序列现在足够稳定,因此鉴定一组“共识”基因注释是可行的。CCDS项目(网址:www.ncbi.nlm.nih.gov/CCDS/)是NCBI、欧洲生物信息学研究所、Wellcome Trust Sanger研究所和加州大学圣克鲁斯分校(UCSC)之间的合作成果,旨在确定一组具有一致注释和高质量的人类和小鼠蛋白质编码区。迄今为止,CCDS数据库包含约18000个人类CDS注释和13000个小鼠CDS注释。CCDS的web界面允许通过基因或序列标识符进行搜索,并提供到Entrez gene的链接,记录修订历史、转录和蛋白质序列,以及Map Viewer、Ensemble Genome Browser、UCSC Genome浏览器和Sanger Institute Vega浏览器中的基因视图。CCDS序列数据可在(ftp.ncbi.nlm.nih.gov/pub/CCDS公司/).

常规临床应用数据库集群:dbMHC、dbLRC、dbRBC

dbMHC公司(www.ncbi.nlm.nih.gov/mhc/mhc.fcgi?cmd=init)专注于主要组织相容性复合体(MHC),包含有关MHC等位基因变异的信息和数据,MHC是一组高度可变的基因,对器官移植的成功和感染性疾病的易感性起着至关重要的作用。dbMHC包含1000多个MHC等位基因序列和等位基因频率分布数据,以及一个收集全球造血细胞移植HLA基因型和临床结果信息的项目的数据。dbLRC提供了白细胞受体复合物等位基因的全面收集,重点是KIR基因。dbRBC表示红细胞抗原或血型的基因及其序列数据。它承载并整合血型抗原基因突变数据库(9)利用NCBI的资源,dbRBC提供了有关单个基因的一般信息,并可以访问血型等位基因的ISBT等位基因命名法。所有三个数据库dbMHC、dbLRC和dbRBC都提供了多重序列比对,以及解释纯合或杂合测序结果的分析工具(10)和DNA探针比对工具。

NCBI剩余资源概述

数据库检索工具

Entrez、My NCBI和Entrez编程实用程序

Entrez公司(11)是一个集成的数据库检索系统,支持使用简单的布尔查询对35个数据库进行文本搜索,这些数据库总共包含超过25亿条记录。在最简单的形式中,这些链接可能是序列和所报道论文摘要之间的交叉引用,或者是蛋白质序列和其编码DNA序列或其3D结构之间的交叉引用。“相邻记录”之间的计算派生链接,例如基于序列之间或PubMed摘要之间计算出的相似性的链接,允许快速访问相关记录组。名为LinkOut的服务扩展了链接范围,包括外部服务,例如特定于生物体的基因组数据库。Entrez中检索到的记录可以以多种格式显示,并可以单独或成批下载。

“My NCBI”允许用户存储个人配置选项,如搜索过滤器、LinkOut首选项和文档交付提供商。我的NCBI还保存搜索,并可以自动通过电子邮件发送更新的搜索结果。名为“收藏”的My NCBI功能允许用户无限期保存搜索结果和书目。也可以使用新设计的BLAST页面上的选项无限期保存BLAST参数集,如下所述。

Entrez的脚本访问由Entrez编程实用程序(E-Utilities)提供,这是一套由八个服务器端程序组成的套件,支持一组统一的参数,用于搜索、链接Entrez数据库并从中下载。“einfo”实用程序可用于检索支持的数据库和搜索字段的列表。“egquery”实用程序返回每个Entrez数据库中查询的匹配数。“efetch”或“esummary”等电子工具分别用于检索完整记录或摘要。Espell在Entrez查询中检查拼写并提供更正。支持E-Utilities的简单对象访问协议(SOAP)接口。有关使用电子实用程序的说明,请参阅NCBI主页上的“Entrez Tools”链接。

PubMed和PubMed-Central

PubMed数据库在过去一年中取得了里程碑式的进展,为其第1700万条引文编制了索引,并提供了约870万篇文章的全文链接。PubMed涵盖了1950年代以来超过19600种生命科学期刊上的生物医学文章,其中大多数带有摘要,许多带有全文文章的链接。PubMed与其他核心Entrez数据库紧密相连,为分子生物学数据和科学文献提供了重要的桥梁。PubMed记录在Entrez中也作为“相关文章”相互链接,基于使用索引医学主题标题(MeSH)计算检测到的相似性(12)术语以及标题和摘要的文本。除了论文摘要外,默认的“AbstractPlus”显示格式还显示了前五篇相关文章的简洁描述,增加了发现重要关系的潜力。

公共医疗中心(PMC)(13)最近,生命科学领域同行评议期刊的数字档案馆也突破了一个里程碑,增加了第100万篇全文文章,去年增长了47%。超过340种期刊,包括核酸研究,将文章全文存入PMC。参与PMC需要承诺在出版后立即或在12个月内免费获取全文。PubMed搜索结果中确定了所有PMC免费文章,可以使用Entrez搜索PMC本身。

分类学

NCBI分类数据库以每月1700个新分类群的速度增长,对数据库中至少有一个核苷酸或蛋白质序列的260000多个命名生物进行索引。分类浏览器可用于查看分类位置或从任何主要Entrez数据库检索特定生物体或组的数据。

序列相似搜索程序的BLAST族

BLAST项目(14–16)对各种数据库执行序列相似性搜索,返回一组间隙对齐,并链接到UniGene、Gene、MMDB或GEO的完整数据库记录。一种变体,BLAST2序列(17),比较两个DNA或蛋白质序列,并生成比对的点位表示。基本BLAST程序还可以作为独立的命令行程序、网络客户端和本地Web服务器包(ftp.ncbi.nih.gov/BLAST/executables/LATEST/)使用。

BLAST输出格式

标准输出格式包括默认的成对排列、几种查询锚定的多序列排列格式、一个易于解析的命中表和一个分类组织的输出。“与身份配对”模式可以更好地突出查询和目标序列之间的差异。Web BLAST服务的树视图选项创建了一个树状图,该树状图根据序列与查询序列的距离对序列进行聚类。BLAST返回的每个比对都会进行评分,并分配一个统计显著性度量,称为期望值(E-Value)。返回的对齐可以受到E值阈值或范围的限制。

大爆炸

大爆炸(18)设计用于查找几乎完全匹配的,可通过处理成批核苷酸查询的web界面使用,运行速度比标准核苷酸BLAST快10倍。MegaBLAST是NCBI基因组BLAST页面的默认搜索程序,用于搜索快速增长的跟踪档案,也可用于标准BLAST数据库。对于快速的跨物种核苷酸查询,NCBI提供了Disconntiguous MegaBLAST,它使用非接触的单词匹配(19)作为其排列的核心。不连续的MegaBLAST比转换搜索(如blastx)快得多,但在比较编码区域时保持了竞争性的灵敏度。

基因组BLAST

NCBI为地图查看器中显示的76多种生物维护基因组BLAST页面。基因组BLAST可用于搜索生物体的基因组序列、在基因组序列的注释中使用的核苷酸和蛋白质RefSeqs,或由基因组序列的注释产生的核苷酸和蛋白质RefSeqs,或映射到基因组序列的序列集,如EST。

基因水平序列资源

数据库

Entrez基因

Entrez基因(20)提供了一个接口,用于管理序列和有关基因的描述性信息,并链接到NCBI的Map Viewer、Evidence Viewer、Model Maker、BLink、来自保守域数据库(CDD)的蛋白质域和其他基因相关资源。基因包含来自约4500个生物体的320多万个基因的数据。除了由内部员工管理外,还通过几次国际合作来积累和维护数据。Gene中与PubMed中最新引文的链接由馆长维护,并作为Gene References into Function(GeneRIF)提供。完整的Entrez基因数据集以及特定于生物体的子集以紧凑的NCBI ASN.1格式在NCBI FTP站点上提供。一种将原生Gene ASN.1格式转换为XML的工具,称为“gene2xml”,可用于以下几个流行的计算机平台:(ftp://ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/gene2xml).

UniGene和ProtEST

UniGene公司(21)是一个将GenBank序列(包括EST)划分为一组非冗余的基因导向簇的系统。UniGene集群是为GenBank中有70 000或更多EST的所有生物体创建的,包括约44种动物和41种植物和真菌的EST。UniGene集合已被用作大规模基因表达研究微阵列制造中独特序列的来源(22). UniGene数据库每周更新一次新的EST序列,每两个月更新一次具有新特征的序列。

ProtEST与UniGene紧密耦合,在模型生物的蛋白质序列和UniGene中核苷酸序列的6帧翻译之间呈现预先计算的BLAST比对。

同源基因

同源基因是一个自动检测18个完全测序的真核生物基因组(包括智人,黑猩猩,小家鼠,褐家鼠,黑腹果蝇,冈比亚按蚊,秀丽隐杆线虫,葡萄裂殖酵母,酿酒酵母,棉蚜,粗糙脉孢菌,稻瘟病菌,拟南芥水稻.HomoloGene条目除直系基因外,还包括平行基因。同源基因报告包括来自人类孟德尔在线遗传(OMIM)的同源性和表型信息(23)、小鼠基因组信息学(MGI)(24),斑马鱼信息网络(ZFIN)(25),酿酒酵母基因组数据库(SGD)(26)、同源群簇(COG)(5)和FlyBase(27). 新的同源基因下载器出现在同源基因显示器的“下载”链接下,允许检索同源基因组中基因的任何或所有转录物、蛋白质或基因组序列;在基因组序列的情况下,可以指定上游和下游区域。

单核苷酸多态性数据库(dbSNP)

dbSNP(28)是一个单碱基核苷酸替换和短缺失和插入多态性的储存库,包含1200多万人类SNP和3900万来自各种其他生物体的SNP,其中1700万是在过去一年中添加的。dbSNP数据库为dbSNP提交提供了有关验证状态、人群特异性等位基因频率和个体基因型的附加信息。这些数据可在dbSNP FTP站点的XML结构基因型报告中获得,其中包括有关细胞系、系谱ID和基因型不一致和不相容错误标志的信息。

参考序列

RefSeq数据库(29)为转录物、蛋白质和基因组区域以及计算衍生的核苷酸序列和蛋白质提供了精选参考。NCBI FTP站点上的RefSeq目录中提供了完整的RefSeg数据库。RefSeq中的序列数量在过去一年中增长了33%。截至Release 24,RefSeq包含610多万个序列,包括390多万个蛋白质序列,代表4500个生物体。

基因级分析工具

开放阅读框(ORF)查找器、拆分器和Spidey

ORF Finder对核苷酸序列执行六帧翻译,并返回指定大小范围内每个ORF的位置。

拆分(Splign)(30)是一种用于计算cDNA到基因组序列比对的实用程序,可准确确定剪接位点、容忍测序错误并支持跨物种比对。Splign使用Needleman-Wunch算法的一个版本(31)这说明了剪接信号与划分算法相结合,以确定基因及其拷贝的可能位置。Splign网站位于(网址:www.ncbi.nlm.nih.gov/sutils/splign/splign.cgi). 提供了一个链接来下载用于大规模处理的独立版本。

Spidey将一组真核生物mRNA序列与单个基因组序列对齐,同时考虑到预测的剪接位点,并使用四种剪接体模型之一(脊椎动物、,果蝇属,秀丽线虫,工厂)。

电子PCR(e-PCR)

正向e-PCR搜索UniSTS数据库中近500 600个标记的STS引物对。反向e-PCR用于通过搜索基因组和转录数据库来估计基因组结合位点、扩增子大小和引物对集的特异性。多个计算机平台的二进制文件以及源代码可在(ftp.ncbi.nlm.nih.gov/pub/schuler/e-PCR)上找到。

基因组尺度分析资源

基因组分析数据库

Entrez基因组

Entrez基因组(32)提供了570多个完整的微生物基因组序列(过去一年增加了200个)、2840多个病毒基因组序列(增加了390个)和1300多个真核细胞器参考序列(增加了300个)。还包括超过25个更高级的真核生物基因组,卡巴勒斯马,马。植物基因组中心网页是完整植物基因组、植物基因组测序项目信息或NCBI其他资源(如植物基因组BLAST页面或地图查看器)的门户。此外,还提供了真核细胞器和病毒的专业查看器和BLAST页面。

追踪和汇编档案

Trace Archive是一个快速增长的数据库,拥有超过18亿条测序痕迹。共有4400多个生物体,比去年增加了3600个。程序集档案将跟踪档案中的原始序列信息与GenBank中的程序集信息相链接。装配查看器允许显示多序列比对以及作为装配一部分的轨迹的序列色谱图。

基因组项目

Entrez基因组项目数据库概述了完整和正在进行的大规模测序、组装、注释和绘图项目的状态。基因组项目链接到其他Entrez数据库中的项目数据,如Entrez核苷酸数据库和基因组,以及各种其他NCBI和外部资源。对于原核生物,基因组计划将生物学家感兴趣的一些特征编入索引,如生物形态和运动性;环境要求,如盐度、温度和pH范围;需氧量和致病性。该数据库允许基因组测序中心在测序过程的早期注册其项目,以便项目数据可以尽早链接到其他NCBI托管的数据。

基因组分析的其他资源

图谱浏览器

NCBI地图查看器使用一组对齐的地图显示基因组集合、遗传和物理标记以及注释和其他分析的结果。地图查看器主页(网址:www.ncbi.nlm.nih.gov/mapview/)提供了指向约76种生物的Map Viewer和Genomic BLAST页面的链接,包括智人,小M褐鼠。可在Map Viewer中显示的地图因生物体而异,可能包括细胞遗传学地图、物理地图和各种基于序列的地图。来自多个有机体或同一有机体的多个集合的地图可以在一个视图中显示。Map Viewer还可以显示以前的基因组构建。Map Viewer可以生成表格显示,方便导出到其他程序,基因组组装的片段可以使用下载/查看序列链接下载。

模型生成器和证据查看器

Model Maker(MM)用于使用来自从头算预测或GenBank转录本(包括EST和RefSeq)与NCBI人类基因组组装的比对。

证据查看器(EV)显示与RefSeq和GenBank转录本的基因组连接体的比对,以及支持基因模型的EST。强调了转录本和基因组序列之间的不匹配。在过去一年中,MM和EV都已扩展到覆盖许多新生物。

癌症染色体

三个数据库,NCI/NCBI SKY(光谱核型分析)/M-FISH(多重FISH)和CGH(比较基因组杂交)数据库,国家癌症研究所Mitelman癌症染色体畸变数据库(33)和癌症数据库中的NCI复发染色体畸变组成了癌症染色体Entrez数据库。为搜索提供了简单和高级的界面,可以生成“相似性报告”,显示搜索返回的组或记录的通用术语。

TaxPlot、GenePlot和gMap

TaxPlot绘制了700多个原核基因组和近45个真核基因组中两种生物体的蛋白质组与参考生物体蛋白质组的相似性。一个相关的工具GenePlot为一对完整的微生物基因组生成蛋白质相似性图,以可视化缺失、转置或倒置的基因组片段。“gMap”工具将预先计算的全微生物基因组比较结果与实时BLAST比较相结合,对具有相似核苷酸序列的基因组进行聚类,然后用图形描绘预先计算的相似片段。

同源群簇

COG数据库(5),介绍了从完全测序的生物体中汇编的同源蛋白质组。真核生物版本KOG可用于七种生物,包括智人,秀丽线虫,D.黑腹果蝇拟南芥COG序列的比对已纳入CDD和Genome-ProtMap,二者均在后面描述。

基因表达模式分析资源

基因表达分析资源

GENSAT卫星

GENSAT是根据国家神经疾病和中风研究所提供的数据制作的小鼠中枢神经系统基因表达图谱。GENSAT对小鼠大脑组织切片的图像进行了分类,在这些图像中,标签(如增强绿色荧光蛋白)被用于可视化大量基因的相对局部表达程度。

探查

Entrez Probe数据库存档了大约880万个68种类型的探针序列,以及它们的实验实用性数据。探针条目表示预期的实验应用,并包括使用探针生成的实验结果。

支持基因型和表型相关性的资源

OMIM公司

NCBI提供了约翰霍普金斯大学维克多·A·麦库西克(Victor A.McKusick)编写和编辑的人类基因和遗传疾病OMIM目录的在线版本(23). 该数据库包含有关疾病表型和基因的信息,包括广泛的描述、基因名称、遗传模式、图谱位置、基因多态性和详细的参考文献。OMIM Entrez数据库包含约18000个条目,包括超过12000个已建立基因位点和表型描述的数据。这些记录链接了许多重要资源,例如特定于本地的数据库和基因测试(网址:www.genetests.org).

OMIA公司

在线动物孟德尔遗传(OMIA)是由澳大利亚悉尼大学的弗兰克·尼古拉斯教授及其同事编写的动物物种(人类和小鼠除外)的基因、遗传疾病和特征数据库。该数据库包含文本信息和参考,以及OMIM、PubMed和Entrez Gene相关记录的链接。

分子结构和蛋白质资源

结构数据库

分子模型数据库

NCBI分子建模数据库(MMDB),通过处理蛋白质数据库中的条目建立(34),参见参考(35). MMDB中的结构与Entrez中的序列和(36)客户尽职调查。搜索Structure数据库生成的结果列表现在显示结构的缩略图图像。单击缩略图可启动Cn3D,如下文所述,以允许交互式查看结构。

CDD和CDART

CDD包含23 500多个PSI-BLAST-derived Position Specific Score Matrices,代表来自Simple Modular Architecture Research Tool(Smart)的领域(37)、Pfam(38)以及从COG导出的域对齐。NCBI的保守域搜索(CD-Search)服务可用于搜索CDD中保守域的蛋白质序列。只要有可能,CDD点击都与结构相关联,再加上域点击代表的多重序列比对,可以使用NCBI的3D分子结构查看器Cn3D进行查看(39) (www.ncbi.nlm.nih.gov/Structure/CN3D/CN3D.shtml网站),配备了使用PSI-BLAST和线程算法的高级对齐构建工具。保守域结构检索工具(CDART)允许在保守域的基础上搜索蛋白质数据库,并返回包含查询域的数据库蛋白质的域结构。CD对齐可以在线查看或使用称为CDTree的新独立工具进行编辑(网址:www.ncbi.nlm.nih.gov/Structure/cdtree/cdtree.shtml). CDTree使用PSI-BLAST将新序列添加到现有的CD比对中,并为探索域结构中的系统发育趋势和构建基于比对的蛋白质域的层次结构提供接口。

支持蛋白质组学的工具

眨眼

BLAST Link(BLink)显示预先计算的BLAST比对Entrez数据库中每个蛋白质序列的相似序列。BLink可以显示受分类标准、来源数据库、与完整基因组的关系、COG成员资格限制的比对子集(5)或与3D结构或保守蛋白结构域相关。在Entrez和Entrez Gene报告中显示蛋白质记录的BLink链接。

开放式质谱搜索算法(OMSSA)

OMSSA公司(40)通过搜索已知蛋白质序列库来分析MS/MS肽谱,将重要的点击指定为与BLAST的E值计算相同的期望值。OMSSA的web界面允许在单个会话中使用BLAST“nr”或“refseq”序列库分析多达2000个光谱,以进行比较。可在(pubchem.ncbi.nlm.nih.gov/OMSSA/download.htm)下载适用于几个流行计算机平台的OMSSA的独立版本,这些平台接受较大批次的光谱并允许搜索自定义序列库。

HIV-1/人类蛋白质相互作用数据库

国家过敏症和传染病研究所获得性免疫缺陷综合征司与南方研究所和NCBI合作,维护了一个全面的艾滋病毒蛋白质相互作用数据库,记录了HIV-1蛋白质、宿主细胞蛋白质、,其他HIV-1蛋白或来自与HIV或AIDS相关的疾病有机体的蛋白质。摘要,包括蛋白质RefSeq登录号、Entrez基因ID、相互作用氨基酸列表、相互作用简要描述、关键字和PubMed ID,用于支持期刊文章(www.ncbi.nlm.nih.gov/RefSeq/HIV交互/index.html). HIV蛋白质相互作用数据库中记录的所有蛋白质-蛋白质相互作用都列在HIV-1蛋白质相互作用部分的Entrez Gene报告中。

更多信息

这里描述的资源包括文档、其他解释材料以及对各个网站上的合作者和数据源的引用。图书数据库中的《NCBI手册》详细描述了主要的NCBI资源。NCBI主页上的教育链接下也提供了一些教程。站点地图提供了NCBI资源的综合表,关于NCBI功能提供了生物信息学引物和其他补充信息。用户支持人员可以在以下网址回答问题:(vog.hin.mln.ibcn@ofni网站). NCBI新闻通讯中介绍了NCBI资源和数据库增强的更新(www.ncbi.nlm.nih.gov/About/newsletter.html). 此外,许多邮件列表提供了各种NCBI资源的更新(www.ncbi.nlm.nih.gov/Sitemap/Summary/email_lists.html). 一些NCBI资源的RSS提要(网址:www.ncbi.nlm.nih.gov/feed/)现在也可以使用,包括一个新的RSS提要“ncbi-annous”,它可以广播各种ncbi更新,包括即将推出的ncbi培训课程的公告。

确认

本文的开放获取出版费用由美国国立卫生研究院院内研究项目、国家医学图书馆提供。

利益冲突声明。未声明。

参考文献

1Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Wheeler DL。核酸研究。2008年,GenBank。数据库问题,正在出版中。[PMC免费文章][公共医学][谷歌学者]
2TGCR集团、Manolio TA、Rodriguez LL、Brooks L、Abecasis G,国际多中心ADHD遗传学项目。Ballinger D、Daly M、Donnelly P等。全基因组关联研究中合作的新模式:遗传关联信息网络。自然遗传学。2007;39:1045–1051.[公共医学][谷歌学者]
三。与年龄相关的眼病研究小组。年龄相关眼病研究(AREDS):设计含义。AREDS第1号报告。对照临床。试验。1999;20:573–600. [PMC免费文章][公共医学][谷歌学者]
4Fung HC、Scholz S、Matarin M、Simón-Sánchez J、Hernandez D、Britton A、Gibbs JR、Langefeld C、Stiegert ML等。帕金森病和神经正常对照组的全基因组分型:第一阶段分析和数据公开发布。柳叶刀神经病学。2006;5:911–916.[公共医学][谷歌学者]
5Tatusov RL、Fedorova ND、Jackson JD、Jacobs AR、Kiryutin B、Koonin EV、Krylov DM、Mazumder R、Mekhedov SL等。COG数据库:更新版本包括真核生物。BMC生物信息学。2003;4:41–41. [PMC免费文章][公共医学][谷歌学者]
6Barrett T、Troup DB、Wilhite SE、Ledoux P、Rudnev D、Evangelista C、Kim IF、Soboleva A、Tomashevsky M.NCBI GEO:挖掘数以千万计的表达谱–数据库和工具更新。核酸研究。2007;35(数据库问题):760-765。 [PMC免费文章][公共医学][谷歌学者]
7.Ghedin E、Sengamalay NA、Shumway M、Zaborsky J、Feldblyum T、Subbu V、Spiro DJ、Sitz J、Koo H等。人类流感的大规模测序揭示了病毒基因组进化的动态性质。自然。2005;437:1162–1166.[公共医学][谷歌学者]
8Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Wheeler DL。GenBank。核酸研究。2007;35(数据库问题):21–25。 [PMC免费文章][公共医学][谷歌学者]
9Blumenfeld OO,Patnaik SK。血型抗原的等位基因:血型抗原基因突变数据库中记录的人类突变和cSNP的来源。嗯,变种人。2004;23:8–16.[公共医学][谷歌学者]
10Helmberg W,Dunivin R,Feolo M.基于序列的dbMHC分型工具:分型高度多态性基因序列。核酸研究。2004;32(Web服务器问题):173–175。 [PMC免费文章][公共医学][谷歌学者]
11Schuler GD、Epstein JA、Ohkawa H、Kans JA。分子生物学数据库和检索系统。方法酶制剂。1996;266:141–162.[公共医学][谷歌学者]
12Sewell W.MEDLARS中的医学主题标题。牛市。医学图书馆。协会。1964;52:164–170. [PMC免费文章][公共医学][谷歌学者]
13Sequeira E.PubMed Central–三岁,越来越强大。ARL。2003;228:5–9. [谷歌学者]
14Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215:403–410.[公共医学][谷歌学者]
15Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]
16Ye J,McGinnis S,Madden TL.BLAST:更好的序列分析改进。核酸研究。2006;34(Web服务器问题):6–9。 [PMC免费文章][公共医学][谷歌学者]
17Tatusova TA,Madden TL.BLAST 2 Sequences,一种比较蛋白质和核苷酸序列的新工具。FEMS微生物。莱特。1999;174:247–250.[公共医学][谷歌学者]
18Zhang Z,Schwartz S,Wagner L,Miller W。DNA序列比对的贪婪算法。J.计算。生物。2000;7:203–214.[公共医学][谷歌学者]
19Ma B,Tromp J,Li M.PatternHunter:更快更敏感的同源搜索。生物信息学。2002;18:440–445.[公共医学][谷歌学者]
20Maglott D、Ostell J、Pruitt KD、Tatusova T。核酸研究。2007.Entrez Gene:NCBI以基因为中心的信息。数据库问题,出版中。[PMC免费文章][公共医学][谷歌学者]
21Schuler GD。拼图碎片:表达序列标签和人类基因目录。《分子医学杂志》。1997;75:694–698.[公共医学][谷歌学者]
22Ermolaeva O、Rastogi M、Pruitt KD、Schuler GD、Bittner ML、Chen Y、Simon R、Meltzer P、Trent JM等。基因表达阵列的数据管理和分析。自然遗传学。1998;20:19–23.[公共医学][谷歌学者]
23Hamosh A、Scott AF、Amberger JS、Bocchini CA、McKusick VA。人类孟德尔在线遗传(OMIM),人类基因和遗传疾病知识库。核酸研究。2005;33(数据库问题):514–517。 [PMC免费文章][公共医学][谷歌学者]
24.Blake JA、Eppig JT、Bult CJ、Kadin JA、Richardson JE。小鼠基因组数据库(MGD):更新和增强。核酸研究。2006;34(数据库问题):562-567。 [PMC免费文章][公共医学][谷歌学者]
25.Sprague J、Bayraktaroglu L、Clements D、Conlin T、Fashena D、Frazer K、Haendel M、Howe DG、Mani P等。斑马鱼信息网络:斑马鱼模型生物数据库。核酸研究。2006;34(数据库问题):581–585。 [PMC免费文章][公共医学][谷歌学者]
26Nash R、Weng S、Hitz B、Balakrishnan R、Christie KR、Costanzo MC、Dwight SS、Engel SR、Fisk DG等。SGD蛋白质信息扩展:新页面和蛋白质组浏览器。核酸研究。2007;35(数据库问题):468–471。 [PMC免费文章][公共医学][谷歌学者]
27Crosby MA、Goodman JL、Strelets VB、Zhang P、Gelbart WM。FlyBase:十来个基因组。核酸研究。2007;35(数据库问题):486–491。 [PMC免费文章][公共医学][谷歌学者]
28Sherry ST、Ward MH、Kholodov M、Baker J、Phan L、Smigielski EM、Sirotkin K.dbSNP:NCBI遗传变异数据库。核酸研究。2001;29:308–311. [PMC免费文章][公共医学][谷歌学者]
29Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35(数据库问题):61-65。 [PMC免费文章][公共医学][谷歌学者]
30Kapustin Y,Souvorov律师。RECOMB 2004–计算分子生物学潮流。纽约,第741页:计算机协会;2004年,Splign——拼接比对的混合方法。英寸。[谷歌学者]
31Needleman SB,Wunsch CD。一种适用于寻找两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。1970;48:443–453.[公共医学][谷歌学者]
32Tatusova TA、Karsch-Mizrachi I、Ostell JA。WWW Entrez中的完整基因组:数据表示和分析。生物信息学。1999;15:536–543.[公共医学][谷歌学者]
33Mitelman F,Mertens F,Johansson B。人类肿瘤复发性染色体重排的断点图。自然遗传学。1997;15:417–474.[公共医学][谷歌学者]
34Berman H、Henrick K、Nakamura H、Markley JL。全球蛋白质数据库(wwPDB):确保PDB数据的统一存档。核酸研究。2007;35(数据库问题):301–303。 [PMC免费文章][公共医学][谷歌学者]
35Wang Y、Addess KJ、Chen J、Geer LY、He J、He S、Lu S、Madej T、Marchler-Bauer A等。MMDB:用Entrez的三维结构数据库注释蛋白质序列。核酸研究。2007;35(数据库问题):298–300。 [PMC免费文章][公共医学][谷歌学者]
36Marchler-Bauer A、Anderson JB、Derbyshire MK、DeWeese-Scott C、Gonzales NR、Gwadz M、Hao L、He S、Hurwitz DI等。CDD:用于交互式域家族分析的保守域数据库。核酸研究。2007;35(数据库问题):237–240。 [PMC免费文章][公共医学][谷歌学者]
37Letunic I、Copley RR、Pils B、Pinkert S、Schultz J、Bork P.SMART 5:基因组和网络背景下的域。核酸研究。2006;34(数据库问题):257–260。 [PMC免费文章][公共医学][谷歌学者]
38Finn RD、Mistry J、Schuster-Böckler B、Griffiths-Jones S、Hollich V、Lassmann T、Moxon S、Marshall M、Khanna A等。Pfam:部族、网络工具和服务。核酸研究。2006;34(数据库问题):247–251。 [PMC免费文章][公共医学][谷歌学者]
39Wang Y、Geer LY、Chappey C、Kans JA、Bryant SH、Cn3D:Entrez的序列和结构视图。生物化学趋势。科学。2000;25:300–302.[公共医学][谷歌学者]
40Geer LY、Markey SP、Kowalak JA、Wagner L、Xu M、Maynard DM、Yang X、Shi W、Bryant SH。开放式质谱搜索算法。蛋白质组研究杂志。2004;:958–964.[公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社