跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2005年1月1日;33(数据库问题):D39–D45。
2004年12月17日在线发布。 数字对象标识:10.1093/nar/gki062
PMCID公司:PMC540016型
PMID:15608222

国家生物技术信息中心的数据库资源

摘要

除了维护GenBank(R)核酸序列数据库外,国家生物技术信息中心(NCBI)还提供数据检索系统和计算资源,用于分析GenBank中的数据和通过NCBI网站提供的其他生物数据。NCBI资源包括Entrez、Entrez Programming Utilities、PubMed、PubMed Central、Entrex Gene、NCBI分类浏览器、BLAST、BLAST-Link(BLink)、Electronic PCR、OrfFinder、Spidey、RefSeq、UniGene、HomoloGene、ProtEST、dbMHC、dbSNP、癌症染色体、Entrez-Genomes和相关工具、Map Viewer、Model Maker、Evidence Viewer、,同源群聚类(COG)、逆转录病毒基因分型工具、HIV-1/人类蛋白质相互作用数据库、SAGEmap、基因表达总览(GEO)、人类孟德尔在线遗传(OMIM)、分子建模数据库(MMDB)、保守域数据库(CDD)和保守域结构检索工具(CDART)。扩展许多Web应用程序是BLAST程序的自定义实现,该程序经过优化以搜索专门的数据集。所有资源都可以通过NCBI主页访问,网址为网址:http://www.ncbi.nlm.nih.gov.

简介

美国国立卫生研究院的国家生物技术信息中心(NCBI)成立于1988年,旨在开发分子生物学信息系统。除了维护GenBank(R)(1)核酸序列数据库是科学界提交数据的数据库,NCBI提供数据检索系统和计算资源,用于分析GenBank数据和各种其他生物数据。在本研究中,NCBI数据库资源套件分为以下六类。所有讨论的资源可从NCBI主页获取,网址为网址:http://www.ncbi.nlm.nih.gov。在大多数情况下,这些资源的基础数据可通过以下网址进行批量下载:ftp.ncbi.nih.gov公司,NCBI主页的链接。

数据库检索工具

Entrez公司

Entrez公司(2)是一个集成的数据库检索系统,可以使用简单的布尔查询对20多个不同的数据库集进行文本搜索,其中一些数据库是在过去一年中添加的。新实现的全局查询是NCBI主页上的默认搜索,现在可以以与单个数据库搜索相当的速度在所有Entrez数据库中同时进行搜索。在检索数据库匹配项的计数时,用户可以显示并进一步细化任何单个数据库中的搜索。Entrez数据库包括来自多种来源的DNA和蛋白质序列(1,6)、NCBI分类法、基因组、群体集、基因表达数据、UniGene中的基因导向序列簇、UniSTS中的序列标记位点、dbSNP中的遗传变异、分子建模数据库(MMDB)中的蛋白质结构(7),三维(3D)和基于比对的蛋白质结构域,以及通过PubMed、PubmedCentral、在线人类孟德尔遗传(OMIM)和在线书籍获得的生物医学文献。PubMed主要包括MEDLINE(R)中的1280万条参考文献和摘要,以及Web上4400多种期刊的全文链接。图书数据库包含超过35本在线科学教科书,包括NCBI手册,NCBI资源的综合指南。NCBI网站本身属于Entrez数据库,允许用户使用Entrez搜索引擎快速查找感兴趣的NCBI网页。

Entrez在数据库内部和数据库之间提供了与相关信息的广泛链接,从序列与报告论文摘要之间的简单交叉引用,或蛋白质序列与其相应的DNA序列或3D结构之间的简单交互引用,到与其他序列的比对。最近添加的是基因组组装及其组件之间的链接,以及主序列和从其注释中衍生的序列之间的链接。其他基于序列或PubMed摘要之间计算出的相似性的链接称为“邻居”,允许快速访问相关记录组。名为LinkOut的服务将链接范围从单个数据库记录扩展到相关的外部服务,例如特定于生物体的基因组数据库。为了适应从一个记录到另一个记录的Entrez链接数量不断增加的情况,Entrez的右上角会显示一个“links”下拉菜单。

Entrez搜索检索到的记录可以以多种格式显示,并可以单独或成批下载。重定向控件允许将结果发送到本地文件、在浏览器中格式化为纯文本或发送到剪贴板。PubMed结果也可以直接从Entrez通过电子邮件发送。不同类型的记录的格式选项不同。GenBank记录的显示格式包括GenBank Flatfile、FASTA、XML、ASN.1和其他。图形显示格式可用于某些类型的记录,包括基因组记录。格式化控件允许显示或下载核苷酸或蛋白质记录的特定残基范围。

使用Entrez编程实用程序(E-Utilities),可以通过自动化系统方便地访问Entrez,这是一套由七个服务器端程序组成的套件,支持一组统一的参数,用于搜索、链接Entrez数据库并从中下载。通过交互式Entrez和E-Utilities提供的搜索历史记录允许用户在Entrez会话期间回忆以前搜索的结果,并使用布尔逻辑将其组合。E-Utilities套件的最新添加包括“einfo”实用程序,用于检索Entrez数据库的索引词条计数、上次更新日期和链接列表,以及“egquery”,用于返回每个Entrez数据库中查询的匹配数;然后,自动化系统可以使用“efetch”或“esummary”等E-Utilities来检索数据。最近还提供了与E-Utilities的“简单对象访问协议”(SOAP)接口。NCBI主页上的“Entrez tools”链接下提供了使用电子工具的说明。

公共医学中心

公共医疗中心(PMC)(8)是生命科学领域同行评议期刊的数字档案,提供超过30万篇全文文章。超过160种期刊,包括核酸研究,将文章全文存入PMC。参与PMC需要承诺免费获取全文,出版后可能会有所延迟。一些期刊可以直接在PMC中免费访问其全文,而另一些期刊则需要链接到期刊自己的网站,在该网站上,全文通常在出版后六个月至一年内免费提供。PubMed搜索结果中确定了所有PMC免费文章,可以使用Entrez搜索PMC本身。

分类学

NCBI分类数据库对数据库中至少有一个核苷酸或蛋白质序列的165000多种命名生物进行了索引。分类浏览器可用于查看分类位置或从任何主要Entrez数据库检索特定生物体或组的数据。分类浏览器还显示到Map Viewer、Genomic BLAST服务、Trace Archive的链接,并通过LinkOut显示到建模生物和分类数据库的链接。

NCBI分类法的搜索可以基于整体、部分或语音拼写的生物体名称,但提供了生物学研究中常用的生物体的链接。Entrez分类系统增加了显示自定义分类树的功能,这些树表示完整NCBI分类法的用户定义子集。

Entrez基因

Entrez基因(6)是LocusLink的继承者,它提供了一个接口,用于管理序列和有关基因的描述性信息,并链接到NCBI的Map Viewer、Evidence Viewer、Model Maker、BLAST Link、NCBI保守域数据库中的蛋白质域和其他基因相关资源。除了由内部员工管理之外,还通过几次国际合作来积累和维护数据。Gene中与PubMed中最新引文的链接由馆长使用Gene References into Function(GeneRIF)进行维护。GeneRIF可通过基因报告中的链接访问,也允许研究人员使用基因添加报告参考。

序列相似搜索程序的BLAST族

基本局部对齐搜索工具(BLAST)程序(911)对各种序列数据库执行序列相似性搜索,返回查询序列和数据库序列之间的一组间隙对齐,并链接到UniGene、Gene、MMDB或GEO的完整数据库记录。可以选择出现在BLAST对齐中的序列进行批量下载。BLAST变体,BLAST2Sequences(12),比较两个DNA或蛋白质序列,并生成比对的点位表示。

BLAST搜索返回的每个对齐都会收到一个分数和统计显著性度量,称为期望值(E类-价值),用于判断其质量。要么是E类-可以指定值阈值或范围来限制返回的对齐。BLAST在估计统计显著性时考虑了查询序列的氨基酸组成。这种基于成分的统计处理,用于传统的蛋白质BLAST搜索以及PSI-BLAST(11)搜索,有助于减少误报数据库点击次数(13).

BLAST提供了几种输出格式,包括默认的“成对”对齐、几种“查询锚定”多序列对齐格式和一个表格“命中表”;BLAST结果的易于解析的摘要。选择“新格式化程序”选项的用户还可以在“与标识配对”模式下查看对齐,该模式突出显示查询和目标序列之间的差异。新的格式化程序还提供了一个选项,可以用小写和不同的颜色显示屏蔽字符,而不是简单地将每个字符替换为“X”或“N”。此外,BLAST可以生成分类组织的输出,显示BLAST命中率按生物体的分布。新的“序列检索”格式选项允许使用BLAST结果中出现的复选框标记数据库序列以进行批检索。

web BLAST界面允许使用Entrez搜索语法将初始搜索和显示的结果限制在数据库子集中。Web BLAST使用标准URL–API,允许在发布到网页的URL中包含完整的搜索规范,包括BLAST参数,如Entrez限制和搜索查询。

设计用于搜索几乎完全匹配的BLAST变体,称为MegaBLAST(14),提供了一个处理批量核苷酸查询的web界面,运行速度比标准核苷酸BLAST快10倍。MegaBLAST是NCBI基因组BLAST页面的默认搜索程序,该页面搜索一组基因组特定数据库,并在可能的情况下使用Map Viewer生成BLAST点击的基因组视图。MegaBLAST还用于搜索快速增长的跟踪档案,并可用于标准BLAST数据库。对于追踪档案库和标准BLAST数据库的快速跨物种核苷酸查询,NCBI提供了不连续的MegaBLAST,它使用非连续的单词匹配(15)作为其排列的核心。不连续的MegaBLAST比翻译搜索(如BLASTX)要快得多,但在比较编码区域时保持了竞争性的灵敏度。

标准BLAST数据库套件最近增加了几项功能。现在可以在“env_nt”或“env_nr”数据库中分别搜索核苷酸和蛋白质序列的环境样本数据。“RefSeq”数据库可用于蛋白质搜索,“RefSeq_rna”和“RefSeq_genomic”数据库可用来核苷酸搜索。核苷酸搜索还可以使用Whole Genome Shotgun项目序列的“wgs”和“chromosome”数据库,以及RefSeq中的完整基因组、染色体或连接体。

眨眼

BLAST Link(BLink)显示Entrez数据库中每个蛋白质序列的预先计算的蛋白质BLAST比对。BLink可以通过分类标准、来源数据库、与完整基因组的关系、COG中的成员关系来显示这些比对的子集(16)或与3D结构或保守蛋白结构域相关。在Entrez和Entrez Gene报告中显示蛋白质记录的BLink链接。

基因水平序列资源

非重复序列

UniGene公司(17)是一个自动将GenBank序列(包括表达序列标签(EST))划分为一组非冗余的基因导向簇的系统。UniGene集群是为GenBank中有70 000或更多EST的所有生物体创建的,现在包括25种以上动物和20多种植物的EST。每个UniGene簇包含代表唯一基因的序列,并与相关信息相关联,例如基因表达的组织类型、模型生物蛋白质相似性、基因的Entrez基因报告及其地图位置。在2004年7月发布的人类UniGene(构建173)中,GenBank中超过450万人类EST的数量减少了42倍,达到约107 000个序列簇。UniGene集合已被用作制造用于大规模基因表达研究的微阵列的独特序列源(18). UniGene数据库每周更新一次新的EST序列,每两个月更新一次具有新特征的序列。

保护测试

ProtEST是一种类似于BLASTLink的工具,它提供了模型生物的蛋白质序列和UniGene核苷酸序列的六帧翻译之间预先计算的BLAST比对。来自概念翻译或模型转录的蛋白质序列被排除在外。ProtEST链接显示在UniGene报告中,具有模型生物蛋白质相似性。ProtEST报告与UniGene蛋白质相似性同步更新。

追踪和汇编档案

Trace Archive主页允许从一个快速增长的数据库中灵活搜索和下载测序痕迹,该数据库包含400多个生物体的5亿多条测序痕迹。程序集档案将跟踪档案中的原始序列信息与GenBank中的程序集信息相链接。装配查看器允许显示多序列比对以及作为装配一部分的轨迹的序列色谱图。可通过NCBI主页上的链接访问跟踪档案和程序集档案。

同源基因

同源基因(HomoloGene)是一个自动检测几个已完成测序的真核生物基因组注释基因中同源物的系统。最近构建的同源基因37中所代表的基因组包括智人,肌肉,褐家鼠,黑腹果蝇,冈比亚按蚊,秀丽隐杆线虫,葡萄裂殖酵母,酿酒酵母,粗糙脉孢菌,稻瘟病菌,拟南芥恶性疟原虫.

NCBI采用了一种新的同源基因构建程序,该程序以分类树为指导,依赖于保守的基因顺序和密切相关物种之间的DNA相似性度量,同时利用蛋白质相似性来构建较远相关的生物。新的计算程序极大地提高了计算出的同源基因集的可靠性,由此产生的同源基因条目现在除了直系同源基因外还包括平行基因。可以使用Entrez查询同源基因(www.ncbi.nlm.nih.gov/enterz/query.fcgi?db=同系物)

在同源基因特有的Entrez字段中,“祖先”字段是指同源基因条目中表示的物种最后一个共同祖先的分类群。使用“祖先”字段,可以将搜索范围限制在22个祖先群体中的一个保守基因。同源基因报告包括来自人类在线孟德尔遗传(OMIM)、小鼠基因组信息学(MGI)、斑马鱼信息网络(ZFIN)、,酵母菌属基因组数据库(SGD)、同源群聚类(COG)和FlyBase。“成对得分”显示给出了同源基因组成员的成对统计表,其中包括氨基酸和核苷酸的百分比、Jukes–Cantor遗传距离参数、,D类,非同义与同义氨基酸取代的比率(K(K)/K(K))预测蛋白质以及转录物非编码区与编码区内核苷酸同源性的比率(K(K)编号/K(K)数控).

dbMHC公司

dbMHC支持与主要组织相容性复合体(MHC)相关的临床应用和研究,包括试剂数据库和临床部分。试剂数据库为提交、评估和编辑个人DNA分型试剂以及分型试剂盒信息提供了一个开放平台。使用基于IMGT/HLA的更新等位基因数据库对所有试剂进行等位基因特异性表征。dbMHC为MHC和KIR区域的分析和显示提供了多种资源,例如交互式格式化序列检索工具和基于序列的打字工具,能够对齐和解释杂合子序列。还提供了dbMHCms,这是一种工具,用于搜索MHC中已知短串联重复序列的描述性信息。

临床部分包含第13届国际HLA研讨会和国际HLA工作组生成的数据,包括介绍两个主要IHWG数据集的部分。第一个来源于IHWG“多样性/人类学”项目,该项目旨在确定全球HLA等位基因频率,试图阐明HLA多态性的演变。dbMHC可以显示项目数据,例如在世界某些地区的个体中发现的等位基因频率,或特定基因座的频率。

第二个IHWG数据集是造血细胞移植(HTC)数据库,其中包含世界各地为治疗恶性和非恶性血液疾病而进行的选定的无关供者移植的匿名数据。HCT数据可用的在线分析工具包括查询界面和计算Kaplan–Meier生存曲线的能力。

参考序列

参考序列(RefSeq)数据库(19),它为转录物、蛋白质和基因组区域以及计算衍生的核苷酸序列和蛋白质提供了精心策划的参考。现在,NCBI FTP站点上的RefSeq目录中提供了完整的RefSeg数据库。截至Release 6,RefSeq包含130多万个序列,包括100多万个蛋白质序列,代表2400多个生物体。要注册“refseq-annoush”邮件列表并获得新版本的通知或阅读有关refseq项目的更多信息,请访问refseq主页。

开放阅读框(ORF)查找器和蜘蛛网

ORF Finder对核苷酸序列执行六帧翻译,并返回指定大小范围内每个ORF的位置。可以直接提交检测到的ORF的翻译,以便根据标准BLAST或COG数据库进行相似性搜索。

Spidey是一种真核生物基因组序列比对工具,它将一组mRNA材料或FASTA序列作为输入,并将每个序列与单个基因组序列进行比对。Spidey在构建其路线时考虑到预测的拼接位点,并可以使用四种拼接模型之一(脊椎动物、,果蝇属,线虫和工厂)。Spidey返回外显子比对、蛋白质翻译以及显示每个假定外显子的比对质量和剪接连接模式匹配优度的摘要。ORF Finder和Spidey可通过NCBI主页上的“工具”链接获得。

电子PCR(e-PCR)

现在可以从e-PCR主页执行两种类型的e-PCR(www.ncbi.nlm.nih.gov/sutils/e-pcr). 正向e-PCR搜索UniSTS数据库中超过450000个标记的STS引物对。反向e-PCR用于通过搜索基因组和转录数据库来估计基因组结合位点、扩增子大小和引物对集的特异性冈比亚杆菌,拟南芥,线虫,黑腹果蝇,智人,小家鼠褐鼠.

为了提高灵敏度,正向e-PCR允许匹配引物片段的大小、不匹配的数量、间隙的数量和要调整的STS的大小。Windows、Linux和Unix e-PCR二进制文件以及源代码都可以通过FTP获得(ftp.ncbi.nlm.nih.gov/pub/schuler/e-PCR)

单核苷酸多态性数据库(dbSNP)

dbSNP(20)是一个包含980万人类SNP以及来自各种其他生物体的约500万个SNP的单核苷酸替换和短缺失及插入多态性的储存库。现在,可以从NCBI主页查询Entrez数据库dbSNP。支持搜索位于两个标记之间的SNP,并支持通过Entrez进行批量下载。SNP报告通过NCBI的交互式大分子查看器Cn3D链接到MMDB的结构3D可视化(21)这突出了编码区SNP所暗示的氨基酸变化。dbSNP为dbSNP提交提供了有关验证状态、人群特异性等位基因频率和个体基因型的附加信息。这些数据可在dbSNP FTP站点的XML结构基因型报告中获得,其中包括有关细胞系、系谱ID和基因型不一致和不相容错误标志的信息。随着国际HapMap项目的数据发布,单倍型和连锁不平衡数据正在纳入dbSNP。当dbSNP提交文件可以与生物医学文献中的OMIM记录和突变报告相匹配时,就可以确定功能变体。

基因组尺度分析资源

Entrez基因组

Entrez基因组(22)为测序和绘图已完成或正在进行的物种提供科学界提供的基因组数据。Entrez基因组目前包括180多个完整的微生物基因组、1600多个病毒基因组和550多个真核细胞器参考序列。更高级的真核生物基因组也包括在Entrez基因组中,例如最近的到来,蜜蜂植物基因组中心网页是访问完整植物基因组、植物基因组测序项目信息或NCBI上与植物相关的资源(如植物基因组BLAST页面或地图查看器)的联络点。类似的资源,包括专门的查看器和BLAST页面,也可用于真核细胞器和病毒。在Entrez Genomes中,完整的基因组可以从六个主要分类群中的每一个的字母表或系统发育树开始分层访问。人们可以按照层次结构来对单个有机体的基因组进行图形化概述,再到单个染色体的层次,最后到单个基因的层次。每个级别都有一个或多个视图、预先计算的摘要和到分析的链接。在基因组或染色体级别,Coding Regions(编码区域)视图显示每个编码区域的位置、产品的长度、蛋白质序列的GenBank标识号和蛋白质产品的名称。RNA基因视图列出了核糖体和转移RNA基因的位置和基因名称。在单个基因的水平上,如果可能的话,将链接提供给隐含蛋白质的预先计算的序列邻居,并链接到COG数据库。在基因组水平上,COG功能组的摘要以表格和图形形式呈现。

对于完整的微生物基因组,蛋白质序列的预计算BLAST邻域,包括其分类分布和与3D结构的链接,分别在TaxTables和PDBTables中给出。成对序列比对以图形方式呈现,并链接到Cn3D大分子查看器(21),提供3D结构和序列比对的交互式显示。TaxPlot工具绘制了两种生物与第三种参考生物蛋白质组的相似性,可用于原核生物和真核生物基因组。Entrez Genome微生物基因组报告中提供了一种新的GenePlot工具,可以在可配置的图表中可视化蛋白质同源性的全基因组比较。使用GenePlot,可以很容易地突出细菌菌株和密切相关物种之间的基因组反转、缺失和插入。下文讨论了高等真核生物基因组的资源。

同源群簇

测序的快速进展已经产生了180多个原核基因组的序列,包括95个不同分类属中的155种。基因组序列的雪崩给试图鉴定同源基因和可视化蛋白质簇的研究人员带来了挑战。COG数据库(16)介绍了66个完全测序的生物体中的同源蛋白质组的汇编。真核生物版本KOG适用于7种真核生物,包括智人,线虫,黑腹果蝇拟南芥COGS的序列比对已并入下文所述的保护域数据库。

逆转录病毒基因分型工具

NCBI提供了一个基于网络的基因分型工具,该工具使用BLASTN比较待分型的逆转录病毒序列和默认参考序列面板或用户提供的面板。特定于HIV-1的子类型工具使用一组参考序列,这些序列取自HIV-1主要变体。

图谱浏览器

NCBI地图查看器显示基因组集合、遗传和物理标记,以及使用一组对齐地图进行注释和其他分析的结果。Map Viewer主页按分类组组织可用的生物体,并提供指向Map Viewers和Genomic BLAST页面的链接。Map Viewer显示可用于29种生物的基因组,包括智人,小家鼠褐鼠。Map Viewer显示的基因组图根据受试生物体的可用数据而有所不同,并从一组细胞遗传学图、物理图、显示预测基因模型的图、带有UniGene簇链接的EST比对和用于构建基因模型的mRNA比对中选择。来自多个有机体或来自同一有机体的多个集合的地图现在可以在同一视图中显示。Map Viewer显示指向相关资源(如Entrez Gene)或工具(如Evidence Viewer和Model Maker)的链接。Map Viewer可以生成当前显示的表格视图,便于导出到其他程序。基因组组装的片段可以使用Map Viewer的GenBank或FASTA格式的“下载/查看序列”链接下载。

可以在Map Viewer中使用基因名称或符号、标记名称、SNP标识符、登录号和其他标识符进行查询。Map Viewer中的植物基因组可以作为一个组一起搜索,使用一个特殊的跨物种查询页面来生成Map Viewer显示,该显示由查询匹配的不同物种的染色体图组成。对于Map Viewer中显示的核苷酸或蛋白质序列,Entrez“Links”菜单中的“Map Viewer'Link”为感兴趣区域的Map Viewers显示提供了方便的路径。

模型制造商

模型生成器(MM)用于使用来自从头计算预测或GenBank转录本(包括EST和NCBI RefSeq)与NCBI人类基因组组装的比对。MM显示了与基因组连接的转录比对的概述,收集每个独特的比对块作为假定的外显子。通过从这个集合中进行选择来构建脚本模型。在创建转录本时,在每个阅读框中给出隐含的蛋白质翻译,并指示任何内部终止密码子。先前观察到的外显子剪接模式被指示为建模指南。完成的模型可以保存在本地,也可以使用ORF Finder进行分析。

证据查看器

证据查看器(EV)显示与RefSeq转录本、GenBank mRNA、已知或潜在转录本以及支持基因模型的EST的基因组连接的比对。EV使用比对的图形摘要来指示基因组连接上基因模型的坐标范围、转录物的比对区域以及沿着连接的EST比对密度。强调了转录序列和基因组序列之间的分歧。所有转录序列与基因组连接的外显子-外显子比对,包括每个外显子的侧翼基因组序列,以及蛋白质翻译。显示转录序列上注释的任何蛋白质,突出显示转录物和基因组连接之间或对齐转录物上注释的蛋白质之间的不匹配。

癌症染色体

三个数据库,NCI/NCBI SKY(光谱核型分析)/M-FISH(多重FISH)和CGH(比较基因组杂交)数据库,NCI Mitelman癌症染色体畸变数据库(23)癌症数据库中的NCI复发染色体畸变组成了新的“癌症染色体”Entrez数据库(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=CancerChromosomes(癌症染色体)).

有三种搜索格式可供选择:传统的Entrez查询、快速/简单搜索和高级搜索。简单搜索提供了一组菜单来选择疾病部位或诊断,这些菜单可以与特定染色体位置和异常的规范相结合。高级搜索为更复杂的查询提供了多种表单的组合。搜索结果可以列出与查询条件匹配的所有案例,即“基于案例的报告”,也可以单独列出每个克隆或单元格,即“克隆/单元格报告”。相似性报告显示了在所选病例或“克隆/细胞”中,一组或多个术语类别中记录的常见术语,如诊断或疾病部位和细胞遗传学异常。

基因表达模式和表型分析资源

SAGE地图

NCBI的SAGEmap(24)提供了常规(10base)和LongSAGE(17base)SAGE标记与UniGene集群之间的双向映射。SAGEmap储存库目前包含来自11种生物的381个SAGE实验。SAGEmap还可以构建一个用户可配置的数据表,将一组SAGE库与另一组进行比较。SAGEmap每周更新一次,在UniGene更新后,数据立即显示在人类、小鼠和大鼠基因组Map Viewer中,作为SAGE轨迹。

基因表达综合(GEO)

地理位置(25)是用于任何高通量基因表达或分子丰度数据的数据存储库和检索系统。GEO包含基于微阵列的实验,测量mRNA、基因组DNA和蛋白质分子的丰度,以及非阵列技术,如SAGE和质谱肽谱分析。GEO存储库通过Web或批量接受数据。可以从GEO主页浏览存储库,并可以从实验(Entrez-GEO数据集)和基因中心(Entrez GEO Profiles)两个角度进行查询。在撰写本文时,该库包含来自约30000个杂交实验的高通量基因表达数据,具有约1000个阵列定义,以及来自100多个生物体的约5亿个个体点测量数据。

OMIM公司

NCBI提供了约翰霍普金斯大学维克多·A·麦库西克(Victor A.McKusick)编写和编辑的人类基因和遗传疾病OMIM目录的在线版本(26). 该数据库包含有关疾病表型和基因的信息,包括广泛的描述、基因名称、遗传模式、地图位置、基因多态性和详细的参考文献。OMIM Entrez数据库包含约16000个条目,包括超过10000个已建立的基因位点和表型描述的数据。这些记录锚定了许多重要资源的链接,例如特定于本地的数据库和基因测试。

分子模型数据库、保守域数据库搜索、CDART和蛋白质相互作用

NCBI分子建模数据库(MMDB),通过处理蛋白质数据库中的条目建立(5),如前所述(7). MMDB中的结构链接到Entrez中的序列和保护域数据库(CDD)。CDD包含超过10000 PSI–BLAST衍生的位置特异性得分矩阵,这些矩阵表示取自简单模块化体系结构研究工具(Smart)的领域(27)、Pfam(28)以及来自COG的域对齐。NCBI的保守域搜索(CD-Search)服务可用于搜索CDD中保守域的蛋白质序列。在可能的情况下,CDD点击与结构相关联,再加上域点击代表的多序列比对,可以使用NCBI的3D分子结构查看器Cn3D查看这些结构(21),现为4.1版,并通过使用PSI-BLAST和线程算法的高级路线构建工具进行了增强。保守域结构检索工具(CDART)允许基于保守域搜索蛋白质数据库,并返回包含查询域的数据库蛋白质的域结构。可以通过Entrez界面搜索来自MMDB的CDD和3D域的基于对齐的蛋白质域信息。

HIV-1/人类蛋白质相互作用数据库

国家变态反应和传染病研究所(NIAID)获得性免疫缺陷综合征(DAIDS)司与南方研究所和NCBI合作,已开始编纂一个全面的“HIV蛋白质相互作用数据库”,以提供有关HIV-1蛋白质与宿主细胞蛋白质、其他HIV-1蛋白或与HIV或AIDS相关的疾病有机体蛋白质之间相互作用的简要总结。摘要,包括蛋白质RefSeq登录号、Entrez基因ID号、相互作用氨基酸列表、相互作用简要描述、关键词和PubMed ID,用于支持期刊文章(www.ncbi.nlm.nih.gov/RefSeq/HIV交互/index.html). 可以使用下拉短语列表应用过滤器来选择交互摘要进行查看,并且可以下载成批的摘要。HIV蛋白质相互作用数据库中记录的所有蛋白质-蛋白质相互作用都列在“HIV-1蛋白质相互作用”部分的Entrez基因报告中。

更多信息

这里描述的资源包括文档、其他解释性材料以及各个网站上对合作者和数据源的引用。图书数据库中提供的《NCBI手册》详细描述了主要的NCBI资源。NCBI主页上的教育链接下也提供了一些教程。站点地图提供了NCBI资源的综合表,关于NCBI功能提供了生物信息学引物和其他补充信息。用户支持人员可以在以下网址回答问题:vog.hin.mln.ibcn@ofni网站.

参考文献

1Benson D.A.、Karsch-Mizrachi,I.、Lipman,D.J.、Ostell,J.和Wheeler,D.L.(2005)GenBank。核酸研究。,33,D34–D38。[PMC免费文章][公共医学][谷歌学者]
2Schuler G.D.、Epstein,J.A.、Ohkawa,H.和Kans,J.A.(1996)Entrez:分子生物学数据库和检索系统。方法酶制剂。,266, 141–162. [公共医学][谷歌学者]
三。Wu C.H.、Yeh、L.S.L.、Huang、H.、Arminski、L.、Castro-Alvear、J.、Chen、Y.、Hu、Z.、Kourtesis、P.、Ledley、R.S.、Suzek、B.E。(2003)蛋白质信息资源。核酸研究。,31, 345–347.[PMC免费文章][公共医学][谷歌学者]
4.Boeckmann B.、Bairoch,A.、Apweiler,R.、Blatter,M.C.、Estreicher,A.、Gasteiger,E.、Martin,M.J.、Michoud,K.、O'Donovan,C.、Phan,I。(2003)2003年,SWISS-PROT蛋白质知识库及其补充TrEMBL。核酸研究。,31, 365–370.[PMC免费文章][公共医学][谷歌学者]
5Bourne P.E.,Addess,K.J.,Bluhm,W.F.,Chen,L.,Deshpande,N.,Feng,Z.,Fleri,W.,Green,R.,Merino-Ott,J.C.,Townsend-Merino,W。(2004)RCSB蛋白质数据库的分发和查询系统。核酸研究。,32,D223–D225。[PMC免费文章][公共医学][谷歌学者]
6Maglott D.、Ostell,J.、Pruitt,K.D.和Tatusova,T.(2005)Entrez Gene:NCBI以基因为中心的信息。核酸研究。,33,D54–D58。[PMC免费文章][公共医学][谷歌学者]
7Marchler-Bauer A.、Anderson J.B.、Cherukuri P.F.、DeWeese-Scott C.、Geer L.Y.、Gwadz M.、He S.、Hurwitz D.I.、Jackson J.D.、Ke Z。。(2005)CDD:蛋白质分类的保留域数据库。核酸研究。,33,D192–D196。[PMC免费文章][公共医学][谷歌学者]
8Sequeira E.(2003)PubMed Centra-三岁,越来越强大。ARL公司,228, 5–9.[谷歌学者]
9.Altschul S.E.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990)基本局部对齐搜索工具。分子生物学杂志。,215, 403–410. [公共医学][谷歌学者]
10.Altschul S.F.、Madden,T.L.、Schaffer,A.A.、Zhang,J.、Miller,W.和Lipman,D.J.(1997)Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]
11Mcginnis S.和Madden,T.(2004)BLAST:一套强大且多样化的序列分析工具的核心。核酸研究。,32,W20–W25。[PMC免费文章][公共医学][谷歌学者]
12Tatusova T.A.和Madden,T.L.(1999)BLAST 2序列,一种比较蛋白质和核苷酸序列的新工具。FEMS微生物。莱特。,174, 247–250. [公共医学][谷歌学者]
13Schaffer A.A.、Aravind,L.、Madden,T.L.、Shavirin,S.、Spouge,J.L.、Wolf,Y.I.、Koonin,E.V.和Altschul,S.F.(2001)通过基于成分的统计和其他改进提高PSI-BLAST蛋白质数据库搜索的准确性。核酸研究。,29, 2994–3005.[PMC免费文章][公共医学][谷歌学者]
14Zhang Z.、Schwartz,S.、Wagner,L.和Miller,W.(2000)一种用于对齐DNA序列的贪婪算法。J.计算。生物。,7, 203–214. [公共医学][谷歌学者]
15Ma B.,Tromp,J.和Li,M.(2002)PatternHunter:更快更敏感的同源搜索。生物信息学,18, 440–445. [公共医学][谷歌学者]
16Tatusov R.L.、Fedorova N.D.、Jackson J.D.、Jacobs A.R.、Kiryutin B.、Koonin E.V.、Krylov D.M.、Mazumder R.、Mekhedov S.L.、Nikolskaya A.N。(2003)COG数据库:更新版本包括真核生物。BMC生物信息学,4, 41.[PMC免费文章][公共医学][谷歌学者]
17.Schuler G.D.(1997)拼图片段:表达序列标签和人类基因目录。《分子医学杂志》。,75, 694–698. [公共医学][谷歌学者]
18Ermolaeva O.、Rastogi M.、Pruitt K.D.、Schuler G.D.、Bittner M.L.、Chen Y.、Simon R.、Meltzer P.、Trent J.M.和Boguski M.S.(1998)基因表达阵列的数据管理和分析。自然遗传学。,20, 19–23. [公共医学][谷歌学者]
19.Pruitt K.、Tatusov,T.和Maglott,D.(2005)NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。,33,D501–D504。[PMC免费文章][公共医学][谷歌学者]
20Sherry S.T.,Ward,M.H.,Kholodov,M.,Baker,J.,Pham,L.,Smigielski,E.和Sirotkin,K.(2001)dbSNP:遗传变异的NCBI数据库。核酸研究。,29, 308–311.[PMC免费文章][公共医学][谷歌学者]
21Wang Y.、Geer,L.Y.、Chappey,C.、Kans,J.A.和Bryant,S.H.(2000)Cn3D:Entrez的序列和结构视图。生物化学趋势。科学。,25, 300–302. [公共医学][谷歌学者]
22Tatusova T.、Karsch-Mizrachi,I.和Ostell,J.(1999)《WWW Entrez中的完整基因组:数据表示和分析》。生物信息学,15, 536–543. [公共医学][谷歌学者]
23Mitelman F.、Mertens,F.和Johansson,B.(1997)人类肿瘤复发性染色体重排的断点图。自然遗传学。,15, 417–474. [公共医学][谷歌学者]
24Lash A.E.、Tolstoshev,C.M.、Wagner,L.、Schuler,G.D.、Strausberg,R.L.、Riggins,G.J.和Altschul,S.F.(2000)SAGEmap:一种公共基因表达资源。基因组研究。,7, 1051–1060.[PMC免费文章][公共医学][谷歌学者]
25Barrett T.、Suzek T.、Troup,D.、Wilhite,S.、Ngau,W.、Ledoux,P.、Rudnev,D.、Lash,A.、Fujibuchi,W.和Edgar,R.(2005)NCBI GEO:挖掘数百万个表达谱-数据库和工具。核酸研究。,33,D562–D566。[PMC免费文章][公共医学][谷歌学者]
26麦库西克V.A.(1998)人类的孟德尔遗传。人类基因和遗传疾病目录,第12版。约翰霍普金斯大学出版社,马里兰州巴尔的摩。[谷歌学者]
27Letunic I.、Copley,R.R.、Schmidt,S.、Ciccarelli,F.D.、Doerks,T.、Schultz,J.、Ponting,C.P.和Bork,P.(2004)《SMART 4.0:基因组数据整合》。核酸研究。,32,D142–D144。[PMC免费文章][公共医学][谷歌学者]
28贝特曼A.、科恩L.、杜宾R.、芬恩R.D.、霍利希V.、格里菲斯·琼斯S.、坎纳A.、马歇尔M.、莫克森S.、桑纳默E.L。。(2004)Pfam蛋白家族数据库。核酸研究。,32,D138–D141。[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社