数据和软件

数据库

NCBI C++工具包手册

关于NCBI C++工具包的全面手册,包括其设计和开发框架、C++库参考、软件示例和演示、常见问题解答和发行说明。该手册可在线搜索,并可作为一系列PDF文档下载。

下载

为Solaris、LINUX、Windows和MacOSX系统提供了本地使用的BLAST可执行文件。有关更多信息,请参阅ftp目录中的README文件。用于BLAST核苷酸、蛋白质和翻译搜索的预格式化数据库也可在db子目录下下载。

FTP:BLAST数据库

用于独立BLAST程序的序列数据库。此目录中的文件是预格式化的数据库,可以与BLAST一起使用。

FTP:客户尽职调查

该网站提供了CDD的完整数据记录,以及各个位置特定评分矩阵(PSSM)、mFASTA序列和每个保守域的注释数据。有关详细信息,请参阅README文件。

FTP:ClinVar数据

该网站提供XML格式的完整数据提取和VCF格式的摘要数据。它包含有关中使用的标准术语的信息的文件ClinVar公司MedGen公司、和全球技术法规.

FTP:FASTA BLAST数据库

FASTA格式的序列数据库,用于单机BLAST程序。这些数据库必须使用formatdb格式化,然后才能与BLAST一起使用。

FTP:GenBank

此站点包含GenBank中所有序列记录的默认平面文件格式的文件。文件由GenBank部门组织,完整内容在README.GenBank文件中描述。

FTP:GenPept

为每个GenBank版本收集与GenBank中编码序列(CDS)翻译相对应的蛋白质序列。。有关更多信息,请参阅目录中的README文件。

FTP:基因

该站点包含三个目录:DATA、GeneRIF和tools。DATA目录包含列出与GeneID链接的所有数据的文件,以及包含Gene记录的ASN.1数据的子目录。GeneRIF(Gene References into Function)目录包含描述单个基因功能或两个基因产物之间相互作用的文章的PubMed标识符。工具目录中提供了用于操作基因数据的示例程序。有关详细信息,请参阅自述文件。

FTP:基因表达综合(GEO)配置文件和数据集

此站点包含两种格式的GEO数据:SOFT(文本格式的简单综合)和MINiML(标记语言的MIAME表示法)。还提供了摘要文本文件和补充数据。请参阅自述文件。TXT文件了解更多信息。

FTP:基因组

该网站包含Entrez基因组中生物体的基因组序列和绘图数据。数据被组织在单个物种或物种组的目录中。地图数据收集在MapView目录中,并按物种进行组织。有关详细信息,请参阅根目录中的README文件和species子目录中的README文件。

FTP:基因组图谱数据

包含每个基因组的目录,其中包括该基因组当前和以前构建的可用映射数据。

FTP:NCBI分类

该网站包含完整的分类数据库以及将核苷酸和蛋白质序列记录与其分类ID关联的文件。有关详细信息,请参阅taxdump_readme.txt和gi_taxid.readme文件。

FTP:PubChem

该网站提供PubChem Substance、Compound和Bioassay数据库的数据,可通过ftp下载。数据库的完整下载,以及物质和化合物的每日、每周和每月更新。物质和化合物数据以ASN.1、SDF和XML格式提供。有关更多信息,请参阅README文件。

FTP:参考序列

该站点包含参考序列(RefSeq)集合中的所有核苷酸和蛋白质序列记录。“release”目录包含完整集合的最新版本,而选定生物体(如人类、老鼠和老鼠)的数据可在单独的目录中获得。数据以FASTA和平面文件格式提供。有关详细信息,请参阅README文件。

FTP:SKY/M-Fish和CGH数据

该站点包含ASN.1、XML和EasySKYCGH格式的SKY-CGH数据。有关详细信息,请参阅skychreadme.txt文件。

文件传输协议:SNP

SNP的可下载数据。

FTP:序列读取存档(SRA)下载工具

该网站包含由提交的测序项目组织的下一代测序数据。

FTP:站点

NCBI数据库、工具和实用程序的FTP下载站点。

FTP:结构(MMDB)

该站点包含MMDB中所有记录的ASN.1数据,以及VAST校准数据和非冗余PDB(nr-PDB)数据集。有关更多信息,请参阅README文件。

FTP:跟踪存档

该站点包含按物种组织的痕量色谱数据。数据包括色谱图、质量分数、来自自动基调用的FASTA序列,以及以制表符分隔的文本和XML格式的其他辅助信息。有关详细信息,请参阅README文件。

FTP:UniVec

该网站包含FASTA格式的UniVec和UniVec_Core数据库。有关详细信息,请参阅README.uv文件。

FTP:全基因组鸟枪序列

该站点包含由4位项目代码组织的全基因组鸟枪序列数据。数据包括GenBank和GenPept平面文件、质量分数和汇总统计数据。有关更多信息,请参阅README.genbank.wgs文件。

FTP:dbGAP开放访问数据

开放存取数据通常包括基因型/表型关联研究的总结、测量变量的描述以及研究文件,如方案和问卷。获取个体水平的数据,包括表型数据表和基因型,需要不同程度的授权。

NCBI数据规范

ASN.1或DTD格式的NCBI数据规范可在“数据规范索引”页面上找到。“NCBI_data_conversion.html”链接到转换工具。

国家医学图书馆(NLM)DTD

一套标记集,用于创作和归档期刊文章,以及将期刊文章从出版商传输到档案馆以及在档案馆之间传输。有四个标记集:存档和交换标记集-创建此标记集是为了使存档能够尽可能方便地捕获现有打印和标记期刊材料的结构和语义组件;期刊发布标签集-针对希望规范和控制其内容,而不接受任何特定出版商提供给他们的顺序和安排的档案进行了优化;文章创作标签集-专为创作新的期刊文章而设计;NCBI图书标签集-专门用于描述NCBI在线图书馆的卷。

PubChem下载服务

该服务允许用户下载与一组PubChem标识符相对应的化合物或物质记录,这些标识符可以手动或通过文本文件提供。提供了多种下载格式,包括SDF、XML和SMILES。

订阅

订阅Web/RSS提要以获取有关NCBI资源的更新。

提交文件

生物项目提交

一个在线表单,为研究人员、财团和组织注册其生物项目提供界面。这是为研究提交基因组和遗传数据的起点。生物项目注册时无需提交数据。

一个基于web的序列提交工具,用于向GenBank数据库提交一个或几个文件,旨在使提交过程快速简便。

GenBank:条形码

用于将标准遗传位点的条形码短核苷酸序列提交给GenBank数据库以用于物种鉴定的工具。

NCBI开发的一种独立软件工具,用于向公共序列数据库(GenBank、EMBL或DDBJ)提交和更新条目。它能够处理包含单个短mRNA序列的简单提交,包含长序列的复杂提交,多个注释,DNA片段集,以及来自系统发育和种群研究的序列与比对。要进行简单提交,请使用在线提交工具BankIt。

一个命令行程序,使用许多与Sequin相同的功能,自动创建序列记录以提交给GenBank。它主要用于提交完整基因组和大批量序列。

基因表达综合(GEO)网上存款

向NCBI基因表达综合数据库(GEO)提交表达数据,如微阵列、SAGE或质谱数据集。

PubChem上传

该网站允许用户向PubChem Substance和BioAssay数据库提交数据,包括化学结构、实验生物活性结果、注释、siRNA数据等。它还可以用于更新以前提交的记录。

SNP数据库工具页面提供了一般提交指南和提交处理请求的链接。该页面还有两个特定链接,用于使用人类基因组变异学会命名法提交人类变异数据的单次或批量提交。

提交门户

提交者链接到NCBI所有数据提交流程并查找相关信息的单一入口点。目前,这是生物项目和生物样品注册以及WGS和GTR数据提交的接口。计划在未来增加该站点。

跟踪档案提交

此链接描述了跟踪数据的提交者如何为其数据获取安全的NCBI FTP站点,还描述了允许的数据格式和目录结构。

工具

BLAST微生物基因组

从选定的完整真核和原核基因组中执行BLAST搜索相似序列。

BLAST RefSeqGene(BLAST参考序列基因)

对中的基因组序列执行BLAST搜索参考SeqGene/LRG组。默认显示提供就绪的导航,以查看图形显示中的路线。

查找生物序列之间的局部相似区域。该程序将核苷酸或蛋白质序列与序列数据库进行比较,并计算匹配的统计意义。BLAST可用于推断序列之间的功能和进化关系,以及帮助识别基因家族成员。

批次输入

允许您通过上传核苷酸或蛋白质数据库中的GI或登录号文件,或其他Entrez数据库中的唯一标识符文件,从许多Entrez数据中检索记录。搜索结果可以以各种格式直接保存到计算机上的本地文件中。

CD目录树

用于分类蛋白质序列和研究其进化关系的独立应用程序。CDTree可以导入、分析和更新现有的保护域(CDD)记录和层次结构,还允许用户创建自己的记录。CDTree与Entrez CDD和Cn3D紧密集成,允许用户创建和更新蛋白质结构域比对。

比较基因组查看器(CGV)

基于全基因组组装比对比较基因组

COBALT公司

COBALT是一种蛋白质多序列比对工具,它使用RPS-BLAST、BLASTP和PHI-BLAST,从保守域数据库、蛋白质模体数据库和序列相似性中找到一组成对约束。

从NCBI的Entrez检索服务查看三维结构的独立应用程序。Cn3D在Windows、Macintosh和UNIX上运行,可以配置为从大多数流行的web浏览器接收数据。Cn3D同时显示结构、序列和路线,并具有强大的注释和路线编辑功能。

识别蛋白质序列中存在的保守结构域。CD-Search使用RPS-BLAST(反向位置特定BLAST)将查询序列与保存域数据库(CDD)中保存的域比对生成的位置特定得分矩阵进行比较。

提供在常规web查询界面之外访问NCBI Entrez系统内数据的工具。它们提供了一种在软件应用程序中自动化Entrez任务的方法。每个实用程序都执行一个专门的检索任务,只需编写一个特殊格式的URL即可使用。

基因表达综合(GEO)BLAST

用于将查询序列(核苷酸或蛋白质)与GEO数据库中微阵列或SAGE平台上包含的GenBank序列对齐的工具。

基因组BLAST

该工具将核苷酸或蛋白质序列与基因组序列数据库进行比较,并使用基本局部比对搜索工具(BLAST)算法计算匹配的统计显著性。

多序列比对查看器

一种交互式web应用程序,使用户能够可视化由数据库搜索结果或其他软件应用程序创建的多条路线。MSA Viewer允许用户上传校准和设置主序列,并使用缩放和更改颜色等功能浏览数据。

NCBI工具箱

NCBI使用的一组软件和数据交换规范,用于为分子生物学生产便携式模块化软件。工具箱中的软件主要用于读取抽象语法符号1(ASN.1)格式的记录,这是一种国际标准组织(ISO)的数据表示格式。

OSIRIS公司

一个公共领域质量保证软件包,用于根据实验室特定协议评估多重短串联重复序列(STR)DNA图谱。OSIRIS使用独立衍生的基于数学的分级算法评估原始电泳数据。它提供了两个新的峰值质量度量-适合程度和尺寸残差。可以对其进行自定义,以适应特定于实验室的特征,例如背景噪音设置、自定义命名约定和其他内部实验室控制。

打开阅读框查找器(ORF查找器)

一种图形分析工具,用于查找用户序列中或数据库中已有序列中的所有打开的读取帧。可以使用16种不同的遗传密码。推导出的氨基酸序列可以以各种格式保存,并使用BLAST根据蛋白质数据库进行搜索。

Primer-BLAST工具使用Primer3为序列模板设计PCR引物。然后根据用户指定的数据库,通过BLAST搜索自动分析潜在产品,以检查目标的特异性。

用于计算蛋白质与基因组核苷酸序列的比对的实用程序。它基于Needleman-Wunsch全局比对算法的一种变体,特别考虑了内含子和剪接信号。由于该算法,ProSplign能够准确地确定剪接位点,并且能够容忍测序错误。

PubChem Power用户网关(PUG)

PUG通过编程接口提供对PubChem服务的访问。PUG允许用户下载数据、启动化学结构搜索、标准化化学结构以及与电子工具交互。可以使用标准URL或通过SOAP访问PUG。

PubChem标准化服务

在PubChem术语中,标准化是以与从贡献者的原始结构创建PubChem化合物记录相同的方式处理化学结构。该服务让用户了解PubChem如何处理他们想要提交的任何结构。

PubChem Structure Search允许通过化学结构或化学结构模式查询PubChem-Compound Database。PubChem Sketcher允许手动绘制查询。用户还可以通过PubChem Compound Identifier(CID)、SMILES、SMARTS、InChI、Molecular Formula或通过上传受支持的结构文件格式指定结构查询输入。

SNP数据库专用搜索工具

有多种工具可用于搜索SNP数据库,允许使用BLAST按基因型、方法、群体、提交者、标记和序列相似性进行搜索。这些链接在dbSNP主页左侧栏的“搜索”下。

序列查看器

提供核苷酸或蛋白质序列的可配置图形显示,以及已在该序列上注释的特征。除了在NCBI序列数据库页面上使用外,此查看器还可以作为可嵌入的网页组件使用。详细文件包括API参考指南的开发人员可以将查看器嵌入到他们自己的页面中。

计算cDNA到基因组序列比对的实用程序。它基于Needleman-Wunch全局对齐算法的一种变体,特别考虑了内含子和剪接信号。由于该算法,Splign能够准确地确定剪接位点并容忍测序错误。

树查看器

用于创建和显示系统发育树数据的工具。Tree Viewer可以分析您自己的序列数据,生成可打印的矢量图像作为PDF,并且可以嵌入到网页中。

VecScreen(视频屏幕)

一种快速识别可能来自载体的核酸序列片段的系统。VecScreen在查询序列中搜索与专用非冗余向量数据库(UniVec)中任何序列匹配的段。

识别类似蛋白质三维结构的计算机算法。MMDB中每个结构的结构邻居都是预先计算的,可以通过MMDB结构摘要页面上的链接访问。这些邻域可用于识别仅通过序列比较无法识别的远距离同源序列。