月份:2020年2月

GenBank版本236可用

GenBank版本236.0(2020年2月20日)现已在NCBI上提供文件传输协议现场。此次发布有7.72万亿个基数和18.4亿个记录。

该版本有216214215条传统记录,包含399376854872个碱基对的序列数据。还有1206720688条WGS记录,其中包含6968991265752个序列数据碱基对,386644871条批量定向TSA记录,其中包括340994289065个序列数据的碱基对;34037371条批量导向TLS记录,中包含13669678196个序列数据基对。

在GenBank版本235.0和236.0截止日期之间的70天内,GenBank的“传统”部分增加了10959596863个碱基对和881195个序列记录。在同一期间,共更新了62552条记录。平均每天添加和/或更新13482条“传统”记录。

在版本235.0和236.0之间,GenBank的WGS组件增加了691440065062个碱基对和79696818个序列记录。GenBank的TSA成分增加了15561272936个碱基对和19451027个序列记录。GenBank的TLS成分增加了2389081582个碱基对和5810191个序列记录。GenBank的VRT组分减少,因为Coregonus sp.‘balchen’基因组的40个染色体记录被抑制,序列数据为2.1Gbp。该生物体已经由潜在的序列连接体加上从这些连接体构建的染色体连接体/支架记录来表示。40个被抑制的记录与这些支架是冗余的,并且它们的抑制导致VRT分区文件更少。

在此版本中,序列数据文件的总数增加了48个。划分如下:

  • BCT:17个新文件,现在总共418个
  • CON:4个新文件,现在总共216个
  • ENV:1个新文件,现在总共59个
  • MAM:10个新文件,现在总共49个
  • PAT:2个新文件,现在总共204个
  • 印尼国家电力公司:18个新文件,现在总计204个
  • VRL:1个新文件,现在总共36个
  • VRT:5个文件减少,现在总共161个

出于下载目的,未压缩的GenBank 236.0版平面文件大约需要1117GB,包括序列文件和*.txt文件。 

有关GenBank 236.0版的更多信息,请访问发行说明,以及上的GenBank和ASN.1(ncbi-asn1)目录中的README文件文件传输协议.

序列读取档案(SRA)的整个语料库现在位于两个云平台上!

国家医学图书馆(NLM)很高兴地宣布,SRA中的所有受控访问和公共可用数据现在都可以通过谷歌云平台(GCP)和亚马逊网络服务(AWS)获得。要访问数据,请访问我们的云中的SRA网页,您可以在其中找到我们新的SRA工具包和其他访问方法的链接。

两个云中可用的SRA数据目前总计超过14 PB,包括SRA格式的所有数据以及原始提交格式的一些数据。自2019年5月以来,NCBI一直将所有提交的SRA数据放在GCP公司美国焊接学会以提交的格式和我们转换的SRA格式进行云计算。我们也一直在将之前提交的原始格式数据转移到云端,预计将在2021年完成这一过程。继续阅读“序列读取档案(SRA)的整个语料库现在位于两个云平台上!”

新的核糖体RNA BLAST数据库可在网络BLAST服务上获得并下载

我们有一组精心策划的核糖体RNA(rRNA)参考序列(目标位置)具有可验证的生物来源和当前名称。这组数据对于正确识别和分类原核生物(细菌和古菌)和真菌样品至关重要(表1)。为了方便访问这些序列,我们最近添加了一个单独的rRNA/ITS数据库有关的部分核苷酸BLAST页面这些目标序列便于快速识别源生物(图1)

数据库 生物项目 序列
16S核糖体RNA(细菌和古生菌) 项目编号33317,PRJNA33175型

 

20,845
真菌类型和参考材料中的18S核糖体RNA序列(SSU) PRJNA39195型 2,337
真菌类型和参考材料中的28S核糖体RNA序列(LSU) 项目编号51803 5,185
真菌和卵菌型的内部转录间隔区(ITS)和参考材料 项目编号:177353,PRJNA362621型

 

10,874

表1.NCBI筛选的靶向rRNA序列现已作为BLAST数据库提供。 继续阅读“新的核糖体RNA BLAST数据库可在网络BLAST服务上下载”

NCBI工作人员将于2020年2月在基因组生物学与技术进展(AGBT)上发布3张海报

下周,NCBI员工将出席AGBT公司在佛罗里达州马可岛。2020年2月25日,星期二,NCBI员工的三张海报将于下午4:40至6:10在Banyan和Calusa Ballroom Foyers一楼和三楼的海报会议和酒会期间展出。继续阅读,了解我们将要演示的内容。

继续阅读“NCBI工作人员将于2020年2月在基因组生物学与技术进展(AGBT)上发布3张海报”

带有Singularity、no-internet选项和Taxonomy Check的新PGAP版本

原核生物基因组注释管道(PGAP)的新版本具有几个重要功能,现可在github.

  • 为了响应几个请求,我们添加了运行PGAP的选项奇点,波德曼或要使用的任何其他与Docker兼容的可执行文件。
  • 我们还取消了对互联网接入的要求,以防您有隐私问题。要在不访问internet的情况下运行管道,请设置标志
    --没有互联网。
  • 你不确定你测序的生物体的身份吗?我们已经添加了分类检查模块来帮助你。本模块将通过与GenBank中的类型物质组合进行平均核苷酸身份比较来确认生物体名称或建议新的分类学分配。该检查目前是PGAP之前的可选验证步骤。

尝试这些新功能并让我们知道你怎么想!或者将您的PGAP注释组件提交给GenBank。请记住,如果您仍在改进组装,并且您的基因组没有通过预注释验证,您可以使用--ignore-all-errors标志来获得初步注释。

原核参考和代表性基因组组合的重要变化

我们正在对细菌和古细菌RefSeq集合进行更改参考代表2020年2月组装。

  • 我们将减少参考装配到15个,具有外部专家提供的注释(表1),并重新注释105个其他电流参考使用最新版本的程序集原核基因组注释管道(PGAP)软件。重新命名的程序集将失去引用状态。
  • 我们将重新评估和修订代表集合,以便每个物种有一个集合,以更好地反映RefSeq细菌和古生物集合的分类多样性。

继续阅读“原核生物参考和代表性基因组组合的重要变化”

国家医学图书馆经验丰富的数据科学家的机会:NIH data学者计划

国家医学图书馆经验丰富的数据科学家的机会:NIH data学者计划

国家医学图书馆(NLM)很高兴宣布数据和技术进步(Data)国家服务学者计划,这是一个新的机会,让经验丰富的数据和计算机科学家和工程师与NIH合作应对生物医学数据挑战数据科学战略办公室(ODSS)。

一至两年的职位将设在位于贝塞斯达的NIH办公室。DATA学者将领导美国国立卫生研究院的变革性项目,以构建PB级基因组序列读取档案(SRA)数据的搜索:

  • 针对美国国立卫生研究院SRA数据的整个语料库的先锋序列搜索策略,以刺激推进数据分析和加速生物学发现的新方法。
  • 开发执行基于序列的搜索的方法,包括那些涉及机器学习或其他人工智能方法的方法。
  • 与NIH高级领导直接沟通技术和项目相关信息。
  • 与其他DATA学者和NIH数据科学社区合作,跨越广泛的学科边界。
  • 与政策制定者、顶级研究人员和行业合作伙伴接触。

申请人应具备人工智能、云计算、数据工程、数据科学、数据库管理、项目管理、软件设计、超级计算和/或生物信息学等领域的技术技能。有行业经验者优先。申请人应具有医学博士、博士或同等学历的博士学位,并在数据科学或相关领域具有高级经验。

申请截止日期为2020年4月30日。有关如何申请的更多信息和详细信息,请访问我们的正式工作通知.

DHHS和NIH是机会均等的雇主。强烈鼓励妇女、少数民族和残疾人提出申请。

从NCBI基因组浏览器和序列查看器尝试我们的新表格下载选项!

你是否曾经想要一份你在浏览器中查看的基因列表——也许是为了给你一个候选基因分析的起点,或者是为了与其他数据进行交叉引用?

为了回应您的反馈和与您的有益讨论,我们很高兴宣布一个新选项,可以直接从web序列查看器和浏览器下载基因注释数据。

这个新功能可以让你从感兴趣的基因组区域获得基因名称、坐标和其他有用信息的表格。

转到图形查看器工具栏上的下载菜单,以查找用于获取序列和注释数据的选项。

博客-634

继续阅读“从NCBI基因组浏览器和序列查看器尝试我们的新表格下载选项!”

2月份基因组FTP网站的重要变化

我们为580多个物种添加了最新的NCBI真核基因组注释管道结果,我们将其注释到基因组/refseq目录基因组FTP区域。作为我们宣布12月,我们将停止向genomes FTP站点上的genus_species目录(例如:genomes/Xenopus_tropicalis)发布注释结果2020年2月1日。我们还将现有genus_species目录移动到基因组/档案/旧版本在二月。X_t_部件图1。热带爪蟾UCB Xtro 10.0的组装页面(GCF_ 000004195.4)显示蓝色下载按钮。注释结果,例如可以从网页下载的RefSeq转录本比对,现在也位于FTP站点上的genomes/RefSeq目录下。.bam对齐文件的FTP路径为红色。

这些FTP更改不会影响装配下载功能。一如既往,您可以使用web页面上的蓝色download按钮下载程序集数据(图1)。