在RefSeq,直肌是游泳和嗡嗡声!

以前我们写了关于改进的文章。果蝇RefSeq注释。我们很高兴地报告,我们也正在改进我们如何计算和报告矫形数据。鱼与昆虫帮助你发现物种间进化相关的基因。目前,我们用自己的内部注释脊椎动物基因组。真核基因组注释管道我们有一个强大的过程,识别1:1直角人与人类使用爆炸对比和局部同步的组合。这些结果在NCBI基因和我们的新的研究中是可行的。直读页面以及基因FTP位点. 我们还利用这些数据将人类基因和蛋白质名称应用于其他物种的直系同源物,为数百个脊椎动物提供了非常丰富的注释。

对于鱼,我们现在使用两层工艺。首先,大多数鱼现在有1:1的直系同源物,与斑马鱼识别,这通常导致识别50%个更多的直系同源物。其次,如果我们已经确定了斑马鱼基因的人类同源基因,那么我们也报告了人类基因。我们也主要是从斑马鱼身上应用基因符号和名字来代替人类,主要是由斑马鱼信息网络提供的。ZFN对其他鱼类直系同源物。最终结果是更多的直系连接和更好的命名。例如,许多鱼类有两个相关同源框基因。MEIS2AMEIS2B,与单一相比MEIS2人的基因我们更新的过程使我们能够识别和正确地命名MEIS2A和MEIS2B。七十三四十鱼类种类。

继续阅读渐次

用于原核基因组组合的扩展平均核苷酸同一性分析

正如我们在一个早报GenBank使用平均核苷酸同一性(ANI)分析寻找和纠正错误鉴定的原核基因组组合。您现在可以通过下载报告访问超过600000个GenBank细菌和古细菌基因组组件的ANI数据(阿尼亚雷报道原核生物可从基因组/装配报告FTP站点的区域。这个自述文件详细描述了报告的内容。您可以使用ANI数据来评估您感兴趣的基因组组件的分类学身份。

新的阿尼亚雷报道原核生物取代旧的AiaReRePixi细菌TXT在同一目录中。我们不再更新AIR报告细菌TXT文件,并将删除它在2020年5月31日之后。

ReFSEQ发布200是公开的

ReFSEQ版本200是可访问的在线,通过文件传输协议并且通过NCBI的Entz编程实用程序,电子工具。

这个完整的版本包含2020年5月4日的基因组、转录和蛋白质数据,包含237381664个记录,包括171643729个蛋白质,31244247个RNAs,和来自100605个生物体的序列。在几个目录中,作为一个完整的数据集提供释放,也被逻辑分组所划分。

其他公告:

RefSEQ中的有机体数量超过100000!
目前的RefSEQ释放包含100605种不同的物种或类群,自发布99以来净增加了763种。这个里程碑与第一百版本一致,虽然当前发布号是200(见下文)。注意,原核生物(细菌和古细菌)的物种数量减少,因为清除主要除去未分类的细菌,以及来自宏基因组组装基因组(MAGS)的组件。

FTP发布号已跳过200
AS先前宣布,NCBI的参考序列(ReFSEQ)FTP发布号已经增加到200这个版本,跳过了100-199号。此前,2020年3月发布的版本为99。这种改变是为了避免与我们注释的真核基因组的独立编号的RefSeq注释释放的重叠数重叠,这是目前在100-109范围内的,例如MUS肌肉注释释放108。

NCBI蛋白家族
新品发布目前,可以使用pGAP(原核基因组注释管道)所使用的NCBI蛋白家族谱。您可以搜索Hidden Markov模型(HMM)对您最喜爱的原核蛋白质的集合,以确定其功能使用HMMER。

原核参考和代表性基因组组合的重新计算
我们有更新馆藏参考文献和代表性组件的细菌和古细菌,以更好地反映分类学广度的原核生物在RefSeq。我们已经选择了一个参考或代表性集会为每个物种基于几个标准,包括连续性,完整性,以及大会是否是从类型的材料。

未来变化:鼠标参考组件更新
GRCM3H.P6参考组件的完整组装更新预计将于2020由GRC发布。我们预期在今年夏天将鼠标RefSeq注释更新为新的GRCM39组件,用于RefSEQ FTP版本201或202。

γ

卫兵换位:NCBI的新代理总监

我们想花一点时间在NCBI宣布一个重要的内部发展。在经历了32年的辉煌生涯之后,James Ostell博士于2020年3月31日从联邦政府退休。

James Ostell博士

James Ostell博士

Ostell博士(或“吉姆”,我们都知道他)在1988年初成立了NCBI,他大部分时间都在NCBI担任信息工程部门的负责人。在这个角色中,他负责NCBI提供的几乎所有公共生产服务的设计、建造和部署。2017,他成为NCBI的第二位董事,并倡导将NCBI服务转移到云环境的最初努力。在他的长期任期内,吉姆监督了NCBI的成长,从少数人想知道如何面对即将到来的生物数据时代到一个充满活力的中心,约700名员工每天服务超过700万名用户。我们庆祝吉姆在建立这些服务方面的领导,这些服务继续提供免费和可靠的数据获取,这些数据对生物医学研究和NIH任务是增强人类健康的关键。

我们也很高兴地欢迎Stephen Sherry博士作为NCBI的新代理主任。

Stephen Sherry博士

Stephen Sherry博士

雪丽博士(或“史提夫”)于1998加入NCBI,并领导了包括NSNP、DVAR、DBAP、ClinVar和SRA在内的数个NCBI资源的开发。他还在SRA数据集到云架构的持续行动中扮演了中心角色。史提夫长期以来一直致力于存储群体遗传数据,使这些数据对研究者有用,同时保留研究参与者的隐私。

我们希望吉姆的告别,我们希望你能和我们一起欢迎史提夫来到这个新的角色。

使用MIDDOID识别ClinVar和基因检测注册中心的条件

为了支持数据共享的努力,NCBI的Calvar和基因测试注册中心(GTR)现在接受使用MIDDOID来识别条件的提交。

提交ClinVar,下载我们的更新电子表格模板并输入MONDO作为条件ID类型。注意:只有当您用MIDDO ID标识条件时,更新的模板才是必需的,而不是名称。

GTR提交者可以使用Mordo IDS来识别通过电子表格提交的临床试验中的表型,以及在临床和研究试验提交中的Mondo表型名称。

继续阅读渐次

5月20日Webar:用BigQuy探索云计算中的SRA元数据

加入我们于5月20日学习如何使用谷歌大查询快速搜索数据云中的序列读取存档(SRA)加快你的生物信息学研究和发现项目。BigQuy是一种利用SQL类查询来探索基于云的数据表的工具。在本网络研讨会中,我们将介绍使用BigQuy挖掘SRA提交的元数据和SRA的分类分析结果。您将看到真实世界的案例研究,演示如何找到关于SRA运行的关键信息,并为您自己的分析管道识别数据集。

  • 日期和时间:星期六,2020年5月20日12:00下午12:45
  • 注册

注册后,您将收到一封确认邮件,并提供有关网络研讨会的信息。现场演示后的几天,你可以查看关于YouTube频道. 你可以了解未来的网络研讨会。网络研讨会和课程页面.

具有新呈现、注释和对齐特征的结构查看器ICN3D 2.150

γICN3D2.150现在可以在NCBI网站上获得在GITHUB上发布. 若要使用更新的Web应用程序,请从分子建模数据库(MMDB)打开结构概要页面,点击“图形中的全功能3D查看器”按钮。例如,你可以检索包含“y”项的结构SARS COV-2点击一个感兴趣的结构,然后跟着链接全功能3D浏览器“你也可以打开ICN3D”并使用“文件”菜单通过ID检索结构,例如6MJ或从本地计算机打开结构文件。斯皮克普罗特图1。显示SARS COV-2棘突蛋白结构的ICN3D(6MJ)具有保守的残基的定制着色和其他冠状病毒刺突蛋白的多序列比对。将自定义颜色应用于特定的残留物或链的能力以及将多个对齐添加为磁道的能力是2.2.0中可用的一些新特性。 继续阅读渐次

一个新版本的IGBLAST(1.16.0)在这里!

我们发布了一个新版本(1.16.0)伊格尔布特流行的NCBI软件包,用于分类和分析免疫球蛋白(Ig)和T细胞受体(TCR)可变结构域序列。版本1.16.0有三个新的改进。

  1. 增加了在区域末端3’的J基因排列的能力(图1)。这允许您查看由于低序列相似性而否则不包含的未对齐的基。卵子期权

图1。新的“扩展对齐在3’端”选项伊格尔布网. 命令行选项是'-ExpuldIrrime3'。继续阅读渐次

GenBank发布237可用

GenBank发布237(4/21/2020)现已在NCBI上发布文件传输协议站点这一版本有超过8兆5800亿个基础和19亿5000万个记录。

该版本有216531829个传统记录,包含415770027949对碱基序列数据。也有1267547429个WGS记录包含7788133221338个碱基对序列数据,396392280个散装取向TSA记录包含349692751528个碱基序列数据对,65521132个批量定向TLS记录包含24615270313个碱基序列数据对。

在GenBank发布236和237的截止日期之间的63天内,GenBank的“传统”部分增长了16393173077个碱基对和317614个序列记录。在同一时期,更新了55268条记录。每天增加和/或更新5919个“传统”记录的平均值。

在版本236和237之间,GenBank的WGS组件由819141955586个碱基和60826741个序列记录增长。GenBank的TSA成分由8698462463个碱基和9747409个序列记录增长。GenBank的TLS成分由10945592117个碱基和31483761个序列记录增长。

在这个版本中,序列数据文件的总数增加了59。其划分如下:

  • BCT:14个新文件,现在总共432个
  • CON:1个新文件,现在总共217个
  • Env:1个新文件,现在总共60个
  • 6个新文件,现在总共86个
  • MAM:15个新文件,现在总共64个
  • PLN:8个新文件,现在总共212个
  • VRT:14个新文件,现在总共175个

对于下载的目的,未压缩的GenBank发布237平面文件需要大约1142 GB,包括序列文件和*.txt文件。ASN。1数据文件需要大约844 GB。

有关GenBank版本237的更多信息可在版本说明,以及在GenBank和ASN.1(NCBI-ASN1)目录上的自述文件。文件传输协议.