标签:蛋白质

100M+RefSeq原核蛋白序列记录的基因本体术语

100M+RefSeq原核蛋白序列记录的基因本体术语

你从事或研究原核蛋白吗?作为之前宣布的我们一直在添加基因本体(GO)术语参考序列原核生物蛋白质序列记录(如下示例),用于在描述基因及其产物的功能时标准化语言。结束1亿RefSeq蛋白来自原核生物的GO术语现在至少有一个,自3月份我们开始从保护域数据库(CDD)架构传播GO术语以来,增加了55%。  继续阅读“100M+RefSeq原核蛋白序列记录的基因本体(GO)术语”

保留域数据库版本3.20可用!

保留域数据库版本3.20可用!

的新版本保守结构域数据库(CDD)现在可用。3.20版包含1614个新的或更新的NCBI/CDD管理域,现在可以进行镜像普法姆版本34以及NCBIfam公司收藏。添加了[(+)ssRNA]病毒RNA-依赖RNA聚合酶催化域、RING-finger/U-box、cAMP-依赖蛋白激酶调节亚单位的二聚化/对接域、半乳糖/鼠李糖结合凝集素域超家族的精细分类,以及许多其他新模型。

我们显著增加了CD-Search和交互式BATCH CD-Searching查询的比例,这些查询产生的结果显示了保守的结构域信息和属性,通过链接到信息丰富的资源(例如酶委员会(EC)编号基因本体(GO)条款,公共医学ID和来自CaZY公司TCDB公司、和MEROPS公司数据库。查看我们的更早的职位了解更多详细信息。您可以访问客户尽职调查并在CDD FTP网站上查找更新内容客户尽职调查3.20版.

 CDD 3.20版的数据库统计信息:

模型 来源
64,234 所有车型合计源数据库

组织为4,541多模型超级家族

18,882 NCBI客户尽职调查管理工作
1,125 NCBIfams公司
1,009 智能6.0版
19,178 PFAM系列第34版
4,871 COG(重心)1.0版
10,140 NCBI蛋白簇
4488个 TIGRFAM公司第15版
59693人 默认的模型总数CD搜索数据库

CD搜索是NIH比较基因组资源(CGR)是一个NLM项目,旨在建立一个生态系统,以促进可靠的比较基因组分析适用于所有真核生物。

加入我们的邮件列表更新CD搜索和其他CGR新闻。

保存日期:2022年7月,生物信息学开放科学会议(BOSC)上的NCBI

保存日期:2022年7月,生物信息学开放科学会议(BOSC)上的NCBI

请访问NCBI生物信息学开放科学会议(BOSC),的一部分分子生物学智能系统会议(ISMB)7月13日至16日,亲自在威斯康星州麦迪逊市举行,而且几乎都是这样!我们将介绍最新更新的NCBI数据集爆炸、和蛋白质资源。您也可以在羽毛鸟(BoF)讨论和BOSC协作节(CoFest)探索这些资源,并与NCBI员工讨论工作流程。继续阅读“保存日期:2022年7月生物信息学开放科学会议(BOSC)上的NCBI”

NCBI将在11月15日前分配64位数字地理信息。更新受影响的软件!

作为宣布上个月,NCBI将开始为仍然接收这些标识符的其余序列类型分配更大(64位)的数字“GI”。预计会发生这种变化2021年11月15日但如果数据提交量异常高,则可能会提前发生。这是一个提醒,所有使用我们产品的组织和开发人员都应该审查软件是否仍然依赖GI以及是否与这些较大的标识符兼容。

您如何知道您的软件或组织是否会受到影响?

如果您已经构建了自定义软件来与NCBI数据交互并使用序列数据库UID(即GI),请处理ASN1或XML产品中的GI,或处理来自任何在FTP上的表格产品中,您应该检查所有代码,以确保新的、更长的64位GI得到正确处理。为了确保平稳过渡和最佳总体体验,请更新至NCBI提供的最新版本的编程和命令行工具。或者,您可以更新代码以使用accession.version标识符而不是GI。

NCBI在这里帮助社区实现这一改变。敬请关注或关注NCBI推特我们将在那里分享更新和其他信息,例如预计割接日期的最终确认。

请联系info@ncbi.nlm.nih.gov关于此更改或确定您正在使用的任何软件是否受到影响的任何问题。

NCBI注释的脊椎动物基因组计划基因组集合

NCBI注释的脊椎动物基因组计划基因组集合

NCBI是脊椎动物基因组项目(VGP),最近发表了一篇系列论文他们对所有70000种脊椎动物进行测序的初步结果。参见VGP新闻稿了解更多详细信息。到目前为止,该项目已提交130个二倍体染色体水平组合NCBI的GenBank欧洲核苷酸档案NCBI使用NCBI真核基因组注释管道.

这些序列和注释数据是可获得的通过NCBI网络资源,包括基因装配核苷酸蛋白质、和数据集集合和包含在GenBank(基因银行)参考序列发布。您可以在中浏览程序集基因组数据查看器下载中最新程序集的元数据、序列和注释数据VGP生物项目使用NCBI数据集命令行工具如下所示。继续阅读“NCBI注释的脊椎动物基因组项目基因组集合”

原核生物代表性基因组更新-现在超过13000个集合!

我们已经更新了细菌和古菌代表性基因组收集!当前集合包含从203000个原核RefSeq集合中选择的13000多个集合代表它们各自的物种。自2020年8月以来,收集量增加了11%。我们首次纳入了约1400个物种,对1177个物种使用了更好的组合,并且由于NCBI分类学的变化或物种分配的不确定性,已删除了65个物种。

我们还更新了代表性基因组数据库微生物核苷酸BLAST页面以及RefSeq代表基因组数据库碱性核苷酸BLAST,以反映这些变化。继续阅读“原核生物代表性基因组更新-现在超过13000个集合!”

蛋白质家族模型资源现已可用!

新的蛋白质家族模型资源(图1)为您提供了一种搜索NCBI注释管道用于命名和分类蛋白质的证据的方法。你可以通过基因符号、蛋白质功能和许多其他术语找到蛋白质家族。您可以访问家族中的相关蛋白质以及描述成员的出版物。蛋白质家族模型包括蛋白质轮廓隐马尔可夫模型(HMM(HMM))和爆炸规则原核生物,以及保守域体系结构原核生物和真核生物。这个HMM(HMM)在集合中包括普法姆模型,TIGRFAM以及NCBI开发的模型从头开始,或来自NCBI蛋白簇。每个爆炸规则(PMCID:5753331)由一种或多种具有BLAST身份和覆盖率截止的已知生物功能的模型蛋白组成。  The保守域体系结构基于构成NCBI的BLAST兼容的特定位置得分矩阵(PSSM)保留的域数据库.图1。蛋白质家族模型资源页。顶部面板。主页。中间面板,DnaK基因产品现场搜索的选定结果摘要(DnaK[基因符号]). 底部面板,来自NCBI蛋白质簇的DnaK HMM记录的一部分(编号:NF009946). 该记录还包括PubMed引文和HMMER分析,显示了通过该方法命名的RefSeq蛋白。

继续阅读“蛋白质家族模型资源现已可用!”

PGAP使用的更新蛋白质家族模型可下载

原核生物基因组注释管道使用的NCBI蛋白家族模型3.0版(PGAP公司)现在可以从我们的FTP站点。您可以使用HMMER公司序列分析包。

3.0版本包含17350个模型:NCBI中构建的12864个HMM(比2.0版本多111个)和4486个TIGRFAM HMM系列此外,自2.0版以来,我们为2000多个产品指定了产品名称普法姆HMM,使总数达到6698个Pfam HMM,这些HMM的名称可以通过PGAP转移到它们命中的带注释的蛋白质中。您可以从发布目录.证据(_E)图1。III型分泌系统(T3SS)转座子亚基SctB命名的证据(NF038055型)显示蛋白质匹配。T3SS这种高度可变成分的物种特异性名称包括YopD、EspB、IpaC、SipC等。相反,我们使用了T3SS、Sct、分泌和细胞易位(PMID26520801,PMID9618447)为这种分泌系统提供了统一的命名法。  继续阅读“PGAP使用的更新蛋白质家族模型可下载”

改进了对SARS-CoV-2数据的访问

NCBI数据集有一种简单的新方法冠状病毒科数据,包括SARS-CoV-2(图1)。数据包包括基因组、蛋白质和CDS序列、注释和所有完整基因组的综合数据报告。您还可以将搜索目标定位到冠状病毒科.

通信-1318_fig1
图1–NCBI数据集中的SARS-CoV-2页面显示了截至2020年6月16日的统计数据。

对特定蛋白质感兴趣吗?这个SARS-CoV-2蛋白页允许您选择一种蛋白质,并从所有带注释的基因组中下载相应的序列、注释和代表性结构(图2)。

通信-1318_fig2
图2–NCBI数据集中显示SARS-CoV-2参考基因组注释的SARS-CoV 2蛋白页面。

寻找编程访问?NCBI数据集也提供了相同的功能冠状病毒科基因组数据和SARS-CoV-2蛋白数据通过命令行工具和aRESTful API这些工具支持额外的筛选,包括仅下载在指定日期后发布的基因组。

我们感谢您的反馈。尝试NCBI数据集让我们知道你怎么想!

用于冠状病毒注释的新型病毒蛋白结构域模型

NLM的保留域数据库(CDD)已将其范围扩大到现在包括153个新的病毒蛋白结构域家族模型用于冠状病毒的注释,包括用于冠状病毒Spike蛋白S1亚单位(cd21527),的冠状病毒核衣壳蛋白(cd21595)、和冠状病毒RNA依赖性RNA聚合酶(cd21530).

每个策划的域模型由包含保守序列特征这可能已经被实验证实,加上相关出版物的链接。如果可用领域模型包括3D结构具有到交互式3D视图和交互伙伴的链接。

看看这个SARS-CoV-2基因产物列表摘要用于匹配保守域模型和代表性3D蛋白质结构的链接。

想在3D空间中查看这些路线吗?我们已更新iCn3D是一种基于web的三维结构查看器,具有新的渲染、注释和对齐功能。阅读有关如何使用iCn3D查看和分析SARS-CoV-2相关结构.

别忘了复习我们的SARS-CoV-2资源页面以更新NCBI上的其他冠状病毒数据!