美国国旗

美国政府的官方网站

美国国立生物技术信息中心五倍子注释版本104

这个参考序列基因组记录五倍子由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。

注释产品可在序列数据库和FTP站点。

本报告提供:

有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.


注释发布信息

该注释应称为NCBI五倍子注释版本104

注释版本ID:104
Entrez查询转录本和蛋白质的日期:2018年4月13日
向公共数据库提交注释的日期:2018年5月17日
软件版本:8

程序集

此注释运行中包含以下程序集:
程序集名称加入大会提交人组装日期参考/替代程序集内容
GRCg6a类GCF_ 000002315.5基因组参考联盟03-27-2018参考35条组装染色体;未放置的脚手架

基因和特征统计

下面为每个部件提供了注释特征的数量和长度。

功能计数

功能GRCg6a类
基因和假基因帮助24,373
蛋白质编码17,477
非编码6,534
转录假基因22
非转录假基因240
具有变异的基因10,544
免疫球蛋白/T细胞受体基因片段99
其他1
mRNA49661人
完全支持48584个
  初始>5%帮助513
部分564
  带填充间隙帮助16
  已知RefSeq(NM_)帮助6,401
型号RefSeq(XM_)43,260
非编码RNA帮助13,087
完全支持12,105
  初始>5%帮助0
部分2
  带填充间隙帮助0
  已知RefSeq(NR_)帮助771
  型号RefSeq(XR_)帮助11,700
伪抄本帮助28
完全支持26
  初始>5%帮助0
部分0
  带填充间隙帮助0
  已知RefSeq(NR_)帮助5
  型号RefSeq(XR_)帮助23
信用违约互换49,772
完全支持48,584
  初始>5%帮助654
部分369
  有重大修正帮助673
  已知RefSeq(NP_)帮助6,413
  模型RefSeq(XP_)帮助43,260

详细报告

以下计数不包括假基因。

注释蛋白质与一组高质量蛋白质的比对

使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在17464个编码基因中,16383个基因的蛋白质的比对覆盖了50%以上的查询,11286个基因的比对覆盖95%以上的查询。

查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。

下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。

查询:带注释的蛋白质
目标:UniProtKB/Swiss-Prot策划的蛋白质

基因组序列的屏蔽

在重复标记的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。

对于这个注释运行,转录物和蛋白质与仅用WindowMasker掩蔽的基因组对齐。
程序集名称加入大会%使用重复遮罩进行遮罩%用WindowMasker屏蔽
GRCg6a型总金额000002315.512.52%20.37%

转录和蛋白质比对

注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。

根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA-Seq号路线第节。

成绩单对齐

RefSeq转录本比对质量报告

已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。

GRCg6a类
主要组件
从Entrez检索的序列数7,248
未对齐的序列数(%)26 (0.36%)
具有多个最佳比对(分裂基因)的序列数(%)17 (0.24%)
CDS覆盖的序列数(%)< 95% 帮助50 (0.78%)

RNA-Seq比对

以下RNA-Seq从序列片段归档也用于基因预测:

 按样本隐藏对齐统计信息(SAME、SAMN、SAMD、DRS)
 按运行显示路线统计信息(ERR、SRR、DRR)

蛋白质比对

当前与以前的部件装配路线装配

当程序集在两轮注释之间更改时,当前和之前的注释使用当前的基因组比对相互映射集合到前一个集合,以便可以保留基因标识符。的成功重新映射在很大程度上取决于两个程序集版本与各自的匹配程度其他。

以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳命中率,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重新定位服务第页.

第一次通过总计
GRCg6a(当前)覆盖率:97.77%GRCg6a(当前)覆盖率:98.38%
Gallus_Gallus-5.0(之前)覆盖率:84.70%Gallus_Gallus-5.0(之前)覆盖率:93.04%
同一性百分比:99.86%身份百分比:99.57%

当前和以前的比较注释

为这个版本(104)生成的注释是与上一版本(103)中的注释相比在两个版本中注释的每个程序集。当前和先前基因和转录本的得分根据外显子序列的重叠和外显子边界的匹配计算特征。根据这些分数对当前和以前的特征进行分类,无论它们是相互最佳匹配和属性变化(基因生物型、完整性等)。如果在两个版本之间更新了部件,当前版本和之前的组装用于匹配当前和之前的基因和转录特征在映射区域中。

下表以百分比形式总结了每个装配的基因集的变化当前注释版本中的基因数量,并提供指向表格格式和基因组工作台项目.

GRCg6a(当前)至Gallus_Gallus-5.0(先前)
相同帮助16%
次要更改帮助56%
主要变化帮助11%
新建帮助14%
已弃用帮助24%
其他帮助2%
下载报告表格的,基因组工作台

工具书类