美国国旗

美国政府的官方网站

美国国立生物技术信息中心达尼奥雷里奥注释版本105

这个参考序列基因组记录达尼奥雷里奥由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。

注释产品可在序列数据库和FTP站点。

本报告提供:

有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.


注释发布信息

该注释应称为NCBI达尼奥雷里奥注释版本105

注释版本ID:105
Entrez查询转录本和蛋白质的日期:2016年6月20日
向公共数据库提交注释的日期:2016年6月24日
软件版本:7.1

组件

此注释运行中包含以下程序集:
程序集名称加入大会提交人组装日期参考/替代程序集内容
GRCz10公司GCF_ 000002035.5基因组参考联盟09-02-2014参考26条组装染色体;未放置的脚手架

基因和特征统计

下面为每个部件提供了注释特征的数量和长度。

功能计数

功能GRCz10公司
基因和假基因帮助42,154
蛋白质编码26,373
非编码15,445
假基因336
带有变体的基因10860个
信使核糖核酸46,440
完全支持44,617
  初始>5%帮助815
部分2,005
  带填充间隙帮助583
  已知RefSeq(NM_)帮助15,265
型号RefSeq(XM_)31,175
其他RNA帮助18,595
完全支持9,498
  初始>5%帮助0
部分12
  带填充间隙帮助5
  已知RefSeq(NR_)帮助439
  型号RefSeq(XR_)帮助9,082
信用违约互换46551人
完全支持44,617
  初始>5%帮助940
部分1,472
  有重大修正帮助729
  已知RefSeq(NP_)帮助15,263
  模型RefSeq(XP_)帮助31,175

详细报告

注释蛋白质与一组高质量蛋白质的比对

使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在26272个编码基因中,23792个基因的蛋白质的比对覆盖了50%或更多的查询,12566个基因的比对覆盖95%或更多的搜索。

查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。

下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。

查询:带注释的蛋白质
目标:UniProtKB/Swiss-Prot策划的蛋白质

基因组序列的掩蔽

在重复掩蔽的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。

对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。
程序集名称加入大会%使用重复遮罩进行遮罩%用WindowMasker屏蔽
GRCz10公司GCF_ 000002035.558.40%49.09%

转录和蛋白质比对

注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。

根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA-Seq号路线第节。

成绩单对齐

RefSeq转录本比对质量报告

已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。

GRCz10公司
主要组件
从Entrez检索的序列数16,040
未对齐的序列数(%)32 (0.20%)
具有多个最佳比对(分裂基因)的序列数(%)208 (1.30%)
CDS覆盖的序列数量(%)<95%帮助561 (3.61%)

RNA-Seq比对

以下RNA-Seq从序列片段归档也用于基因预测:

 按样本隐藏对齐统计信息(SAME、SAMN、SAMD、DRS)
 按运行显示路线统计信息(ERR、SRR、DRR)

蛋白质比对

当前和以前的比较注释

为这个版本(105)生成的注释是与上一版本(104)中的注释相比两个版本中的每个程序集都有注释。当前和以前的基因和转录物得分根据外显子序列的重叠和外显子边界的匹配计算特征。根据这些分数对当前和以前的特征进行分类,无论它们是相互最佳匹配和属性变化(基因生物型、完整性等)。如果在两个版本之间更新了部件,当前版本和之前的组装用于匹配当前和之前的基因和转录特征在映射区域中。

下表以百分比形式总结了每个装配的基因集的变化当前注释版本中的基因数量,并提供指向表格格式和基因组工作台项目.

GRCz10(当前)到GRCz100(先前)
相同帮助22%
次要更改帮助38%
重大变化帮助9%
新建帮助10%
已弃用帮助5%
其他帮助21%
下载报告表格的,基因组工作台

工具书类