美国国立生物技术信息中心达尼奥雷里奥注释版本105
这个参考序列基因组记录达尼奥雷里奥由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。
注释产品可在序列数据库和FTP站点。
本报告提供:
有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.
注释发布信息
该注释应称为NCBI达尼奥雷里奥注释版本105注释版本ID:105
Entrez查询转录本和蛋白质的日期:2016年6月20日
向公共数据库提交注释的日期:2016年6月24日
软件版本:7.1
组件
此注释运行中包含以下程序集:程序集名称 | 加入大会 | 提交人 | 组装日期 | 参考/替代 | 程序集内容 |
---|
GRCz10公司 | GCF_ 000002035.5 | 基因组参考联盟 | 09-02-2014 | 参考 | 26条组装染色体;未放置的脚手架 |
基因和特征统计
下面为每个部件提供了注释特征的数量和长度。功能计数
功能 | GRCz10公司 |
---|
基因和假基因 | 42,154 |
蛋白质编码 | 26,373 |
非编码 | 15,445 |
假基因 | 336 |
带有变体的基因 | 10860个 |
信使核糖核酸 | 46,440 |
完全支持 | 44,617 |
初始>5% | 815 |
部分 | 2,005 |
带填充间隙 | 583 |
已知RefSeq(NM_) | 15,265 |
型号RefSeq(XM_) | 31,175 |
其他RNA | 18,595 |
完全支持 | 9,498 |
初始>5% | 0 |
部分 | 12 |
带填充间隙 | 5 |
已知RefSeq(NR_) | 439 |
型号RefSeq(XR_) | 9,082 |
信用违约互换 | 46551人 |
完全支持 | 44,617 |
初始>5% | 940 |
部分 | 1,472 |
有重大修正 | 729 |
已知RefSeq(NP_) | 15,263 |
模型RefSeq(XP_) | 31,175 |
详细报告
注释蛋白质与一组高质量蛋白质的比对
使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在26272个编码基因中,23792个基因的蛋白质的比对覆盖了50%或更多的查询,12566个基因的比对覆盖95%或更多的搜索。查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。
下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。
查询:带注释的蛋白质目标:UniProtKB/Swiss-Prot策划的蛋白质基因组序列的掩蔽
在重复掩蔽的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码和重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。
对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。程序集名称 | 加入大会 | %使用重复遮罩进行遮罩 | %用WindowMasker屏蔽 |
---|
GRCz10公司 | GCF_ 000002035.5 | 58.40% | 49.09% |
转录和蛋白质比对
注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)或ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。
根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA-Seq号路线第节。
成绩单对齐
RefSeq转录本比对质量报告
已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。
| GRCz10公司 主要组件 |
---|
从Entrez检索的序列数 | 16,040 |
未对齐的序列数(%) | 32 (0.20%) |
具有多个最佳比对(分裂基因)的序列数(%) | 208 (1.30%) |
CDS覆盖的序列数量(%)<95% | 561 (3.61%) |
RNA-Seq比对
以下RNA-Seq从序列片段归档也用于基因预测:
按样本隐藏对齐统计信息(SAME、SAMN、SAMD、DRS) 按运行显示路线统计信息(ERR、SRR、DRR)蛋白质比对
当前和以前的比较注释
为这个版本(105)生成的注释是与上一版本(104)中的注释相比两个版本中的每个程序集都有注释。当前和以前的基因和转录物得分根据外显子序列的重叠和外显子边界的匹配计算特征。根据这些分数对当前和以前的特征进行分类,无论它们是相互最佳匹配和属性变化(基因生物型、完整性等)。如果在两个版本之间更新了部件,当前版本和之前的组装用于匹配当前和之前的基因和转录特征在映射区域中。
下表以百分比形式总结了每个装配的基因集的变化当前注释版本中的基因数量,并提供指向表格格式和基因组工作台项目.
| GRCz10(当前)到GRCz100(先前) | 相同 | 22% |
次要更改 | 38% |
重大变化 | 9% |
新建 | 10% |
已弃用 | 5% |
其他 | 21% |
下载报告 | 表格的,基因组工作台 |
工具书类
- 参考序列:Pruitt KD、Brown GR、Hiatt SM、Thibaud-Nissen F、,Astashyn A、Ermolaeva O、Farrell CM、Hart J、Landrum MJ、McGarvey KM、Murphy MR、,O'Leary NA、Pujar S、Rajput B、Rangwala SH、Riddick LD、Shkeda A、Sun H、TamezP、 Tully RE、Wallin C、Webb D、Weber J、Wu W、Dicuccio M、Kitts P、Maglott DR、,Murphy TD、Ostell JM、。核酸研究2014,42(数据库问题):D756-63
- 重复掩码:Smit AFA、Hubley R、Green P.RepeatMasker Open-3.0。1996–2004.http://www.repeatmasker.org
- 窗口掩码:Morgulis A、Gertz EM、Schäffer AA、AgarwalaR。生物信息学2006,2:134-41
- 拆分(Splign):Kapustin Y,Souvorov A,Tatusova T,Lipman D。生物学指导2008,3:20
基因、转录和非转录假基因特征
仅部分受支持的功能实验证据,
其长度的5%以上由使用隐马尔可夫模型的Gnomon
编码预测的抄本Gnomon与基因组相关的插入、缺失或移码
但是一个对SwissProt蛋白质的强烈冲击。这些模型的蛋白质标题前缀为
预测:低质量蛋白质
所有的misc_RNA、tRNA、rRNA和ncRNA类。不包括假基因
非编码转录本(misc_RNA和lncRNA)模型和指定的XR_*材料预测
从序列中检索的长读取读取存档,例如使用GS FLX仪器生成的454个序列。
少于的成绩单95%的CDS与基因组序列一致。
通常表示装配问题。
Gnomon和分配的XP_*访问。
Gnomon预测的蛋白质相对于基因组的插入、缺失或移码
但对SwissProt蛋白。这些蛋白质的标题前缀为
预测:低优质蛋白质。
单埃克森mRNA、其他RNA和lncRNA类的ncRNAs。
不包括tRNAs、rRNAs或其他类别的ncRNAs而不是lncRNA。
类mRNAs、misc_RNA和ncRNAs中的外显子lncRNA。
不包括lncRNA以外的tRNAs、rRNAs或ncRNAs。
由多个转录本共享的外显子计数一次。
mRNA转录物中的外显子。
外显子由多个编码转录本共享一次。
类的misc_RNA和ncRNAs中的外显子lncRNA。
由多个非编码转录本共享的外显子计数一次。
的mRNAs、misc_RNA和ncRNAs中的内含子lncRNA类。
不包括tRNAs、rRNAs或非ncRNAs类lncRNA。
由多个转录本共享的内含子计数一次。
mRNA转录物中的内含子。
简介由多个编码转录本共享一次。
的misc_RNA和ncRNAs中的内含子lncRNA类。
计算多个非编码转录物共享的内含子一次。
不包括免疫球蛋白和T细胞受体基因
带有早产儿修正的CDS停止键、帧移位或内部间隙
使用转录扩展的模型RefSeq补偿装配间隙的顺序
外显子边界完全匹配的基因
高度相似的基因,支持分数为0.66或更高
(比例尺为0到1)。
支持分数由组合得出
匹配外显子边界和序列重叠。
对应于完整报告中的类似类别
支持分数低于0.66的基因(从0到1的等级)
在比较的一方或双方,和基因
生物型或改变的完整性,以及分裂或移动基因。
对应于类别发生了重大变化,改变了轨迹
在完整报告中键入、拆分、移动和更改的完整性
新基因或上一版本中没有匹配的基因。
对应于类别Current-novel、Current-other和
完整报告中的当前标记
不受欢迎的基因或基因与现在的
释放。对应于类别Previous-novel,
Previous-other、Previous unmapped和Merged全部
报告
其他变更