美国国立生物技术信息中心褐家鼠注释版本106
这个参考序列基因组记录褐家鼠由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。
注释产品可在序列数据库和FTP站点。
本报告提供:
有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.
注释发布信息
该注释应称为NCBI褐家鼠注释版本106注释版本ID:106
Entrez查询转录物和蛋白质的日期:2016年7月7日
向公共数据库提交注释的日期:2016年7月27日
软件版本:7.1
程序集
此注释运行中包含以下程序集:基因和特征统计
下面为每个部件提供了注释特征的数量和长度。功能计数
功能 | 雷诺_6.0 | Rn_Celera公司 |
---|
基因和假基因 | 39,430 | 36,625 |
蛋白质编码 | 23,347 | 21,823 |
非编码 | 8,348 | 7,747 |
假基因 | 7,735 | 7,055 |
带有变体的基因 | 13,116 | 4,174 |
mRNA | 56,098 | 28,000 |
完全支持 | 54,958 | 27,224 |
初始>5% | 488 | 299 |
部分 | 1383年 | 1,893 |
带填充间隙 | 110 | 71 |
已知RefSeq(NM_) | 17,538 | 17,336 |
型号RefSeq(XM_) | 38,560 | 10,664 |
其他RNA | 13,813 | 12,146 |
完全支持 | 13,095 | 11,444 |
初始>5% | 0 | 0 |
部分 | 2 | 14 |
带填充间隙 | 2 | 三 |
已知RefSeq(NR_) | 631 | 616 |
型号RefSeq(XR_) | 12,483 | 10847个 |
信用违约互换 | 56,580 | 28,378 |
完全支持 | 54,958 | 27,224 |
初始>5% | 589 | 358 |
部分 | 1,028 | 1,430 |
有重大修正 | 2,101 | 1,749 |
已知RefSeq(NP_) | 17,537 | 17,331 |
模型RefSeq(XP_) | 38,560 | 10,664 |
详细报告
注释蛋白质与一组高质量蛋白质的比对
使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在Rnor_6.0初级组装中的22863个编码基因中,22142个基因的蛋白质的比对覆盖了50%或更多的查询,19510个基因的比对覆盖95%或更多的搜索。在Rn_Celera组合中的21438个编码基因中,20762个基因的比对覆盖了50%或更多的查询,18422个基因的比对覆盖了95%或更多的查询。查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。
下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。
查询:带注释的蛋白质目标:UniProtKB/Swiss-Prot策划的蛋白质基因组序列的屏蔽
在重复掩蔽的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码和重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。
对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。程序集名称 | 加入大会 | %使用重复遮罩进行遮罩 | %用WindowMasker屏蔽 |
---|
雷诺_6.0 | GCF_ 000001895.5 | 41.98% | 32.49% |
Rn_Celera公司 | GCF_ 000002265.2 | 41.52% | 31.32% |
转录和蛋白质比对
注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质组来自Entrez,通过拆分(Splign)或ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。
根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA-Seq号路线第节。
成绩单对齐
RefSeq转录本比对质量报告
已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和完全不对齐的序列数量,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。
| 雷诺_6.0 主要组件 | Rn_Celera公司 主要组件 |
---|
从Entrez检索的序列数 | 18365年 | 18365年 |
未对齐的序列数(%) | 38 (0.21%) | 32 (0.17%) |
具有多个最佳比对(分裂基因)的序列数(%) | 27 (0.15%) | 102(0.56%) |
CDS覆盖的序列数(%)< 95% | 414 (2.35%) | 706 (4.05%) |
RNA-Seq比对
以下RNA-Seq从序列片段归档也用于基因预测:
按样本隐藏对齐统计信息(SAME、SAMN、SAMD、DRS) 按运行显示路线统计信息(ERR、SRR、DRR)