美国国旗

美国政府的官方网站

美国国立生物技术信息中心褐家鼠注释版本106

这个参考序列基因组记录褐家鼠由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。

注释产品可在序列数据库和FTP站点。

本报告提供:

有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.


注释发布信息

该注释应称为NCBI褐家鼠注释版本106

注释版本ID:106
Entrez查询转录物和蛋白质的日期:2016年7月7日
向公共数据库提交注释的日期:2016年7月27日
软件版本:7.1

程序集

此注释运行中包含以下程序集:
程序集名称加入大会提交人组装日期参考/替代程序集内容
雷诺_6.0GCF_ 000001895.5大鼠基因组测序联盟07-01-2014参考23条组装染色体;未放置的脚手架
Rn_Celera公司GCF_ 000002265.2塞雷拉基因组2006年6月12日备用21条组装染色体;未放置的脚手架

基因和特征统计

下面为每个部件提供了注释特征的数量和长度。

功能计数

功能雷诺_6.0Rn_Celera公司
基因和假基因帮助39,43036,625
蛋白质编码23,34721,823
非编码8,3487,747
假基因7,7357,055
带有变体的基因13,1164,174
mRNA56,09828,000
完全支持54,95827,224
  初始>5%帮助488299
部分1383年1,893
  带填充间隙帮助11071
  已知RefSeq(NM_)帮助17,53817,336
型号RefSeq(XM_)38,56010,664
其他RNA帮助13,81312,146
完全支持13,09511,444
  初始>5%帮助00
部分214
  带填充间隙帮助2
  已知RefSeq(NR_)帮助631616
  型号RefSeq(XR_)帮助12,48310847个
信用违约互换56,58028,378
完全支持54,95827,224
  初始>5%帮助589358
部分1,0281,430
  有重大修正帮助2,1011,749
  已知RefSeq(NP_)帮助17,53717,331
  模型RefSeq(XP_)帮助38,56010,664

详细报告

注释蛋白质与一组高质量蛋白质的比对

使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在Rnor_6.0初级组装中的22863个编码基因中,22142个基因的蛋白质的比对覆盖了50%或更多的查询,19510个基因的比对覆盖95%或更多的搜索。在Rn_Celera组合中的21438个编码基因中,20762个基因的比对覆盖了50%或更多的查询,18422个基因的比对覆盖了95%或更多的查询。

查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。

下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。

查询:带注释的蛋白质
目标:UniProtKB/Swiss-Prot策划的蛋白质

基因组序列的屏蔽

在重复掩蔽的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。

对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。
程序集名称加入大会%使用重复遮罩进行遮罩%用WindowMasker屏蔽
雷诺_6.0GCF_ 000001895.541.98%32.49%
Rn_Celera公司GCF_ 000002265.241.52%31.32%

转录和蛋白质比对

注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质组来自Entrez,通过拆分(Splign)ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。

根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA-Seq号路线第节。

成绩单对齐

RefSeq转录本比对质量报告

已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和完全不对齐的序列数量,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。

雷诺_6.0
主要组件
Rn_Celera公司
主要组件
从Entrez检索的序列数18365年18365年
未对齐的序列数(%)38 (0.21%)32 (0.17%)
具有多个最佳比对(分裂基因)的序列数(%)27 (0.15%)102(0.56%)
CDS覆盖的序列数(%)< 95% 帮助414 (2.35%)706 (4.05%)

RNA-Seq比对

以下RNA-Seq从序列片段归档也用于基因预测:

 按样本隐藏对齐统计信息(SAME、SAMN、SAMD、DRS)
 按运行显示路线统计信息(ERR、SRR、DRR)