美国国旗

美国政府的官方网站

美国国立生物技术信息中心家犬注释版本106

这个参考序列基因组记录家犬由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对准结果。

注释产品可在序列数据库和FTP站点。

本报告提供:

有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.


注释发布信息

此注释应称为NCBI家犬注释版本106

注释版本ID:106
Entrez查询转录本和蛋白质的日期:2020年12月8日
向公共数据库提交注释的日期:2021年1月8日
软件版本:8.5

程序集

此注释运行中包含以下程序集:
程序集名称加入大会提交人组装日期参考/替代程序集内容
ROS_Cfam_1.0型GCF_014441545.1号罗斯林研究所09-03-2020参考40条组装染色体;未放置的脚手架
UMICH_缩放3.1GCF_005444595.1密歇根大学05-30-2019备用39条组装染色体;未放置的脚手架
UNSW_扫描FamBas_1.0GCF_013276365.1号新南威尔士大学06-11-2020备用39条组装染色体;未放置的脚手架
UU_Cfam_GSD_1.0GCF_011100685.1瑞典乌普萨拉大学03-10-2020备用39条组装染色体;未放置的脚手架
狗10K_盒子_TashaGCF_ 000002285.5狗基因组测序协会10-06-2020备用40条组装染色体;未放置的脚手架

基因和特征统计

下面为每个程序集提供了带注释特征的计数和长度。

功能计数

功能ROS_Cfam_1.0型UMICH_缩放3.1UNSW_扫描FamBas_1.0UU_Cfam_GSD_1.0狗狗10K_盒子_塔莎
基因和假基因帮助42,27141,43441,23143,28640,373
蛋白质编码20,94920,59320,56721,17520,087
非编码15,88515,61315,49916,46115,286
转录假基因3230294022
非转录假基因5,1795,0544,9955401个4,887
带有变体的基因16,15614,47415,00415,36515,006
免疫球蛋白/T细胞受体基因片段22614414120991
其他00000
mRNA66,76859,96562,95763,65062334个
完全支持64,94958,30161,34461,85460,735
  初始>5%帮助952893876997856
部分164176132180132
  带填充间隙帮助1100
  已知RefSeq(NM_)帮助2,2002,1872,1772,1882,094
型号RefSeq(XM_)64,56857,77860,78061,46260,240
非编码RNA帮助33074个32,32531,98733,68131,834
完全支持30,85630,22229,82031177个29,722
  初始>5%帮助00000
部分00000
  带填充间隙帮助00000
  已知RefSeq(NR_)帮助500485482499470
  模型参考序列(XR_)帮助32,10931,43831,06032,53330,919
伪抄本帮助4342405238
完全支持3637334135
  初始>5%帮助00000
部分11111
  带填充间隙帮助00000
  已知RefSeq(NR_)帮助55552
  型号RefSeq(XR_)帮助3837354736
信用违约互换66,99260,10763,09863,86062,437
完全支持64,94958,30161,34461,85460,735
  从一开始就超过5%帮助1,1031,0251,0111,144986
部分161174126176123
  有重大修正帮助1,1772,3321,3841,321891
  已知RefSeq(NP_)帮助2,2002,1872,1772,1882,107
  模型RefSeq(XP_)帮助64,56857778个60,78061,46260,240

详细报告

以下计数不包括假基因。

注释蛋白质与一组高质量蛋白质的比对

使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在21175个编码基因中,20586个基因的蛋白质的比对覆盖了50%以上的查询,17488个基因的比对覆盖95%以上的查询。

查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。

下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。

查询:带注释的蛋白质
目标:UniProtKB/Swiss-Prot策划的蛋白质

基因组序列的屏蔽

在重复标记的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。

对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。
程序集名称加入大会%使用重复遮罩进行遮罩%用WindowMasker屏蔽
ROS_Cfam_1.0型GCF_014441545.1号42.05%32.10%
UMICH_缩放3.1GCF_005444595.142.00%31.94%
UNSW_扫描FamBas_1.0GCF_013276365.1号42.36%32.24%
UU_Cfam_GSD_1.0GCF_011100685.143.87%33.65%
狗10K_盒子_TashaGCF_ 000002285.542.41%32.25%

转录和蛋白质比对

注释管道在很大程度上依赖于基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。

根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA序列路线第节。

成绩单对齐

RefSeq转录本比对质量报告

已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。

ROS_Cfam_1.0型
主要组件
UMICH_Zoey_3.1型
主要组件
UNSW_扫描FamBas_1.0
主要组件
UU_Cfam_GSD_1.0
主要组件
狗10K_盒子_Tasha
主要组件
从Entrez检索的序列数2,7432,7432,7432,7432,743
未对齐的序列数(%)18 (0.66%)13 (0.47%)12 (0.44%)10 (0.36%)78 (2.84%)
具有多个最佳比对(分裂基因)的序列数(%)1 (0.04%)2 (0.07%)0 (0.00%)0 (0.00%)0 (0.00%)
CDS覆盖的序列数(%)<95%帮助18 (0.81%)16 (0.73%)5 (0.23%)6 (0.27%)14 (0.66%)

RNA-Seq比对

以下RNA-Seq从序列片段归档也用于基因预测:

 按样本隐藏路线统计信息(SAME、SAMN、SAMD、DRS)
 按运行显示路线统计信息(ERR、SRR、DRR)

蛋白质比对

装配-装配-电流与前一个的对齐装配

当程序集在两轮注释之间更改时,当前和之前的注释使用当前的基因组比对相互映射集合到前一个集合,以便可以保留基因标识符。的成功重新映射在很大程度上取决于两个程序集版本与各自的匹配程度其他。

以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳点击,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重新定位服务第页.

第一次通过总计
Dog10K_Boxer_Tasha(当前)覆盖率:98.26%Dog10K_Boxer_Tasha(当前)覆盖率:98.42%
CanFam3.1(之前)覆盖率:94.97%CanFam3.1(以前)覆盖率:96.47%
同一性百分比:99.81%同一性百分比:99.73%

备用件的装配装配对准参考组件

当生物体有多个高质量的组件可用时,注释所有工作都是协调进行的。备用组件与参考对齐集合和最佳交互最佳命中用于识别相应区域,然后可以一起对其进行注释。

以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳点击,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重映射服务第页.

第一次通过总计
UMICH_Zoey_3.1(替代)覆盖率:98.57%UMICH_Zoey_3.1(替代)覆盖率:99.05%
ROS_Cfam_1.0(参考)覆盖率:96.51%ROS_Cfam_1.0(参考)覆盖率:98.18%
身份百分比:99.56%身份百分比:99.49%
第一次通过总计
UNSW_CanFamBas_1.0(替代)覆盖率:98.51%UNSW_CanFamBas_1.0(替代)覆盖率:98.72%
ROS_Cfam_1.0(参考)覆盖率:96.52%ROS_Cfam_1.0(参考)覆盖率:98.26%
同一性百分比:99.49%同一性百分比:99.42%
第一次通过总计
UU_Cfam_GSD_1.0(替代)覆盖率:93.58%UU_Cfam_GSD_1.0(替代)覆盖率:96.26%
ROS_Cfam_1.0(参考)覆盖率:97.04%ROS_Cfam_1.0(参考)覆盖率:98.45%
身份百分比:99.56%身份百分比:99.47%
第一次通过总计
Dog10K_Boxer_Tasha(备用)覆盖率:98.21%Dog10K_Boxer_Tasha(替代)覆盖率:98.35%
ROS_Cfam_1.0(参考)覆盖率:94.91%ROS_Cfam_1.0(参考)覆盖率:96.84%
身份百分比:99.57%同一性百分比:99.48%

当前和以前的比较注释

为这个版本(106)生成的注释是与上一版本(105)中的注释相比两个版本中的每个程序集都有注释。当前和先前基因和转录本的得分根据外显子序列的重叠和外显子边界的匹配计算特征。根据这些分数对当前和以前的特征进行分类,无论它们是相互最佳匹配和属性变化(基因生物型、完整性等)。如果在两个版本之间更新了部件,当前版本和先前的组装用于匹配当前和先前的基因和转录物特征在映射区域中。

下表以百分比形式总结了每个装配的基因集的变化当前注释版本中的基因数量,并提供指向表格格式和基因组工作台项目.

Dog10K_Boxer_Tasha(当前)到CanFam3.1(先前)
相同帮助11%
次要更改帮助54%
主要变化帮助15%
新建帮助19%
已弃用帮助11%
其他帮助1%
下载报告表格的,基因组工作台

这是第一次注释NCBI真核基因组注释管道。

这是第一次注释NCBI真核基因组注释管道。

这是第一次注释NCBI真核基因组注释管道。

这是第一次注释NCBI真核基因组注释管道。

工具书类