美国国立生物技术信息中心家犬注释版本106
这个参考序列基因组记录家犬由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对准结果。
注释产品可在序列数据库和FTP站点。
本报告提供:
有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.
注释发布信息
此注释应称为NCBI家犬注释版本106注释版本ID:106
Entrez查询转录本和蛋白质的日期:2020年12月8日
向公共数据库提交注释的日期:2021年1月8日
软件版本:8.5
程序集
此注释运行中包含以下程序集:基因和特征统计
下面为每个程序集提供了带注释特征的计数和长度。功能计数
功能 | ROS_Cfam_1.0型 | UMICH_缩放3.1 | UNSW_扫描FamBas_1.0 | UU_Cfam_GSD_1.0 | 狗狗10K_盒子_塔莎 |
---|
基因和假基因 | 42,271 | 41,434 | 41,231 | 43,286 | 40,373 |
蛋白质编码 | 20,949 | 20,593 | 20,567 | 21,175 | 20,087 |
非编码 | 15,885 | 15,613 | 15,499 | 16,461 | 15,286 |
转录假基因 | 32 | 30 | 29 | 40 | 22 |
非转录假基因 | 5,179 | 5,054 | 4,995 | 5401个 | 4,887 |
带有变体的基因 | 16,156 | 14,474 | 15,004 | 15,365 | 15,006 |
免疫球蛋白/T细胞受体基因片段 | 226 | 144 | 141 | 209 | 91 |
其他 | 0 | 0 | 0 | 0 | 0 |
mRNA | 66,768 | 59,965 | 62,957 | 63,650 | 62334个 |
完全支持 | 64,949 | 58,301 | 61,344 | 61,854 | 60,735 |
初始>5% | 952 | 893 | 876 | 997 | 856 |
部分 | 164 | 176 | 132 | 180 | 132 |
带填充间隙 | 1 | 1 | 0 | 三 | 0 |
已知RefSeq(NM_) | 2,200 | 2,187 | 2,177 | 2,188 | 2,094 |
型号RefSeq(XM_) | 64,568 | 57,778 | 60,780 | 61,462 | 60,240 |
非编码RNA | 33074个 | 32,325 | 31,987 | 33,681 | 31,834 |
完全支持 | 30,856 | 30,222 | 29,820 | 31177个 | 29,722 |
初始>5% | 0 | 0 | 0 | 0 | 0 |
部分 | 0 | 0 | 0 | 0 | 0 |
带填充间隙 | 0 | 0 | 0 | 0 | 0 |
已知RefSeq(NR_) | 500 | 485 | 482 | 499 | 470 |
模型参考序列(XR_) | 32,109 | 31,438 | 31,060 | 32,533 | 30,919 |
伪抄本 | 43 | 42 | 40 | 52 | 38 |
完全支持 | 36 | 37 | 33 | 41 | 35 |
初始>5% | 0 | 0 | 0 | 0 | 0 |
部分 | 1 | 1 | 1 | 1 | 1 |
带填充间隙 | 0 | 0 | 0 | 0 | 0 |
已知RefSeq(NR_) | 5 | 5 | 5 | 5 | 2 |
型号RefSeq(XR_) | 38 | 37 | 35 | 47 | 36 |
信用违约互换 | 66,992 | 60,107 | 63,098 | 63,860 | 62,437 |
完全支持 | 64,949 | 58,301 | 61,344 | 61,854 | 60,735 |
从一开始就超过5% | 1,103 | 1,025 | 1,011 | 1,144 | 986 |
部分 | 161 | 174 | 126 | 176 | 123 |
有重大修正 | 1,177 | 2,332 | 1,384 | 1,321 | 891 |
已知RefSeq(NP_) | 2,200 | 2,187 | 2,177 | 2,188 | 2,107 |
模型RefSeq(XP_) | 64,568 | 57778个 | 60,780 | 61,462 | 60,240 |
详细报告
以下计数不包括假基因。注释蛋白质与一组高质量蛋白质的比对
使用BLASTP对UniProtKB/Swiss-Prot策划的蛋白质进行最终的注释蛋白质集搜索,使用注释蛋白质作为查询,使用优质蛋白质作为目标。在21175个编码基因中,20586个基因的蛋白质的比对覆盖了50%以上的查询,17488个基因的比对覆盖95%以上的查询。查询和目标覆盖范围的定义。查询覆盖率是对齐中包含的带注释的蛋白质长度的百分比。目标覆盖率是路线中包含的目标长度的百分比。
下面是一个累积图,显示了比对超过给定查询或目标覆盖阈值的基因数量。为了进行比较,在图中添加了NCBI真核生物注释管道注释的其他生物的相应统计数据。
查询:带注释的蛋白质目标:UniProtKB/Swiss-Prot策划的蛋白质基因组序列的屏蔽
在重复标记的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码和重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。
对于此次注释运行,转录物和蛋白质与仅使用WindowMasker屏蔽的基因组对齐。程序集名称 | 加入大会 | %使用重复遮罩进行遮罩 | %用WindowMasker屏蔽 |
---|
ROS_Cfam_1.0型 | GCF_014441545.1号 | 42.05% | 32.10% |
UMICH_缩放3.1 | GCF_005444595.1 | 42.00% | 31.94% |
UNSW_扫描FamBas_1.0 | GCF_013276365.1号 | 42.36% | 32.24% |
UU_Cfam_GSD_1.0 | GCF_011100685.1 | 43.87% | 33.65% |
狗10K_盒子_Tasha | GCF_ 000002285.5 | 42.41% | 32.25% |
转录和蛋白质比对
注释管道在很大程度上依赖于基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)或ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。
根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐RNA-Seq读取并报告在RNA序列路线第节。
成绩单对齐
RefSeq转录本比对质量报告
已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。
| ROS_Cfam_1.0型 主要组件 | UMICH_Zoey_3.1型 主要组件 | UNSW_扫描FamBas_1.0 主要组件 | UU_Cfam_GSD_1.0 主要组件 | 狗10K_盒子_Tasha 主要组件 |
---|
从Entrez检索的序列数 | 2,743 | 2,743 | 2,743 | 2,743 | 2,743 |
未对齐的序列数(%) | 18 (0.66%) | 13 (0.47%) | 12 (0.44%) | 10 (0.36%) | 78 (2.84%) |
具有多个最佳比对(分裂基因)的序列数(%) | 1 (0.04%) | 2 (0.07%) | 0 (0.00%) | 0 (0.00%) | 0 (0.00%) |
CDS覆盖的序列数(%)<95% | 18 (0.81%) | 16 (0.73%) | 5 (0.23%) | 6 (0.27%) | 14 (0.66%) |
RNA-Seq比对
以下RNA-Seq从序列片段归档也用于基因预测:
按样本隐藏路线统计信息(SAME、SAMN、SAMD、DRS) 按运行显示路线统计信息(ERR、SRR、DRR)蛋白质比对
装配-装配-电流与前一个的对齐装配
当程序集在两轮注释之间更改时,当前和之前的注释使用当前的基因组比对相互映射集合到前一个集合,以便可以保留基因标识符。的成功重新映射在很大程度上取决于两个程序集版本与各自的匹配程度其他。
以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳点击,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重新定位服务第页.
第一次通过 | 总计 |
---|
Dog10K_Boxer_Tasha(当前)覆盖率:98.26% | Dog10K_Boxer_Tasha(当前)覆盖率:98.42% |
CanFam3.1(之前)覆盖率:94.97% | CanFam3.1(以前)覆盖率:96.47% |
同一性百分比:99.81% | 同一性百分比:99.73% |
备用件的装配装配对准参考组件
当生物体有多个高质量的组件可用时,注释所有工作都是协调进行的。备用组件与参考对齐集合和最佳交互最佳命中用于识别相应区域,然后可以一起对其进行注释。
以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳点击,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重映射服务第页.
第一次通过 | 总计 |
---|
UMICH_Zoey_3.1(替代)覆盖率:98.57% | UMICH_Zoey_3.1(替代)覆盖率:99.05% |
ROS_Cfam_1.0(参考)覆盖率:96.51% | ROS_Cfam_1.0(参考)覆盖率:98.18% |
身份百分比:99.56% | 身份百分比:99.49% |
第一次通过 | 总计 |
---|
UNSW_CanFamBas_1.0(替代)覆盖率:98.51% | UNSW_CanFamBas_1.0(替代)覆盖率:98.72% |
ROS_Cfam_1.0(参考)覆盖率:96.52% | ROS_Cfam_1.0(参考)覆盖率:98.26% |
同一性百分比:99.49% | 同一性百分比:99.42% |
第一次通过 | 总计 |
---|
UU_Cfam_GSD_1.0(替代)覆盖率:93.58% | UU_Cfam_GSD_1.0(替代)覆盖率:96.26% |
ROS_Cfam_1.0(参考)覆盖率:97.04% | ROS_Cfam_1.0(参考)覆盖率:98.45% |
身份百分比:99.56% | 身份百分比:99.47% |
第一次通过 | 总计 |
---|
Dog10K_Boxer_Tasha(备用)覆盖率:98.21% | Dog10K_Boxer_Tasha(替代)覆盖率:98.35% |
ROS_Cfam_1.0(参考)覆盖率:94.91% | ROS_Cfam_1.0(参考)覆盖率:96.84% |
身份百分比:99.57% | 同一性百分比:99.48% |
当前和以前的比较注释
为这个版本(106)生成的注释是与上一版本(105)中的注释相比两个版本中的每个程序集都有注释。当前和先前基因和转录本的得分根据外显子序列的重叠和外显子边界的匹配计算特征。根据这些分数对当前和以前的特征进行分类,无论它们是相互最佳匹配和属性变化(基因生物型、完整性等)。如果在两个版本之间更新了部件,当前版本和先前的组装用于匹配当前和先前的基因和转录物特征在映射区域中。
下表以百分比形式总结了每个装配的基因集的变化当前注释版本中的基因数量,并提供指向表格格式和基因组工作台项目.
| Dog10K_Boxer_Tasha(当前)到CanFam3.1(先前) | 相同 | 11% |
次要更改 | 54% |
主要变化 | 15% |
新建 | 19% |
已弃用 | 11% |
其他 | 1% |
下载报告 | 表格的,基因组工作台 |
这是第一次注释NCBI真核基因组注释管道。
这是第一次注释NCBI真核基因组注释管道。
这是第一次注释NCBI真核基因组注释管道。
这是第一次注释NCBI真核基因组注释管道。
工具书类
- 参考序列:Pruitt KD、Brown GR、Hiatt SM、Thibaud-Nissen F、,Astashyn A、Ermolaeva O、Farrell CM、Hart J、Landrum MJ、McGarvey KM、Murphy MR、,O'Leary NA、Pujar S、Rajput B、Rangwala SH、Riddick LD、Shkeda A、Sun H、TamezP、 Tully RE、Wallin C、Webb D、Weber J、Wu W、Dicuccio M、Kitts P、Maglott DR、,Murphy TD、Ostell JM、。核酸研究2014,42(数据库问题):D756-63
- 重复遮罩:Smit AFA、Hubley R、Green P.RepeatMasker Open-3.0。1996–2004.http://www.repeatmasker.org
- 窗口掩码:Morgulis A、Gertz EM、Schäffer AA、AgarwalaR。生物信息学2006,2:134-41
- 拆分(Splign):Kapustin Y、Souvorov A、,Tatusova T,Lipman D。生物学指导2008,三:20
基因和转录和非转录假基因特征
仅部分受支持的功能实验证据,
其长度的5%以上由使用隐马尔可夫模型的Gnomon
编码预测的抄本Gnomon与基因组相关的插入、缺失或移码
但是一个对SwissProt蛋白质的强烈冲击。这些模型的蛋白质标题前缀为
预测:低质量蛋白质
所有的misc_RNA、tRNA、rRNA和ncRNA类。不包括假基因
转录假基因的转录特征
非编码转录本(misc_RNA,lncRNA、rRNA、snRNA、snoRNA和guide_RNA)
由Gnomon或RFAM和cmsearch预测和指定的XR_*加入
从序列中检索到长读取读取存档,例如使用GS FLX仪器生成的454个序列。
少于的成绩单95%的CDS与基因组序列一致。
通常表示装配问题。
Gnomon和预测的蛋白质分配的XP_*访问。
Gnomon预测的蛋白质相对于基因组的插入、缺失或移码
但一记重击瑞士保护蛋白。这些蛋白质的标题以
预测:低优质蛋白质。
单埃克森mRNA、其他RNA和lncRNA类的ncRNAs。
不包括tRNAs、rRNAs或其他类别的ncRNAs而不是lncRNA。
类mRNAs、misc_RNA和ncRNAs中的外显子lncRNA。
不包括lncRNA以外的tRNAs、rRNAs或ncRNAs。
由多个转录本共享的外显子计数一次。
mRNA转录物中的外显子。
外显子由多个编码转录本共享一次。
类的misc_RNA和ncRNAs中的外显子lncRNA。
由多个非编码转录本共享的外显子计数一次。
的mRNAs、misc_RNA和ncRNAs中的内含子lncRNA类。
不包括tRNAs、rRNAs或非ncRNAs类lncRNA。
由多个转录本共享的内含子计数一次。
mRNA转录物中的内含子。
简介由多个编码转录本共享一次。
的misc_RNA和ncRNA中的内含子lncRNA类。
计算由多个非编码转录本共享的内含子一次。
不包括免疫球蛋白和T细胞受体基因
带有早产儿修正的CDS停止键、帧移位或内部间隙
使用转录扩展的模型RefSeq补偿装配间隙的顺序
外显子边界完全匹配的基因
高度相似的基因,支持分数为0.66或更高
(比例尺为0到1)。
支持分数由组合得出
匹配外显子边界和序列重叠。
对应于完整报告中的类似类别
支持分数低于0.66的基因(从0到1)
在比较的一方或双方,和基因发生改变
生物型或改变完整性,以及分裂或移动基因。
对应于类别发生了重大变化,改变了轨迹
在完整报告中键入、拆分、移动和更改的完整性
新基因或上一版本中没有匹配的基因。
对应于类别Current-novel、Current-other和
完整报告中的当前标记
不受欢迎的基因或基因与现在的
释放。对应于类别Previous-novel,
Previous-other、Previous unmapped和Merged全部
报告
其他变更