NCBI智人注释版本GCF_009914755.1-RS_2023_10
基因组序列记录智人RefSeq程序集GCF_009914755.1号(T2T-CHM13v2.0)由NCBI真核基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。
注释版本GCF_009914755.1-RS_2023_10是NCBI智人注释版本110的更新。2023年10月2日最新的已知RefSeq转录本(带有NM_和NR_前缀)被放在基因组上,用于更新注释特征。此外,更新后的注释中包括了在上一次完整注释(NCBI智人注释版本110)中预测的模型RefSeq,该注释在2023年10月2日仍然有效。此次更新未重新计算这些模型。有关用于生成模型RefSeq的证据的更多信息,请参阅以下报告NCBI智人注释版本110。
注释产品可在序列数据库和FTP站点。
本报告提供:
有关注释过程的更多信息,请访问NCBI真核基因组注释管道第页.
注释发布信息
该注释应称为“GCF_009914755.1-RS_2023_10”。Entrez查询转录本和蛋白质的日期:2023年10月2日
向公共数据库提交注释的日期:2023年10月6日
软件版本:10.2
程序集
此注释运行中包含以下程序集:基因和特征统计
下面为每个部件提供了注释特征的数量和长度。功能计数
功能 | GRCh38.p14型 | GRCh38.p14型 主要组件 | GRCh38.p14型 所有备用位置 | GRCh38.p14型 补丁 | T2T-CHM13v2.0 |
---|
基因和假基因 | 59,652 | 59,031 | 2,518 | 2,878 | 58,360 |
蛋白质编码 | 20,080 | 19,895 | 861 | 1,089 | 20,077 |
非编码 | 22,102 | 21,795 | 730 | 867 | 20,939 |
转录假基因 | 1,225 | 1,224 | 103 | 151 | 1204年 |
非转录假基因 | 15,772 | 15,655 | 654 | 736 | 15,683 |
带有变体的基因 | 20,229 | 20,027 | 725 | 850 | 20,245 |
免疫球蛋白/T细胞受体基因片段 | 400 | 390 | 162 | 24 | 387 |
其他 | 73 | 72 | 8 | 11 | 70 |
放置在多个部件单元上 | 4,458 | 纳 | 674 | 纳 | 纳 |
mRNA | 136,181 | 130,442 | 5,634 | 4,637 | 129,663 |
完全支持 | 132,914 | 127,691 | 5,352 | 4,403 | 124,799 |
初始>5% | 1,248 | 1074个 | 92 | 82 | 1,121 |
部分 | 31 | 71 | 312 | 315 | 121 |
带填充间隙 | 0 | 0 | 0 | 0 | 0 |
放置在多个部件单元上 | 4,296 | 纳 | 810 | 纳 | 纳 |
已知RefSeq(NM_) | 67,116 | 66,976 | 2,110 | 2,562 | 66971个 |
模型参考序列(XM_) | 69,065 | 63,466 | 3524个 | 2,075 | 62,692 |
非编码RNA | 49,182 | 46,564 | 1,958 | 1,780 | 48,943 |
完全支持 | 46,068 | 44,182 | 1,574 | 1,613 | 45,616 |
初始>5% | 0 | 0 | 0 | 0 | 0 |
部分 | 9 | 9 | 82 | 64 | 43 |
带填充间隙 | 0 | 0 | 0 | 0 | 0 |
放置在多个部件单元上 | 1,085 | 纳 | 222 | 纳 | 纳 |
已知RefSeq(NR_) | 21,487 | 21,477 | 642 | 669 | 21,434 |
型号RefSeq(XR_) | 25,697 | 23,694 | 981 | 1022个 | 26,027 |
伪抄本 | 1,756 | 1,720 | 130 | 188 | 1,685 |
完全支持 | 1735年 | 1704年 | 127 | 186 | 1,668 |
初始>5% | 0 | 0 | 0 | 0 | 0 |
部分 | 0 | 0 | 15 | 11 | 11 |
带填充间隙 | 0 | 0 | 0 | 0 | 0 |
放置在多个部件单元上 | 纳 | 纳 | 纳 | 纳 | 纳 |
已知RefSeq(NR_) | 1,593 | 1,587 | 125 | 163 | 1,544 |
型号RefSeq(XR_) | 163 | 133 | 5 | 25 | 141 |
信用违约互换 | 136,772 | 130,833 | 5,794 | 4,641 | 130,050 |
完全支持 | 132,914 | 127,691 | 5,352 | 4,403 | 124,799 |
初始>5% | 2,033 | 1,789 | 138 | 106 | 2,065 |
部分 | 521 | 390 | 389 | 277 | 417 |
有重大修正 | 47 | 105 | 41 | 126 | 268 |
已知RefSeq(NP_) | 67,116 | 66,976 | 2,106 | 2543个 | 66,970 |
模型RefSeq(XP_) | 69,078 | 63,466 | 3524个 | 2,075 | 62,692 |
详细报告
以下计数不包括假基因。基因注释的BUSCO分析
BUSCO v4.1.4版已运行在注释基因集的“蛋白质”模式中,每个选择一个最长的蛋白质基因,并使用灵长类odb10谱系数据集运行。结果报告了来自初级装配单元的基因集,并在BUSCO中显示符号。
工具书类
基因、转录和非转录假基因特征
仅部分受支持的功能实验证据,
其长度的5%以上由使用隐马尔可夫模型的Gnomon
编码预测的抄本Gnomon与基因组相关的插入、缺失或移码
但是对SwissProt蛋白质的强烈冲击。这些模型的蛋白质标题前缀为
预测:低质量蛋白质
所有的misc_RNA、tRNA、rRNA和ncRNA类。不包括假基因
转录的抄本特征假基因
非编码转录本(misc_RNA,lncRNA、rRNA、snRNA、snoRNA和guide_RNA)
Gnomon或RFAM预测cmsearch和指定的XR_*附件
从序列读取存档,例如使用GS FLX仪器生成的454个序列。
少于的成绩单95%的CDS与基因组序列一致。
通常表示装配问题。
Gnomon和分配的XP_*访问。
Gnomon预测的蛋白质相对于基因组的插入、缺失或移码
但一记重击瑞士保护蛋白。这些蛋白质的标题前缀为
预测:低优质蛋白质。
单埃克森mRNA、其他RNA和lncRNA类的ncRNAs。
不包括tRNAs、rRNAs或其他类别的ncRNAs而不是lncRNA。
类mRNAs、misc_RNA和ncRNAs中的外显子lncRNA。
不包括lncRNA以外的tRNAs、rRNAs或ncRNAs。
由多个转录本共享的外显子计数一次。
mRNA转录物中的外显子。
外显子由多个编码转录本共享一次。
类的misc_RNA和ncRNAs中的外显子lncRNA。
由多个非编码转录本共享的外显子计数一次。
的mRNAs、misc_RNA和ncRNAs中的内含子lncRNA类。
不包括tRNAs、rRNAs或非ncRNAs类lncRNA。
由多个转录本共享的内含子计数一次。
mRNA转录物中的内含子。
简介由多个编码转录本共享一次。
的misc_RNA和ncRNAs中的内含子lncRNA类。
计算由多个非编码转录本共享的内含子一次。
不包括免疫球蛋白和T细胞受体基因
带有早产儿修正的CDS停止键、帧移位或内部间隙
使用转录扩展的模型RefSeq补偿装配间隙的顺序
外显子完全匹配的基因边界
高度相似的基因,有支持0.66分或以上
(刻度为0到1)比较。
支持分数由组合得出
匹配的外显子边界和序列重叠。
对应于中的类似类别完整报告
支持分数低于的基因0.66(以0到1的比例)
比较的一方或双方,以及基因已更改
生物型或改变完整性,以及分裂或移动基因。
对应类别发生了实质性变化,位置发生了变化
类型,完整报告中的拆分、移动和更改完整性
新基因或无匹配基因在上一版本中。
对应类别Current-novel,电流-其他,以及
完整报告中的当前标记
弃用基因或基因当前没有匹配项
释放。对应类别上一篇小说,
Previous-other、Previous unmapped和Merged in the full
报告
其他变更