NCBI智人注释版本GCF_009914755.1-RS_2023_10

基因组序列记录智人RefSeq程序集GCF_009914755.1号（T2T-CHM13v2.0）由NCBI真核基因组注释管道这是一个自动管道，用于注释草图和成品基因组装配上的基因、转录物和蛋白质。

注释版本GCF_009914755.1-RS_2023_10是NCBI智人注释版本110的更新。2023年10月2日最新的已知RefSeq转录本（带有NM_和NR_前缀）被放在基因组上，用于更新注释特征。此外，更新后的注释中包括了在上一次完整注释（NCBI智人注释版本110）中预测的模型RefSeq，该注释在2023年10月2日仍然有效。此次更新未重新计算这些模型。有关用于生成模型RefSeq的证据的更多信息，请参阅以下报告NCBI智人注释版本110。

注释产品可在序列数据库和FTP站点。

本报告提供：

注释发布信息：名称发布、重要日期、软件版本
程序集：注释的简要说明组件
基因和特征统计：计数和注释特征的特征
BUSCO结果：评估注释完整性与BUSCO合作

有关注释过程的更多信息，请访问NCBI真核基因组注释管道第页.

注释发布信息

该注释应称为“GCF_009914755.1-RS_2023_10”。

Entrez查询转录本和蛋白质的日期：2023年10月2日
向公共数据库提交注释的日期：2023年10月6日
软件版本：10.2

程序集

此注释运行中包含以下程序集：

程序集名称	加入大会	提交人	组装日期	参考/替代	程序集内容
GRCh38.p14型	GCF_000001405.40	基因组参考联盟	02-03-2022	参考	25条组装染色体；未放置的脚手架
T2T-CHM13v2.0	GCF_009914755.1号	T2T联合体	2022年1月24日	备用	24条组装染色体

基因和特征统计

下面为每个部件提供了注释特征的数量和长度。

功能计数

功能	GRCh38.p14型	GRCh38.p14型主要组件	GRCh38.p14型所有备用位置	GRCh38.p14型补丁	T2T-CHM13v2.0
基因和假基因	59,652	59,031	2,518	2,878	58,360
蛋白质编码	20,080	19,895	861	1,089	20,077
非编码	22,102	21,795	730	867	20,939
转录假基因	1,225	1,224	103	151	1204年
非转录假基因	15,772	15,655	654	736	15,683
带有变体的基因	20,229	20,027	725	850	20,245
免疫球蛋白/T细胞受体基因片段	400	390	162	24	387
其他	73	72	8	11	70
放置在多个部件单元上	4,458	纳	674	纳	纳
mRNA	136,181	130,442	5,634	4,637	129,663
完全支持	132,914	127,691	5,352	4,403	124,799
初始>5%	1,248	1074个	92	82	1,121
部分	31	71	312	315	121
带填充间隙	0	0	0	0	0
放置在多个部件单元上	4,296	纳	810	纳	纳
已知RefSeq（NM_）	67,116	66,976	2,110	2,562	66971个
模型参考序列（XM_）	69,065	63,466	3524个	2,075	62,692
非编码RNA	49,182	46,564	1,958	1,780	48,943
完全支持	46,068	44,182	1,574	1,613	45,616
初始>5%	0	0	0	0	0
部分	9	9	82	64	43
带填充间隙	0	0	0	0	0
放置在多个部件单元上	1,085	纳	222	纳	纳
已知RefSeq（NR_）	21,487	21,477	642	669	21,434
型号RefSeq（XR_）	25,697	23,694	981	1022个	26,027
伪抄本	1,756	1,720	130	188	1,685
完全支持	1735年	1704年	127	186	1,668
初始>5%	0	0	0	0	0
部分	0	0	15	11	11
带填充间隙	0	0	0	0	0
放置在多个部件单元上	纳	纳	纳	纳	纳
已知RefSeq（NR_）	1,593	1,587	125	163	1,544
型号RefSeq（XR_）	163	133	5	25	141
信用违约互换	136,772	130,833	5,794	4,641	130,050
完全支持	132,914	127,691	5,352	4,403	124,799
初始>5%	2,033	1,789	138	106	2,065
部分	521	390	389	277	417
有重大修正	47	105	41	126	268
已知RefSeq（NP_）	67,116	66,976	2,106	2543个	66,970
模型RefSeq（XP_）	69,078	63,466	3524个	2,075	62,692

详细报告

以下计数不包括假基因。

特征长度

功能	计数	平均长度（bp）	中位长度（bp）	最小长度（bp）	最大长度（bp）
基因	42,255	41,759	12,236	33	2,473,620
所有成绩单	185,363	3,835	2,997	16	109,224
信使核糖核酸	136,181	4,372	3,550	39	109,224
其他_RNA	12,182	3,543	2,849	127	61,271
微小RNA	第3218页	22	22	16	28
tRNA	691	74	73	59	87
lncRNA	31,524	2,278	1,270	86	97,789
snoRNA	1243年	112	104	33	250
snRNA	164	124	120	60	332
反义核酸	38	3,643	2,185	255	37,027
rRNA	55	1,975	121	119	13,373
保险库_RNA	4	96	98	88	108
端粒酶_RNA	1	451	451	451	451
R基准_MRP_RNA	1	270	270	270	270
RNase_P_RNA（参考号_P_RNA）	1	341	341	341	341
Y_RNA公司	4	99	102	84	113
短链RNA	4	239	299	58	299
单埃克森抄本	1,864	2,171	1,583	51	91,667
编码转录本（NM_/XM_）	1,367	2,007	1,332	51	29,261
非编码转录本（NR_/XR_）	497	2,623	2,031	200	91,667
CD标准	136,194	2,081	1,545	39	107,976
外显子	399695	470	143	1	91,667
编码成绩单（NM_/XM_）	311,924	416	138	1	87,616
非编码转录本（NR_/XR_）	142,917	510	148	2	91,667
简介	372,544	8,421	1,895	26	1,160,411
编码成绩单（NM_/XM_）	303,758	7,950	1,781	26	1,160,411
非编码转录本（NR_/XR_）	120,230	8,593	2,086	26	775,393

每个基因的转录本，每个转录本的外显子

	平均值	中值的	分钟	马克斯
每个基因的转录物数量	4.24	1	1	368
每个转录本的外显子数量	11.87	9	1	363

功能	计数	平均长度（bp）	中位长度（bp）	最小长度（bp）	最大长度（bp）
基因	41,762	42,495	12,380	33	2,473,620
所有成绩单	177,006	3,871	第3026页	16	109,224
信使核糖核酸	130,442	4,406	3,576	39	109,224
其他_RNA	11795年	3,567	2,877	143	61,271
微小RNA	2,875	22	22	16	28
tRNA	431	74	73	70	87
lncRNA	29,975	2,266	1,269	86	97,789
snoRNA	1,194	111	104	33	250
snRNA	153	125	120	60	332
反义核酸	38	3,643	2,185	255	37,027
rRNA	37	2,817	157	121	13,373
保险库_RNA	4	96	98	88	108
端粒酶_RNA	1	451	451	451	451
R基准_MRP_RNA	1	270	270	270	270
RNase_P_RNA（参考号_P_RNA）	1	341	341	341	341
Y_RNA公司	4	99	102	84	113
短链RNA	4	239	299	58	299
单埃克森抄本	1,804	2,179	1,593	51	91,667
编码转录本（NM_/XM_）	1,311	2,013	1,341	51	29,261
非编码转录本（NR_/XR_）	493	2,622	2032年	200	91,667
CD标准	130,442	2,082	1,545	39	107,976
外显子	356,385	481	143	1	91,667
编码成绩单（NM_/XM_）	276,055	427	138	1	87,616
非编码转录本（NR_/XR_）	130,702	515	148	2	91,667
简介	334,141	8,961	2,044	26	1,160,411
编码成绩单（NM_/XM_）	270,987	8,506	1,937	26	1,160,411
非编码转录本（NR_/XR_）	110,264	8,938	2,186	27	775,393

每个基因的转录本，每个转录本的外显子

	平均值	中值的	分钟	马克斯
每个基因的转录物数量	4.25	1	1	368
每个转录本的外显子数量	11.9	9	1	363

功能	计数	平均长度（bp）	中位长度（bp）	最小长度（bp）	最大长度（bp）
基因	1,599	22710个	7,370	43	1296601个
所有成绩单	7,592	2,860	2,386	16	59,472
信使核糖核酸	5,634	3,282	2,761	281	49,561
其他_RNA	406	2,685	2,179	127	17,839
微小RNA	221	22	22	16	25
tRNA	190	74	73	71	83
lncRNA	1,107	1,904	1,186	135	59,472
snoRNA	29	120	132	63	216
snRNA	5	131	162	60	165
单埃克森抄本	154	2,071	1,236	252	8,801
编码转录本（NM_/XM_）	112	1,969	1,106	445	7,528
非编码转录本（NR_/XR_）	42	2,344	2,078	252	8,801
CD标准	5,634	1,874	1443年	153	22,257
外显子	2008年	346	144	2	57,048
编码成绩单（NM_/XM_）	23,454	309	138	2	47,459
非编码转录本（NR_/XR_）	7,394	406	154	2	57,048
简介	24,664	3,089	786	26	301,889
编码成绩单（NM_/XM_）	21,360	第2728页	724	30	301,889
非编码转录本（NR_/XR_）	6,026	4,192	933	26	232,263

每个基因的转录本，每个转录本的外显子

	平均值	中值的	分钟	马克斯
每个基因的转录物数量	3.4	1	1	74
每个转录本的外显子数量	10.42	8	1	67

功能	计数	平均长度（bp）	中位长度（bp）	最小长度（bp）	最大长度（bp）
基因	1,967	24,095	7,226	50	836,506
所有成绩单	6,417	3,382	2,592	17	46,674
信使核糖核酸	4,637	3772个	第3123页	153	46,674
其他_RNA	395	3,172	2,568	173	24,653
微小RNA	122	22	22	17	26
tRNA	48	73	73	71	83
lncRNA	1,105	2,620	1,445	130	38,159
snoRNA	50	111	104	59	217
snRNA	14	142	164	64	167
反义核酸	1	310	310	310	310
rRNA	41	1,093	121	119	13,351
RNase_P_RNA（参考号_P_RNA）	1	341	341	341	341
单埃克森抄本	244	3,177	1,982	153	18,485
编码转录本（NM_/XM_）	214	3,188	1,984	153	18,485
非编码转录本（NR_/XR_）	30	3,100	1,969	511	12,682
CD标准	4,637	1,987	1,449	69	46,476
外显子	15,489	450	144	4	34,106
编码成绩单（NM_/XM_）	12415年	378	136	4	21,693
非编码转录本（NR_/XR_）	4,821	552	151	7	34,106
简介	13,739	4,857	1,266	27	334,517
编码成绩单（NM_/XM_）	11,411	4,527	1,172	27	334,517
非编码转录本（NR_/XR_）	3,940	5,657	1,558	38	323,564

每个基因的转录本，每个转录本的外显子

	平均值	中值的	分钟	马克斯
每个基因的转录物数量	3.29	1	1	56
每个转录本的外显子数量	10.73	7	1	114

功能	计数	平均长度（bp）	中位长度（bp）	最小长度（bp）	最大长度（bp）
基因	41,086	第43510页	12,796	33	2,475,569
所有成绩单	178,606	3,874	3,017	16	109,224
信使核糖核酸	129,663	4,426	3585个	39	109,224
其他_RNA	11,914	3,641	2,895	103	49,409
微小RNA	2,843	22	22	16	28
tRNA	521	74	73	70	87
lncRNA	31,474	2,309	1,319	100	106,127
snoRNA	1,190	111	104	33	250
snRNA	146	123	120	60	332
反义核酸	38	3,643	2,185	255	37,027
rRNA	753	2,069	1,869	119	13,351
保险库_RNA	4	96	98	88	108
端粒酶_RNA	1	451	451	451	451
R基准_MRP_RNA	1	270	270	270	270
RNase_P_RNA（参考号_P_RNA）	1	341	341	341	341
Y_RNA公司	4	99	102	84	113
短链RNA	4	239	299	58	299
单埃克森抄本	1,894	2,129	1,593	51	33,333
编码转录本（NM_/XM_）	1395年	2,016	1,349	51	33,333
非编码转录本（NR_/XR_）	499	2,446	2,030	200	22,743
CD标准	129,663	2,078	1,539	39	107,976
外显子	364,515	480	142	1	87,811
编码成绩单（NM_/XM_）	279,961	439	138	1	87,811
非编码转录本（NR_/XR_）	134,609	489	143	2	69,746
简介	338,644	8,838	2,094	25	1,161,113
编码成绩单（NM_/XM_）	270,902	8,416	1,922	25	1,161,113
非编码转录本（NR_/XR_）	114,609	8,821	2,287	25	1,102,576

每个基因的转录本，每个转录本的外显子

	平均值	中值的	分钟	马克斯
每个基因的转录物数量	4.37	1	1	368
每个转录本的外显子数量	11.91	9	1	363

基因注释的BUSCO分析

BUSCO v4.1.4版已运行在注释基因集的“蛋白质”模式中，每个选择一个最长的蛋白质基因，并使用灵长类odb10谱系数据集运行。结果报告了来自初级装配单元的基因集，并在BUSCO中显示符号。

工具书类

参考序列：普鲁特KD，布朗GR、Hiatt SM、Thibaud-Nissen F、Astashyn A、Ermolaeva O、Farrell CM、Hart J、LandrumMJ、McGarvey KM、Murphy MR、O'Leary NA、Pujar S、Rajput B、Rangwala SH、Riddick LD、，Shkeda A、Sun H、Tamez P、Tully RE、Wallin C、Webb D、Weber J、Wu W、Dicuccio M、，Kitts P、Maglott DR、Murphy TD、Ostell JM。核酸研究2014,42（数据库问题）：D756-63
BUSCO公司：Manni M、Berkeley MR、Seppey M、Simáo FA、，Zdobnov EM公司。分子生物学与进化2021.38(10):4647-4654
重复遮罩：Smit AFA、Hubley R、Green P.RepeatMasker Open-3.0。1996–2004.http://www.repeatmasker.org
窗口掩码:Morgulis A、Gertz EM、Schäffer AA、Agarwala R。生物信息学2006,2:134-41
拆分（Splign）：Kapustin Y、Souvorov A、Tatusova T、Lipman D。生物直接2008,三:20
STAR公司:Dobin A、Davis CA、Schlesinger F、Drenkow J、Zaleski C、Jha S、Batut P、Chaisson M、Gingeras TR。生物信息学2013年1月1日；29(1):15-21.
最小值2：李H。生物信息学2018年9月15日；34(18):3094-3100

参考序列

综合参考序列

NCBI智人注释版本GCF_009914755.1-RS_2023_10

注释发布信息

程序集

基因和特征统计

功能计数

详细报告

特征长度

每个基因的转录本，每个转录本的外显子

每个基因的转录本，每个转录本的外显子

每个基因的转录本，每个转录本的外显子

每个基因的转录本，每个转录本的外显子

每个基因的转录本，每个转录本的外显子

基因注释的BUSCO分析

工具书类