美国国旗

美国政府的官方网站

美国国立生物技术信息中心智人注释版本105

这个参考序列基因组记录智人由注释NCBI真核生物基因组注释管道这是一个自动管道,用于注释草图和成品基因组装配上的基因、转录物和蛋白质。本报告显示注释产品、管道中使用的输入数据和中间对齐结果。

注释产品可在序列数据库和FTP站点。

本报告提供:

有关注释过程的更多信息,请访问NCBI真核生物基因组注释管道页面.


注释发布信息

该注释应称为NCBI智人注释版本105

注释版本ID:105
Entrez查询转录本和蛋白质的日期:2013年8月3日
向公共数据库提交注释的日期:2013年8月13日
软件版本:5.1

程序集

此注释运行中包含以下程序集:
程序集名称加入大会提交人组装日期参考/替代程序集内容
GRCh37.p13型GCF_000001405.25号基因组参考联盟06-28-2013参考25条组装染色体;未放置的脚手架
CHM1_1.1型GCF_000306695.2号华盛顿大学医学院2013年6月14日备用23条组装染色体
CRA_TCAGchr7v2总金额000002135.2应用基因组学中心09-01-2004备用1条组装的染色体
HuRef(HuRef)GCF_ 000002125.1J.Craig Venter研究所09-24-2007备用24条组装染色体;未放置的脚手架

基因和特征统计

下面为每个部件提供了注释特征的数量和长度。

功能计数

功能GRCh37.p13型GRCh37.p13型
主要组件
GRCh37.p13型
所有备用位置
GRCh37.p13型
补丁
CHM1_1.1型CRA_TCAGchr7v2HuRef(HuRef)
基因和假基因帮助40,15839,9474282,47139,0092,10638,070
蛋白质编码20,17620,0721931,30819,89299319,668
非编码7,6677,627943487,5293807151个
假基因12,31512248个14181511,58873311,251
具有变异的基因15,06814,9941407478,7184188,620
  放置在多个装配单元上帮助2,665349
mRNA67,51764,7341,3603,59435,1421,64534,843
完全支持67,26764,5141,3603,56434,9411,63134,630
  初始>5%帮助20318102216211180
部分1161382189602284,357
  放置在多个装配单元上帮助2,171293
  已知RefSeq(NM_)帮助34,63234,6063401,85734,3671,6022012年
型号RefSeq(XM_)32,88530128年1,0201,73777543631
  带修正的模型RefSeq(XM_)帮助17150221015
其他RNA帮助15,06314,15144375411,40857610,854
完全支持13,59913,12319965610,3845229,960
  初始>5%帮助0000000
部分2,3692,370411172,4011092,557
  放置在多个装配单元上帮助27960
  已知RefSeq(NR_)帮助6,6236,618803046,4582836,328
  型号RefSeq(XR_)帮助7,0116,5381193543,9462423,650
信用违约互换68,03565,0991,3603,73535,5221,72535173个
完全支持67,26764514年1,3603,56434941人1,63134,630
  初始>5%帮助22019702317512192
部分961182161313122966个
  已知RefSeq(NP_)帮助34,63234,6053401,84634,3651,60234,185
  模型RefSeq(XP_)帮助32,88530,1281,0201,73777543631
  带修正的模型RefSeq(XP_)帮助17150221015

详细报告

基因组序列的屏蔽

在重复标记的基因组上进行转录和蛋白质比对。以下是基因组序列被掩盖的百分比窗口掩码重复遮罩对于每个组件。重复遮罩结果仅用于具有综合重复文库的生物体可用。

对于这个注释运行,转录物和蛋白质与仅用RepeatMasker掩盖的基因组对齐。
程序集名称加入大会%使用重复遮罩进行遮罩%用WindowMasker屏蔽
GRCh37.p13型GCF_000001405.25号47.15%34.24%
CHM1_1.1型GCF_000306695.2号47.21%34.29%
CRA_TCAGchr7v2总金额000002135.249.20%36.89%
HuRef公司GCF_ 000002125.150.19%36.42%

转录和蛋白质比对

注释管道在很大程度上依赖于实验证据的对齐基因预测。以下是检索到的转录本和蛋白质集来自Entrez,通过拆分(Splign)ProSplign公司并传递给格诺蒙,NCBI的基因预测软件。

根据其他可用证据,长454读(平均长度高于250 nt)可作为传统证据,并在成绩单对齐截面或对齐通过简短阅读和报告简短阅读转录比对第节。

成绩单对齐

RefSeq转录本比对质量报告

已知的参考序列转录本(NM_和NR_材料)是一组高质量的转录本由维护参考序列这组成绩单的对齐统计信息,例如百分比和根本没有对齐的序列数,最佳对齐百分比多个支架和未覆盖整个CDS的百分比排列是指示性的基因组质量的差异,如下所示。

GRCh37.p13型
主要组件
CHM1_1.1型
主要组件
CRA_TCAGchr7v2
主要组件
HuRef公司
主要组件
从Entrez检索的序列数42339个42,33942,33942339人
未对齐的序列数(%)20 (0.05%)60 (0.14%)39,716 (94.39%)253 (0.60%)
具有多个最佳比对(分裂基因)的序列数(%)30 (0.07%)26 (0.06%)1 (0.05%)326 (0.78%)
CDS覆盖的序列数(%)< 95% 帮助65 (0.19%)234 (0.68%)6 (0.37%)1,981 (5.77%)

短读成绩单比对

以下简短读取(RNA-Seq)短读存档也用于基因预测:

 隐藏对齐方式统计学

蛋白质比对

备用件的装配装配对准参考组件

当生物体有多个高质量的组件可用时,注释所有工作都是协调进行的。备用组件与参考对齐集合和最佳交互最佳命中用于识别相应区域,然后可以一起注释。

以下是一个程序集对另一个程序集中的覆盖率和平均覆盖率路线的标识。“第一次通过”路线是相互的最佳命中率,而“总”路线还包括“第二次通过”或非互惠最佳路线。对于有关装配-装配对齐过程的更多信息,请访问NCBI基因组重新定位服务第页.

第一次通过总计
CHM1_1.1(替代)覆盖率:99.68%CHM1_1.1(替代)覆盖率:99.90%
GRCh37.0p13(参考)覆盖率:94.22%GRCh37.0p13(参考)覆盖率:98.73%
同一性百分比:99.89%同一性百分比:99.86%
第一次通过总计
CRA_TCAGchr7v2(替代)覆盖率:99.75%CRA_TCAGchr7v2(替代)覆盖率:99.92%
GRCh37.p13(参考)覆盖率:5.18%GRCh37.p13(参考)覆盖率:5.50%
标识百分比:99.94%标识百分比:99.91%
第一次通过总计
HuRef(替代)覆盖率:99.04%HuRef(替代)覆盖率:99.45%
GRCh37.p13(参考)覆盖率:93.01%GRCh37.p13(参考)覆盖率:97.88%
同一性百分比:99.87%同一性百分比:99.80%

工具书类