美国国旗

美国政府的官方网站

NCBI书架。美国国立卫生研究院国家医学图书馆的一项服务。

NCBI手册[互联网]。第二版。贝塞斯达(医学博士):美国国家生物技术信息中心;2013-.

  • 本出版物仅供历史参考,信息可能已过时。

本出版物仅供历史参考,信息可能已过时。

NCBI手册封面

NCBI手册[互联网]。第二版。

显示详细信息

基因组参考联盟

、博士和,博士。

作者信息和附属机构

创建:.

预计阅读时间:17分钟

范围

美国国立生物技术信息中心是的成员基因组参考联盟(GRC),一个国际合作组织,监督人类、老鼠和斑马鱼参考的更新和改进基因组程序集。这些参考组件包括线性染色体表示,未缩放和未放置脚手架序列和替代位点支架为过于复杂的基因组区域提供了替代序列表示,而线性染色体路径无法充分表示这些区域。GRC生产两种类型的装配更新:(1)染色体坐标发生变化的主要释放,以及(2)次要版本,其中染色体坐标不变,更新作为独立的补丁支架序列提供。所有GRC组件均提交给国际核苷酸序列数据库协作组织(INSDC公司)数据库并公开。GRC不负责参考组件的注释。有关国家生物技术信息中心(NCBI)对GRC组件的注释的信息,请参阅手册中标题为“关于真核基因组处理和工具”的章节。

历史

2004年,人类基因组计划(HGP公司)发布了人类的最终版本(Build35)基因组组装(1). 这是一项重大成就,代表了十多个机构十多年来的努力,产生了有史以来最高质量的脊椎动物基因组和一种理解人类生物学的新工具。尽管取得了这一成就,但仍存在有限的差距、顺序和平铺路径引用程序集中仍然存在错误。因此,在HGP结束并发布其最终装配版本(Build36(UCSC名称:hg18))时,GRC被认为是持续管理和改进人体参考装配的机制。GRC随后负责在其主要测序工作结束后更新小鼠参考基因组组件释放(MGSCv37)(2),并且在2010年,GRC还在Zv9组装体发布后承担了斑马鱼参考基因组的责任。

GRC由四家机构组成。美国国立生物技术信息中心提供数据库并提供生物信息学支持联合体,并开发面向公众的GRC装配资源。与更新组装相关的测序和其他湿实验室工作由圣路易斯华盛顿大学基因组研究所和威康信托桑格研究所执行。后者与欧洲生物信息学研究所(EBI)一起为GRC提供额外的生物信息学支持和工具开发。

虽然最初设想GRC的主要角色是缺口-人类参考物的可用性使得填充和序列校正、基因组和种群生物学的进展成为可能基因组很快定义为新装配联合体的管理任务。值得注意的是,许多对人类基因组的研究揭示了以前未被认识的遗传变异的程度和形式(3-10). 原始装配模型由线性染色体序列被证明不足以代表这种变异。因此,GRC除了纠正装配错误外,还更新了用于表示这些生物体基因组的装配模型,并致力于提供参考装配中多样性的额外表示(11). 2009年,它生产了一个更新的人体组件(GRCh37(UCSC名称:hg19)),并于2012年发布了一个修订的鼠标组件(GRCm38(UCSC姓名:mm10)),这是新模型表示的前两个组件。如今,GRC仍致力于生产改进的参考组件,作为各种分析的宝贵基质。

数据模型

装配模型

重要的是要认识到基因组组装基因组是不一样的。基因组是定义生物体的物理遗传实体。组件不是物理对象;它是用来表示生物体基因组的所有序列的集合。GRC在其主持下使用参考基因组的特定组装模型(图1). 然而,此装配模型可用于几乎任何真核生物的基因组。在此模型中,序列属于不同的层次结构,并根据它们在装配中的角色分配给不同的装配单元。

图1。部件模型的示意图表示,显示部件单元和区域。

图1。

部件模型的示意图表示,显示部件单元和区域。主要的组装单元是提供基因组单倍体表示的序列集合。这包括染色体序列,以及未缩放的(更多…)

序列层次结构

由于当前的测序技术不允许以连续的方式从端到端对染色体进行测序,因此必须对其进行片段化、测序和重组,以便进行表征。重建感兴趣的分子所需的最小序列集合被称为其平铺路径.参考装配该模型包括三层附加序列。图2使用人类染色体6个(CM000668.1号机组)来说明这个层次结构。在这个层次结构的底部是平铺路径组件,在GRC参考组件的情况下,这些组件主要是基因组克隆或全基因组枪(工作组)连体画。中间是脚手架,它是一组有序和定向的组件。在这个层次结构的顶端是染色体序列。这些支架是从已经定位并定向的脚手架上组装而成的,这些脚手架通过代表未解决序列的间隙相互分离。A类基因组组装也可能包含脚手架染色体上下文定义不清或未知的序列。前一类描述了未缩放的脚手架。这些是分配给特定染色体的基因组序列,但其在该染色体中的位置目前无法明确定义。完全没有染色体背景的支架被称为未定位支架。

图2。人类6号染色体的序列层次(CM000668)。

图2。

人类6号染色体的序列层次(CM000668.1)。A: 组件序列。在这条染色体中,成分要么是克隆序列,要么是WGS连接。此处显示的有序组件集包含此染色体的平铺路径。B: 本地化的(更多…)

主要装配单元

主要装配单元是序列的集合,所有这些序列共同提供了生物体的单倍体表示基因组在开发此装配模型之前,人类参考装配仅由主要装配单元中的序列组成。因此,研究人员有时会错误地继续将初级装配单元中的序列集合称为参考装配。然而,这只是组成GRC组件的几个组件单元中的一个。

主要装配单元包括染色体序列和收集未缩放和未放置的支架。这些脚手架序列对初级装配单元做出了重要贡献。例如,在GRCh37初级装配单元中,与染色体1相关联的未缩放支架为氢2 基因座(GL000192.1号). 虽然已知该基因座位于第1号染色体上,但复杂的重复结构使染色体组装混乱,并使该支架被分配到三个间隙中的任何一个的可能性相同。因此,脚手架被指定为非定标。

备用本地装配单元

替代基因座装配单元包含表示主要序列中存在的序列变体的序列装配单元因此,它们允许一个集合提供超过单倍体的基因组。虽然交替位点集合单元中的序列没有大小限制,但通常是脚手架序列长度小于5 Mb。在不代表单个基因组的人类参考装配中,替代装配单元不是由单倍型相反,鼠标参考装配中的备用装配单元是按应变组织的;它们只包括除C57BL/6J以外的菌株的序列,C57BL/6J在初级组装单元中表示。尚未为斑马鱼参考组件定义任何备用组件。对于GRCh37,GRC实例化了7个替代位点集合单元,以便参考集合可以更好地代表主要组织相容性复合体中存在的多样性(MHC公司)人类区域染色体6,人类基因组中变化最大的区域之一(图3). 因此,GRCh37中的MHC有8个序列表示:一个在初级组装单元的染色体序列上(CM000668.1号机组)和7个来自属于7个交替位点装配单元的支架(GL000250.1-GL000256.1号).

图3。A: 人类基因组的象形图表示,区域的位置由GRCh37中的交替位点和补丁支架表示。

图3。

A: 人类基因组的象形图表示,区域的位置由GRCh37.p12组合中的交替位点和补丁支架表示。B: 6号染色体(CM000668.1)的放大图显示了3个局部支架(GL000052.1-GL000054.1)的位置(更多…)

补丁程序集单元

所有补丁都属于补丁装配单元。补丁是脚手架表示自引用程序集上一个主要版本以来对其进行的更新的序列。因此,补丁程序集单元在程序集的主版本发布时是空的。GRC每季度发布补丁程序;补丁程序集单元始终包含与引用程序集关联的补丁程序的完整集合。补丁不会改变主装配或替代基因座单位中任何序列的坐标。装配模型包括补丁的概念,因为它们提供了一种机制,使用户可以及时访问装配改进,而无需频繁发布涉及染色体协调许多研究人员发现具有破坏性的更新。GRC不将贴片支架整合到染色体中;它们只作为支架序列存在。

这里有两种类型的补片支架装配单元。修复补丁可以纠正主要和备用基因座集合单元中的错误,而新补丁可以向集合中添加新的序列变体。如所示图4,修复补丁GL339450.1标准提供单个单倍型代表ABO公司 基因座修正GRCh37中发现的混合的、不存在的单倍型,其中该位点跨越两个具有不同单倍型的组分。图5,新补丁GL383583.1标准显示为表示删除变体涉及亚太经合组织3AAPOBEC3B公司与先天免疫和逆转录病毒感染有关的基因。这种缺失变体在亚洲很常见,但在欧洲和非洲很少见,它创造了一种基因融合,亚太经合组织3A_B(12). 在程序集的下一个主要版本发布时,所有修复补丁脚手架序列将被弃用,因为它们所代表的变化将反映在主装配单元和备用座位装配单元中的序列中。相反,新的补丁支架序列将被保留,尽管它们将从补丁组装单元移动到适当的替代位点组装单元。

图4。顶部面板:GRCh37第9号染色体的RefSeq拷贝(NC_ 000009)。

图4。

顶部面板:GRCh37第9染色体的RefSeq拷贝(NC_ 000009.11)。带注释的RefSeq染色体NC_000009.11是GRC染色体CM000671.1的副本。底部面板:GRC修补程序GL339450.1的注释RefSeq副本(NW_003315925.1)。A: 蓝色条(更多…)

图5。顶部面板:GRCh37第22号染色体的RefSeq拷贝(NC_000022)。

图5。

顶部面板:GRCh37第22号染色体的RefSeq拷贝(NC_000022.10)。带注释的RefSeq染色体NC_000022.11是GRC染色体CM000684.1的副本。底部面板:GRC新补丁GL383583.1的注释RefSeq副本(NW_003315972.1)。A: 蓝色(更多…)

非核组件

尽管GRC不负责维护人类、小鼠或斑马鱼基因组的线粒体参考序列装配该模型包括一个用于非核组件的单元。人类线粒体参考序列线粒体图并由GRC根据参考文件分发基因组组装方便用户使用。

路线

虽然脚手架在补丁和备用装配单位没有染色体坐标,它们可以通过它们的对齐主装配序列。人体备用装配单元中的所有补片脚手架和脚手架至少包含一个锚定顺序作为第一个和/或最后一个组件(图45). 这些锚定序列是在主装配单元并包括在内,以确保交替轨迹 脚手架到主组件。由于小鼠装配中的替代位点装配单元具有应变特异性,因此其支架不包含来自主要装配单元的锚定序列。因此,小鼠备用基因座支架可能并不总是与主要装配单元对齐。

GRC生成替代基因座和补丁支架与主基因的比对装配单元并将这些路线提交给美国国立生物技术信息中心 装配 http://www.ncbi.nlm.nih.gov/assembly网站/数据库组件释放因此,这些比对是组件定义的一部分,并分布在GenBank上FTP文件带有装配序列的站点。路线区分了脚手架来自斑块或交替位点装配单元的序列不同于初级装配单元序列。图45还显示带注释的参考序列上述修复程序和新补丁的副本,以及相应的GRCh37染色体序列。

装配区域

GRC定义了初级序列上的离散区域装配单元其中备用基因座和补丁支架对齐。一个区域可能包含一个以上的补丁或替代基因座脚手架区域的范围由相应路线的最外侧边缘定义。GRC还定义了X和Y染色体上对应于伪常染色体区域(PAR)范围的区域,如通过它们彼此的比对所定义的。中的表意文字图3显示了与GRCh37组件关联的区域的位置。

程序集访问

所有GRC装配序列提交给GenBank(基因银行)程序集本身提交给美国国立生物技术信息中心 装配 数据库.每个脚手架染色体在程序集中接收accession.version,它是序列的唯一标识符。同样,装配单元和完整装配也会收到附加版本。这些标识符使用户能够跟踪每个程序集中的序列集合。GRC强烈建议作者在其出版物中包含所有装配序列的附加版本。由于序列坐标可能会随着每次accession.version更新而更改,因此使用这些标识符可以明确定义坐标-序列关系。这种用法消除了读者可能对基因、调控区或其他装配特征的坐标报告的特定序列产生的任何混淆。

数据流

图6提供了GRC数据流的示意图装配更新。GRC程序集以一组称为TPF公司(平铺路径文件)。TPF提供组成脚手架染色体但是,它们既没有指定组件的方向,也没有指定组件将有助于最终序列的特定子区域。GRC馆长下载TPF公司文件来自美国国立生物技术信息中心 数据库并通过添加、删除或重新排序组件(如其分析所示),用平铺路径的更改来更新它们。所有更新都是根据GRC制定的一系列装配管理标准操作程序进行的,GRC使用一个集中系统来跟踪受审查的装配区域。然后将TPF文件重新加载到数据库中,并在其中验证其格式和内容。版本控制系统确保记录所有TPF更新,文件的签入/签出系统防止多个管理员同时修改TPF。

图6。GRC程序集更新的数据流。

图6。

GRC程序集更新的数据流。

的修改版本美国国立生物技术信息中心NGAligner软件根据长度和百分比标识等标准识别和评估相邻组件之间的对齐。相邻装配组件通常具有燕尾型重叠(图7)尽管其他对齐有时会观察到类型。没有校准或校准不符合既定GRC评估标准的配对将优先进行审查。审查有三种可能的结果:(1)的TPF公司可以进一步更新以解决问题(2)可以管理和存储符合评估标准的新校准,或()尽管存在低质量比对(加入认证),GRC可能会提供外部证据支持序列配对。如果一对展品展示了不止一条路线,馆长将指定首选路线。成对对齐和评估结果存储到数据库因此,只需为新的或更新的TPF上的新序列对生成和评估比对。

图7。组件重叠和切换点示意图。

图7。

组件重叠和切换点示意图。蓝色和橙色条表示组件,灰色框表示对齐区域,位于每个对齐范围内的开关点用细长的红线表示。A: 完全燕尾榫对齐。(更多…)

美国国立生物技术信息中心-开发的软件还用于为每个对齐对选择开关点(图7). 开关点定义脚手架中各个组件的启动和停止位置。默认情况下,这发生在对齐对中第一个组件的最后一个底部。如果对齐当成分代表不同的单倍型或其他形式的变异时,可能会出现100%的同一性,GRC可能会筛选切换点,以包括或排除其中一个成分特有的序列。与路线一样,开关点存储在数据库和仅针对新的或更新的TPF上的新序列对生成。所有开关点都经过验证,以确保它们位于对齐的底座上。

美国国立生物技术信息中心序列康蒂格称为tpf_builder的构建软件使用tpf上指定的组件顺序以及存储的对齐和切换点来构建序列连接并生成AGP公司描述装配支架与染色体(图6). 在程序集的互发布期间,每次发生序列更改时都会运行此软件第三方融资更新。过程中遇到的任何错误都会报告给策展人进行审查,必要时会重复整个大会策展过程。在公众场合组件释放,tpf_builder被触发以生成最终的AGP文件集。斑块和交替位点的比对脚手架与初级装配的比对也在此时产生,基因组区域定义也是如此。这些文件提交给NCBI GenColl数据库然后加载到GenBank,最终发布了程序集。

有两种类型装配发布。GRC使用次要版本更新补丁装配单元。在次要版本中,补丁程序集单元和完整程序集的附加版本将增加。然而,初级装配单元和替代位点亚基的加入版本不会改变。因此,序列或任何装配染色体都没有变化。在一个专业组件释放,所有装配单元附加。版本将增加。主要部件发布与坐标更改关联染色体更新。用户可以通过比较最新组件版本中的主组件单元的附加版本与以前的组件版本,来区分新GRC组件代表主版本还是次版本:如果版本不变,则为次版本;如果它增加了,那么它就是一个主要版本。用户可以在中找到所有GRC程序集的accession.version信息NCBI程序集资源.

访问

用户可以下载GRC装配数据来自GenBank FTP现场。此数据包括序列、路线、装配区域定义和联接认证。这个基因组浏览器位于UCSC公司,合奏美国国立生物技术信息中心从GenBank获取程序集数据,为GRC程序集提供显示。GRC生成一个文件,为所有审查中的问题提供基因组位置,Ensembl和UCSC在其浏览器中显示为轨迹。所有三个浏览器都有显示主程序集中有补丁和备用基因座的区域的轨迹脚手架序列。

GRC为用户提供访问-装配 第三方融资和上的AGP文件GRC资金转移定价现场。虽然这些文件不建议用于出版物级分析,但由于其不稳定性和缺乏相应的附加序列,它们为用户提供了预览基因组变化。在这个FTP站点,GRC提供了一个带有注释的基因组位置的文件克隆零部件序列中的部件问题,也可以作为浏览器轨迹加载。

GRC致力于尽可能透明地更新人类、老鼠和斑马鱼参考集合。它保持了公共网站(图8)用户可以在其中找到装配当前和过去程序集版本的统计信息、未来更新的计划以及指向GRC博客。在GRC网站上,用户可以找到描述当前状态和GRC审查中个别问题的基因组位置的页面(图9). 用户可以通过以下功能搜索GRC网站以了解具体问题基因组位置、基因名称、加入或克隆name和链接用于查看主要浏览器中的相应区域。此外,GRC网站还包括以区域为中心的页面,这些页面提供了指向所有补丁、备用基因座和与指定区域相关的问题报告的问题报告和序列记录的链接,以及该区域的图形视图(图10). 该网站还为用户提供表格报告程序集问题直接发送给GRC,GRC被输入GRC跟踪系统,以及联系GRC关于大会的问题。

图8。GRC网站。

图8。

GRC网站。A: GRC公告。B: GRC博客的链接和亮点。C: 最近解决的装配问题的链接和重点。

图9。详情请参见GRC网站上的特定问题页面。

图9。

详情请参见GRC网站上的特定问题页面。A: 存储在GRC问题跟踪系统中的问题状态摘要。B: 显示问题位置的象形字(三角形)。C: 链接以显示页面上找到的NCBI Sviewer实例的关联区域(不是(更多…)

图10。来自GRC区域特定页面的NCBI Sviewer屏幕截图显示了6号染色体上人类主要组织相容性复合体(MHC)区域。

图10。

6号染色体上人类主要组织相容性复合体(MHC)区域的GRC区域特定页面显示的NCBI Sviewer屏幕截图。这个Sviewer实例包括几个用于评估染色体或支架的默认轨迹(更多…)

GRC还为用户提供了对评估的比对、切换点和上所有序列对的连接证书的访问权限装配TPF公司(图11). 用户可以通过组件加入或克隆姓名。这个TPF公司概述页面提供了TPF文件的增强视图,其中包括所有元件路线的评估状态、长度和百分比标识等信息。通过单击TPF概述页面中的评估状态标记访问OverlapView页面,提供对齐开关点每个的详细信息序列对以图形和文本格式。每个OverlapView页面上都有一个链接,可用于在Genome Workbench中查看比对。OverlapView页面提供有关数据库序列对的历史,其末端映射到任一组分的基因组克隆,以及重复屏蔽路线中的区域。在OverlapView页面中可以找到显示GRC管理员提交的连接证书的页面链接,该页面用于具有次优比对的序列对。

图11。A: TPF页面的搜索界面。

图11。

A: TPF页面的搜索界面。B: 详情来自TPF概述页面,用于显示增强型TPF文件显示表的小鼠16号染色体TPF。单击任何连接评估图标(C)都会将用户带到指定对的OverlapView页面。D: 详细信息(更多…)

MapViewer和Sviewer

用户可以在美国国立生物技术信息中心 地图查看器斯维耶资源。这些资源可以配置为显示包含装配数据。

克隆数据库

这个美国国立生物技术信息中心 克隆数据库维护作为GRC组件的基因组克隆以及其他非组件克隆的记录。这些记录包括序列、分配器和映射信息。

程序集数据库

所有GRC组件均提交至美国国立生物技术信息中心 装配数据库.

基因组重新定位服务

这个美国国立生物技术信息中心 基因组重新定位服务可以用于在不同的装配版本。

真核基因组注释管道

所有GRC组件均作为美国国立生物技术信息中心真核生物的 基因组注释管道。

工具书类

1
完成人类基因组的常染色序列。自然。2004;431(7011):931–45.[公共医学: 15496913]
2
Church DM、Goodstadt L、Hillier LW、Zody MC、Goldstein S、She X等。小鼠基因组组装完成后揭示的血统特异性生物学。公共科学图书馆生物学。2009;7(5) :e1000112。[PMC免费文章:PMC2680341] [公共医学: 19468303]
三。
Iafrate AJ、Feuk L、Rivera MN、Listewnik ML、Donahoe PK、Qi Y等。人类基因组大规模变异的检测。自然遗传学。2004;36(9):949–51.[公共医学: 15286789]
4
Conrad DF、Andrews TD、Carter NP、Hurles ME、Pritchard JK。人类基因组中缺失多态性的高分辨率调查。自然遗传学。2006;38(1):75–81.[公共医学: 16327808]
5
Hinds DA、Kloek AP、Jen M、Chen X、Frazer KA。人类基因组中常见的缺失和SNP处于连锁不平衡状态。自然遗传学。2006;38(1):82–5.[公共医学: 16327809]
6
Tuzun E、Sharp AJ、Bailey JA、Kaul R、Morrison VA、Pertz LM等。人类基因组的精细结构变异。自然遗传学。2005;37(7):727–32.[公共医学: 15895083]
7
Mills RE、Luttig CT、Larkins CE、Beauchamp A、Tsui C、Pittard WS等。人类基因组插入和删除(INDEL)变异的初始图谱。基因组研究。2006;16(9):1182–90.[PMC免费文章:PMC1557762] [公共医学:16902084]
8
Korbel JO、Urban AE、Affourtit JP、Godwin B、Grubert F、Simons JF等。配对基因图谱揭示了人类基因组中广泛的结构变异。科学。2007;318(5849):420–6。[PMC免费文章:PMC2674581] [公共医学: 17901297]
9
Kidd JM、Cooper GM、Donahue WF、Hayden HS、Sampas N、Graves T等。八个人类基因组结构变异的绘图和测序。自然。2008;453(7191):56–64.[PMC免费文章:PMC2424287] [公共医学: 18451855]
10
Sharp AJ、Locke DP、McGrath SD、Cheng Z、Bailey JA、Vallente RU等。人类基因组中的片段复制和拷贝数变异。美国人类遗传学杂志。2005;77(1):78–88.[PMC免费文章:PMC1226196] [公共医学: 15918152]
11
Church DM、Schneider VA、Graves T、Auger K、Cunningham F、Bouk N等,参考基因组组装现代化。公共科学图书馆生物学。2011;9(7) :e1001091。[PMC免费文章:PMC3130012] [公共医学: 21750661]
12
Kidd JM、Newman TL、Tuzun E、Kaul R、Eichler EE。常见APOBEC基因缺失多态性的群体分层。公共科学图书馆遗传学。2007;(4) :e63。[PMC免费文章:PMC1853121] [公共医学: 17447845]

意见

最近的活动

您的浏览活动为空。

活动录制已关闭。

重新打开录制

查看更多。。。