美国国旗

美国政府的官方网站

AGP规范v2.1

简介:

它是什么:描述从较小对象中组合较大序列对象的过程。大对象可以是一个contig、一个scaffold(super-contig)或一条染色体。AGP文件的每一行描述了对象的不同部分,并具有下面定义的列条目。随后是扩展注释。

它不是什么:既没有描述序列读取是如何组装的,也没有描述用于构建更大对象的组件之间的对齐。并非专有装配文件中的所有信息都可以用AGP格式表示。它也不是用来记录重复或基因等特征的跨度。

从2.0版更改为2.1版:

此版本取代版本2.0AGP文件规范。这些变化包括:

  • “proximity_结扎”添加到接受的链接证据值集
  • 将“pcr”添加到可接受的链接证据值集中
  • 添加了“污染”间隙类型
  • “配对-end”连锁证据的定义扩展到包括“配对”和分子条形码技术

定义:

Contig公司:
基于序列重叠,通过连接一个或多个较小的序列而形成的非冗余序列。较小的序列通常是提交给国际序列数据库合作组织(GenBank/EMBL/DDBJ)的序列。序列contig中应该没有间隙(尽管由于不明确的基调用可能会出现Ns的短运行)。
脚手架(超级混凝土):
通过连接一个或多个连续序列而形成的非冗余序列。区别在于,构建较大的序列不需要序列重叠。其他信息(如克隆结束分析)可以支持这种关系。脚手架上可能会有间隙,通常也会有间隙。
间隙:
对象中没有已知序列的子区域。通常表示为一系列字母“N”
组件:
用来构造更大序列的序列。

文件格式:

AGP文件的一个特性是,列定义会根据线是元件线还是间隙线而变化。第5列之前只有一个列定义,然后每列将有两个定义,具体取决于第5列中的值。

AGP文件格式
内容 描述
1 对象 这是正在组装的对象的标识符。这可以是染色体、支架或连体。如果没有使用附加版本标识符来描述对象,则命名约定是在染色体编号之前加上“chr”(例如chr1),在链接组编号之前加“LG”(例如LG3)。Contigs或scaffold可以具有在组件中唯一的任何标识符。
2 对象(_beg) 第1列中对象上组件/间隙的起始坐标。这些是对象坐标系中的位置,而不是组件的位置。
对象结束(_E) 第1列中对象上组件/间隙的结束坐标。这些是对象坐标系中的位置,而不是组件
4 部件_编号 构成第1列中所述对象的组件/间隙的行数。
5 组件类型 组件的排序状态。这些通常对应于国际序列数据库(GenBank/EMBL/DDBJ)提交中的关键字。当前可接受的值为:
A类
主动修整
D类
Draft HTG(通常第1阶段和第2阶段称为Draft,无论它们是否具有Draft关键字)。
F类
成品HTG(第3阶段)
G公司
全基因组整理
O(运行)
其他序列(通常表示没有HTG关键字)
P(P)
初稿
WGS续
N个
规定尺寸的间隙
U型
未知大小的间隙,默认为100个基数。
第6页 组件id 如果第5列不等于N或U:这是构成第1列所述对象的序列组件的唯一标识符。理想情况下,这将是由GenBank/EMBL/DDBJ分配的有效访问版本标识符。如果序列尚未提交到公共存储库,则应使用本地标识符。
6b条 间隙_长度 如果第5列等于N或U:此列表示间隙的长度。
N型间隙可以是任何长度。所有U型间隙的长度必须为100。
第7页 组件_beg 如果第5列不等于N或U:此列指定构成第1列中对象的组件序列部分的开始(在组件坐标中)。
7亿 间隙_类型

如果第5列等于N或U:此列指定间隙类型。

接受值:

脚手架:
支架(超支架或超支架)中两个连续序列之间的间隙。
续:
两个连续序列之间的未扫描间隙。
着丝粒:
为着丝粒插入的缝隙。
短警报(_A):
插入端着丝粒染色体起始处的间隙。
异染色质:
为异色序列的特别大区域插入的间隙(也可以包括着丝粒)。
端粒:
为端粒插入的缝隙。
重复:
无法解决的重复。
污染:
插入到外部序列位置以保持坐标的间隙。
第8页a 组件结束(_E) 如果第5列不等于N或U:此列指定构成第1列中对象的组件部分的末端(在组件坐标中)。
8b个 联动装置

如果第5列等于N或U:此列指示相邻行之间是否存在链接的证据。

数值:

第九章 方向

如果第5列不等于N或U:此列指定组件相对于第1列中对象的方向。

数值:

+
-
?
未知的
0(零)
未知(已弃用)
不相关的

默认情况下,具有未知方向(?、0或na)的组件将被视为具有+方向。

9亿 联系证据 如果第5列等于N或U:这指定了用于断言链接的证据类型(如第8b列所示)。接受值:
未断言链接时使用(列8b为“no”)
成对插入
DNA片段两端的成对序列、配对和分子编码。
align_属
同一属内参考基因组的比对。
对齐_属
与另一个属内参考基因组的比对。
对齐trnscpt
与来自同一物种的转录物的比对。
包含克隆(_C)
gap两侧的序列来自同一克隆,但gap不是由成对的ends跨越的。相邻的序列contigs具有未知的顺序和方向。
克隆康提
连锁是由平铺路径(TPF)中的克隆重叠群提供的。例如,一个缺口,其中有一个已知的克隆,但还没有该克隆的序列。
地图
使用非序列地图(如RH、链接、指纹或光学地图)断言的链接。
聚合酶链反应
在缺口两侧使用引物进行PCR。
邻近结扎
连接在染色质中接近的DNA片段(Hi-C和相关技术)。
闸门
选通测序。
未指定
仅用于类型污染的间隙,以及将缺少链接证据字段的旧AGP转换为新格式时。

如果有多行证据支持关联,则可以使用“;”列出所有证据分隔符(例如paired-ends;align_xgenia)。

扩展注释:

  • 列应以制表符分隔。行以新行结尾(\n)。单个标记周围不应有额外的空间。
  • 文件中给出的所有坐标都是从1开始的,包括1在内(不是从0开始的)。即对象的第一个基数为1(而不是0)。
  • 联系的证据。一般来说,连锁的证据是由配对基因(有时称为配对)提供的,尽管也可以使用其他证据。在某些情况下,联系的证据可能是间接的。例如,给定以下脚手架:A——B——C——D如果A、B、C和D是组件,则可能存在连接A和B的配对元素,以及连接A和C的配对元素。可能没有配对元素连接B和C,但暗示了它们的链接。使用配对词作为A/B和B/C之间差距的关联证据。
  • 如果对象是序列连接或脚手架,则对象不应以间隙线开始或结束。染色体通常以一种或多种生物间隙类型(例如端粒或short_arm)开始或结束。
  • 脚手架的缝隙通常由构件侧面构成,而不是由其他缝隙线构成。通常,不鼓励连续的间隙线,除非间隙暗示某些生物定义的实体(例如着丝粒、异染色质等)。
  • 无论构件的方向如何,对象的坐标都是相对于正绞线的。
  • object_beg(第2列)应始终小于或等于object_end(第3列)。
  • component_beg(第7列)应始终小于或等于component-end(第8列)。
  • 每个对象必须以part_num(第4列)和object_beg坐标(第2列)开头。
  • 间隙长度必须为正值。负间隙和长度为零的间隙线无效。
  • 对于负间隙或未知大小的间隙,使用U作为component_type,使用100作为间隙大小,因为100是GenBank/EMBL/DDBJ对未知大小间隙的标准。
  • HTGS_PHASE1 BAC克隆中序列连接体之间的间隙通常具有间隙类型“scaffold”、链接“yes”和证据类型“within_clone”。组件类型应为U,间隙大小为100(在第5和6b列中输入)。
  • 对于由单个组件(单个脚手架)组成的任何未放置脚手架的组件,使用“+”方向。
  • 鼓励在文件开头使用以#符号开头的注释行。此类标题中包含的有用信息是:

    • agp-version杂注(例如#agp-version2.1)
    • 生物体名称
    • 程序集名称
    • 任何非标准对象标识符的描述

    AGP正文中不得出现注释行。-只有当类型图提供了相邻序列连接之间的连接证据时,才应使用类型图的连接证据。当使用地图对染色体上的支架进行排序和定向时,不应使用它。

描述中断和连续性:

有关连续性的信息由gap_type(第7b列)和linkage(第8b列)组合提供,后者提供了有关构建对象的信息。本规范的第一个版本没有明确定义如何使用这些列,因此目前使用这些列的方式存在分歧。下面是关于如何对信息进行编码的建议。

间隙_类型 联动装置 解释和说明
有支架内间隙:间隙两侧的序列位于单个支架内。
脚手架 不要破坏脚手架
有证据表明,间隙两侧的序列连续体之间存在联系。
重复 不要破坏脚手架
如果链接证据跨越了无法解析的重复单元,则链接将为“是”。
污染 不要破坏脚手架
视为链接,以保留原始脚手架,但链接证据“未指定”。
脚手架缺口:缺口两侧的序列位于单独的脚手架中。
康蒂格 破坏脚手架
连续缺口表明没有证据表明相邻序列连续。
重复 破坏脚手架
如果一个无法解决的重复单元没有被链接证据跨越,则链接将为“否”。
着丝粒/短臂/异染色质/端粒 破坏脚手架
这些生物类型的间隙用于沿着染色体铺设支架。
无效的间隙/连杆组合
连续的 无效
如果有证据表明相邻序列连接之间存在连接,则间隙类型应为脚手架。
脚手架 无效
如果没有证据表明相邻序列连体之间存在联系,则间隙类型应为连体。
着丝粒/短臂/异染色质/端粒 无效
在支架内使用这些生物类型是无效的。

描述方向未知的支架:

有时,在没有足够数据来确定支架方向的情况下,支架可以沿着染色体或连锁群定位。这样放置但没有定向的支架可以在AGP中表示,AGP指定了染色体或连锁群是如何通过使用“?”从支架中组装的在方向栏(9a)中(参见示例“支架中的染色体”)。使用“?”方向是不合适的在AGP中,该AGP指定染色体如何从组件组装而成,但任何未架构化到其他组件(单件)的组件除外。使用方向“?”对于多组件脚手架中的所有组件来说,这是一种误导,因为这样做意味着组件位于指定的位置,但可以是任意一个方向。然而,根据脚手架的方向,无方向多组件脚手架中的组件要么位于“+”方向的指定位置(默认),要么位于“-”方向的不同位置。表示支架已放置但其方向未知的首选方法是提供两个AGP文件,第一个文件用组件构建支架,第二个文件用支架构建染色体。脚手架的未知方向将在染色质-荧光-咖啡色AGP文件中用“?”表示。

验证:

文件结构需要通过以下方式进行验证:

  • 列以制表符分隔
  • 数字数据的所有列都必须包含正整数
  • 访问标识符必须有效,并且必须包含版本号
  • 具有受控值的列只能使用这些值
  • 所有列都必须有一些数据

文件内容需要通过以下方式进行验证:

  • 每个对象必须以part_num为1和object_beg坐标为1开始。
  • 所有对象范围必须连续且不重叠
  • object_beg必须小于或等于object_end
  • component_beg必须小于或等于component_end
  • 组件的特定跨度必须有效。
  • 为组件指定的跨距长度(第7列和第8列)必须与为对象指定的跨径长度(第2列和第3列)匹配。
  • 如果组件之间不存在间隙线,则定义的开关点应与两个组件的对齐一致。
  • 所有间隙长度必须为1个基准或更长。

示例

上次更新时间:2019-11-02T02:10:45Z