AGP规范v2.1
简介:
它是什么:描述从较小对象中组合较大序列对象的过程。大对象可以是一个contig、一个scaffold(super-contig)或一条染色体。AGP文件的每一行描述了对象的不同部分,并具有下面定义的列条目。随后是扩展注释。
它不是什么:既没有描述序列读取是如何组装的,也没有描述用于构建更大对象的组件之间的对齐。并非专有装配文件中的所有信息都可以用AGP格式表示。它也不是用来记录重复或基因等特征的跨度。
从2.0版更改为2.1版:
此版本取代版本2.0AGP文件规范。这些变化包括:
- “proximity_结扎”添加到接受的链接证据值集
- 将“pcr”添加到可接受的链接证据值集中
- 添加了“污染”间隙类型
- “配对-end”连锁证据的定义扩展到包括“配对”和分子条形码技术
定义:
- Contig公司:
- 基于序列重叠,通过连接一个或多个较小的序列而形成的非冗余序列。较小的序列通常是提交给国际序列数据库合作组织(GenBank/EMBL/DDBJ)的序列。序列contig中应该没有间隙(尽管由于不明确的基调用可能会出现Ns的短运行)。
- 脚手架(超级混凝土):
- 通过连接一个或多个连续序列而形成的非冗余序列。区别在于,构建较大的序列不需要序列重叠。其他信息(如克隆结束分析)可以支持这种关系。脚手架上可能会有间隙,通常也会有间隙。
- 间隙:
- 对象中没有已知序列的子区域。通常表示为一系列字母“N”
- 组件:
- 用来构造更大序列的序列。
AGP文件的一个特性是,列定义会根据线是元件线还是间隙线而变化。第5列之前只有一个列定义,然后每列将有两个定义,具体取决于第5列中的值。
描述中断和连续性:
有关连续性的信息由gap_type(第7b列)和linkage(第8b列)组合提供,后者提供了有关构建对象的信息。本规范的第一个版本没有明确定义如何使用这些列,因此目前使用这些列的方式存在分歧。下面是关于如何对信息进行编码的建议。
描述方向未知的支架:
有时,在没有足够数据来确定支架方向的情况下,支架可以沿着染色体或连锁群定位。这样放置但没有定向的支架可以在AGP中表示,AGP指定了染色体或连锁群是如何通过使用“?”从支架中组装的在方向栏(9a)中(参见示例“支架中的染色体”)。使用“?”方向是不合适的在AGP中,该AGP指定染色体如何从组件组装而成,但任何未架构化到其他组件(单件)的组件除外。使用方向“?”对于多组件脚手架中的所有组件来说,这是一种误导,因为这样做意味着组件位于指定的位置,但可以是任意一个方向。然而,根据脚手架的方向,无方向多组件脚手架中的组件要么位于“+”方向的指定位置(默认),要么位于“-”方向的不同位置。表示支架已放置但其方向未知的首选方法是提供两个AGP文件,第一个文件用组件构建支架,第二个文件用支架构建染色体。脚手架的未知方向将在染色质-荧光-咖啡色AGP文件中用“?”表示。
验证:
文件结构需要通过以下方式进行验证:
- 列以制表符分隔
- 数字数据的所有列都必须包含正整数
- 访问标识符必须有效,并且必须包含版本号
- 具有受控值的列只能使用这些值
- 所有列都必须有一些数据
文件内容需要通过以下方式进行验证:
- 每个对象必须以part_num为1和object_beg坐标为1开始。
- 所有对象范围必须连续且不重叠
- object_beg必须小于或等于object_end
- component_beg必须小于或等于component_end
- 组件的特定跨度必须有效。
- 为组件指定的跨距长度(第7列和第8列)必须与为对象指定的跨径长度(第2列和第3列)匹配。
- 如果组件之间不存在间隙线,则定义的开关点应与两个组件的对齐一致。
- 所有间隙长度必须为1个基准或更长。
示例