AGP规范V2.1

说明

它是什么:描述从较小的对象组装较大的序列对象。大对象可以是一个重叠群,一个支架(超重叠群)或一个染色体。AGP文件的每一行(行)描述了一个不同的对象,并具有下面定义的列条目。后续的评论如下。

不是什么:既不描述序列读取如何组装,也不描述用于构建更大对象的组件之间的对齐。并不是所有的专有汇编文件中的信息都可以用AGP格式来表示。它也不是用来记录重复或基因等特征的跨度。

从V2.0到V2.1的变化:

本版本取代版本2AGP文件规范。这些变化是:

  • “邻近性连接”添加到一组接受的联动证据值中
  • “PCR”添加到一套公认的联动证据值
  • “污染”间隙类型添加
  • “配对末端”连锁证据的定义扩展为“配对对”和分子条形码技术

定义

Contig:
基于序列重叠、一个或多个较小序列的连接形成的非冗余序列。较小的序列通常是已经提交给国际序列数据库协作(GenBank /EMBL/DDBJ)的序列。序列CONTIG中不应该有间隙(尽管由于基础调用不明确,NS可能有短时间运行)。
脚手架(超连续):
通过连接一个或多个序列重叠群而形成的非冗余序列。区别在于不需要序列重叠来构造更大的序列。附加信息,如克隆端分析,可以支持关系。脚手架中可能存在,并且通常存在间隙。
Gap
在没有已知序列的对象内的子区域。一般表示为一系列字母“n”。
组件
用于构造更大序列的序列。

文件格式:

AGP文件的一个特点是列定义取决于该行是一条组成线还是一条空隙线。列5中有一个列定义,然后每个列将有两个定义,这取决于列5中的值。

AGP文件格式
专栏 内容 描述
目标 这是正在组装的对象的标识符。这可以是染色体、支架或重叠体。如果不使用Access .Vistor标识符来描述对象,命名约定是用“CHR”(例如CHR1)和与LG(例如LG3)的链接组编号进行染色体编号。重叠体或支架可以具有在组装体中唯一的任何标识符。
对象BEG 第1列中对象/部件的起始坐标。这些是对象坐标系统中的位置,而不是组件的位置。
对象结束 列1中对象/部件的结束坐标。这些是对象坐标系统中的位置,而不是组件的位置。
部分中子数 构成第1栏中描述的对象的组件/空隙的行计数。
组件类型 成分的测序状态。这些通常对应于国际序列数据库(GenBank /EMBL/DDBJ)提交中的关键字。当前可接受的值是:
主动整理
D
草案HTG(通常阶段1和阶段2被称为草案,无论他们是否有草案关键字)。
f
完成HTG(阶段3)
G
全基因组整理
o
其他序列(通常意味着没有HTG关键字)
预牵伸
W
WGS重叠群
N
指定尺寸的间隙
U
空白大小未知,默认为100个碱基。
6A 组件标识 如果列5不等于N或U:这是对列1中描述的对象贡献的序列分量的唯一标识符。理想情况下,这将是GenBank /EMBL/DDBJ指定的一个有效的访问权限。如果该序列尚未提交给公共存储库,则应该使用本地标识符。
6B 间隙长度 如果列5等于N或U,则该列表示间隙的长度。
n型间隙可以是任意长度的。必须为所有U型间隙使用100的长度。
7A 组件BEG 如果列5不等于n或u,则该列指定在列1(在组件坐标)中有助于对象的组件序列的一部分的开头。
7b 盖普型

如果列5等于n或u:则该列指定间隙类型。

公认价值观:

脚手架:
在支架(超支架或超脚手架)中两个序列重叠群之间的间隙。
康蒂格:
两个序列重叠群之间的未跨越的间隙。
着丝粒:
为着丝粒插入的间隙。
短臂:
在末端着丝粒染色体开始时插入的间隙。
异染色质:
为特别大的异色序列区域插入的间隙(也可以包括着丝粒)。
端粒:
端粒插入的间隙。
重复:
无法解决的重复
污染:
插入一个间隙来代替外部序列来保持坐标。
8A 组件端 如果列5不等于n或u,则该列指定在列1中(在组件坐标中)对对象贡献的组件的结尾。
8B 连杆机构

如果列5等于N或U:该列指示是否存在相邻行之间的链接的证据。

价值观:

9A 方向

如果列5不等于n或u,则该列指定组件相对于列1中对象的定向。

价值观:

+
-
未知
0(零)
未知数(弃权)
无关的

默认情况下,未知方向的组件(?),0或NA)对待,好像他们有+取向。

9b 连锁证据 如果列5等于N或U:则指定用于声明链接的证据类型(如列8B中所示)。公认价值观:
当没有链接被声明时使用(列8b是“否”)
成对端
DNA序列片段的配对序列、配对对和分子条形码。
对准属
对准同一属内的参考基因组。
对齐叶蝉属
对准另一属内的参考基因组。
对齐方式
对准来自同一物种的转录物。
无性系
间隙两侧的序列来自同一个克隆,但间隙不是由配对末端跨越的。相邻序列重叠群具有未知的顺序和方向。
克隆人
在克隆路径(TPF)中由克隆COLTIG提供链接。例如,存在已知克隆的间隙,但该克隆还没有序列。
地图
使用非序列的地图,如RH,连杆,指纹或光学联动。
PCR
PCR使用引物的两侧两侧的间隙。
近距离结扎
连接到染色质中的DNA片段(HI-C和相关技术)的结扎。
频闪
频闪序列分析
未指定的
仅用于类型污染的间隙,并且当将缺少连接证据的字段的旧AGP转换成新格式时。

如果有多条证据支持链接,所有都可以用“;”分隔符(例如,配对结束;对齐x-亏格)列出。

扩展意见:

  • 列应该是制表符分隔的。行以新的行(\n)结束。在个人代币周围不应该有额外的空间。
  • 文件中给出的所有坐标都是基于1的包容(不是基于0)。也就是说,物体的第一基座是1(不是0)。
  • 连锁证据。一般来说,联动的证据是由成对的末端(有时称为配对对)提供的,尽管可以使用其他证据。在某些情况下,联动的证据可能是间接的。例如,给定下面的脚手架:A A -B -C -D,其中A、B、C和D是组件,可以有连接A和B的成对端和连接A和C.的成对端,可能没有连接B和C的配对端,但是它们的连接是隐含的。使用配对的末端作为A/B和B/C之间的间隙的联动证据。
  • 如果对象是序列重叠或脚手架,则对象不应该以间隙线开始或结束。染色体经常以一个或多个生物间隙类型(例如端粒或短臂)开始或结束。
  • 一个类型的脚手架的间隙通常是由部件两侧,而不是由其他缝隙线。通常,不鼓励连续的间隙线,除非在暗示某些生物学定义的实体(例如着丝粒、异染色质等)的间隙中。
  • 物体的坐标都是关于正股线,而不管部件的方向。
  • BubjeBeg(第2列)应该总是小于或等于ObjutixEnter(第3列)。
  • 组件Teg BEG(第7列)应该总是小于或等于组件Type(第8列)。
  • 每个对象必须以1(列4)和对象1的坐标(第2列)为单位开始。
  • 间隙长度必须是正的。负间隙和零长度的间隙线是无效的。
  • 对于负间隙,或未知尺寸的间隙,使用U作为分量Type类型和100作为间隙尺寸,因为100是GenBank /EMBL/DDBJ标准,用于未知尺寸的间隙。
  • 在HTGSS1阶段BAC克隆中的序列重叠群之间的间隙通常具有间隙类型的“支架”、连锁“是”和“证据类型”与“克隆”。组件类型应该是U,并且间隙大小100(列5和6B中输入)。
  • 使用“+”的一个方向的组成部分,任何未放置的脚手架组成的一个单一的组成部分(一个单独的脚手架)。
  • 鼓励使用注释符号,从符号开始,在文件的头上。包括在这样的标题中的有用信息是:

    • AGP版本PrAPMA(例如,α-AGP版本2.1)
    • 生物名称
    • 程序集名称
    • 任何非标准对象标识符的描述

    注释行不能出现在AGP的主体内。当地图被用于在染色体上定位和定位支架时,不应该使用它。

描述断裂和连续性:

关于连续性的信息由GAPHY类型(列7B)和提供构建对象的信息的链接(列8B)的组合提供。本规范的第一个版本没有具体定义如何使用这些列,因此它们当前使用的方式有分歧。下面是一个关于信息应该如何编码的建议。

盖普型 连杆机构 解释与描述
在支架间隙内:间隙两侧的序列在单个支架中。
脚手架 不破脚手架
有证据表明,连接两侧重叠的间隙。
重复 不破脚手架
如果一个不可解析的重复单元被链接证据所支持,则链接将是“是”。
污染 不破脚手架
被视为保持原来的脚手架,但连锁证据“未指定”。
支架断裂间隙:间隙两侧的序列在单独的支架中。
重叠群 折断脚手架
一个重叠的间隙表明没有证据来链接相邻序列重叠群。
重复 折断脚手架
如果一个不可解析的重复单元没有被链接证据所支持,则链接将是“否”。
着丝粒/短臂/异染色质/端粒 折断脚手架
这些生物类型的间隙用于沿染色体铺设支架。
无效间隙/连杆组合
重叠群 无效
如果有证据表明相邻序列重叠群之间的联系,间隙类型应该是支架。
脚手架 无效
如果没有相邻序列重叠群之间的联系,则间隙类型应该是重叠的。
着丝粒/短臂/异染色质/端粒 无效
在支架中使用这些生物类型是无效的。

描述未知方位的支架:

支架有时可以沿着染色体或连锁群定位,而没有足够的数据来定位支架。这种放置但不定向的支架可以在AGP中指明,它通过使用“?”来指定如何从支架组装染色体或连锁群。在定向柱(9A)中(参见示例“来自支架的染色体”)。使用“……的方向”是不合适的吗?在一个AGP中,指定一个染色体是如何从组件组装的,除了那些没有被其他组件支撑的组件(单体)。使用“?对于多组分脚手架中的所有部件都是误导性的,因为这样做意味着部件位于所指示的位置,但可以在任一方向上。然而,根据支架的方向,无定向多组分脚手架中的部件要么位于“+”方向(默认)的指示位置,要么位于“-”方向的不同位置。优选的方法表明支架已被放置,但它们的定向是未知的,提供两个AGP文件,第一个是从构件构建支架,第二个是从支架构建染色体。从支架AGP文件中的染色体中可以看出支架的未知取向。'.

验证:

文件结构需要以以下方式验证:

  • 列为制表符分隔符
  • 数值数据的所有列都必须包含正整数。
  • 加入标识符必须有效,并且必须包括版本号。
  • 具有受控值的列必须仅使用这些值
  • 所有列必须有一些数据

文件内容需要以以下方式验证:

  • 每个对象必须以1的部分元素和1的对象的BEG坐标开始。
  • 所有对象范围必须是顺序的和非重叠的。
  • 对象必须小于或等于对象
  • 组件-BEG必须小于或等于组件
  • 特定于组件的跨度必须是有效的。
  • 为组件指定的跨度(在列7和8中)必须匹配为对象指定的跨度(列2和3)。
  • 如果在组件之间不存在间隙线,则所定义的开关点应该与两个组件的对准一致。
  • 所有间隙长度必须是1碱基或更长。

实例

最后更新:2019-11-02T02/10:45 Z