AGP规范v2.1

简介:

它是什么:描述从较小对象组装较大序列对象。大的物体可以是一个容器,一个支架(超导体),或者一个染色体。AGP文件的每一行(行)描述对象的不同部分,并具有下面定义的列条目。以下是扩展评论。

它不是什么:既没有描述序列读取是如何组装的,也没有描述用于构造更大对象的组件之间的对齐方式。并不是所有专有程序集文件中的信息都可以用AGP格式表示。它也不是为了记录基因的特征。

从v2.0更改为v2.1:

此版本取代版本2.0AGP文件规范。变化包括:

  • “邻近连接”添加到可接受的连锁证据值集合中
  • “pcr”添加到可接受的连锁证据值集合中
  • 添加“污染”间隙类型
  • “配对末端”连锁证据的定义扩展到包括“配对对”和分子条形码技术

定义:

内容:
一种非冗余序列,由基于序列重叠的一个或多个较小序列连接而成。较小的序列通常是已提交给国际序列数据库协作组织(GenBank/EMBL/DDBJ)的序列。序列contig中不应该有间隔(尽管由于不明确的基调用,可能会出现Ns的短时间运行)。
脚手架(超级混凝土):
通过连接一个或多个序列连接而形成的非冗余序列。区别在于不需要序列重叠来构造更大的序列。其他信息(如克隆结束分析)可以支持该关系。脚手架上可能有,而且通常是有缝隙的。
差距:
对象中没有已知序列的子区域。通常表示为一系列字母“N”
组件:
用来构造更大序列的序列。

文件格式:

AGP文件的一个特性是列定义根据线是元件线还是间隙线而改变。在第5列之前有一个列定义,然后根据第5列中的值,每个列将有两个定义。

AGP文件格式
内容 描述
1 对象 这是正在组装的对象的标识符。这可能是染色体,支架或是连接物。如果没有使用addition.version标识符来描述对象,则命名约定是在染色体编号之前加上“chr”(例如chr1),在连锁群编号之前加上“LG”(例如LG3)。脚手架组件内可能有唯一的标识符。
2 对象\u beg 列1中对象上组件/间隙的起始坐标。这些是对象坐标系中的位置,而不是零部件的坐标系。
对象端 列1中对象上组件/间隙的结束坐标。这些是对象坐标系中的位置,而不是零部件的坐标系。
4 零件编号 组成第1列所述对象的组件/间隙的行计数。
5 元件类型 组件的排序状态。这些通常对应于国际序列数据库(GenBank/EMBL/DDBJ)提交中的关键字。当前可接受值为:
A
活性整理
D
Draft HTG(通常phase1和phase2被称为Draft,不管它们是否有Draft关键字)。
F
完成HTG(第3阶段)
G
全基因组整理
O
其他序列(通常意味着没有HTG关键字)
P
初稿
W
WGS contig公司
N
规定尺寸的间隙
美国
大小未知的差距,默认为100个基数。
6安 组件编号 如果第5列不等于N或U:这是构成第1列所述对象的序列组件的唯一标识符。理想情况下,这将是GenBank/EMBL/DDBJ指定的有效的accessment.version标识符。如果序列尚未提交到公共存储库,则应使用本地标识符。
6亿 间隙长度 如果第5列等于N或U:此列表示间隙的长度。
N型间隙可以是任意长度。所有U型间隙的长度必须为100。
7安 组件\u beg 如果第5列不等于N或U:此列指定组件序列的一部分的开始,该部分对第1列中的对象起作用(在组件坐标中)。
7亿 间隙类型

如果第5列等于N或U:此列指定间隙类型。

接受值:

脚手架:
支架中两个序列之间的间隙。
内容:
两个序列之间的未扫描间隙。
着丝粒:
为着丝粒插入的间隙。
短臂:
在染色体顶端着丝粒起始处插入的间隙。
异染色质:
为异色序列的一个特别大的区域插入的间隙(也可以包括着丝粒)。
端粒:
为端粒插入的缝隙。
重复:
无法解决的重复。
污染:
为保持坐标而插入的代替外来序列的间隙。
8安 组件端 如果该列中的第5部分的坐标不等于该列的第N部分,则指定该列中该对象的坐标。
8亿 联动装置

如果第5列等于N或U:此列指示相邻行之间是否存在关联。

价值观:

9安 方向

如果第5列不等于N或U:此列指定组件相对于列1中对象的方向。

价值观:

+
-
?
未知的
0(零)
未知(已弃用)
不适用
无关的

默认情况下,方向未知的零部件(?)?,0或na)被视为具有+方向。

9个B 连锁证据 如果第5列等于N或U:则指定用于断言链接的证据类型(如第8b列所示)。接受值:
不适用
在没有断言链接时使用(列8b为“否”)
成对的末端
DNA片段两端的配对序列、配对对和分子条形码。
align_属
与同一属内参考基因组的比对。
对齐xGenius
与另一属内的参考基因组的比对。
对齐
与同一物种的转录本比对。
在克隆内
间隙两侧的序列来自同一克隆,但间隙不是由成对的末端跨越的。相邻序列的顺序和方向未知。
克隆人
链接由平铺路径(TPF)中的克隆contig提供。例如,有一个已知克隆,但还没有该克隆的序列的间隙。
地图
使用非序列映射(如RH、linkage、fingerprint或optical)断言的链接。
pcr
在缺口两侧使用引物进行PCR。
邻近结扎术
连接染色质中靠近的DNA片段(Hi-C和相关技术)。
频闪
频闪测序。
未指定
仅用于类型污染的间隙,以及将缺少链接证据字段的旧AGP转换为新格式时使用。

如果有多行证据支持链接,则可以使用“;”分隔符列出所有证据(例如成对的端点;align_xgenius)。

扩展评论:

  • 列应该用制表符分隔。行以新行(\n)结尾。单个令牌周围不应该有额外的空间。
  • 文件中给出的所有坐标都是从1开始的(包括从0开始的)。i、 对象的第一个基是1(不是0)。
  • 有关联的证据。一般来说,连锁的证据是由成对的末端(有时称为配对)提供的,尽管也可以使用其他证据。在某些情况下,可能是间接证据。例如,给定以下支架: A--B--C--D 其中A、B、C和D是组件,则可能存在连接A和B的成对端和连接A和C的成对端。可能没有连接B和C的成对端,但它们的连接是隐含的。用成对的末端作为A/B和B/C之间间隙的连接证据。
  • 如果物体是一个序列或脚手架,则该物体不应以间隙线开始或结束。染色体通常以一种或多种生物间隙类型(例如端粒或短臂)开始或结束。
  • 脚手架的间隙通常由构件支撑,而不是其他间隙线。在某些情况下,不鼓励出现连续的着丝粒间隙等。
  • 不管组件的方向如何,对象的坐标都与正链有关。
  • object列(U)的beg(列)总是小于3。
  • 组件_beg(第7列)应始终小于或等于组件_end(第8列)。
  • 每个对象必须以part_num为1(第4列)和object_beg坐标1(第2列)开头。
  • 间隙长度必须为正。负间隙和零长度的间隙线无效。
  • 对于负间隙或未知尺寸的间隙,使用U作为元件类型,并使用100作为间隙大小,因为100是GenBank/EMBL/DDBJ用于未知尺寸间隙的标准。
  • HTGS_PHASE1 BAC克隆中序列连续性之间的间隙通常为“支架”、连接“是”和证据类型“内克隆”。组件类型应为U,间隙大小为100(在第5列和第6b列中输入)。
  • 对于由单个构件(单重脚手架)组成的任何未放置脚手架的构件,使用“+”方向。
  • 鼓励在文件开头使用以#符号开头的注释行。此类标题中包含的有用信息包括:

    • agp版本pragma(例如###agp版本2.1)
    • 生物体名称
    • 程序集名称
    • 任何非标准对象标识符的描述

    注释行不得出现在AGP主体内。只有当map提供相邻序列连续性之间的链接证据时,才应使用map类型的链接证据。当一张地图被用来排序和定位染色体上的支架时,不应该使用它。

描述中断和连续性:

有关连续性的信息由gap_类型(第7b列)和链接(第8b列)的组合提供,它们提供了有关构建对象的信息。本规范的第一版没有具体定义如何使用这些列,因此在当前如何使用这些列方面存在分歧。下面是关于如何编码信息的建议。

间隙类型 联动装置 解释和说明
在脚手架间隙内:间隙两侧的序列在一个脚手架中。
脚手架 不得破坏脚手架
有证据表明缝隙两侧的序列连续。
重复 不得破坏脚手架
如果一个不可解的重复单元被连锁证据所跨越,则该连锁将为“是”。
污染 不得破坏脚手架
视为已连接以保留原始支架,但有连接证据“未指定”。
脚手架断裂间隙:间隙两侧的顺序在单独的脚手架中。
康蒂格 破坏脚手架
连续间隙表明没有证据表明相邻序列的连接。
重复 破坏脚手架
如果一个不可解的重复单元没有被连锁证据所跨越,则该连锁将为“否”。
着丝粒/短臂/异染色质/端粒 破坏脚手架
这些生物类型的缺口被用来沿着染色体布置支架。
无效的间隙/连杆组合
康蒂格 无效
如果有证据表明相邻序列之间存在连接,则间隙类型应为脚手架。
脚手架 无效
如果没有证据表明相邻序列之间有联系,则间隙类型应为连续型。
着丝粒/短臂/异染色质/端粒 无效
在支架内使用这些生物类型是无效的。

描述方向未知的脚手架:

支架有时可以沿着染色体或连锁群定位,而没有足够的数据来定位支架。这种放置但没有定向的支架可以在AGP中显示,该AGP指定了染色体或连锁群是如何通过使用'?'在方向列(9a)(见示例“来自支架的染色体”)。不适合使用'?'在一个AGP中,它指定了染色体是如何由组件组装而成的,除了任何没有被支架连接到其他组件(单体)的组件。使用'?“因为多构件脚手架中的所有构件都是误导性的,因为这样做意味着构件位于指定的位置,但可能处于任一方向。但是,根据脚手架的方向,无方向的多构件脚手架中的构件要么位于“+”方向的指定位置(默认),要么位于“—”方向的不同位置。最好的方法是提供两个AGP文件,第一个从组件构建支架,第二个从支架构建染色体。支架的未知方向将在scaffold AGP文件的染色体中用'?’.

验证:

文件结构需要通过以下方式进行验证:

  • 列用制表符分隔
  • 数值数据的所有列必须包含正整数
  • 加入标识符必须有效,并且必须包括版本号
  • 具有受控值的列必须仅使用这些值
  • 所有列都必须有一些数据

需要通过以下方式验证文件内容:

  • 每个对象必须以part_num为1,object_beg坐标为1开始。
  • 所有对象范围必须连续且不重叠
  • object_beg必须小于或等于object_end
  • 元件端部必须小于或等于元件端部
  • 特定于构件的跨度必须有效。
  • 为组件指定的跨距长度(在第7和第8列中)必须与为对象指定的跨距长度(在第2和第3列中)。
  • 如果部件之间不存在间隙线,则定义的开关点应与两个部件的对齐一致。
  • 所有间隙长度必须为1个底座或更长。

示例

上次更新时间:2019-11-02T02:10:45Z