美国国旗

美国政府的官方网站

SPDI-具有已知断点的变量的NCBI变体符号

美国国立生物技术信息中心变更服务对描述为序列位置删除插入SPDI公司(Holmes等人,2019年). 该符号表示在参考序列中的给定位置使用删除和插入序列观察到的变量序列。

SPDI是传统“ref”和“alt”表示法的一个小概括。“ref”对应删除的序列,“alt”对应插入的序列。为了澄清,使用术语“删除序列”并不意味着有人断言变体背后的机制是删除,然后是插入。它只规定,如果将此删除后插入应用于参考序列,则将观察到相同的变体序列。

SPDI表示法使用四个字段,以冒号S:P:D:I分隔的四个元素表示,其中S公司=序列IDP(P)=职位,从0开始的坐标,表示已删除序列的起始位置D类=删除的序列,用于删除的序列,可以为空我=插入的序列,插入顺序,可以为空SPDI符号表示变化,即在参考序列(S)的给定位置(P)删除序列(D),然后在相同位置插入替换序列(I)。位置0表示紧接第一个核苷酸之前开始的删除,位置1表示在第一个和第二个残基之间开始的删除间隔,依此类推。删除或插入的间隔可以为空,从而导致纯插入或删除。SPDI中删除和插入的序列都写在两种分子的正链上。

变体服务仅支持上游和下游断点坐标已知的变体(例如,单核苷酸更改、精确坐标下的删除)。这种变体可以使用SPDI符号进行精确编码。

SPDI标记法适用于核苷酸和蛋白质变体。对于核苷酸变体,它使用大写字母IUPAC核酸标记法对于蛋白质变体,它使用大写字母IUPAC单字母氨基酸扩展名为*的符号可以表示翻译后的终止密码子。移格很容易被表示为一个大型熟食店。然而,这很难阅读,很难制作,很难存储,通常也不是很有用。所以可以将移码表示为蛋白质序列ID:位置偏移:FirstRefAA:FirstAltAA:fs.

示例

序号1

对于以下示例,我们将使用一个假想的短双链DNA序列,其标识符为“Seq1”,其正链上的核苷酸为“GCTGATG”,负链上的核酸为“CGACTAC”。

替代变量

Seq1上第5个核苷酸从A替换为G表示为:

序号1:4:A:G.

这表示观察到的变体序列“GCTGGTG”。

指定序列-序列,而不仅仅是长度,有助于解决一个不相关的问题,可以在不参考参考序列外部列表的情况下确定变体的类型,并且在大多数情况下,人类更容易阅读。也可以在不使用删除长度的情况下写入SPDISequenceId:位置:DeletionLength:InsertedSequence:。

此格式较短,当删除顺序较大时更容易阅读。然后可以写入上述替换:

序号1:4:1:G

删除变量

当发生核苷酸缺失时,不插入任何内容。在SPDI语法中,插入的序列只是一个空字符串。因此,与上述相同的A核苷酸的缺失表示为:

序号1:4:1:

插入变量

当发生核苷酸插入时,不会删除任何内容。在SPDI语法中删除的序列字面意思只是一个空字符串。因此,在上述A核苷酸之后插入C表示为:

序号1:5::C

索引变量

当一组核苷酸被另一组核苷酸替换时,SPDI与替换变体非常相似。更换自动变速箱具有CCC公司表示为:

序号1:4:AT:CCC

换档机构变型

考虑Trans1=“ATG CCC GGC TAA AAT AAA“转化为蛋白质Prot1=“MPG*“.插入转换1:5::A是蛋白质中的移码,可以写成:

保护1:1:P:P:fs

将其写成delins也是有效的(尽管在许多情况下用处不大):

保护1:1:PG*:PRLK*

序列间隔

绞合间隔的符号类似,表示为SequenceId:位置:股:长度。将正链用于只有一条链的序列。包含正链上第5到第8个残基的区间编码为:

序号1:4:+:4

负链上第五个核苷酸之前的空白间隔(即C和T之间)为:

序列1:4:-:0

使用SPDI的资源和教程:

上次更新时间:2020-05-12T11:35:34Z