异常序列编号

来自Proteopedia

跳转到:航行,搜索

蛋白质和核酸序列的编号在结构文件中是任意的全球蛋白质数据库(PDB)。也就是说,作者可以随意给序列编号。如果需要更改已发布的pdb文件,请看重新编号PDB文件.

直接编号将1指定给氨基末端氨基酸(或5'核苷酸),并按顺序和单调计算羧基末端氨基酸(或者3'核苷酸)。一个例子是1磅(1pgb). 结晶蛋白编号为1-56,尽管它是448-残基全长序列从全长序列号228开始(添加N末端Met后)。

以下是一些示例异常序列编号。此处未显示这些PDB条目的3D结构。要在3D中浏览它们,以下链接将在中显示它们Jmol简介(用箭头链接)或Proteopedia(括号中的链接)。

目录

编号不以一开头

任意编号

1bsz(平方英寸)包含三条序列相同的链,编号为1-168、501-668和1001-1168。

N端残数缺少坐标

第一个带坐标的残基不编号为1的最常见原因可能是因为N末端(或5'-末端)残基由于晶体学无序(模糊电子密度图)而丢失坐标。一个例子是第1天66(第1天66). 链A的前7个残基缺失,因此坐标的第一个残基编号为8。结晶蛋白中存在1-7,但在电子密度图中无法解析。

从蛋白质中删除的N-末端残基

序列编号不以1开头的另一个常见原因是,实验中使用的克隆和表达蛋白中删除了一系列N末端残基。例如,中的链A2007年10月(2007年10月). 这条65个氨基酸的链以Gly132-Ser133开始,Gly132-Ser133不是基因序列的一部分。接下来是阿拉134,及其序列号(以及链其余部分的编号)与编号匹配基因编码蛋白,全长304氨基酸。

当报告片段的结构时,作者并不总是使用全长序列编号。如上所述1pgb(1pgb),结晶蛋白编号为1-56。尽管它是448-残基全长序列从全长序列号228开始(添加N末端Met后)。

以零或负数开头

零。有时初始序列号为零。一个例子是1bx周(1bx周). 前21个残留物基因组序列是一个信号序列。将结晶蛋白工程化,从基因组序列的残基22开始,即成熟蛋白的Ala1。Met被设计到N末端,可能是为了帮助表达。编号为Met0。(结晶蛋白结束于178,但成熟蛋白的基因组序列长度为346-21=325。)

否定。有时初始序列号为负数。这通常是在残留物被设计到N末端时进行的。从-1到1的转换可以包含也可以不包含编号为零的余数。一个例子是1吨5吨(1d5吨). 的N端Met基因组序列编号为1。但在N末端设计了一个双司他丁标签:His-2,His-1,Met-1。在这种情况下,没有编号为零的余数。C末端残基为Phe431,但基因组序列长度为447。在结晶的蛋白质中不存在基因组序列的C末端16残基。在这个模型中,没有因晶体学无序而缺失残基。

另一个例子是4天(4天)其中,R链包括编号为-1至-15和-30至-44的RNA残基。5'端的编号为-44,3'端的为-1。蛋白质链E的编号从-1、0、1、2…开始。。。。

相同数量的多个残留物

插入代码

PDB文件1igy中显示插入代码的摘录。
PDB文件1igy中显示插入代码的摘录。

有时,蛋白质的残留物根据不同的参考序列。当有与参考序列相关的插入时,附加的残基可以被赋予相同的序列号,但用字母插入码标记。这通常发生在抗体中,其中参考序列是种系序列,但抗体已经发生了体细胞突变,特别是在互补性决定区(CDR)3。一个例子是1个igy(1个igy). 链B中的四个残基都有序列号82。它们通过插入代码来区分:82、82A、82B、82C。右侧是PDB文件的这一部分。以下是残基81-83,显示了它们在Jmol简介。插入代码位于插入符号“^”之后。(如何?见注释[1])

1igy残基81-83在FirstGlance中以Jmol显示序列号。[1]

反向插入代码

插入代码很少按字母顺序倒序排列。一个例子是1成功(1成功). L链由九个氨基酸组成,全部编号为1。插入代码位于逆字母顺序:1H、1G、1F。。。1B、1A、1、2、3。。。。在同一链L中有14个残基,编号为14。这些插入代码位于正向字母顺序:13、14、14A、14B。。。14升、14米、15、16。。。。链L还有10个编号为60的残基,从A到I有前向字母插入码,还有其他一些较短的插入码。

序列编号中的间隙

跳过序号

有时,在对连续蛋白质链进行编号时,会跳过一系列序列号。蛋白质链中没有缺口,只是链的编号不连续。如果是抗体1磅(1磅),序列根据卡巴特方案相对于参考序列进行编号。链B以1开始,以474结束,但只包含444个残基(没有因无序而丢失坐标)。在链B中,残余物97之后是残余物100,跳过数字98-99。只跳过数字。无残留物缺失。残基97是与残基100结合的肽。有四个残基100,插入代码为H、I、J、K。残基157后面是残基162,跳过数字158-161.也跳过了序列号170、181-182、197、201、207、224-225、233-234、293-294、297-298、315-316、356、362、376、380、403-404、409、412-413、429、431-432,可能还有更多。

缺失残留物

PDB文件2的摘录显示了由于缺少循环导致的序列编号中的间隙。
PDB文件2的摘录显示了由于缺少循环导致的序列编号中的间隙。

结晶蛋白的表面环发生紊乱并不罕见。这种循环通常是内在无序。无序使该回路的电子密度图变得模糊,回路残留物在模型中没有给定坐标:它们在模型中缺失。然而,它们在结晶蛋白中并没有缺失。这会导致PDB文件中的序列号出现间隙。一个例子是2个ce(2个ce). 由于晶体中的无序,3D晶体模型中缺少残基485-489。同样缺失的还有3个N-末端和2个C-末端残基。Jmol中的第一眼列出了缺失的残留物,并用“空篮子”标记了3D模型中残留物缺失的区域。

“空篮子”:区域特写2个ce其中残留物485-489缺失。Jmol简介,空的篮子提醒用户缺少残留物。(“S-”标记缺失侧链原子的残基。)

非单调

PDB文件4zwj的摘录显示了链A中的非单调序列编号。
PDB文件4zwj的摘录显示了链A中的非单调序列编号。

很少情况下,序列号从N端到C端不单调增加。一个例子[2]4zwj个(4zwj个). 在该嵌合蛋白中,链A编号为1002-1161,接1-326,接2012-2361。也就是说,连续氨基酸的数量突然增加:1161到1,326到2012。右边是一段摘自pdb文件对于4zwj链A,下面是非单调编号的快照。

图片:非单调-3sn6.png
来自4zwj的八种氨基酸在第一眼看中以Jmol显示序列号。[3]Tyr 1161是Met 1的肽结合N末端。Cys 2与Cys 282二硫键合。

其他示例:

  • 1个nsa(1个nsa)编号为7A-95A(“A”是插入代码),继续4-308。188和189之间插入了188A。
  • 链条R in3sn6公司(3sn6公司). 编号为1002-1164,持续30-365。然而,该模型缺乏1164和30之间的键,因为氨基酸1161-1164由于晶体学紊乱而缺失。

笔记

  1. 1 1.1在第一眼中以Jmol显示1igy。点击查找然后输入链条=B和81-83。单击隔离并检查带光晕的原子。放大。在左中“周围光晕:”后单击更改,然后清除光晕.检查序列号(靠近左上面板的底部)。
  2. 感谢Rachel Kramer GreenRCSB公司对于此示例。
  3. 在第一眼中以Jmol显示4zwj。点击查找然后输入链条=A和(1-31160-1161281-283)。单击隔离并检查带光晕的原子。放大。在左中“周围光晕:”后单击更改,然后清除光晕.检查序列号(靠近左上面板的底部)。

另请参见

Proteopedia页面贡献者和编辑(这是什么?)

埃里克·马茨

个人工具