序列标识符

许多序列有两个识别号码的类型, 胃肠道 版本 . 这两个标识符类型格式不同,并在不同的时间实现。

GI数

胃肠道编号(对于GeNeNo标识符,有时写在小写字母中,胃肠道“”是由NCBI处理的每个序列记录连续分配的一系列简单数字。GI号与序列记录的版本号没有相似之处。每当序列记录被改变时,它被分配一个新的GI号码。

核苷酸序列GI数显示在数据库记录的版本字段中。蛋白质序列GI数在蛋白质数据库记录的版本字段中显示,并在核苷酸数据库记录的CDS/dBX-ReF字段中交叉引用。

序列版本

序列版本将特定序列的所有GI编号分组为有序序列。序列版本号包括基础登录号、点和版本后缀,从1开始。. (这个标识符通常称为“加入点版“基础登录号标识序列记录,版本后缀形成一系列版本,从1开始。. 没有版本后缀的序列登录号总是指序列的最新版本。

这两个标识符系统彼此并行运行。也就是说,当对序列进行任何更改时,它都接收到新的GI号,并且其登录号的版本部分递增1。

例如,这里是人类第1号染色体参考序列的修订历史,截至2014年10月:

加入版本 胃肠道 日期
NCY000 000 01.11 五亿六千八百八十一万五千五百九十七 2014年2月3日晚上11点01分
NCY000 000 01.10 二亿二千四百五十八万九千八百 2013年8月13日下午12:15
NCY000 000 01.10 二亿二千四百五十八万九千八百 2013年3月5日下午2点59分
NCY000 000 01.10 二亿二千四百五十八万九千八百 2013年3月5日下午2时13分
NCY000 000 01.10 二亿二千四百五十八万九千八百 2013年3月3日下午10:59
NCY000 000 01.10 二亿二千四百五十八万九千八百 2012年10月30日08:39
NCY000 000 01.10 二亿二千四百五十八万九千八百 2012年7月24日03:18
NCY000 000 01.10 二亿二千四百五十八万九千八百 2011年7月29日05:58
NCY000 000 01.10 二亿二千四百五十八万九千八百 2010年10月25日下午5:33
NCY000 000 01.10 二亿二千四百五十八万九千八百 2009年6月10日下午04:09
NCI 00000 1.9 八千九百一十六万一千一百八十五 2008年3月3日下午5:58
NCI 00000 1.9 八千九百一十六万一千一百八十五 2006年8月30日12时10分
NCI 00000 1.9 八千九百一十六万一千一百八十五 2006年3月3日下午5:23
NCI 00000 1.8 五千一百五十一万一千四百六十一 2004年10月25日下午2时33分
NCI 00000 1.8 五千一百五十一万一千四百六十一 2004年8月24日04:34下午

加入版本 胃肠道 日期
NCI 00000 1.8 五千一百五十一万一千四百六十一 2004年8月24日上午11点05分
NCI 00000 1.7 四千二百四十万六千二百一十八 2004年2月20日09:34
NCI 00000 1.7 四千二百四十万六千二百一十八 2004年2月4日下午3点56分
NCI 00000 1.6 四千二百四十万五千八百九十二 2004年2月4日12时17分
NCI 00000 1.5 三千七百六十二万三千九百二十九 2004年1月28日04:08 PM
NCI 00000 1.5 三千七百六十二万三千九百二十九 2003年10月23日上午11点08分
NCI 00000 1.5 三千七百六十二万三千九百二十九 2003年10月17日上午10时45分
NCI 00000 1.5 三千七百六十二万三千九百二十九 2003年10月16日下午3点44分
NCI 00000 1.5 三千七百六十二万三千九百二十九 2003年10月10日01:19
NCI 00000 1.4 二千九百八十二万四千五百七十二 2003年5月6日上午10时42分
NCI 00000 1.4 二千九百八十二万四千五百七十二 2003年4月12日11时33分
NCI 00000 1.3 二千九百八十二万四千一百一十 2003年4月11日下午11点54分
NCI 00000 1.2 二千七百七十七万七千七百一十四 2003年2月14日04:18
NCI 00000 1.2 二千七百七十七万七千七百一十四 2003年1月17日下午12点40分
NCI 00000 1.1 二千二百五十三万九千四百六十八 2002年8月29日04:14下午

注意,每次修改记录时,GI号不会改变。只更改序列数据触发新GI的分配;跟踪小更新,但不更改GI或版本号。但是请注意,每次GI更改时,版本号都会递增。

序列修订历史更多细节。


历史注释

GI数已被NCBI使用多年来跟踪GenBank和其他NCBI序列数据库中的序列历史。1999年2月,国际核苷酸序列数据库合作(GenBank,EMBL和DDBJ)采用了标识符的加入。

第一种序列标识号是GI,它代表“GenFipe标识符”。GenInfo是用于访问GenBank和相关数据库的早期系统。GI数被分配给通过NCBI搜索系统访问的每个核苷酸和蛋白质序列,并且是跟踪序列改变的手段。然而,GI号码没有统一使用的合作数据库(GenBank,EMBL,DDBJ)。相反,它们作为内部跟踪系统,用于选择实现它们的数据库。此外,核苷酸序列的GI数最初出现在评论记录的字段序列标识号没有单独的字段。

当协作数据库开始正式使用序列标识符时,它们创建了一个新的、独立的字段,称为尼德(核苷酸标识符)在数据库记录中,包含核苷酸序列的GI数。同样,每个蛋白质序列的GI数被命名为PID,并放置在每个氨基酸翻译的字段:特征/ CDS/dBX-XRF =“PID:GNNNNN”。因此,有两种类型的GI号码:NID和PID。在1999年12月,停止使用缩写“NID”和“PID”。两者现在都被显示为“GI”。

1999年2月,GenBank /EMBL/DDBJ实现了一个新的“版本“与GI号码系统并行运行的序列标识符系统。

不同于GI号码系统,其中序列标识号码不一定一致的数据库(例如,GenBank和EMBL可以各自分配自己的GI号码序列),新的系统设计,以确保一致性。它还被设计为显示序列标识号与发现的记录的登录号之间的关系。相反,GI号码被连续分配,与登录号没有相似之处。最后,新的系统允许将字母数字蛋白质ID分配给核苷酸序列记录中的蛋白质翻译。蛋白质ID包含三个字母,后面是五个数字,一个周期和一个版本号。

自1999年12月(GenBank发布115):

  • NID字段和/dBxxRef=“PID:XXXXXXX”限定符被删除,现在两者都被简单地显示为“GI”号。
  • 核苷酸记录的版本字段包含核苷酸序列的访问版本、版本号和GI号。
  • 每个氨基酸翻译用Access .Engin序列标识符标记(在蛋白质类字段)和一个GI号码(在/dBxxRef= GI:XXXXXXX限定符)CDGenBank记录的特点
  • 序列标识符的Access、版本和GI系统彼此并行运行。因此,当对序列进行任何更改时,它接收到一个新的GI号,其版本后缀增加1。

有关更多信息,请参见当前GenBank发行说明.

最后更新:2017~11-09T23:39∶24Z