注释示例
mRNA序列 原核基因 真核基因 启动子区域 病毒序列 艾滋病病毒1型 转座子或插入序列 微卫星序列 重复区域 假基因 转运和/或融合蛋白 克隆载体 间隙序列 系统发育或种群集合 EST提交 GSS提交 STS提交 HTGS提交 FLIC提交
mRNA序列
编码区域间隔,包括起始密码子和终止密码子 蛋白质名称 基因名称(如有) 氨基酸序列(如有)
例子:
智人脯氨酸酶(PEPD)mRNA,完整cds。 来源1..1888 /有机体=“智人” /染色体=“19” /map=“19q12-q13.2” /cell_type=“成纤维细胞” 基因1..1888 /基因=“PEPD” CDS 17..1498号 /基因=“PEPD” /EC_number=“3.4.13.9” /注=“亚胺基二肽酶” /product=“脯氨酸酶”
原核基因
编码区域间隔,包括启动和停止密码子(如果存在) 蛋白质名称 基因名称(如果已知) 氨基酸序列(如果已知)
例子:
大肠杆菌RecA蛋白(RecA)基因,完整cds。 来源1..3300 /有机体=“大肠杆菌” /应变=“K-12” 基因783…1961 /基因=“recA” CDS 783..1961 /基因=“recA” /function=“DNA修复蛋白” /product=“RecA蛋白质”
真核基因
编码区域间隔,包括开始和停止密码子,如果 存在和所有外显子间隔 蛋白质名称 基因名称(如果已知) 氨基酸序列(如果已知)
例子:
秀丽隐杆线虫酪氨酸激酶PTK-2(PTK-2)基因,完整cds。 源1..3180 /有机体=“秀丽隐杆线虫” 基因211..3011 /基因=“ptk-2” mRNA连接(211.288533.703763.890940..1024, 1084..1380,1838..1962,2018..2099,2301..3011) /基因=“ptk-2” /product=“蛋白激酶PTK-2” CDS加入(250.288533..703763..890940..1024, 1084..1380,1838..1962,2018..2099,2301..2456) /基因=“ptk-2” /product=“蛋白激酶PTK-2”
启动子区域
启动子或 侧翼地区属于 任何转录区域或编码区域的间隔(如果存在) 关于序列
例子:
智人增强子结合蛋白2(EBP2)基因、启动子区和部分cds。 源1..3061 /有机体=“智人” /染色体=“15” /map=“15q13” /cell_line=“H441” /tissue_type=“肺部” 基因1.>3061 /基因=“EBP2” 启动子1..2947 /基因=“EBP2” TATA_信号2918..2923 /基因=“EBP2” mRNA 2948..>3061 /基因=“EBP2” /product=“增强子结合蛋白2” 5’UTR 2948..3010 /基因=“EBP2” CDS 3011...>3061 /基因=“EBP2” /product=“增强子结合蛋白2”
病毒序列
包括已知的菌株、血清型、宿主、国家和采集日期 编码区域间隔,包括启动和停止密码子(如果存在) 蛋白质名称 基因名称(如果已知) 氨基酸序列(如果已知) 如果不存在编码区域,则为序列的其他描述
例子:
人腺病毒3株RKI-4263/07己糖(H)基因,部分cds。 来源1..1520 /有机体=“人类腺病毒3” /mol_type=“基因组DNA” /应变=“RKI-4263/07” /血清型=“3” /host=“智人” /db_xref=“分类单元:45659” /country=“德国” /collection_date=“2007年4月” 基因<1..>1520 /基因=“H” CDS<1..>1520 /注=“主要衣壳蛋白” /codon_start=1 /乘积=“hexon”
艾滋病病毒1型
病毒分离国家的名称 克隆和隔离信息 编码区域间隔,包括开始和停止密码子,如果 目前 蛋白质名称 基因名称(如果已知) 氨基酸序列(如果已知) 如果不存在编码区域,则为序列的其他描述
例子:
美国HIV-1分离株X克隆5601,全基因组。 来源1..9720 /有机体=“人类免疫缺陷病毒1型” /克隆=“5601” /隔离=“X” /country=“美国” 重复区域1..634 /rpt_type=长终端重复 基因789..2291 /基因=“gag” CDS 789..2291 /基因=“gag” /product=“gag蛋白” 基因2084..5095 /基因=“pol” CDS 2084..5095 /基因=“pol” /产品=“pol蛋白质” 基因5040..5618 /基因=“vif” CDS 5040..5618 /基因=“vif” /product=“vif蛋白质” 基因5558..5848 /基因=“vpr” CDS 5558..5848 /基因=“vpr” /product=“vpr蛋白” 基因5829..8476 /基因=“tat” CDS连接(5829..60438386..8476) /基因=“tat” /product=“tat蛋白质” 基因5968..8660 /基因=“rev” CDS加入(5968.60438386..8660) /基因=“rev” /产品=“rev蛋白质” 基因6060..6305 /基因=“vpu” CDS 6060..6305 /基因=“vpu” /product=“vpu蛋白” 基因6223..8802 /基因=“env” /伪 基因8804..9070 /基因=“nef” CDS 8804..9070 /基因=“nef” /product=“nef蛋白质” 重复区域9086..9719 /rpt_type=长终止重复 多A信号9612…9617
转座子或插入序列
转座子或IS的特定名称(如果可用) 与转座子/IS相对应的核苷酸跨度
任何被破坏的宿主基因/产品的名称和核苷酸间隔 通过转座子/IS 中任何基因/产品的名称和核苷酸间隔 转座子/IS(例如,转座子) 核苷酸跨越任何其他特征(LTR,重复区域)
例子:
枯草芽孢杆菌菌株RS2转座子BLT转座酶(tnpA)基因,完整cds 来源1..1221 /有机体=“枯草芽孢杆菌” /应变=“RS2” 重复区域21..1127 /rpt_type=“分散” /mobile_element=“转座子:BLT” 重复区域21..61 /rpt_type=反转 基因128..1034 /基因=“tnpA” CDS 128..1034 /基因=“tnpA” /product=“转座子酶” 重复区域1085..1127 /rpt_type=反转
微卫星序列
每个序列的唯一微卫星/克隆名称 微卫星序列中任何重复区域的间隔, 如果知道 这些考虑了吗 STS序列 ?
示例#1:
平行脊索虫克隆IIB-G5微卫星序列。 源1..288 /有机体=“平行Chothippus parallelus” /mol_type=“基因组DNA” /db_xref=“分类单元:37639” /克隆=“IIB-G5” 重复区域1..288 /rpt_type=串联 /satellite=“微卫星”
示例#2:
毒蜥KU 40271微卫星Noex254序列。 来源1..556 /有机体=“流亡Noturus exilis” /mol_type=“基因组DNA” /specimen_voucher=“KU 40271” /db_xref=“分类单元:61323” /clone=“Noex_02_03_H06” /PCR_primers=“fwd_seq:catgtttgcacaagggaaa,版本号: atgtggatgcagattgga“ 重复区域77..100 /rpt_type=串联 /rpt_unit_range=77..100 /rpt_unit_seq=“ca” /satellite=“微卫星:Noex254”
重复区域
重复区域间隔 重复家庭,如果知道(例如,Alu,Mer) 重复类型(串联、倒置、侧翼、终端、直接、, 分散、嵌套、长终端重复, 非转座子聚合物收缩,着丝粒重复, 端粒重复、x元素组合重复、y质素元素、, 或其他) 如果区域包含多个单元,请重复单元描述/间隔 重复
例子:
智人重复区域 来源1..2050 /有机体=“智人” /染色体=“6” /map=“6q25” 重复区域8..126 /rpt_type=分散 /rpt_family=“B2” 重复区域197..344 /rpt_type=“直接” /rpt_unit=“197..220” 重复区域389.673 /rpt_family=“AluSx” /rpt_type=分散 重复区域847..876 /rpt_type=“串联” /rpt_unit=“ca” /satellite=“微卫星:BT21” 重复区域2000..2050 /rpt_type=长终端重复
假基因
基因间隔 基因名称
例子:
小家鼠DNA甲基转移酶(Dmt1)假基因,完整序列。 源1..2131 /有机体=“小家鼠” /应变=“SvJ/129” 基因123..1444 /基因=“Dmt1” /注=“DNA甲基转移酶1” /伪
转运和/或融合蛋白
易位断点的核苷酸位置(如果已知) 易位断点的地图信息(例如。, t(18;X)(q11.2;p11.2)
编码区域间隔,包括开始和停止密码子,如果 目前 蛋白质名称 氨基酸序列(如果已知)
例子:
智人SYT/SSX4融合蛋白mRNA,完整cds。 来源1..2935 /有机体=“智人” /tissue_type=“肉瘤” /map=“t(18;X)(q11.2;p11.2)” 源1..1242 /有机体=“智人” /染色体=“18” /map=“18q11.2” CDS 1..1479 /product=“SYT/SSX4融合蛋白” 来源1243..2935 /有机体=“智人” /染色体=“X” /map=“Xp11.2” 3’UTR 1480..2935
克隆载体
克隆载体的唯一名称
编码区域间隔,包括起始密码子和终止密码子 蛋白质名称、基因名称
例子:
克隆载体pRB223,完整序列 来源1..4361 /有机体=“克隆载体pRB223” 基因86..1276 /基因=“tet” CDS 86..1276 /基因=“tet” /product=“四环素抵抗蛋白” 苏格兰皇家银行1905..1909 /注=“Shine-Dalgarno序列” rep_origin代表2535 基因补体(3293..4194) /基因=“bla” CDS补体(3293..4153) /基因=“bla” /产品=“β-内酰胺酶” 错误功能4069.4125 /注意=“多克隆站点” RBS补码(4161.4165) /基因=“bla” /注=“Shine-Dalgarno序列” 启动子补体(4188..4194) /基因=“bla”
间隙序列
如果估计了间隙长度,则在两者之间插入等效的nnn数 直接确定的连续序列段 如果间隙长度未知,请插入一个100 nnn的字符串来表示 序列段之间的间隙 使用/note限定符为每个间隙添加mist_feature来描述它 作为“未知长度的间隙”或“估计长度的间隙,#nts” 添加所有其他适当的特征(外显子、内含子、CDS、基因等)
例子:
智人MHCⅠ类抗原(HLA-B)基因、HLA-B_458_01445等位基因、外显子2、3和部分cds。 来源1..788 /有机体=“智人” /mol_type=“基因组DNA” /db_xref=“分类单元:9606” 基因<1..>788 /基因=“HLA-B” /等位基因=“HLA-B_458_01445” mRNA连接(<1..270513.>788) /基因=“HLA-B” /等位基因=“HLA-B_458_01445” /product=“MHC I类抗原” CDS加入(<1..270513..>788) /基因=“HLA-B” /等位基因=“HLA-B_458_01445” /codon_start=3 /product=“MHC I类抗原” /protein_id=“ACR38915.1” /db_xref=“GI:238055051” /translation=“SHSMRYFDTAMSRPGRGEPRFISVGYVDDTQFVRFDSDAASPRE EPRAPWIEQEGPEYWDRNTQIFKTNTQTDRESLRNLRGYYNQSEAGSHTLQSMYGCDV公司 GPDGRLLRGHDQSAYDGKDYIALNEDLRSWTAADTAAQITQRKWEAARVAEQDRAYLE公司 GTCVEWLRRYLENGKDTLERA“ 外显子1..270 /基因=“HLA-B” /等位基因=“HLA-B_458_01445” /数字=2 间隙271..512 /估计长度=242 外显子513..788 /基因=“HLA-B” /等位基因=“HLA-B_458_01445” /数字=3
系统发育或种群集
每个序列(例如克隆、菌株、, 分离物或生物体名称) 创建一个集合将允许Entrez检索序列 弹出集 作为一个团队。
STS提交
直接提交给 数据库STS 以下为: GenBank的STS部门
使用BankIt提交并提供: 染色体和/或特定地图位置 克隆名 克隆库[目录号、参考、实验室来源和/或 具体(内部)名称或编号] PCR条件和引物结合位点
FLIC提交
明确标记为FLIC
蛋白质名称 基因名称 CDS间隔,包括启动/停止密码子