序言
下面的命名指南解释了FlyBase如何为其遗传对象(基因、等位基因、转座子、插入、畸变和平衡器)分配规范符号和名称。我们鼓励社区和期刊遵守FlyBase批准的符号/名称,以确保发布数据集的一致性。虽然这些指南涵盖了大多数情况,但这里可能没有明确涵盖例外情况。拜托联系FlyBase讨论这种情况或命名法的任何其他方面。
建立FlyBase批准的基因符号和名称的政策
唯一批准符号/名称的理由
FlyBase中的每个基因都有一个官方批准的符号和名称,这对研究界来说非常有价值。使用独特的符号/名称,以及相应的独特标识符(例如FBgn编号),可以最大限度地减少科学文献中提及这些基因时的歧义。
指定批准的符号/名称
文献中不可避免地会出现一个基因的多个同义词,这通常是由于多个实验室对同一个基因发表了论文,或者认识到以前认为独立的基因实际上是同一遗传单元的一部分。在这种情况下,FlyBase遵循以下规则来建立或更改批准的基因符号/名称。
1.2.1.按时间顺序排列。批准的基因符号/名称通常在同行评审的主要研究论文中建议的符号/名称的最早发布日期之前确定。(没有其他形式的出版物与时间顺序有关。)
1.2.2.首字母小写或大写的选择。如果基因是以隐性突变等位基因的表型命名的,则基因符号/名称以小写字母开头;如果基因是根据显性突变等位蛋白的表型命名,则以大写字母开头。如果基因符号/名称是以基因产品野生型分子功能或活性的某一方面命名的,则它们也以大写字母开头,其中包括以正基因或副基因命名的基因。
1.2.3。社区使用。时间顺序和大小写规则可以被替代,取而代之的是一个明显受到研究界青睐的替代基因符号/名称。这可以基于一个基因对一个基因的基础上,也可以使整个基因家族或其他功能组的命名合理化。
1.2.4。占位符。某些类别的通用基因符号/名称是占位符(参见章节2.3.1和2.4)根据1.2.1,1.2.2和1.2.5然而,如果第一篇同行评审的研究论文再次使用基于表型的通用符号/名称来表征该基因和/或明确受到研究团体的青睐,则FlyBase应保留这些通用符号/名字。
1.2.5.有效性标准。只要可能,作者首选的符号/名称将用作FlyBase批准的基因符号/名称。然而,第节中规定的有效性标准2.2必须遵守,FlyBase将在必要时修改作者首选的基因符号/名称。
基因符号和名称
符号与名称
基因符号通常是完整的缩写基因名称因此,通常应包含最少数量的字符。基因符号和名称应使用可比较的大写字母和字符集。
FlyBase批准的果蝇基因符号和名称的要求
2.2.1.独特性。在所有FlyBase批准的符号和名称中,每个批准的基因符号和名称必须是唯一的。
2.2.2相关性。该名称应暗指该基因的功能、突变表型或其他相关特征。
2.2.3。限制字符和不允许字符。基因型字符串中有几个字符具有特定含义。在基因符号中使用这些字符会使基因型的解释复杂化。因此,批准的基因符号应遵循以下规则:
2.2.3.1.批准的符号不得包含以下字符:/、\、{、}、<、>、[、]、;、*。
2.2.3.2。批准的符号不得包含空格。如果需要分隔符以防止字符一起运行而失去意义,则应使用连字符“-”。
2.2.3.3.批准的符号不得包含除英语或希腊语以外的任何字符集的字母。
2.2.3.4.冒号“:”只能用于某些类别的非蛋白编码基因、线粒体基因组中编码的基因和合成融合基因的核准符号中。
2.2.3.5.圆括号“()”只能用在某些类别的批准基因符号中作为分隔符,以指定表型被相关基因修改的染色体或等位基因。
2.2.4.资本化。控制基因符号/名称首字母大写的规则在章节中描述1.2.2和1.2.3后面的字母通常是小写的。
2.2.5.上标和下标。基因符号和名称通常不应包含上标或下标。唯一的例外是当等位基因名称是基因符号或名称的组成部分时,例如。,su(w一).
2.2.6参考基因组位置。禁止在其符号或名称中引用基因的基因组序列坐标(例如“Chr2L:4.35M”或“3R:415067”)。不鼓励在其符号或名称中提及基因的细胞学位置(例如“36E”或“88B7”)或染色体位置(例如,“2”或“chr2L”)。
2.2.7.属/种前缀。所有物种的基因,除了D.黑腹果蝇,自动在其FlyBase批准的符号前添加一个唯一的物种缩写前缀(参见第节2.5.1). 基因起源的任何不同/附加指示(例如D、Dro或Dm)都是多余和/或模糊的,不会构成FlyBase批准的基因符号/名称的一部分。
2.2.8.符号和名称必须无害。
常用前缀
2.3.1.前缀基于表型、EST或STS。一些通用基因符号/名称前缀已用于共享共同突变表型的基因或最初通过EST或STS识别的基因。下面是一个不完整的列表:
等级 |
基因符号中使用的前缀* |
匿名基因 |
阿诺-
|
伯克利果蝇基因组项目 |
最佳:
|
蜕皮激素诱导基因 |
Eig公司
|
蜕皮激素诱导蛋白 |
艾普
|
基于EST聚类的基因 |
美国东部时间:
|
增强剂 |
e(a)m,e(a)mm
|
欧洲果蝇基因组计划基于STS的基因 |
ESTS:
|
雌性不育 |
飞秒(n)米
|
致命的 |
l(n)米
|
雄性不育 |
毫秒(n)米
|
雄性和雌性不育 |
mfs(n)m,mfs(n)m
|
母亲 |
垫(n)m
|
减数分裂突变体 |
梅-
|
分钟 |
M(n)米
|
有丝分裂突变体 |
米特(n)米
|
诱变剂敏感性 |
亩
|
NIDDK EST基于项目的基因 |
巢穴:
|
抵抗 |
rst(n)m,rst(n)米
|
抑制器 |
苏(a)米
|
“肿瘤” |
tu(n)m,tu(n)米
|
* n个指定染色体,米区别符号,以及一一种表型被增强子或抑制剂修饰的基因
使用这些通用前缀的基因符号/名称是占位符,根据第节中规定的规则,可以替换为更有意义的符号/名称1.2.1和1.2.4.
2.3.2.基于普通分子函数的前缀。编码具有类似分子功能的产物的基因可以被赋予具有相同前缀和唯一后缀的符号/名称。这是值得鼓励的,如果研究界喜欢,FlyBase将使整个基因家族或其他功能组的命名合理化。历史上,唯一的后缀可能指基因的细胞学位置(例如。法案5C,法案42A,57B法案等)。最近,唯一后缀可能只是一个增量数值(例如。Sdic1公司,Sdic2公司,Sdic3公司等等),或者反映一些其他区别特征,例如具有参考数据集的矫形学(例如。RpL3型,RpL4级,RpL5型等)。另请参阅第节2.6.
注释ID
基因注释ID不同于基因符号,适用于12个果蝇测序物种中所有分子定义的基因模型。
2.4.1。格式。注释ID以一种常见的方式表示:一个特定于物种的2个字母前缀,后跟一个四位或五位整数。出于历史原因,有两个两个字母的前缀D.黑腹果蝇:CG代表蛋白质编码基因,CR代表非蛋白质编码基因。对于所有其他物种,无论它们识别的是哪一类基因,都有一个单独的两位编码用于基因模型。
前缀 |
物种 |
CG、CR |
黑腹果蝇
|
通用航空公司 |
伪暗果蝇
|
GD公司 |
拟果蝇
|
通用电气公司 |
果蝇
|
GF公司 |
ananassae果蝇
|
GG公司 |
直立果蝇
|
高 |
果蝇
|
GI公司 |
果蝇
|
GJ公司 |
雄性果蝇
|
GK公司 |
果蝇
|
德国劳埃德船级社 |
波斯果蝇
|
总经理 |
果蝇
|
2.4.2用作批准的基因符号。在没有其他信息的情况下,注释ID用作基因符号的占位符(而基因名称字段保留为空),并根据第节中规定的规则替换为更有意义的符号/名称1.2.1,1.2.2和1.2.4.
非编码RNA基因
2.5.1.rRNA基因。编码核糖体RNA的基因具有“nSrRNA:X”格式的符号,其中n表示以Svedberg单位表示的各自rRNA的沉积速率,X是注释ID(用于区分相同的基因副本)。例如。,18SrRNA:CR41548对于省略区别后缀的每种rRNA类型,也存在一个通用基因,例如。,18S小亚基单位核糖体核酸根据历史惯例,包含编码5.8SrRNA、18SrRNA和28SrRNA基因的位点称为短管(bb).
2.5.2.tRNA基因。编码转移RNA的基因具有“tRNA:Xxx-YYY-N-N”格式的符号,其中Xxx是3位氨基酸代码;YYY是反密码子;N-N是一个2位数的识别后缀,第一个数字表示具有相同序列的给定反密码子的所有tRNA基因,第二个数字表示基因组中该序列的每个拷贝的增量。(该术语基于全球导航数据库)例如。,tRNA:Ser-AGA-2-4.
2.5.3.snRNA基因。编码小核RNA的基因具有“snRNA:XX:ma”格式的符号,其中XX是snRNA的类型;m是基因的细胞遗传学图位置;a(如果使用)是小写字母,用于区分映射到相同位置的功能相似的snRNA基因,例如。,snRNA:U6:96Aa.
2.5.4.snoRNA基因。编码小核仁RNA的基因具有“snoRNA:X”格式的符号。X通常表示催化的修饰类型和/或底物,例如。snoRNA:Me18S-A934,编码一个snoRNA,引导18S rRNA的核苷酸A934甲基化;或snoRNA:Ψ28S-612,它编码一个snoRNA,引导28S rRNA的核苷酸612的假尿苷化。如果底物未知,则在符号中使用“Or”表示它编码“Orphan”snoRNA。必要时使用后缀来区分功能相似的snoRNA基因,例如。,snoRNA:Me18S-G1358b.
2.5.5.scaRNA基因。编码Cajal小体特异性RNA的基因具有“scaRNA:X”格式的符号,其中X代表催化的修饰类型和底物。例如。扫描RNA:MeU4-A65编码一个scaRNA,引导U4 snRNA的核苷酸A65甲基化,以及scaRNA:ΨU6-40编码引导U6 snRNA核苷酸40假尿苷化的scaRNA。
2.5.6.miRNA基因。编码microRNAs的基因具有“mir-N”格式的符号,其中N是根据Ambros等人,2003年例如。,mir-125型.
2.5.7SRP、RNaseP和RNaseMRP RNA基因。编码信号识别颗粒7SL RNA、核糖核酸酶P RNA和核糖核酶MRP RNA的基因分别具有“7SLRNA”、“RNaseP:RNA”和“RNaseMRP:RNA“格式的符号。在需要区分基因拷贝的地方添加一个唯一的后缀。例如。,7SLRNA:CR32864,RNaseP:RNA和核糖核酸酶MRP:核糖核酸.
2.5.8.sncRNA基因。编码小型非编码RNA(即长度小于200个核苷酸)的基因无法分类,其符号格式为“sncRNA:N”,其中N是唯一标识符。例如。,sncRNA:838.
2.5.9lncRNA基因。编码长非编码RNA的基因(即长度超过200个核苷酸)具有“lncRNA:N”格式的符号,其中N是唯一标识符。例如。,lncRNA:CR45187.
2.5.10asRNA基因。编码对mRNA不敏感的长非编码RNA的基因具有“asRNA:N”格式的符号,其中N是唯一的标识符。例如。,asRNA:CR31144.
2.5.11.sbRNA基因。编码茎突RNA的基因(参见FBrf0241492型)具有“sbRNA:N”格式的符号,其中N是唯一标识符。
2.5.12.hpRNA基因。编码发夹RNA的基因(参见FBrf0227265号)具有“hpRNA:N”格式的符号,其中N是唯一标识符。例如。,高蛋白核糖核酸:1.
2.5.13.sisRNA基因。代表稳定内含子序列RNA的基因(参见FBrf0230034型和FBrf0235195型)具有“sisRNA:N”格式的符号,其中N是唯一标识符。例如。,sisRNA:1个.
假基因
假基因具有格式符号父级通用符号-psX,其中X(如果使用)是一个数字,用于区分特定亲本基因的多个假基因副本。如果只发现了一个特定基因的假基因拷贝,应该给它加后缀-电源1.
线粒体基因
线粒体基因组编码的基因具有前缀为“mt:”的符号,例如。,公吨:ND4.
批准的非基因符号/名称-D.黑腹果蝇基因
FlyBase包括所有果蝇科物种的基因以及引入果蝇的其他物种的基因。
2.8.1。物种缩写前缀。对于除黑腹果蝇,FlyBase批准的基因符号跟随一个物种缩写,表示起源物种。前缀的形式为“Nnnn”,其中N是该属的首字母,nnn是该属给定物种的唯一代码,通常是物种名称的前三个字母。(例如,Dsim是拟果蝇.)有效缩写的完整列表可在物种缩写第页。按照惯例,'Dmel'前缀不用于D.黑腹果蝇FlyBase中的基因符号(除非这在上下文中很重要)。基因名称的前缀没有物种信息。
2.8.2批准的基因符号/名称。FlyBase批准的基因符号/名称可能对应于D.黑腹果蝇直系种,通过相关物种前缀区分(如2.5.1). (应该注意的是,在缺乏全基因组序列信息的情况下,正畸学的分配可能会有问题。)D.黑腹果蝇定义为占位符的基因符号/名称(参见章节2.3.1和2.4)或包含D.黑腹果蝇-特定的细胞学信息不应用作其他物种中直系祖先的符号/名称。
通道符号和名称
上标。
特定基因的等位基因由相同的名称和符号指定,并通过区分上标加以区分。在书面文本中,等位基因名称可以用连字符与基因名称分开,例如:。,白色宝石.
符号。
等位符应短,长度最好不超过三个字符,并且不能包含空格、上标或下标。只要可能,上标字符应限于以下集合:
a-z a-z 0-9-+:。
+符号是为野生型等位基因保留的。应尽可能使用连续的等位基因编号。
可以使用希腊字符,但不鼓励使用。
该字符在所有基因符号上下文中保留,用于物种识别。
字符/在基因型中保留为同源分隔符,不能用于等位基因符号。
在不能上标的文本中,如ASCII文件,上标文本应括在字符[和]之间。
FlyBase在录制时违反了简洁性规则在体外以等位基因为代表的突变结构。如果未另行命名,则FlyBase根据系统授予符号,包括首次报告等位基因的第一篇论文第一作者的姓氏首字母(以下示例中的“I”)。最常用的类包括:
符号 |
含义 |
加拿大 |
for“构造Author-lastname的a” |
Scer\UAS.cIa |
对于“酿酒酵母UAS构建Author-lastname” |
tIa公司 |
“作者名字的转基因a” |
米娅 |
“作者名字的minigene a” |
小时。圆周率 |
“作者名字的热休克构造” |
通用符号。圆周率 |
用于“Author-lastname的基因启动子融合” |
此外,一些大系列的等位基因和突变集合也需要例外。然而,等位基因符号的简洁是非常值得鼓励的。
3.2.1.作为上标的等位基因符号,使用产生等位基因的基因型元件是不可接受的,因为这样的命名意味着等位基因和元件之间的联系不仅仅是微不足道的。作为先前存在等位基因的回复体的等位基因是这个规则的例外。
3.2.2.虽然历史上,数字1一直是非重叠符号的隐含上标,这种做法造成了相当大的歧义,现在不鼓励使用。与所有其他等位基因一样,数字1应明确指定(例如。,供应链1,不是供应链).
3.2.3.对于显性基因的隐性等位基因或隐性基因的显性等位基因,上标第页和D类可分别使用;例如。,Hn公司第页,Hn公司第2页、和ci公司D类.
3.2.4.对于野生型等位基因,可以使用上标的加号;例如,b+或B+加号单独表示正常(野生型)等位基因或任何上下文中的等位基因,例如年1/+.
可能有必要区分多个“野生型”等位基因。在这种情况下,应给不同的野生型等位基因指定一个识别号,该数字应紧跟上标中的+字符,例如:。,里+3.
3.2.5.在符号中使用上标减号可以非正式地注意到特定轨迹的缺失;例如。,bb公司-。这是不可接受的特别的等位基因。
3.2.6.突变等位基因的回复子或部分回复子由上标rv表示,后跟一个识别号;这些被放置在等位基因标志物之后。,D类4轮32,第32个回复体D类4缺陷显性突变的回复子不被视为等位基因,而被视为缺陷,因此没有上标,但列出了识别号,例如。,Df(2L)苏格兰rv4型.
3.2.7.指定缺少特定酶或其他蛋白质的等位基因由上标指定n个(null)后跟识别号或字母,例如。,Adh公司n1个,或在功能缺失不可忽略的情况下,通过我(致命),后跟识别号,例如。,编号二级.
3.2.8.已知为突变的等位基因,但其具体身份未知,则会被赋予星号作为等位基因名称,例如:。,w个*.
转座子和转基因构建体
转座子或转基因结构整合到果蝇基因组中,如果它们导致突变表型,则它们既是等位基因又是畸变(类似于与突变表型相关的其他类别的畸变)。在这种插入没有产生突变表型的地方,它们是纯粹根据畸变惯例命名的。如果转座子/转基因插入通过破坏内源性基因而产生突变表型,则将其命名为突变内源性基因的等位基因和畸变。等位基因的名称遵循第2节概述的惯例。命名天然转座子和转基因结构及其插入基因组的规则如下。
通用的自然发生转座子符号为结束{},其中末端代表给定转座子的符号,例如P(P)对于p元素.文档{},科皮亚{}和{}页都是示例。转座子家族的一个已定义的自然变体可以通过在括号内包含该名称的符号来命名。给定转座子的特定插入是通过在括号后面包含一个额外的唯一符号来描述的。
例如,注释为基因组序列特征的天然转座子的插入也有TEnnnnn形式的同义词,科皮亚{}910同义词为TE20021。
构建转座子或转基因构建物的符号必须始终包含定义特定构建物的构建符号。A类全转基因构建基因型由转座子末端的来源、包含的基因、构造符号和插入标识符组成,形式如下结束{基因=结构符号}一旦定义,结束{construct-symbol}(或不太正式,构造符号单独)在大多数情况下可用于指代特定的转基因结构。符号表示特定插入的形式末端{construct-symbol}插入标识符更多详细信息见下文。
一些示例:
P{周+百万立方厘米卵圆D1-18号=卵形D1-18}
- P元件转基因结构的完整基因型P{ovoD1-18}
P(P){卵形D1-18}13X6
- 构建体的一个可行插入P{ovoD1-18}
P{Scer\GAL4公司wB>/sup>w+毫瓦时 Ecol\ampR Ecol\ori=GawB}
- 转基因结构的完整基因型P{高硼}
P(P){GawB}小时1J3号机组
- 构件的插入P{高硼}破坏了小时基因
高{w+百万立方厘米Ecol\ori Tn\kanR Ecol\lacZ公司HZ50a型=Lw2}
- hobo转基因结构的全基因型高{Lw2}
H(H){Lw2}dpp151小时
- 插入转基因结构高{Lw2}破坏了dpp公司基因
这个命名法在形式上类似于用于畸变的命名法,其中结尾{symbol}前缀类似于畸变的Df(n)、Dp(n;m)等前缀,标识符后缀类似于具有相关等位基因的畸变的基因同位后缀,或其他畸变的字母数字串后缀。组装转基因构建基因型组分的具体规则如下。
Transposon结束。
成对的末端重复序列一起形成转座子,用相对的括号{}来表示。转座子末端的来源在大括号外,在字符串的左端由转座子家族名称衍生的符号表示:
Transposon端 |
|
转座子家族 |
P(P)
|
= |
p元素 |
H(H)
|
= |
H元件(流浪汉) |
我
|
= |
I型元件 |
M(M)
|
= |
水手单元 |
惯性矩
|
= |
米诺斯元素 |
4.1.1.隔离端重复用族符号表示,后面跟着3'或5',例如,P5'表示{}页转座子。
4.1.2.嵌套表示多组匹配的转座子末端结束{}符号,例如。,P{I{新[RT]W[+]}}.A型P(P)含有里+t7.2段和一个隔离的流浪汉端子从5'端重复流浪汉元素将描述为P{ry+t7.2 H5'}型.
从形式上讲,这个系统可以扩展到任何移动DNA的插入,例如储存,吉普赛人和FB公司元素。因此计算机断层扫描MR2型由插入吉普赛元素引起的突变称为吉普赛人MR2型当一个移动元件插入到已经携带移动元件的突变基因中时,这就是新的插入物。例如,骑师插入计算机断层扫描MR2型生成计算机断层扫描物料需求计划,这被称为骑师{}ct物料需求计划该名称描述了导致新表型的新插入物。只有当祖等位基因也被完全描述时,才提供完整的基因型描述,包括所有组的转座元件末端。
FlyBase使用此命名法不仅是因为其严谨性,还因为如果设计此类元件,则可能需要更广泛的使用。
包括基因。
完整的转基因构建描述列出了括号内的所有功能基因,包括非果蝇基因,如抗生素抗性基因、细菌和噬菌体复制起源,以及FLP1公司复合靶(FRT公司),由空格分隔。这些元素的左右顺序反映了它们在结构中的5'到3'顺序(相对于转座子末端)。如果一个基因的顺序是未知的,它会被放在列表的一端,后面或前面有一个逗号。
4.2.1. 黑腹果蝇基因。有效的基因符号用于命名D.黑腹果蝇基因。完整基因的野生型等位基因由上标的“+t”后跟标识符表示,例如。,里+t7.2段或Adh公司+t3.2段一个方便的标识符(在这些示例中使用)是携带野生型基因的基因组片段的大小。不赋予野生型功能的转基因构建基因被赋予了独特的等位基因名称,而没有前面的“+t”,例如:。,自由贸易区B类或年D225型.启动子或其他控制序列的替换可以在等位基因名称中表示:dpp(数据处理程序)小时。第页例如,对于dpp(数据处理程序)由热休克启动子控制的基因。
4.2.2. 物种起源。原产物种表示为非-黑腹食肉动物转基因结构中存在果蝇基因。由属的第一个字母(大写)和一个三个字母组成的物种代码,通常是物种的前三个字母(小写),用分隔的反斜杠添加到基因符号中,例如。,Dvir\Dfd(数字电视)+t7.6节来自果蝇的野生型变形基因男性化(见第2.2.7.).
对于来自果蝇以外物种的基因,有效的基因符号用在四个字母符号之后,如上所述,表示起源物种,例如:。,Hsap公司,对于人类,格多姆,对于鸡肉,辛,对于单纯疱疹,Ecol公司对于大肠杆菌等。对于病毒,名称或缩写,例如。,阿伯森,阿德诺5,Cmeg公司,或符号名称,例如。,T4类,M13型希腊语符号lambda有时被用来代替由属派生的四字母符号。在所有情况下,这些符号都通过反斜杠\与基因符号分开。这些文件缩写FlyBase上提供。
FlyBase将转座元件、线粒体DNA和其他类似实体视为物种(这是因为每一个都可能包含几个不同的基因)。因此,例如P-元件转座酶在构造中具有符号P\T。
4.2.3。融合基因。融合基因(由FlyBase定义)是由在体外诱变。它们是使用其组成部分的基因符号命名的,由双冒号分隔,例如。,Antp::Scr或Act88F::Scer\act1.
融合基因中所述基因符号的顺序将按字母顺序排列。这些结构的复杂性使得每个结构都是根据其分子组成命名的,例如在5'到3'方向,命名的融合基因的数量将很快变得不切实际。
如果融合是在D.黑腹果蝇和一个非-黑腹食肉动物基因。在这种情况下黑腹食肉动物首先说明基因符号,例如。,tra2::Hsap\SFRS2.
由于历史原因,一些涉及报告基因的启动子融合生态\lacZ虽然从技术上讲是蛋白质融合,但只是作为生态\lacZ有助于融合的附加基因的符号表示为上标的一部分,例如。,生态\lacZ价格\T.A92在这些特殊情况下,基因名称中的启动子融合和蛋白质融合没有区别。
4.2.4. 修饰基因。修饰基因、cDNA和在体外突变序列被视为等位基因,并将由FlyBase进行筛选。因此,它们应该按照命名经典等位基因的相同惯例命名。FlyBase将以下等位基因符号指定给了D.黑腹果蝇:
w个+百万立方厘米
- Pirrotta(1988)通过删除Hin dIII-Xba一长5'-内含子的片段w个+基因。由Casper质粒及其衍生物携带。
w个+毫瓦时
- Klemenz构建的微白基因等. (1987). 由W6、W8质粒及其衍生物家族携带。
通过添加标签使产品得以识别、标记或纯化而修饰的基因代表了一类特殊的修饰基因。标签用于标记转录本,例如,使用一段M13 DNA,可以通过以下方式识别转录本就地杂交。标签也用于标记蛋白质,以便纯化(例如(His)6),用于识别(表位标签)或靶向细胞室(nls标签)。FlyBase将其视为针对这些目的设计的标签结构,并将这些修改后的基因作为标记基因的等位基因。标记的基因具有以下格式的符号T: 年哪里T型代表Tag和年是标签的物种\基因符号,例如。,T: Hsap\Myc公司,T: 伊维尔\HA1,T: Hsap\p53,T: Zzzz\His6(如果标签是人工的,则使用Zzzz“species”前缀)。
FlyBase通过提供标记基因符号及其定义的完整列表快速搜寻。将“物种”选项从默认的“Dmel”更改为“所有物种”。确保将“搜索”选项设置为“ID/Symbol/Name”,并将“基因”选择为“数据类”。在“输入文本”字段中键入“T:*”(不要使用引号)并提交查询。
构造符号。
每个构建体都必须分配一个符号,该符号与末端重复的描述一起,唯一地描述转基因构建体,例如,P{lacW}公司,H{PDelta2-3}。符号必须唯一,但应尽可能简短。
4.3.1. 全基因型。在转基因构建物的完整基因型中,构建符号是括号内的最后一个条目,用等号与最终基因符号隔开,例如:。,P{lacZ公司预测值w个+百万立方厘米ampR ori=lacW}是的完整基因型P{lacW}公司.
4.3.2. 短型和部分基因型。一旦定义,转基因构建体可以通过转基因符号(例如。,P{lacW}公司(或者,不太正式,lacW公司)或符号加插入标识符(见下文)。为了清晰起见,可以根据需要添加其他组件。例如,在库存基因型中,最好包括可见标记,如P{周+百万立方厘米=lacW}thj5C8型或P{周+t11.7段里+第7.2条=wA}3-1,以避免对苍蝇的预期表型产生误解。
插入标识符。
转基因符号的最右边位置,在最外面的括号外,是为一个字符串保留的,该字符串用于标识特定插入到已定义结构的基因组中。命名插入需要考虑四种情况。
4.4.1. 插入一个已知基因。当与转基因构建物插入相关的突变表型分配给已知基因时,插入诱导的等位基因应按正常规则命名。由于这种插入会产生新的等位基因-等位基因描述被用作相关插入的标识符(就像其他被识别为畸变的等位基因一样)。例如P{lacW}公司插入称为l(2)k05007然后被证明是CycE(循环经济)成为P(P){lacW}周期2007年5月库存基因型中的插入诱导等位基因应包括构建物的畸变名称,即。,P(P){lacW}周期k05007号在大多数其他情况下,可以删除插入畸变前缀,并以通常的方式引用变异,在这种情况下,CycE(循环经济)k05007号.
4.4.2.插入定义新基因。通常,插入引起的表型与任何已知基因都不相关。在这种情况下,插入定义了新基因的第一等位基因,该基因由正常规则命名,例如。,P(P){lacW}Trf1.
4.4.3. 无表型的映射插入。如果插入没有表型但映射到多烯染色体,则最好使用其映射到的多烯染色体细分作为其标识符,例如。,P{bw(磅)+五十} 600亿。如果类似构造已经具有此名称,则新构造的名称将为P{bw(磅)+五十} 60B-2型或类似情况。
如果插入没有映射,那么除了给插入一个任意的数字或代码外,别无选择,例如。,P(P){A92}A45。此符号必须唯一且尽可能简单,只使用集合中的字符:
a-z a-z 0-9-
FLPase构造符号。
至少有九种特定的蛋白变体酿酒酵母FLP1(“FLPase”)重组酶(Scer\FLP1系列)用于FlyBase中的转基因(另请参见Pfeiffer,2014年):
FLPase变体 |
AA与FLPG5相比的变化 |
主要参考文献 |
FLPG5系列 |
- |
尼恩等。, 2011
|
FLPD5型 |
G5D公司 |
尼恩等。, 2011
|
FLPm4型 |
G5D、K82Y、V226A |
哈吉经济楼等。, 2011
|
FLPm5型 |
G5D,R281Y |
哈吉经济楼等。, 2011
|
FLPm6型 |
G5D、A36T、T50A、K82Y、G109N、E150G、R281V |
哈吉经济楼等。, 2011
|
FLPm7型 |
G5D、A36T、T50A、K82Y、G109N、T176A、R281V |
哈吉经济楼等。, 2011
|
FLPo公司 |
P2S、G5D、L33S、Y108N、S294P |
洪等。, 2009 波特等。, 2010
|
FLPL公司 |
G5D、F70L |
平移等。, 2012
|
FLPL2型 |
F70升 |
尼恩等。, 2015
|
4.5.1. 通用格式。包含FLP的构造符号的格式为:元素结束{promoter-FLPVARIANT.identifier}.
4.5.2. FLP变体的指示。如果已知/指定了特定的FLPase变体,则使用上表中的符号表示,例如 电话{hs-FLPG5}; 如果未知/未指定,则使用通用“FLP”符号,例如 P{Ubx-FLP}.
4.5.3. 附加标识符。可以在FLPVARIANT公司符号和句点,特别是在需要区分其他相似/相同的构造符号的情况下。例如。 {UAS-FLP.Exel},P{ey-FLP.B}(英文).
4.5.4. 例外情况。这个{hsFLP}和P{70 flp}由于历史和文学中的流行使用,建筑符号得以保留。
细胞遗传学描述
这个地图页面包含了果蝇多线染色体的各种插图和电子显微照片,以及一个可下载的电子表格,其中包括细胞遗传学遗传序列位置对应表,以及基因组坐标、细胞学(多线带)的列表所有标注的黑腹果蝇基因的位置和遗传图位置。另请参见染色体图浏览器.
范围名称。
对于单个对象的位置(畸变断点、基因位置、转座子插入位置等),范围为“(d1)(S1)(b1)-(d2)(S2)(b2)”,其中:
符号 |
|
任命 |
d日 |
= |
编号除法(1到102) |
S公司 |
= |
字母细分(A到F) |
b条 |
= |
波段编号(1到n,取决于特定的细分) |
对于波段精度未知的范围,请参见段落5.5.
如果范围包含两个不同编号的分区(即,d1不等于d2),则将使用范围左端和右端的完整名称,例如32A3-33A2。
如果范围在单个编号的分区内(即d1=d2),但在不同的分区内(即,S1不等于S2),则编号的除法名称不会重复出现在连字符的右侧,例如32A3-D4。
如果范围在同一个单编号分区和同一个字母分区内(即,d1S1=d2S2),则不重复除法或细分名称,例如32A3-5。
如果一个位置是单个频带已知的,那么该位置将被指定为(d1)(S1)(b1),没有连字符,也没有重复的频带位置,例如32A3。
如果一个位置已知于一个双光子,则该位置将被指定为(d1)(S1)(b1)-(b1+1),其中(b1和(b1/1)表示双光子的两个后续频带,例如32A1-2。
如果位置范围的一端在双字节内,则该位置仅指最大化范围的频带数,例如,将使用32C1-D5,而不使用32C1,2-D5和32B4-C2,也不使用32B4-C1,2。
有时需要在FlyBase管理的数据中表示同业。带间符号与前一个带的符号相同,后缀符号为+。因此,Bridges频带3A4和3A5之间的带间表示为3A4+。
端粒。
端粒由nAt指定,其中n是染色体编号,a是染色体臂,t表示端粒:
符号 |
|
含义 |
1升 |
= |
X左臂的端粒 |
1吨 |
= |
X的右臂的端粒 |
YLt公司 |
= |
Y染色体左臂的端粒 |
YSt公司 |
= |
Y短臂的端粒 |
2升 |
= |
2的左臂的端粒 |
2转 |
= |
2的右臂端粒 |
3升 |
= |
3的左臂的端粒 |
3R吨 |
= |
3的右臂端粒 |
4升 |
= |
4岁儿童左臂的端粒 |
4R吨 |
= |
4岁儿童右臂的端粒 |
如果端粒来源不明,请使用: |
?t吨 |
= |
未定义端粒 |
着丝粒和着丝粒异染色质。
着丝粒被指定为ncen,其中n表示染色体,即,1cen,Ycen,2cen,3cen和4cen。
5.3.1.中心异色块将表示为hn,其中n是一个连续的数字。
复合染色体结构。
染色体的命名,包括多烯带范围、异色区和着丝粒:
YLt h1--h17 Ycen h18-h25 YSt
1Lt 1A1--20F4 h26--h32 1cen h33--h34 1Rt
2Lt 21A1--40F7 h35--h37 h38L 2cen h38R h39--h46 41A1--60F5 2Rt
3Lt 61A1---80F9 h47--h52 h53L 3cen h53R h54--h58 81F1--100F5 3Rt
左侧h59--h61cen 101F1--102F8 4Rt
注意,染色体2和3的着丝粒分别位于异色带h38和h53内。在一些库存中,一些异色带(h25,h42)分为两个(h25A,h25B,h42A,h42B)。
细胞学描述的准确性。
在指定细胞学位置时,测定的准确性水平应反映在陈述的特异性中。
一些例子应该清楚地说明这些区别。请注意,此处描述的聚乙烯细分77B有9条带。
案例1-细分位置的高度不确定性:
- 如果观察者认为重排断点的位置可能位于77B,但也可能位于77A或77C,则该位置应报告为77A-C。
案例2-细分位置的不确定性低:
- 如果观测者的最佳估计是真正的断点位置很可能位于77B,那么观测者应该将该位置报告为77B。
案例3-细分位置没有不确定性:
- 如果观察者绝对确定该位置在77B范围内,则该位置应报告为77B1-9。
染色体畸变
染色体畸变的名称由前缀组成,表示畸变的类别、染色体的指示或包含在括号内的染色体(或其臂)以及识别特定重排的特定名称。
命名畸变的一般原则。
6.1.1.非以基因命名的畸变:后缀(即,括号后面的名称部分)应仅包含字母和数字。除了带有L(左)和R(右)上标(参见6.4.4). 它们不应包含空格。字符(和)仅用于包含染色体或染色体臂的名称。
6.1.2.以基因命名但与等位基因无关的畸变:此处与基因的关联携带了有关畸变断点的间接信息。后缀应包括基因符号,如果需要,后跟一个连字符,然后是研究人员选择的任何字母数字。不应该有上标。
6.1.3.如果一个基因的符号出现在异常中,改变了它的名字,例如,由于新发现的等位基因,那么这个名字的改变就会传播到有问题的异常中。旧名称将成为同义词。
6.1.4.以特定相关等位基因命名的畸变:这里的后缀应该与等位基因的名称完全相同,即基因符号后接上标的等位基因符号。如果等位基因名称(基因或等位基因部分)发生变化,这种变化将传播到畸变。
换位。
6.2.1.变换位置有符号T(n1;n2…)米,其中n1个,氮气…指示与易位有关的染色体数量。
当染色体在易位符号的附加信息中列出时,它们将按以下顺序列出:1,Y(Y),2,三,4不同染色体的数目由分号分隔,没有空格。
6.2.2. 易位的可分离成分。
以前命名非整倍体分离子的惯例很难采用,并且衍生名称中没有足够的信息,无法自动识别非整倍体分离子和整倍体祖细胞之间的关系。
FlyBase将对不同类别的整倍体染色体畸变及其非整倍体衍生物采用以下惯例。
6.2.2.1. 移位分隔物。换位,标准命名T(n1;n2)米由两条或多条易位染色体组成,每一条染色体都可能作为非整倍体分离体存在。这些分离子将使用重排染色体的端粒作为特定分离子的标记来命名。如果两个染色体片段简单交换,则双断易位通常称为互惠易位。
隔离物名称的一般形式为Ts(n1Pt;n2Qt)m.Ts代表“Translocation segregant”n1磅和氮2千吨对于标志性端粒的命名(例如,2Lt、3Rt),m与来源于分离子的祖细胞易位具有相同的后缀。
例1:双断相互易位。两个断点相对于着丝粒的位置没有歧义。
- T(2;3)rg35(=T(2;3)27E-F;62C2-D1)
- 因此,将这两个非整倍体分段命名为:
- Ts(2升;3升)rg35(=2Lt-27E|62D1-3Rt)
- 温度(2Rt;3Lt)rg35(=2Rt-27F | 62C2-3升)
例2:三破相互易位。任何断点相对于着丝粒的位置都没有歧义。
- T(1;2;3)或9(=T(1;2;3)19-20;49F中;81层)
- 因此,这三个非整倍体分离子被命名为:
- T(1升;3升)OR9(=1升-19 | 81F-3升)
- T(1Rt;2Rt)OR9(=1Rt-20|49F-2Rt)
- T(2升;3升)OR9(=2升-49F | 81F-3Rt)
6.2.2.2. 复合分离物和重组物。对于许多具有四个或更多断点的复杂易位或反转,可能会出现多个非整倍体分离子或重组子。不可能为这些复杂情况发明一种命名方案,自动显示特定的非整倍体染色体补体。在这种情况下,生成的非整倍体将被赋予适当的名称,如下所示:
第一次重复或缺失被指定为亲本整倍体重排的唯一后缀。必须报告产生的染色体的新顺序。
后续的复制或删除将被分配其他唯一后缀。他们的新订单也必须报告。
戒指。
环状染色体有符号R(n)m,其中n表示染色体的数目,m是一个特定的名称。
反转。
6.4.1.反转具有符号单位(nA)m,其中n个表示所涉及的染色体数目,A类涉及的手臂和米是一个特定的指示符。
在多断裂染色体内重排的情况下,反转和转位之间的区别往往变得模糊不清。染色体内重排可以通过与正常序列染色体的交换而分为重复产物和缺陷产物,即使它可能携带倒置的片段,也被称为易位;否则,它被指定为反转。
6.4.2.如果不知道反转是近心(不包括着丝粒)还是近心(包括着丝点),则省略染色体臂的指示符,即,单位(n)m.
6.4.3.按照惯例,在(1)中暗示英寸(1L).
6.4.4.两个反转之间的重组产物。相似反转之间的重组可能产生一个左端和另一个右端的可行重组反转。上标L(左)和R(右)用于识别两端的来源;例如;输入(2L)CyL(左)t吨R(右).
换位。
在染色体间重排中,转座一词是指与野生型相同的染色体端粒偶联(即形成单个DNA分子的两端)的类别。改变端粒配对的重排被归类为易位。
在多断裂染色体内重排的情况下,反转和转位之间的区别往往变得模糊不清。通过与正常序列染色体交换,可以将染色体内重排分为重复产物和缺陷产物的重排被指定为转座,即使它可能携带倒置片段;否则,它被指定为反转。
6.5.1.换位有符号Tp(n1;n2)米,其中n1个是“供体”染色体,氮气“受体”染色体和米特定的名称。用于染色体内转位n1个=氮气.
6.5.2.转位的可分离成分。
6.5.2.1.染色体间转座。染色体间转座的分离子将继续被称为过去的分离子。对于名称为的换位Tp(n1;n2)米,包含重复材料的染色体分离物将被命名为Dp(n1;n2)米,包含删除材料的染色体将被命名为直径(n1A)m,其中A类指缺失的染色体臂。
例子:Tp(3;1)卡尔5升(=Tp(3;1)87C7-D1;88E2-3;20)
- 两个非整倍体分离子为:
- Dp(3;1)卡尔5升(=1Lt-20 | 87D1-88E2 | 20-1Rt)
- Df(3R)卡尔5升(=3Lt-87C7|88E3-3Rt)
6.5.2.2染色体内转座。这里的分离子是通过与结构正常的染色体重组而产生的,而不是通过染色体分离。对于转置段相对于标准地图处于未转换方向的转置,可能存在两个潜在重复和两个潜在缺失衍生物(一组由转座缺失和重复成分之间区域的重组事件引起,另一组由转座片段内的重组事件导致)。对于类型的换位Tp(n1;n1)米,将命名报告的重复分隔符Dp(n1;n1)米必须报告新订单以消除任何歧义。类似地,所报告的缺失重组物被称为直径(n1A)m,其中A表示带有缺失的染色体臂。在极少数情况下,也报告了替代性重复或缺失重组体(通过转座片段内的重组产生),它将被赋予与前体转座不同的后缀,并将报告新的顺序。
例子:Tp(3;3)D1,sup>II13(=Tp(3;3)88F5-9;91A3-8;92A2)
- 主要的非整倍体重组体将是:
- Dp(3;3)Dl二、13(=3Lt-92A2|88F9-91A3|92A2-3Rt)
- Df(3R)Dl二、13(=3Lt-88F5|91A8-3Rt)
如果随后生成另一个缺失或重复重组体,它将被赋予一个新的后缀,可能与祖细胞完全无关,例如:
- 英国国防部(3R)xxx(=3Lt-91A3|92A2-3Rt)
- Dp(3;3)xxx(=3Lt-88F5|91A8-92A2|88F5-3Rt)
缺陷(删除)。
缺陷(删除)有符号Df(nA)m,其中n个是删除的染色体的数目,A类是染色体臂和米是一个特定的指示符。
基因内缺失不是缺陷,而是等位基因;在病变被视为缺失之前,必须至少移除或破坏两个相邻的基因座。
重复。
复制有符号Dp(n1;n2)米,其中n1个是“供体”染色体,氮气收件人和米特定指示符;n1个可以相等氮气.
复制可以是:串联(直接或倒序)、插入或自由复制。直接和反向串联复制不以符号区分。必须通过对新订单的明确描述来避免歧义(参见第7.1节“新订单”)。
6.7.1条.当重复序列作为自由中心元素携带时,字母(f)(自由)在括号内的分号后面,替换氮气; 例如。,Dp(1;f)101.
6.7.2。高阶重复。高阶重复也用符号表示Dp公司,在附加染色体名称中显示重复数,即,Dp(1;1)=重复,Dp(1;1;1)=三倍,依此类推。
Y导数。
在过去,许多Y染色体衍生物(例如标记的-Y染色体)以一种非常特殊的方式命名,如平方米,其中平方米是YL和m2上携带的一个或多个标记,是YS上携带的标记。按照正常的规则,这种染色体应该被命名为重复。因此年+Y是Dp(1;Y)Y+和Y马尔+是Dp(1;Y)正常+.
自动突触元件。
通过反转片段和正常同源序列之间的重组,一个中心周围反转可以转换为两个相互作用的自动突触元件。对于这种类型的中心体单位(nLR)m,这两种自动突触产品是LS(n)m和DS(n)米,其中LS(负载感应)指携带两个左(L=左旋)端粒和DS公司携带两个右(D=dextro)端粒。与常突触元件结构非常相似的染色体元件可以通过其他方法恢复;按照惯例,如果在恢复过程中使用了自动突触元件,这些也被称为自动突触要素。
6.9.1.在库存中,自动突触元件必须作为平衡对携带;它们的符号用双斜杠隔开,LS(n)m1/DS(n)m2在这种平衡对的两个成员是相互重组产物的特殊情况下(例如。,LS(n)m1//DS(n)m2)那么这样的基因型可以称为AS(n)m1.
复合染色体。
复合染色体可分为两类:同源染色体,由连接在共同着丝粒上的同一染色体臂的两个拷贝组成;异源染色体,来自不同染色体的两个臂通过其中一个染色体的着丝粒相连。它们由符号指定C类然后附加说明所涉及的染色体臂的名称。
在群体基因型中,复合染色体上标记的连锁关系用结肠表示,例如。,C(4)RM-P2,ci公司1 依R(右):全球价值链1 sv公司n个.
6.10.1.同源化合物。同源复合染色体根据其臂的相对取向进行分类(即(串联、反向或环形)及其着丝粒位置(即,顶心或中心):反向顶心(C(n)RA),反向稳心(C(n)令吉),反向环(C(n)右后),串联中心距(C(n)TA),串联稳心(C(n)TM公司)、和串联环(C(n)TR),其中n个是染色体或染色体臂的编号。在每种情况下,符号后面都有一个特定的指示符,用连字符分隔。
6.10.1.1.当组成臂的顺序不同于全臂反演时,串联或反向分类变得模糊。此外,当组成臂通过一次断裂彼此分离时,术语顶着丝粒和中着丝粒是描述性的;然而,当两个臂的元素相互交错(例如通过臂间重排)时,这些术语就失去了意义。因此,更复杂的化合物被赋予任意符号。
杂化合物。
异复合染色体有符号C类后面是括号内的染色体或臂,例如。,C(1;Y),C(2L;3R)在这些化合物中,着丝粒的染色体起源常常模棱两可。通常有必要按新的顺序更详细地描述任何给定杂化合物的结构。一些异源复合染色体和全臂易位之间的区别可能是无意义的。
游离染色体臂。
当臂作为单个染色体元件存在时,术语“自由”用于主要常染色体的左臂和右臂,以及Y染色体的长臂和短臂。自由臂的符号为:F(nA)米,其中n个=Y、2或3、A=L、R或S和米是一个符号(请注意L(左)表示左侧X染色体和常染色体,但长Y染色体)。实际上,所有自由臂都携带来自另一个染色体臂或元件的一些染色体材料。
复杂的重组。
有时,作者必须报告细胞学不明确或无法(根据现有知识)描述为常见畸变类型的畸变。这些畸变应根据格式命名Ab(N1;N2;..)标识符或者,当与命名的等位基因相关时,Ab(N)基因等位基因.抗体代表畸变,N个表示已知涉及的染色体或染色体臂。如果其中一个或多个无法识别,则选择?使用符号。如果一个断点是异色的,但无法进一步识别,则使用h。例如:[http://flybase.org/reports/FBab0023380.html抗体(3R)fafBX9型]和抗体(3L;h)ME178.
可用性抗体前缀只是最后的手段,在没有充分理由的情况下不应该使用。如果有进一步的信息可以更正式地描述复杂的像差,那么抗体符号应该被替换并归入同义词。
重组的组合。
染色体畸变的基本类别并不是相互排斥的,有些畸变将其中几个结合在一起。在这种情况下,所使用的符号应该是与像差的预期值最相关的符号,例如英国国防部用于缺陷筛查中产生的缺陷易位。当不存在偏好时,使用的符号是以下排名中最高的符号:T型>染色体间的时间点>R(右)>在>染色体内的Tp公司>Dp公司>英国国防部。当组件不可分割时尤其如此。
FlyBase对三次破片畸变的类别使用以下口头定义:
缺乏易位
- 一种易位,其中四个断端中的一个在重新连接之前丢失了一个片段,例如。,T(1;3)ct268-21.
反转cum移位
- 前两个断裂位于同一染色体上,它们之间的区域以倒序重新连接到第一个断裂的另一侧,因此断裂一的两侧都位于同一条染色体上。剩余的自由端与第三次断裂产生的自由端相连,如。,T(1;2)C324.
二分复制
- 所列前两个断裂之间的(大)区域丢失,两个侧翼节段(其中一个为中心)连接起来,作为第三个断裂产生的自由端的移位,例如。,Dp(1;2)K1.
周期性易位
- 三条不同的染色体有三次断裂。由所列第一个中断产生的中心段与由第二个中断而非第三个中断产生了的偏心段相连,例如。,T(1;2;3)或14.
二分反转
- 同一染色体上有三处断裂;两个中心段都倒置到位(即,它们不是转置的),例如。,在(3LR)BTD7中.
未转换插入复制
- 在第三个断点处插入所列前两个断点之间的线段副本;插入物在细胞学上与其侧翼节段的方向相同,例如。,Dp(1;1)hdp-b2.
非转换插入换位
- 删除列出的前两个打断之间的段,并在第三个打断处插入;插入物在细胞学上与其侧翼节段的方向相同,例如。,Tp(1;1)B263-48.
反向插入复制
- 在第三个断点处插入所列前两个断点之间的线段副本;插入物相对于其侧翼节段呈细胞学倒置方向,例如。,Dp(1;1)年bl(黑色).
倒置插入换位
- 删除列出的前两个打断之间的段,并在第三个打断处插入;插入物相对于其侧翼节段呈细胞学倒置方向,例如。,在(2R)C72'中'.
无定向插入复制
- 在第三个断点处插入所列前两个断点之间的线段副本;插入相对于其侧翼段的方向没有记录,例如。,Dp(1;1)hdp-b4.
无定向插入换位
- 删除列出的前两个打断之间的段,并在第三个打断处插入;插入相对于其侧翼段的方向没有记录,例如。,Tp(1;2)v+75天.
6.14.1.一个复杂的重排可以从遗传上分为简单的组分畸变,这些组分畸变通常用原始畸变的区别符号来充分指定。然而,当原始成分以与其中一个成分畸变相关的表型命名时,将另一个成分指定为突变体的符号是不合适的。
6.14.2.叠加在另一个重排上的重排可以命名,因为新诱导的像差可能与原始像差不可分割,所以通常指的是整个复合体;例如。,输入(2LR)SM1是一个巨大的围绕中心的反转叠加在输入(2L)Cy 输入(2R)Cy.
平衡器
平衡可以用三种方式之一来描述:完整的基因型,短的基因型或单个符号。出于FlyBase的目的,每个平衡器变体都需要一个符号。如果没有报告新平衡器变体的符号,FlyBase将指定一个符号。
平衡器符号应简洁,不包含空格,并且应包含以下字符集的字符:
a-z a-z 0-9:-(){}
经典平衡器的标记变体应以亲本变体的符号开头,后跟连字符,后跟简洁的区分字符串,例如。,TM3-DZ公司.
如果文献中报告了新的平衡器变型,FlyBase将使用作者的变型符号(如果提供)。FlyBase可能会将作者在出版物中使用的逗号转换为连字符,以便使用几乎可以作为符号的基因型字符串。同样,当作者使用[]表示元素插入的限制时,FlyBase会将这些限制转换为{},以保持与数据库其他部分的一致性。不鼓励在平衡器符号中使用无效的基因符号和完整的转座元件构造/插入符号。
作为简明平衡器符号的替代,平衡器可以使用平衡器短基因型进行报告,该基因型将经典平衡器的符号与新的等位基因、畸变或转基因插入符号相结合,以定义唯一的平衡器变体,例如:。,TM3公司,里韩国 某人1(=TM3 vKa型).
当然,平衡器也可以使用完整的平衡器基因型来报告,该基因型列出了构成唯一平衡器变体的所有畸变、等位基因和插入符号。
文献中报告的或捐赠给库存中心但作者未给出符号的任何变体都由FlyBase给出符号“parental_variant-vIa”和名称“parent_variant variant a of Initial(of first author last name)”,例如:。,TM3-vKa对于Karess的TM3-变体a.
畸变的细胞学描述
对于除最简单的双断染色体畸变外的所有染色体畸变,明确描述新的染色体序列至关重要(见第4.5段)。
在对畸变的描述中,在符号后面列出了畸变的细胞学断点,不同的染色体信息项用分号分隔,没有空格。新目的细胞学描述总是罗马式的。
新订单。
应采用以下规定像差序列的惯例。根据唾液腺染色体带术语,染色体畸变涉及的每条染色体的序列是从一端到另一端指定的。断裂点和重聚点由竖线表示,这些点之间的线段由已知的最末端的条带指定,用破折号分隔。因此
Tp(2;3)P(=Tp(2;3)58E3-F2;60D12-E2;96B5-C1)
- 表示为
- 2Lt-58E3|60E2-2Rt;3Lt-96B5|60D12-58F2|96C1-3Rt。
歧义。
如果插入段60D12-58F2的顺序未知,则该段将包含在括号内;即。,3淡-96B5 |(58F2-60D14)|96C1-3Rt。
歧义层次由括号内的括号表示。
复杂的重新安排。
断点周期性地重新连接以产生染色体畸变(例如,A与B和B与A),并且多个断点可以在一个或多个周期中重新连接。因此,四个中断可以相互作用,形成一个四中断重排或两个两中断重排。由两个或多个简单循环重排组成的复杂重排在描述性符号中表示;例如
T(1;2)或72(=T(1;2)19E;29F+In(2LR)24F;54亿)或T(1;2)C314(=T(1;2)5D;40-41+T(1;2)9D;51D+T(1;2)20;56华氏度)
如果要单独导出这些组件中的任何组件(或这些组件的任何新组合),则需要新的符号。
描述顺序。
关于新顺序的信息如下:每个染色体元素从自由端开始,值较低,元素以升序排列,Y(Y)介于20和21之间。
戒指。
环状染色体与杆状染色体通过元素开始和结束处的垂直条带进行区分;在数值最低的断点处,圆圈被打破以进行线性指定;例如,|1A4-20 1cen 20F-20A1|表示R(1)2。
的新订单Y(Y)衍生产品。
公司章程Y(Y)片段可以通过按顺序列出其遗传元素来指定,任何歧义都可以按顺序放在括号内,例如。,KL(体重+--巴+) 伊森bb+堪萨斯州。如果存在顺序模糊的层次结构,则使用括号层次结构,如((ci)+--水疗中心+)KL)伊森bb+堪萨斯州.
命名基因型
基因分离器。
在指定具有多个突变基因的基因型时,同一染色体上基因的等位基因符号用空格隔开(例如。,年1w个1(f)1B类1).
同源分隔符。
同源染色体上基因的等位基因符号用斜杠隔开(例如。,年1w个1(f)1/B类1). 这个X(X)和Y(Y)为此,染色体被认为是同源的,男性和女性的不同基因型通常不明确。例如,Dp(1;Ybb-)BS公司/年1汽车1描述了一种雌性是纯合子的股票年1汽车1X(X)染色体,而雄性是半合子年1汽车1和B类S公司-标记Y(Y)染色体。如果需要,可以使用安培数(&)来分离基因型,例如。,年1汽车1&Dp(1;Ybb-)BS公司/年1汽车1.
对于特定染色体上所有突变均为纯合的基因型,即y,通常只列出一次等位基因符号1w个1(f)1表示y1w个1(f)1/年1w个1(f)1然而,如果这些突变中的任何一个是杂合的,则会给出每个染色体的突变基因型,即y1w个1(f)1/年1(f)1.
按照惯例,在父系染色体之前写上母系染色体的基因型。例如,在中国1/中国1雌性到中国+/中国+雄性,后代基因型将被写入中国1/中国+; 从互惠十字架上写下中国+/中国1.
非同源分离器。
非同源染色体上基因的等位基因符号由分号和空格分隔(例如。,体重1; e(电子)秒; 依1).
染色体描述。
8.4.1.在描述染色体时,通常需要包含几种类型的信息;例如排列和突变等位基因含量。此类类别由逗号和空格分隔;例如。,在(1)FM7中,年31天 w个一 v(v)的 B类1,它指定X(X)携带FM7公司反转,隐性等位基因黄色-31d,白色宝石和弗夫曼蛭石和显性等位基因酒吧-1等位基因按照标准遗传图谱的顺序列出,与它们在所讨论的染色体上的顺序无关。
8.4.2.描述自动突触元件的基因内容需要特定的规则。映射到断点远端的突变在元素本身名称后面的逗号后面指示;断裂点附近的突变(即在异突触体区域内和必要的半合子)在第二个逗号后表示;例如。,LS(2)米,b条1,中国1将是纯合子b条1而是半合子中国1。如果特定突变的状态未知,则其符号将包含在()中。
8.4.3.易位或染色体间易位不同染色体组分上的突变等位基因通过结肠分离。易位染色体通过斜线从同源染色体中分离出来。例如:T(2;3)半胱氨酸-TM2,塞浦路斯1 l(2)DTS5131:超双胸130/S公司1.
与过去的做法相比,+字符不用于表示同一染色体上存在多个可分离的畸变,即,输入(2L)Cy 输入(2R)Cy使用,而不是两者之一输入(2L+2R)Cy或输入(2L)Cy+输入(2R)Cy.
交叉描述。
按照惯例,当描述遗传杂交时,雌性基因型写在次符号(x),右边是男性基因型。
不确定性。
特定等位基因、基因和畸变的不确定性都显示在带有星号的基因型中,例如w*突变的等位基因w个当特定等位基因未知时,l(2)*当基因未知时,第二条染色体上的致命等位基因,以及C(1)*对于化合物X(X)当附着的性质未知时的染色体。
昵称。
在相对较少的情况下,FlyBase将支持基因型组件的替代符号,即昵称。当简化符号已经被果蝇的工作人员使用,并且比严格的有效符号更容易被理解时,昵称是受支持的。例如,Dp(2;2)凸轮11是的有效昵称在(2LR)TE35B-226中L(左)TE35B-4型R(右)和w个67立方厘米是的有效昵称Df(1)w67c23。FlyBase中昵称的实施仍在进行中,并且在Fly Base报告中,昵称和同义词之间的区别可能并不明显。
细胞类型
可能有必要指出与一个或多个杂种发育不全系统有关的砧木细胞类型。我们建议通过在库存描述末尾附加细胞型指示,作为一个包含在<>中的单字母代码来实现。该符号应以逗号隔开基因型的最后一个成分,例如:。,年1w个1(f)1<P(P)>将指示具有这三个标记的P细胞型血统。如果需要指定一种以上的细胞类型<P;我>.
基因、等位基因和畸变名称和符号在文本中的表示
斜体
基因、等位基因、畸变和转座子/转基因结构的名称和符号在印刷文本中用斜体表示。
非金属。
当使用完整的基因名称或基因符号来表示表型而非基因型时,该名称或符号以罗马(非斜体)字体打印;即。,白色表示基因型,白色表示表型。
上标和下标。
在ASCII文本中,字符[和]用于括起上标字符,[[和]]用于括住下标。
细胞遗传学术语。
细胞遗传学名称没有斜体,除非是畸变符号的一部分。
保留字符。
以下字符保留用于基因、等位基因、畸变名称和符号或基因型:
符号 |
使用 |
\ |
保留用于除D.melanogaster外的其他物种的基因符号 |
/ |
保留用于库存基因型的同源分离器 |
{} |
保留用于转座子和转基因构建符号 |
<> |
保留用于转基因构建名称和库存细胞型指定 |
[] |
保留用于指示ASCII文本中的上标 |
[[]] |
保留用于指示ASCII文本中的下标 |
() |
保留用于复合基因名称和符号(例如,l(1))、畸变符号以及不明确基因型的指示 |
; |
保留作为染色体(染色体臂)数目在畸变名称和符号中的分隔符,并分离库存基因型中非同源染色体上的标记或畸变 |
: |
保留用于特定类别的符号,即转基因构建物、编码特殊RNAs(tRNAs、snRNAs)的基因、融合基因和线粒体基因,以及库存基因型,以指示易位回旋组分上的标记或复合染色体臂上的标记之间的关联。 |
基因产物在文本中的表示
蛋白质。
蛋白质产品名称和符号应不打印文本中使用斜体。在可行的情况下,以基因命名的蛋白质应通过大写基因符号或名称的首字母来进一步区分。例如小时(刺猬)该基因可以正确地表示为Hh或刺猬;the protein product(s) of theRpL38型(核糖体蛋白L38)该基因可以正确地标记为RpL38或核糖体蛋白L38;以及AGO1公司(氩-1)该基因可以正确地标记为AGO1或Argonaute-1。
对于未以该基因命名的蛋白质的表示没有固定的规则。
RNA。
文本中没有符号性地指定基因的通用RNA产品的惯例。
更新记录。
自1995年4月亚特兰大果蝇会议上介绍本文件以来,对其进行了实质性修改,如下所示。(这些变化已经包含在上述指南中,此处仅为提供历史记录。)
版本2.011995年4月25日:融合基因命名规则(第3.2.3段)已更改。
版本2.021995年5月13日:增加了一个新的段落(7.7),内容涉及模棱两可的基因型命名。
版本2.061995年11月22日:已对转座子名称示例进行了更正,以符合当前FlyBase实践。“荣誉基因”名单已经更新。
版本3.0,1996年3月18日:复杂像差的符号已从复杂的到抗体。指示FRT方向的<>符号的位置已更改,以符合当前用法。结肠被引入作为复合染色体易位和臂的倒数成分标记的分隔物,以澄清这些元素在群体中的关系和预期行为。“荣誉基因”名单已经更新。已添加目录。文件中做了各种小改动。
版本3.0119996年3月29日:测序项目识别的基因命名规则已更改,并添加了新的FlyBase镜像位点。
版本3.021996年8月7日修正了用于指示FRT方向的<和>的解释。“荣誉基因”名单已被删除。
版本3.03(1996年8月21日)阐明了转座子符号的构成。
版本4.0,1997年2月19日,包括命名在体外诱变构造(第2.2条。)和平衡器(第5.14条。).
1997年6月3日第4.1版包括对命名多个转座子插入的规则的修改(第3.1.2节。),对文本中蛋白质表示规则的澄清(第11.1条。),以及一项为编码核糖体蛋白的基因命名的建议(附录A。).
版本4.2,1998年3月8日,包括仅通过基因组测序项目鉴定的基因命名的修改规则(第1.1.3节).
1998年5月21日第4.3版对本文件的导言和格式进行了微小更改。
版本4.4,1999年2月9日,包括对第5.13条支持将未知断点标识为异色。
1999年7月6日5.0版,删除了所有对“荣誉基因”的引用(FlyBase不再使用此类别),并添加了昵称描述(第7.7条。).
版本5.011999年8月23日,进行了各种小修改。
6.0版,1999年11月23日,更新第9.1条。包括FlyBase关于使用序列输入来确定基因名称和符号的优先级的新政策。添加了许多链接,并进行了各种更正。
版本6.1,1999年12月27日,更新第1.1.3条。包括Celera鉴定的基因。
版本6.2,2000年4月5日,更新第1.1.3条。衍生出匿名基因符号前缀。
版本6.3,2000年5月12日,更新第2.2条。阐明等位基因符号的现行规则。
2000年8月28日第7版,更新第11.2条。消除了传统(果蝇学家从未采用过),即基因的RNA产物在文本中由所有斜体大写字母中的基因符号指定。
版本7.1,2001年4月18日,更新第1.1.3条。明确作者在重命名CG命名基因时需要提供CG基因符号。
版本7.2,2001年4月24日,更新第1.1.3条。澄清CG名称的持续分配。
版本8.0,2001年8月1日,更新第1.1节。为了阐明单基因:单有效符号规则,1.1.1.澄清某些基因符号的情况,以及第5.15条。以明确可以描述平衡器的各种方式。
8.1版,2001年8月28日,更新第5.13条。更改“h?”到“h”作为复像差符号中未定义的异色断点的符号。
版本8.2,2001年10月25日,更新第3节在示例基因型中包含外来基因前缀。
版本8.3,2001年11月26日,改写第7节阐明基因型决定了基因的等位基因。
第8.4版,2002年3月22日,更新了切片中的细胞学示例5.5.2.2.和6.2.
2004年8月16日第9版更新了中的序列注释术语第1.1.3节。并在中强调1.7.2.和10.5.禁止在基因和其他符号中使用字符。11稍作修改,以阐明这些选项适用于特定基因的通用蛋白质和转录物。
2006年11月16日第10版更新了附录
2007年8月23日第10.1版,对通用前缀表的列标题进行了澄清第1.3节
2008年2月6日10.2版,创建了节1.1.4和修正截面1.1.3指定用于果蝇基因组测序项目中识别的基因的注释前缀第1.1.3节和1.1.4
2008年10月17日第11版,更新了基因符号和名称指南。序言取代了“引言”和章节建立FlyBase批准的基因符号和名称的政策和基因符号和名称删除了“基因名称和符号”、“有效符号和同义词”以及附录A“编码核糖体蛋白质的基因命名”。章节小巷名称和符号到细胞类型相应地重新编号。