什么是假基因?

假基因是与编码基因相似但没有编码潜力的基因组DNA序列。他们被视为功能基因的已故亲属。

 
是什么导致假基因的产生?

假基因可能在两种公认的过程中产生:

  • 复制-修改(突变、插入、删除、,在复制过程中,基因的DNA序列可能发生帧移位。这些缺陷可能导致转录时基因功能的丧失或翻译由于序列不再产生一种蛋白质。以这种方式致残的基因拷贝被称为未经处理的复制假基因。

  • 反转位-mRNA转录的反转录具有cDNA随后重新整合到基因组中。这样的基因拷贝被称为处理假基因。这些假基因也可以积累随机的,随机的进化过程中的残疾。

点击在这里用于此定义的图形说明。

 
为什么假基因很有趣?

在任何分子进化研究中,有必要比较和对比各种生物体的基因,以评估生物体如何适应以确保生存。假基因是至关重要的,因为它们提供了基因组DNA如何在没有这种进化压力的情况下发生变化的记录,并且可以用作确定大基因组中核苷酸取代、插入和缺失的潜在速率的模型。

此外,由于伪基因的功能同源性较高,伪基因会在下一代测序分析的多个步骤中引入伪基因,例如PCR/靶点富集和读取映射。因此,有必要区分来自每个原点的信号,以得出真实的结果。此外,最近发现一些假基因实际上是通过其RNA产物发挥功能的,这自然导致了这样一个问题,即这些发现是零星的例外,还是反映了生物体中更普遍的机制。
 
如何通过计算识别假基因?

一旦在基因组中确定了基因序列,就有可能使用序列比对程序(如FASTA或BLAST)检测匹配核苷酸序列中的区域。这些匹配区域是潜在的基因如果有证据表明原因(见上文)得到满足。

在这些分析中,来自注释基因组和蛋白质数据库的基因首先被归类为paralog系列,然后用于调查整体拷贝或同源物的基因组。对于每个潜在的假基因(或片段)匹配,已经采取了一些步骤来评估其作为假基因。这些步骤包括检查过多计数和重复元素,基因组DNA与其他同源物重叠并与外显子相互参照来自基因组注释的任务。产生的假基因或假基因这些片段被归为最同源的paralog家族基因(如果探针基因没有明显的副log,则分配给单基因)。


假基因与已知蛋白质结构的关系

在许多情况下,更遥远的进化和功能关系只有通过对折叠的分析才能阐明蛋白质之间的关系其结构采用。虽然不能忘记基因的功能通常是由同源基因的功能暗示的蛋白质结构可以提供的附加信息需要基因组注释。

在假基因的情况下,结构信息可以提供额外的进化线索和便于分析褶皱范围伪基因群体(“伪”折叠)与观察到的基因本身。如果可能,即基因可以与SCOP匹配域,将褶皱分配给假基因或假基因片段是基于在分配了最同源的基因后。


我们的分析

我们的最初目标是调查一些真核生物基因组中的假基因伪基因序列及其片段。除此之外,我们还有还量化了“假折叠”用法、氨基酸组成,以及单核苷酸多态性(SNPs)有助于阐明这些关系在这些生物的假基因家族之间。

最近,作为ENCODE和modENCODE contria的一部分,我们重点对比分析了人类和其他模型生物(如小鼠、蠕虫和苍蝇)的伪基因注释和活性。我们还研究了单个基因组中的假基因化事件。

 
联系人

圆周率: Mark Gerstein博士