跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

HTTP服务器

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2012年9月26日;13(9):R51。
doi:10.1186/gb-2012-13-9-r51。

GENCODE伪基因资源

附属公司

GENCODE伪基因资源

白康培等。 基因组生物学. .

摘要

背景:假基因一直被认为是非功能基因组序列。然而,最近的证据表明,其中许多可能具有某种形式的生物活性,功能性的可能性增加了人们对其精确注释和与功能基因组数据集成的兴趣。

结果:作为人类基因组GENCODE注释的一部分,我们提出了第一个基于大规模手动注释和电子管道的全基因组蛋白质编码基因伪基因分配。这种耦合方法的一个关键方面是,它允许我们以无偏见的方式识别假基因,并通过手动评估解开复杂事件的谜团。我们将伪基因注释与广泛的ENCODE功能基因组学信息相结合。特别是,我们确定了与每个假基因相关的表达水平、转录因子和RNA聚合酶II结合以及染色质标记。基于它们的分布,我们为每种类型的活动开发了简单的统计模型,并通过大规模RT-PCR-Seq实验进行了验证。最后,我们将我们的假基因与灵长类动物比对和1000基因组项目的保护和变异数据进行了比较,产生了可能被选择的假基因列表。

结论:在一个极端,一些假基因具有传统的功能特征;这些可能代表最近死亡的基因。另一方面,我们发现了部分活性的有趣模式,这可能表明死亡基因正在作为功能性非编码RNA被复活。每个假基因的活性数据存储在相关资源psiDR中,这将有助于初步识别潜在功能假基因。

PubMed免责声明

数字

图1
图1
伪基因注释流程图.描述GENCODE伪基因注释程序的流程图,以及1000基因组(1000G)项目和ENCODE中功能基因组学数据的合并。这是一个集成的过程,包括由HAVANA团队完成的手动注释和两个自动预测管道:Pseudo Pipe和RetroFinder。由PseudoPipe和RetroFinder注释的基因座被收集在标记为“双向一致性”的子集中,该子集与手动注释的哈瓦那假基因进一步相交。交叉产生三个假基因亚群。1级假基因是通过所有三种方法(Pseudo Pipe、RetroFinder和HAVANA)识别的基因座。二级假基因是通过人工管理发现的基因座,而不是通过自动管道发现的。Delta 2-路包含仅通过计算管道识别的假基因,并且未通过手动注释进行验证。作为一项质量控制练习,以确定人工注释的染色体中伪基因注释的完整性,HAVANA团队对双向一致性假基因进行分析,以确定其有效性,并在适当的情况下将其包含在人工注释的假基因集中。最后一组假基因与ENCODE的功能基因组数据和1000基因组项目的基因组变异数据进行了比较。
图2
图2
假基因注释的增长绘制了GENCODE数据集中从版本1到版本7的假基因数量。这三种颜色——紫色、绿色和黄色——分别代表加工的、复制的和其他类型的假基因。人工和/或使用自动管道Pseudo Pipe和RetroFinder对假基因进行注释。灰色条表示假基因的估计数量(人类基因组中存在的±标准偏差)。
图3
图3
转录假基因的复杂性.伪基因注释的屏幕截图来自Zmap注释界面。假基因用开的绿色方框表示,用深绿色箭头表示,相关转录模型的外显子用填充的红色方框表示,连接用红线表示。蛋白质编码模型的编码外显子用深绿色框表示,UTR外显子则用红色填充框表示;蛋白质编码模型也用红色箭头表示。(a-c)单假基因模型与单转录模型交叉。(a) 加工假基因高迁移率组盒1假基因(HMGB1P公司; HAVANA基因ID:OTTHUMG00000172132及其相关的非片段(即单个外显子)转录本。(b) 加工假基因肌管蛋白相关蛋白12假基因(MTMR12P型; HAVANA基因ID:OTTHUMG00000167532)和带有三个外显子的剪接转录模型。(c) 含有1个假基因1的重复假基因PDZ结构域(PDZK1P1; HAVANA基因ID:OTTHUMG00000013746)和具有九个外显子的剪接转录模型。(d,e)与多个转录物交叉的单假基因模型。(d) 加工假基因核糖体蛋白,大,P0假基因1(转速0p1; HAVANA基因ID:OTTHUMG00000158396)和五个剪接转录本。(e) 序列相似性为86,成员为A的重复假基因家族(FAM86AP系列; HAVANA基因ID:OTTHUMG00000159782)和四个剪接转录本。(f,g)由重叠转录物连接的多个假基因组。(f) 三个具有单连接转录本的假基因:1是重复的假基因von Willebrand因子假基因1(大众FP1; HAVANA基因ID:OTTHUMG00000143725);2是重复的假基因锚蛋白重复结构域62假基因1(ANKRD62P1型; HAVANA基因ID:OTTHUMG00000149993);3是复制的假基因多聚(ADP-核糖)聚合酶家族,成员4假基因3(第4部分第3页; HAVANA基因ID:OTTHUMG00000142831)。假基因1和2由一个七外显子转录本连接,假基因2和3由一个九外显子抄本连接,第三个转录本与假基因2共享其四个外显子中的两个。(g) 两个具有多个连接转录本的假基因:1是加工的假基因维生素K环氧还原酶复合物,亚基1样1假基因(VKORC1L1P公司; HAVANA基因ID:OTTHUMG00000156633);2是含有TCP1亚基6(zeta)假基因3的复制假基因伴侣蛋白(CCT6P3型; HAVANA基因ID:OTTHUMG00000156630)。这两个假基因由两个转录物连接,转录物起始于上游假基因,并利用单个外显子内的剪接供体位点,这也是假基因父位点中的剪接供体位点。有趣的是,下游基因座含有两个小核仁RNA(snoRNAs),它们分别存在于父基因座和另一个副基因座中。(h)一种非常复杂的情况,由多个转录物连接的多个假基因通读到相邻的蛋白质编码位点:1是SKP1的G2等位基因的重复假基因抑制因子(酿酒酵母)假基因(SGT1P公司; HAVANA基因ID:OTTHUMG0000020323);2是一个新的重复假基因(OTTHUMG00000167000);蛋白质编码基因是C9或174,第9染色体开放阅读框174(OTTHUMG00000167001)。(i)类似复杂的情况是,由多个转录物连接的多个假基因读入相邻的蛋白编码位点:1是复制的假基因基质抗原3假基因(第三阶段; HAVANA基因ID:OTTHUMG00000156884);2是一个复制的假基因脊髓灰质炎病毒受体相关免疫球蛋白结构域,包含假基因(PVRIGP公司; 哈瓦那基因ID:OTTHUMG00000156886);蛋白质编码基因是PILRB公司,成对免疫球蛋白样2型受体β(OTTHUMG00000155363)。sRNA,小RNA。
图4
图4
假基因及其亲本的序列一致性.(a)假基因序列同一性在亲本基因编码外显子(CDS)中的分布。(b)假基因序列同一性与亲本基因3'UTR的分布。(c)所有假基因序列同一性到其亲本CDS和UTR区域的散点图。
图5
图5
假基因转录.(a)转录假基因(Pgenes)的计算识别管道。“OR”门(二进制运算符)表示候选基因进入转录假基因库的接受标准。通过RT-PCR或RT-PCR-Seq将显示ESTs/mRNAs中转录证据的表达假基因候选基因、总RNA-Seq数据和BodyMap数据发送给wet-lab验证。(b)伪基因转录实验评估的流程。(c)PseudoSeq的用户界面,用于使用BodyMap数据识别转录的假基因。(d)使用人体图数据识别的转录假基因。(e)实验验证结果显示假基因在不同组织中的转录。
图6
图6
人类编码序列、加工假基因和复制假基因的保存研究了不同物种与人类基因组区域同源的序列。序列保存率计算为每个物种中与人类序列对齐的序列的百分比。该计算基于MultiZ多基因组序列比对。
图7
图7
(a) 显示了转录和非转录假基因的SNP-、(b)indel-和(c)SV-衍生等位基因频谱不同DAF在转录假基因和非转录假基因中的分布在统计学上没有差异。
图8
图8
染色质特征:DNaseI超敏反应和组蛋白修饰编码基因、转录假基因和非转录假基因的TSS周围的平均染色质可及性谱和各种组蛋白修饰。TSS周围的编码基因组蛋白修饰图谱遵循已知模式,例如,TSS上游约1 kb处H3K4me1富集,靠近TSS的H3K4me3峰值[63]。转录假基因也比非转录假基因显示更强的H3K4信号。H3K27me3是一个通常与基因阻遏相关的标记[64],显示编码基因在TSS周围缺失,假基因在同一区域有一个独特的峰值。H3K36me3在TSS也显示出与H3K27me3相似的模式,这可能与核小体耗竭有关。
图9
图9
分割:与假基因和亲本基因相关的染色质分割的比较.根据以下标准选择转录的假基因:有来自基因编码、体图或质谱研究的转录证据;与注释的编码基因没有已知的重叠;并且在假基因启动子上游或下游没有相邻的蛋白编码基因TSSs4kb。
图10
图10
具有活性染色质状态的假基因示例.(a)加工假基因(集合基因ID:ENST00000495909;基因组位置chr5:90650295-90650751)。该假基因根据片段活性选择标准2显示活性标记。(b)转录重复假基因(集合基因ID:ENST00000412397.1;基因组位置chr1:998456-1004735)。该假基因根据片段活性选择标准1显示活性标记。
图11
图11
假基因上游转录因子结合位点.(a)上游序列中具有不同数量TFBS的假基因的分布。比较了转录假基因和非转录假基因的图谱。数据来自K562细胞系。(b)不同细胞系中带有活性启动子和/或活性Pol2结合位点的假基因数量。
图12
图12
伪基因注释和案例研究综述.(a)显示转录假基因注释的热图,包括活性染色质分段、DNaseI超敏性、活性启动子、活性Pol2和保守序列。原始数据来自K562细胞系。(b)一种转录的复制假基因(Ensembl基因ID:ENST00000434500.1;基因组定位,chr7:65216129-65228323),在其上游序列中显示出一致的活性染色质可及性、组蛋白标记和TFBS。(c)一种转录处理的假基因(集合基因ID:ENST00000355920.3;基因组位置,chr7:72333321-72339656),没有活性染色质特征或保守序列。(d)显示部分活性模式的非转录重复假基因(集合基因ID:ENST00000429752.2;基因组位置,chr1:109646053-109647388)。(e)部分活性假基因的例子。E1和E2是复制假基因的例子。E1显示UGT1A2P标准(集合基因ID:ENST00000454886),用绿色箭头表示。UTG1A2P公司是一个带有活性染色质的非转录假基因,处于负选择状态。蛋白质编码同源基因座的编码外显子由深绿色框表示,UTR外显子由填充的红色框表示。E2显示FAM86EP公司(集合基因ID:ENST00000510506)作为开绿箱,这是一个转录的假基因,具有活性染色质和上游TFBS和Pol2结合位点。与该位点相关的转录本模型显示为填充的红色框。黑色箭头表示伪基因位点的新特征。E3和E4显示两个单一假基因。E3显示DOC2GP公司(集合基因ID:ENST00000514950)作为打开的绿色框,与该位点相关的转录模型显示为填充的红色框。E4显示SLC22A20型(集合基因ID:ENST00000530038)。同样,假基因模型表示为开放的绿色方框,与该位点相关的转录模型表示为填充的红色方框,黑色箭头表示假基因位点的新特征。E5和E6显示两个加工假基因。E5显示假基因EGLN1型(集合基因ID:ENST00000531623)插入重复假基因扫描2(集合基因ID:ENST00000541103),这是一个转录的假基因,显示活性染色质,但没有父基因中的上游调控区域。假基因模型表示为开放的绿色方框,与该位点相关的转录模型显示为填充的红色方框,黑色箭头表示假基因位点的新特征。E6显示加工假基因转速11-409K20码(集合基因ID:ENST00000417984;填充绿色框),已插入CpG岛,用橙色箭头表示。sRNA,小RNA。

类似文章

  • 基因编码假基因。
    Sisu C.公司。 Sisu C.公司。 方法摩尔生物学。2021;第2324页:第67-82页。doi:10.1007/978-1-0716-1503-4_5。 方法摩尔生物学。2021 PMID:34165709
  • 基于序列同源性的伪基因注释计算方法。
    哈里森首相。 哈里森首相。 方法摩尔生物学。2021;2324:35-48. doi:10.1007/978-1-0716-1503-43。 方法摩尔生物学。2021 PMID:34165707 审查。
  • 基因编码假基因。
    弗兰基什A,哈罗J。 Frankish A等人。 方法摩尔生物学。2014;1167:129-55. doi:10.1007/978-1-4939-0835-6_10。 方法摩尔生物学。2014 PMID:24823776
  • 评估选择中保守转录假基因的基因组证据。
    Harrison PM Khachane AN。 Khachane AN等人。 BMC基因组学。2009年9月15日;10:435. doi:10.1186/1471-2164-10-435。 BMC基因组学。2009 PMID:19754956 免费PMC文章。
  • 加工假基因:特征和进化。
    瓦宁EF。 瓦宁EF。 基因年度修订。1985;19:253-72. doi:10.146/annrev.ge.19.120185.001345。 基因年度修订。1985 PMID:3909943 审查。

引用人

工具书类

    1. Mighell AJ、Smith NR、Robinson PA、Markham AF.脊椎动物假基因。FEBS信函。2000;468:109–114. doi:10.1016/S0014-5793(00)01199-6。-内政部-公共医学
    1. Harrison PM、Echols N、Gerstein MB。挖掘死亡基因:秀丽隐杆线虫基因组中假基因群体特征分析。2001年《核酸研究》;29:818–830. doi:10.1093/nar/29.3818。-内政部-项目管理咨询公司-公共医学
    1. Echols N,Harrison PM,Balasubramanian S,Luscombe NM,Bertone P,Zhang Z,B GM.真核生物基因组中氨基酸和核苷酸组成的综合分析,比较基因和假基因。核酸研究2002;30:2515–2523. doi:10.1093/nar/30.11.2515。-内政部-项目管理咨询公司-公共医学
    1. Balakirev E,Ayala F.伪基因:它们是“垃圾”还是功能DNA?基因年度修订。2003;37:123–151. doi:10.1146/annurev.genet.37.040103.103949。-内政部-公共医学
    1. Zhang ZD、Frankish A、Hunt T、Harrow J、Gerstein MB。单一假基因的鉴定和分析:人类和其他灵长类动物的历史和当代基因丢失。基因组生物学。2010;11:R26。doi:10.1186/gb-2010-11-3-r26。-内政部-项目管理咨询公司-公共医学

出版物类型