核小体是真核生物染色质的基本重复单位。核小体核心颗粒由两个核心组蛋白H2A(参见613499)、H2B(参见609904)、H3(参见602810)和H4形成的八聚体组成,DNA包裹在其周围。第五种组蛋白,组蛋白H1(见142709),与核小体之间的连接体DNA结合,对染色质的高级结构很重要。HIST1H4A是一种核心组蛋白H4(由Marzluff等人(2002年)和Foster and Downs(2005年)总结)。
所有核心组蛋白,包括H4组蛋白,都包含一个组蛋白折叠结构域,该结构域是核小体核心结构的中心,以及一个从核小体核颗粒突起的柔性N末端结构域。与其他组蛋白一样,H4组蛋白可以根据其时间表达进行分组。复制依赖性组蛋白,如HIST1H4A至HIST1H 4L(602831)和HIST2H4A(142750)主要在S期表达。相反,复制非依赖性组蛋白或替代变体组蛋白可以在整个细胞周期中表达。大多数复制依赖性H4组蛋白基因以及其他核心组蛋白基因位于染色体6p22-p21上的组蛋白基因簇-1(HIST1)内。另外两个组蛋白基因簇HIST2和HIST3分别位于染色体1q21和1q42上。HIST2含有1个复制依赖性H4基因HIST2H4A,HIST3中没有H4基因。另一个H4基因HIST4H4(615069)位于染色体12p13.1上。在小鼠中,Hist1、Hist2和Hist3基因簇分别位于染色体13A2-A3、3F1-F2和11B2上。所有依赖复制的组蛋白基因都是无内含子的,它们编码的mRNA没有多聚(a)尾,而是以保守的干环序列结束。与复制依赖组蛋白基因不同,复制独立组蛋白基因是位于染色体上的孤立基因,与任何其他H1或核心组蛋白基因分开。一些不依赖复制的组蛋白基因含有内含子,并编码具有poly(A)尾部的mRNA。所有人类和小鼠H4组蛋白基因编码相同的蛋白质(由Marzluff等人(2002年)和Foster和Downs(2005年)总结)。
通过基因组序列分析,Marzluff等人(2002年)鉴定了小鼠和人类HIST1H4A基因。所有小鼠和人类H4基因,包括HIST1H4A,编码相同的蛋白质。
Albig等人(1997年)通过分析6p21.3号染色体的YAC contig,确定了35个组蛋白基因簇的特征,包括H4/a。
通过基因组序列分析,Marzluff等人(2002年)确定染色体6p22-p21上的HIST1簇包含55个组蛋白基因,包括12个H4基因。HIST1H4A基因是HIST1簇内端粒最多的H4基因。HIST1簇跨越2 Mb以上,包含2个大的缺口(每个缺口超过250 kb),其中没有组蛋白基因,但有许多其他基因。染色体13A2-A3上的小鼠Hist1簇组蛋白基因的组织结构与人类Hist1中的组蛋白基因基本相同。染色体1q21上的HIST2簇包含6个组蛋白基因,包括1个H4基因(HIST2H4A;142750),而染色体1q42上的HIST簇包含3个组蛋白蛋白基因,但没有H4基因。Hist2和Hist3分别位于小鼠染色体3F1-F2和11B2上。另一个H4基因HIST4H4(615069)位于人类染色体12p13.1和小鼠染色体6G1上。
H4组蛋白家族
正如Felsenfeld(1992)所回顾的,对调节基因转录的蛋白质复合物的详细生化定义导致了关于组蛋白作用的问题再次出现。他回顾了表明转录激活需要转录因子与组蛋白成功竞争以结合启动子的证据。
CpG岛高甲基化和全基因组低甲基化是癌细胞常见的表观遗传学特征。Fraga等人(2005年)在正常组织、癌细胞系和原发性肿瘤的综合小组中描述了组蛋白H4的翻译后修饰。他们发现癌细胞失去了组蛋白H4的单乙酰化和三甲基化形式。这些变化早期出现,并在致瘤过程中积累,正如在多阶段皮肤致癌小鼠模型中所示。丢失主要发生在组蛋白H4的乙酰化lys16和三甲基化lys20残基上,并与DNA重复序列的低甲基化有关,这是癌细胞的一个众所周知的特征。Fraga等人(2005年)认为组蛋白H4的单乙酰化和三甲基化的全球丢失是人类肿瘤细胞的共同特征。
Wang等人(2001年)报道了组蛋白H4特异性甲基转移酶PRMT1(602950)的纯化、分子鉴定和功能表征,PRMT1是一种精氨酸甲基转移酶蛋白。PRMT1在体内外特异性地甲基化组蛋白H4的精氨酸-3。PRMT1对arg3的甲基化促进了随后p300(602700)对H4尾部的乙酰化。然而,H4的乙酰化通过PRMT1抑制其甲基化。最重要的是,PRMT1的S-腺苷-L-甲硫氨酸结合位点的突变实质上削弱了其核受体辅活化因子的活性。Wang等人(2001年)得出结论,他们的发现揭示了H4的arg3是PRMT1的一个新的甲基化位点,并表明arg3甲基化在转录调控中起着重要作用。
Agalioti等人(2002年)发现,在干扰素-β基因(IFNB;147640)激活期间,组蛋白H3(见602810)和H4中只有一小部分赖氨酸在体内被GCN5乙酰转移酶乙酰化(见602301)。在这些赖氨酸残基中携带突变的重组核小体的重组揭示了通过含有溴结构域的转录复合物的有序募集,通过组蛋白密码的逐点解释的基因激活级联。组蛋白H4 lys8的乙酰化介导SWI/SNF复合物的募集(参见603111),而组蛋白H3中lys9和lys14的乙酰化对于TFIID的募集至关重要(参见313650)。因此,增强子DNA地址中包含的信息通过生成转录复合物招募所需的新型粘附表面转移到组蛋白N末端。
Black等人(2004年)利用氘交换/质谱结合流体力学测量证明,CENPA(117139)和组蛋白H4形成亚核体四聚体,比组蛋白H3和H4的相应四聚体更紧密,构象更刚性。负责压实的CENPA结构域的组蛋白H3替换足以将其导向着丝粒。因此,Black等人(2004年)得出结论,CENPA的着丝粒靶向结构域为其组装的核小体赋予了独特的结构刚性,并可能在维持着丝粒特性方面发挥作用。
组蛋白H4在赖氨酸-16(H4-K16Ac)上的乙酰化是真核生物中普遍存在的可逆翻译后染色质修饰。为了表征该标记的结构和功能作用,Shogren-Knaak等人(2006年)使用天然化学连接策略生成组蛋白H4,该组蛋白在K16处均匀乙酰化。将这种修饰的组蛋白掺入核小体阵列抑制了致密的30纳米类纤维的形成,并阻碍了染色质形成跨纤维相互作用的能力。H4-K16Ac还抑制了三磷酸腺苷利用染色质组装和重塑酶ACF动员单核小体的能力,表明这种单组蛋白修饰调节了非组蛋白和染色质纤维之间的高阶染色质结构和功能相互作用。
在前列腺癌原代小鼠模型内源性肿瘤相关T细胞反应的筛选中,Savage等人(2008年)确定了一种天然产生的CD8+T细胞反应,该反应与组蛋白H4产生的肽反应。尽管组蛋白具有普遍的性质,但组蛋白H4肽的T细胞识别与这些小鼠前列腺癌的存在有特异性相关。因此,Savage等人(2008年)得出结论,肿瘤浸润性T细胞识别的抗原库比以前认为的更广,包括来自普遍存在的自身抗原的肽,这些肽通常从免疫检测中分离出来。
Dang等人(2009年)报告称,酵母Sir2(参见SIRT1,604479)蛋白丰度随年龄增长而降低,同时组蛋白H4赖氨酸-16乙酰化增加,组蛋白在复制性老酵母细胞的特定亚团区域丢失,导致这些位点的转录沉默受损。组蛋白乙酰化转移酶Sir2和Sas2的拮抗活性通过组蛋白H4 lys16在团下区域调节复制寿命。Dang等人(2009年)得出结论认为,该途径不同于现有的酵母老化模型,可能代表了sirtuins通过维持完整的端粒染色质来调节复制老化的进化保守功能。
Xu等人(2010年)报告称,大量组蛋白H3.3(见601128)-H4四聚体在体内分裂,而大多数H3.1(见602810)-H4四聚体在有丝分裂期间保持完整。抑制DNA复制依赖性沉积大大降低了分裂事件的水平,这表明(i)非复制依赖性H3.3沉积途径主要通过协同结合2个新的H3.3-H4二聚体进行,(ii)大多数分裂事件发生在复制依赖性沉淀期间。Xu等人(2010年)得出结论,大异色区内的“无声”组蛋白修饰是通过复制相邻的先前存在组蛋白的修饰来维持的,而不需要H3-H4分裂事件。
Qi等人(2010年)提供了多行证据,证明PHF8(300560)是第一个单甲基组蛋白H4赖氨酸-20(H4K20me1)脱甲基酶,对组蛋白H3K9me1和me2具有额外活性。PHF8位于约7000个RefSeq基因的转录起始位点周围,位于基因体和基因间区域。PHF8缺失导致转录起始位点上的H4K20me1和H3K9me1上调,非转录起始位点的H3K9 me2上调,表明不同靶点的底物特异性不同。PHF8正向调节基因表达,这依赖于其H3K4me3-结合PHD和催化结构域。重要的是,患者突变显著损害了PHF8的催化功能。PHF8调节斑马鱼大脑和颌骨发育中的细胞存活,从而为了解PHF8患者的临床症状提供潜在相关的生物学背景。最后,遗传和分子证据支持一种模型,即PHF8部分通过直接调节同源域转录因子MSX1/MSXB(605558)的表达来调节斑马鱼神经元细胞存活和颌骨发育,该转录因子在多种信号和发育途径的下游发挥作用。
Liu等人(2010年)报告称,PHF8在使用多种底物(包括H3K9me1/2和H3K27me2)的同时,也起到H4K20me1脱甲基酶的作用。PHF8通过其PHD结构域根据与H3K4me2/3的相互作用被招募到启动子中,并通过从E2F1调节基因启动子的一个子集中删除抑制性H4K20me1标记,控制G1-S与E2F1、HCF1(300019)和SET1A(611052)的转换,至少在部分程度上是这样的。在有丝分裂早期,H4K20me1的积累显然需要前期磷酸化依赖的PHF8从染色质中排出,这可能是凝聚素II负载过程的一个组成部分。因此,两个非结构维持染色体(SMC)凝聚素II亚单位NCAPD3(609276)和NCAPG2(608532)中的HEAT重复簇能够识别H4K20me1,ChIP-Seq分析表明有丝分裂HeLa细胞中凝聚素II和H4K20me1位点有显著重叠。因此,Liu等人(2010年)得出结论,H4K20me1脱甲基酶PHF8的鉴定和表征揭示了该酶与细胞周期进展中的两个不同事件之间的密切联系。
Fullgrabe等人(2013)报告称,通过下调组蛋白乙酰转移酶MOF(MYST1;609912),自噬的诱导与组蛋白H4赖氨酸-16乙酰化(H4K16ac)的减少相耦合,并证明这种组蛋白修饰调节自噬结果。在全基因组水平上,Fullgrabe等人(2013)发现H4K16脱乙酰化主要与自噬相关基因的下调有关。拮抗自噬诱导的H4K16ac下调导致细胞死亡。Fullgrabe等人(2013年)的结论是,他们的发现确立了在自噬过程中特定组蛋白翻译后修饰的改变会影响自噬相关基因的转录调控,并启动调控反馈回路,这是自噬诱导后存活与死亡反应的关键决定因素。
Saredi等人(2016年)发现,DNA复制过程中并入的新组蛋白提供了复制后染色质的特征,该特征由TONSL(604546)-MMS22L(615614)同源重组复合体读取。TONSL的锚蛋白重复结构域(ARD)读取在lys20处未甲基化的组蛋白H4尾部,这是DNA复制过程中并入的新组蛋白特有的特征。TONSL-MMS22L在掺入核小体之前和之后结合新的组蛋白H3-H4,并保留在复制的染色质上直到晚期G2/M。TONSL-MMS22L与染色质结合并在受攻击的复制叉和DNA损伤处积累需要识别未甲基化的H4 lys20。TONSL ARD中的突变是有毒的,损害了基因组稳定性、细胞活力和对复制应激的抵抗力。
晶体结构
Sekulic等人(2010年)报告了亚核小体异四聚体(CENP-a-H4)2(CENP_a,117139,与组蛋白H4复合)的晶体结构,揭示了组成CENP-a靶向结构域(CATD)的残基编码的3种不同性质:(1)CENP-a-CENP-a接口,相对于H3-H3接口旋转很大;(2) 与H3上的电荷相反的突出回路L1;和(3)使CENP-A-H4界面硬化的强疏水性接触。参与CENP-A-CENP-A旋转的残基是有效掺入着丝粒染色质所必需的,这表明对非常规核小体形状的特异性。DNA拓扑学分析表明,含有CENP-A的核小体是八聚体,具有传统的左手DNA包装。Sekulic等人(2010年)得出结论,CENP-A通过从折叠组蛋白核心内重组核小体来标记着丝粒位置。
Elsasser等人(2012年)报告了具有组蛋白H3.3-H4二聚体的DAXX(603186)组蛋白结合域的晶体结构,包括DAXX和H3.3内的突变体,以及阐明H3.3识别特异性基础原理的体内外功能研究。DAXX占据组蛋白表面可接触区域的40%,包裹在H3.3-H4二聚体周围,在H3.3-H4组蛋白折叠中伴随着结构转换而形成复杂结构。DAXX使用扩展的α-螺旋构象与主要组蛋白、DNA和ASF1相互作用位点竞争。Elsasser等人(2012年)得出结论,他们的结构研究确定了能够读出H3.3特异性残基的识别元件,功能研究探讨了H3.3中gly90和DAXX中glu225对伴侣介导的H3.3变体识别特异性的贡献。
组蛋白IV基因在整个进化过程中高度保守。Delange和Smith(1971)指出,牛和豌豆的组蛋白IV基因在110个氨基酸中只有2个残基不同。
Heintz等人(1981年)得出结论,人类组蛋白基因聚集在基因组中,但没有排列成可识别的重复单位。人类组蛋白基因缺乏组织(与无脊椎动物或非洲爪蟾相比)可能反映了哺乳动物早期发育期间快速合成大量组蛋白的需求减少。
Kedes和Maxson(1981年)发现,人类、小鼠、鸡和蟾蜍的组蛋白基因呈现分散的拓扑结构;它们被非组蛋白DNA的长片段分散开来。在一篇题为《失范》的文章中,作者提到了“这个新发现的散居者”
Marzluff等人(2002年)为位于HIST1、HIST2和HIST3簇内的复制依赖性组蛋白基因提供了一个命名法。这些基因的符号都以HIST1、HIST2或HIST3开头,根据它们所处的簇。H2A、H2B、H3和H4基因根据它们在HIST1、HIST2和HIST3簇中的位置进行系统命名。例如,HIST1H4A是HIST1中端粒最多的H4基因,而HIST1H 4L(602831)是最具着丝粒的基因。相反,所有位于HIST1内的H1基因都是根据其小鼠同源物命名的。因此,HIST1H1A(142709)与小鼠H1a同源,HIST1 H1b(142711)与小鼠H2b同源,依此类推。
Szabo等人(1978年)提出了核酸杂交数据,表明7号染色体携带组蛋白H4蛋白编码基因。Steffensen(1979)提出证据表明,人类所有5个组蛋白基因都聚集在7q2。Yunis和Chandler(1979)将组蛋白基因定位在黑猩猩、大猩猩和猩猩的7q32-36带和同源染色体片段上。
如Hentschel和Birnstiel(1981)引用的那样,Clark等人(1981)分离出了一个克隆,该克隆包含H3-H4-H1-H2A-H2B顺序的人类组蛋白基因簇。Sierra等人(1982年)同样发现组蛋白基因的排列与海胆和果蝇不同。
Carozzi等人(1984年)从15-kb人类DNA基因组序列中分离出H1组蛋白基因。同一个15-kb片段中存在H2A、H2B、H3和H4基因,表明这些基因是聚集的。
通过对鼠-人细胞杂种的研究和原位杂交,Green等人(1984)表明H3和H4组蛋白基因位于1q,可能是1q21。通过原位杂交,Tripputi等人(1986年)得出结论,组蛋白基因至少映射到3条不同的染色体:1、6和12。一些可能是非表达假基因。他们评论说组蛋白基因的数量在100到200之间。组蛋白是唯一由重复DNA编码的蛋白质。Tanguay等人(1987年)报告了使用含有果蝇5个组蛋白基因的异源探针的原位杂交数据,证实了Tripputi等人(1986年)的数据。他们发现,谷物的主要浓度为6p12-q21、12q11-q22和1cen-q25。Allen等人(1989年)报道了组蛋白3和组蛋白4在人类6号染色体上的相互矛盾的分配。