主要文本
在脊椎动物和无脊椎动物中,多梳复合物与含有抑制标记和沉默或低转录状态的染色质有关。多梳消声对发展至关重要10–14,异常的抑制活性可以促进几种癌症的恶性化15–18BAF复合物反对Polycomb沉默,BAF和Polycomm之间平衡的破坏是两种模型癌症致癌转化的基础三,5,6此外,在驱动肾脏突变的独立筛查中发现BAF失活突变19,卵巢20,髓母细胞瘤21,横纹肌样22,结肠直肠23、和肺24肿瘤和泛癌研究7,25这表明,对Polycomb沉默的破坏性反对可能是常见癌症的一个普遍特征。此外,许多受神经系统疾病影响的肿瘤和患者含有BAF ATP酶Smarca4或Smarca2的杂合突变26,以及癌症细胞系中的CRISPR-Cas9平铺屏幕显示,ATP酶域是Smarc4最重要的功能域27因此,我们假设Smarca4-ATPase结构域在反对多囊卵巢沉默中起着核心作用。
为了研究Smarca4失活的影响,我们首先使用小鼠胚胎干细胞(mESCs)的条件敲除系来确定Smarca 4缺失对PRC1和PRC2的急性影响。在Smarca4的条件性缺失后,Ring1b(PRC1的一个专用催化亚单位)的ChIP-seq显示,在基因组中PRC1位点的34%(4754个位点中的1634个)处,PRC1的占有率可重复增加(,图S1–S2)尽管Ring1b表达水平没有改变(图S3). 入住率增加的场地分布在几个确定的类别中28Polycomb靶基因,以及野生型细胞中Polycomm不典型靶基因(图S1). 发育调节因子是增加位点中最丰富的基因集之一(图S1). 我们对Suz12的ChIP-seq(PRC2的一个专用亚单位)获得了类似的结果,约36%(5279个站点中的1892个)的站点显示PRC2占用率增加(). 我们试图将这种影响的程度与Arid1a的条件性缺失进行比较,Arid1b是另一种在癌症中通常失活的BAF基本亚单位(). Arid1a的条件性缺失同样导致Ring1b和Suz12峰值增加,但出现的位点更少;这些主要是Smarca4缺失后增加的一个子集(). 此前ChIP-seq对Smarca4缺失后H3K27me3水平的研究显示,其影响较小4,我们将这种效应归因于H3K27me3积累的缓慢速率。基因组中BAF亚基缺失引起的PRC1和PRC2变化之间的高度相关性(),表明BAF失活后Polycomb占用率存在特征性的亚单位依赖性变化。使用RNA-seq,我们证实了Smarca4缺失后PRC1/2增加的基因表达减少,这表明我们观察到的变化足以改变基因表达().
BAF亚基缺失后PRC1和PRC2的特征积累(a)环1b ChIP-seq在条件Smarca4敲除mESCs中的PRC1占用率的全基因组增加。图中的每个点代表一个单独的Ring1b峰值。增加(橙色)、减少(蓝色)或保持不变(灰色)的站点使用方法部分中描述的标准进行标记。(b)Suz12 ChIP-seq在条件Smarca4敲除mESCs中的PRC2占用率的全基因组增加。(c)环1b ChIP-seq在条件Arid1a敲除mESCs中。(d)Suz12 ChIP-seq在有条件Arid1a击倒mESCs中。(e(电子))BAF亚单位敲除后PRC1/2的轨迹示例,与小鼠ENCODE项目的组蛋白标记轨迹对齐49其他跟踪和分析如下所示补充数字.(f)Smarca4或Arid1a基因敲除后全基因组PRC1/2倍变化的皮尔逊相关热图(左上);Polycomb占用率发生变化的所有峰值的热图。PRC1和PRC2高度耦合,Arid1a淘汰产生的变化是Smarca4淘汰产生的一个子集(右)。(克)野生型和条件Smarca4敲除mESCs的RNA-seq数据比较。Smarca4基因敲除后改变的基因表达在重复中是一致的。基因表达变化与(小时)环1b峰值,或(我)TSS发现Suz12峰值。Smarca4基因敲除后,基因表达水平与TSS上Ring1b和Suz12的变化呈负相关。通过皮尔逊积矩相关测试获得的相关性和P值。
在许多恶性肿瘤中,Smarca4的有害错义突变发生的频率高于截断突变()这表明,在癌症中,功能失活而不是表达缺失处于正选择状态。Smarca4是类SF2螺旋酶ATP酶家族的成员29,以及根据癌症基因组图谱(TCGA)编译的原发肿瘤和癌细胞系中的突变计数30和癌症细胞系百科全书(CCLE)31显示保守SF2基序或其附近的突变簇,包括Walker A(ATP结合)、Walker B(水解)和包含保守SF2解旋酶基序1A(底物结合,)32.
Smarca4-ATP酶结构域的突变导致富含CpG启动子的PRC1占据率增加(a)BAF亚单位突变类型的比例从截断突变到有害错义突变不断变化。Smarca4突变通常是有害的错义突变,而不是截断突变。(b)原发性肿瘤和癌细胞系中Smarca4-ATPase结构域的突变位置(黑色)与保守序列基序重叠。残留物突变频率(蓝色)与残留物保守性得分(灰色)一致。(c)野生型和ATP酶突变体Smarca4之间Ring1b峰的所有折叠变化的热图。ATP酶突变体主要诱导环1b增加。(d)Smarca4 ATP酶突变体之间的Ring1b占据倍数变化相关。全基因组折叠变化的皮尔逊相关值表示为热图。(e)观察到的野生型和Smarca4突变体之间的变化在独立复制中是一致的。(f)根据基因组注释,Smarca4突变体诱导Ring1b占用增加的位点重叠富集热图。这些值反映了与未改变的站点相比,增加的站点的富集程度。
由于Smarca4的许多癌症突变是杂合的,我们试图研究ATPase域内的错义突变是否导致Polycomb的放松调控,即使与野生型Smara4共表达。使用条件剔除mESC行4,我们通过慢病毒转导野生型Smarc4-GFP融合物和用V5标记的野生型或突变型Smarca4(“Smarca4-V5”)挽救了Smarca4缺失,导致内源性表达水平(图S3). 这种策略使我们能够在模拟杂合突变的环境中观察突变的效果,并使我们能够区分同一品系中的两个Smarca4变异体。基于癌症和神经发育障碍的突变频率9,我们重点检测了六种突变:p.Gly784Glu(G784E)、p.Lys785Arg(K785R)、p.Tyr860His(Y860H)、p.Glu861Lys(E861K)、p.Glu882Lys(E882K)和p.Arg885His(R885H;残基根据人类RefSeq基因编号)。其中,K785R以前被认为是一种无核ATP酶失活突变33,34这些位置代表三个保守区域:沃克A、沃克B和中间连接子。因此,我们将每个突变体与野生型Smarca4-GFP一起共同表达为Smarca4-V5融合。作为对照,我们将这些细胞与类似制备的细胞进行了比较,这些细胞表达野生型Smarca4-V5,而不是突变型。
与野生型相比,每个Smarca4-ATP酶突变体的杂合表达导致特定基因(包括Fgf11基因等发育调节剂)的PRC1占有率增加(图S4). 在基因组上的所有PRC1位点中,Smarca4 ATP酶突变或缺失导致PRC1占用增加的位点显著重叠(p=1e-30,图S5). PRC1的变化模式在所有突变体中高度相关且可重复,与野生型复制品之间的变化无关(). 与未改变的位点相比,Smarca4-ATPase突变体诱导PRC1占据率增加的位点在启动子、转录起始位点和CpG岛富集,但在3′UTR和基因间区耗尽(). 为了证实这种效应并非小鼠细胞独有,我们检测了人类肺癌细胞系A549中全基因组Ring1b的占有率,该细胞系含有Smarca4的零突变;在野生型或ATP酶突变体Smarca4表达后,我们观察到类似的全基因组效应(图S6).
我们试图确定特定基因组标记是否可以预测Smarca4突变体表达后PRC1占用率的变化。因此,我们检查了之前从野生型mESCs获得的111个因子的ChIP-seq数据。秩排序显示,一些阳性标记,尤其是H3K4me3,在Smarca4-ATP酶突变体存在的情况下,容易增加PRC1占用的位点的读取密度升高(图S7). 我们使用了Fisher线性判别法35,36确定最佳区分PRC1入住率增加和PRC1入住量减少的场所的特征组合。我们发现H3K4me3和其他一些与活性启动子相关的特征,包括H3K4甲基转移酶Kmt2b37H3K4脱甲基酶Kdm5a以及H3K27ac和Hdac1/2从增加的位点富集,从减少的位点耗尽。值得注意的是,这些特征和其他特征完全区分了染色质景观沿线的两类位点(). 拉索多元回归38独立证实H3K4me3是与Smarca4-ATPase突变体诱导的Ring1b占用增加的位点最积极相关的标记(). 事实上,在双价位点上,野生型细胞中H3K4me3的水平比H3K27me3更好地预测ATP酶突变体引起的Ring1b变化(图S7). 总之,我们的结果表明,阳性标记水平最高的富含CpG的二价启动子,尤其是H3K4me3,是对Smarca4-ATP酶突变体最敏感的启动子。这一观察结果表明,这两个三冠状病毒群复合物(BAF和含MI的COMPASS复合物)协同工作。
染色质特征定义了Smarca4-ATPase突变体表达后易导致多梳增加的位点(a)Fisher线性判别法表明,染色质特征的组合决定了对Smarca4-ATP酶突变体的反应。增加和减少的位点具有不同的特征组合,增加的位点具有升高的H3K4me3和其他积极因素/标记。(b)通过Lasso多元回归获得的给定位点Ring1b折叠变化与上述染色质特征相关的回归权重,表示为热图。H3K4me3、其甲基化酶Kmt2b和去甲基化酶Jarid1a的一致正回归权重表明,野生型细胞中这些标记的高水平与Smarca4-ATP酶突变体表达时多梳占据增加有关。
因为PRC1有助于招募PRC239我们推断,突变体的表达也可能导致H3K27me3增加,这是反映PRC2活性的标记,位于PRC1增加的部位。因此,我们在上述相同的ATP酶突变细胞系上对H3K27me3进行了ChIP-seq。我们观察到H3K27me3在整个基因组中持续增加(). H3K27me3的变化在突变体组中高度相关,与野生型重复之间的变化无关(). 尽管所有突变体都显示出相关变化(包括ATP酶死亡突变体K785R,参见图S8),我们以E861K为例。升高的H3K27me3标记通常位于环1b增加的站点附近(). 我们检查了发生在CpG岛±3 kbp范围内的所有H3K27me3峰,发现这些位点从H3K24me3增加的峰值到CpG侧翼约2 kbp的Ring1b持续增加(). 此外,我们将PRC1位点分为减少、不变或增加类别,并绘制了每个类别中H3K27me3和H3K4me3的平均分布图(). 在PRC1增加的位点,我们观察到H3K27me3在距离环1b峰约2kbp的区域增加。这种影响在未改变的部位显著减弱,我们在环1b减少的部位未观察到H3K27me3的变化(). H3K4me3水平未受影响,表明对H3K27me3的影响是独特的,通过Smarca4突变对Polycomb活性的影响而产生。总之,我们的结果表明,疾病相关Smarca4-ATPase突变体允许PRC1在富含CpG的二价启动子处积累,并且PRC2活性增加,H3K27me3标记约2 kbp。这种偏移的起源目前尚不清楚,但可能反映了多囊因子、拓扑变化、核小体耗竭或其他未知因子的足迹。
Smarca4 ATP酶突变导致环1b位点附近H3K27me3水平增加(a)环1b的示例基因组轨迹随着E861K Smarca4引起的相邻H3K27me3的增加而增加。(b)H3K27me3的全基因组变化在野生型和E861K Smarc4之间达到峰值。增加(橙色)、减少(蓝色)或保持不变(灰色)的站点使用方法部分中描述的标准进行标记。(c)表达野生型和突变型Smarca4的细胞之间全球H3K27me3的热图变化。(d)所有突变体和野生型Smarca4之间H3K27me3的皮尔逊相关热图发生变化。(e)H3K27me3峰值出现在CpG岛附近;突变体Smarca4表达后增加H3K27me3水平的位点增加了邻近CpG岛上Ring1b的占有率。(f)根据环1b状态分类的H3K27me3和H3K4me3标记水平的Meta-gene图[与野生型Smarca4]相比,E861K中减少(N=66个位点)、增加(N=716个位点)或不变(N=3078个位点)]。Ring1b增加的站点增加了H3K27me3,标记距离约2 kb;然而,这些位点的H3K4me3水平没有变化。
为了研究Polycomb反对的分子机制,我们试图确定BAF和PRC1之间是否存在直接相互作用。在早期的质谱研究中,我们的实验室观察到Rybp,一种变异PRC1复合物的亚单位,与Smarca4共同免疫沉淀(参考文献中的表S140)表明BAF和PRC1之间存在直接相互作用。因此,我们进行了免疫沉淀(IP)实验()并发现Smarc4和Smarc1(BAF155),这两个核心的BAF专用亚单位,与Rybp和Ring1b共同免疫沉淀在低但可检测的水平(). 此外,这种相互作用是可逆的,因为核心BAF亚基Smarcb1(BAF47)的IP显示出与Rybp和Ring1b的相互作用(). 这种相互作用发生在可溶核部分,对DNase I不敏感()与不需要染色质介导的直接相互作用相一致。此外,与ATP一起孵育可诱导BAF释放PRC1(),但在存在抑制水解的ATP类似物时,这种释放被破坏(). 综上所述,我们的结果表明BAF和PRC1之间的直接相互作用受ATP水解调节。使用典型PRC1复合物的专用亚单位Cbx7也获得了类似的结果41(图S9),表明Smarca4对变异和典型PRC1复合物都执行直接的ATP依赖性调节。
Smarca4的ATP酶直接调节PRC1复合物(a)免疫沉淀(IP)实验的工作流程。从核裂解物的可溶性部分分离核蛋白进行分析。(b)BAF成分与PRC1亚单位的Co-IP(N=3;两个细胞培养复制品)。(c)PRC1组分与BAF亚单位的相互co-IP。使用针对专用BAF亚单位Smarcb1(N=3;两个细胞培养复制品)的抗体观察到Ring1b、Rybp和Smarcc1的Co-IP。(d)PRC1的BAF结合不受DNase I添加的影响,这与不需要通过染色质介导的直接相互作用一致。请参见图S3F关于(c)和(d)中的输入样本中的一些因子的染色缺失。(e)Smarc4和Smarc1与PRC1亚单位Rybp的相互作用被添加10 mM ATP(N=5;三次细胞培养复制)所破坏。(f)在存在抑制水解的ATP类似物时,PRC1的释放效率低下。与AMPPNP[t(2)=4.5,p=0.046]和ATPγS[t(1)=6.2,p=0.025;双样本t检验]相比,ATP导致BAF和PRC1的co-IP降低。如其他ATP酶所观察到的50,ATPγS被弱水解,导致部分释放。误差条为SEM(N=3;两个细胞培养复制品)。(g)BAF和PRC1的相互作用被Smarca4的ATP酶突变体破坏(N=3;两个细胞培养复制品)。(h)单个复制品的密度测定(g)。突变体Smarca4与PRC1的相互作用减少。
为了研究Smarca4-ATPase突变如何影响这种相互作用,我们从上述对环1b占用率影响最大的突变类型中选择了G784E(Walker A)、E882K(Walker B)和E861K(linker region)。然后,我们在同时表达野生型Smarca4-GFP和野生型或突变型Smarcas4-V5的细胞中重复Ring1b和Rybp的IP。虽然野生型和突变型Smarca4的表达水平几乎相同,但我们发现ATP酶突变体不能有效地与Ring1b和Rybp协同IP;相反,野生型蛋白质优先与这些因子协同作用(). 因此,我们的结果证实Smarca4-ATP酶活性调节这种直接相互作用。考虑到ATP水解降低了结合态和非结合态之间的能量屏障,因此对结合和释放PRC1的功能性ATP酶的要求可以合理化(图S10A). 可能的机制示例可能涉及ATP调节的闩锁(图S10B).
我们的联合IP结果表明,BAF通过直接ATP依赖性相互作用调节PRC1。事实上,已有报道称,其他蛋白因子如Mot1及其底物TBP的Snf2样重塑物与ATP的直接依赖性相互作用42,43然而,细胞中BAF–PRC1的相互作用是仅限于可溶核质还是直接发生在染色质上尚不确定。为了回答这个问题并证明这种相互作用是功能性的,我们采用了一种在活细胞中化学诱导接近的策略44,45我们使用基因组编辑在ASCL1上游引入了12个锌指结合元件的阵列,ASCL1是一种在其CpG岛启动子处用PRC1/2修饰的二价基因。通过表达FKBP与Zin-finger结合域锚的融合,以及mTOR的Frb域与BAF亚单位SS18的融合,我们能够使用雷帕霉素诱导BAF向Zin-fing位点募集(). 在与30 nM雷帕霉素孵育后,ChIP-qPCR显示BAF招募()和PRC1/2的损失(). 这些变化在5分钟内可检测到,并持续稳定达60分钟。PRC1/2占用率的降低是ASCL1基因座特有的,在二价HOXA3控制区未观察到()从而得出结论,BAF直接将PRC1喷射到染色质上。PRC1的去除可能有助于PRC2的减少,因为PRC1被认为会导致PRC2的放置46。Lsh1是另一种类似Snf2的重塑剂,其招募并没有导致ASCL1位点PRC1/2的去除,这表明Polycomb驱逐并不常见于所有类似Snf2的重塑剂(图S11). 我们实验室报告的另一项研究表明,这种直接驱逐的中断是BAF对癌症放松管制的普遍后果45.
化学诱导的BAF接近导致完整染色质上Polycomb占据率快速丧失(a)活细胞中化学诱导招募实验的示意图。正文中提供了详细信息。ZF,锌指;FKBP、FK506结合蛋白;Frb,mTOR的FKBP-rapamycin结合域。(b)添加雷帕霉素后BAF亚基Smarcc1的ChIP-qPCR富集图谱。(c)添加雷帕霉素后PRC1亚单位Ring1b的ChIP-qPCR图谱。(d)加入雷帕霉素后,招募现场失去Ring1b和Suz12的时间进程。招募现场发生差异性损失,证实Polycomb占用率在局部而非全球减少,这与染色质的驱逐活动一致。对于所有子图,所示数据是N=3细胞培养复制的平均值;所有误差条均为SEM。
我们得出结论,PRC1的结合和释放均受BAF复合物中依赖ATP的构象状态调节。这种直接调控导致PRC1在BAF招募后几分钟内从染色质中局部清除,进一步支持了其直接作用。由于无法从染色质中清除PRC1,Smarca4缺失和ATP酶突变允许PRC1/2在全基因组的CpG岛启动子处积累,这可能有助于肿瘤发生或肿瘤发展过程中的表观遗传可塑性。此外,我们的结果确定BAF复合物具有非组蛋白底物,如PRC1,它们是ATP酶活性的直接靶点。因此,在BAF突变的癌症中,解除对Polycomb占用和活动的监管可能比以前认识到的更常见。从染色质中提取Polycomb因子也可能在神经发育中发挥关键作用,其中神经元特异性nBAF复合物对有丝分裂后神经元功能至关重要47,48.
材料和方法
动物和人类细胞的培养
使用标准条件培养小鼠ES细胞。ES培养基含有Dulbecco’s Modified Eagle’s Medium(Cat#10829018;Life Technologies)、15%FBS(Cat#ASM-5007;Applied StemCell)、青霉素链霉素(Cat#15140122;Life Technologies),谷氨酰胺(Cat#35050061;Life技术)、HEPES缓冲液(Cat#15630080;Life科技)、2-巯基乙醇(Cat#21985023;Life Technologies)、MEM-NEA(产品目录号11140050;Life Technols)和LIF增补40每天更换,每48小时传代一次ES细胞。对于诱导性缺失,Smarca4flox/flox公司肌动蛋白–CreER ES细胞4或Arid1aflox/flox公司将先前使用PCR检测支原体污染呈阴性的肌动蛋白-CreER ES细胞分别接种到受辐射的饲养小鼠胚胎成纤维细胞上,用0.8μM 4-羟基他莫昔芬(Tam)或乙醇(EtOH)处理48小时,并在72小时胰蛋白酶解离后收获用于进一步实验。A549细胞取自ATCC(Cat#CCL-185),并在收到后直接培养,无需检测支原体污染,使用添加10%FBS和青霉素链霉素的F-12K培养基。
染色质免疫沉淀(ChIP)实验
将细胞(每个染色质IP 5–1000万)用胰蛋白酶解离并重悬于加入甲醛(固定缓冲液中11%的溶液)的10 ml固定缓冲液(50 mm HEPES pH 8.0,1 mm EDTA pH 8.0,0.5 mm EGTA pH 8.0,100 mm NaCl)中,并在室温下孵育12分钟。用0.125 M甘氨酸淬火固定液,并在冰上培养5分钟,在1200 g下离心5分钟,并在PBS上清洗一次颗粒,然后在冲洗缓冲液1中再次悬浮(50 mM HEPES pH 8.0,140 mM NaCl,1 mM EDTA pH 8.0、10%甘油、0.5%NP-40、0.25%Triton-X100),并在冰面上培养10分钟。在1200g离心5分钟后,细胞核再次悬浮在冲洗缓冲液2中(10 mM Tris pH 8.0,1 mM EDTA pH 8.0、0.5 mM EGTA PH8.0、200 mM NaCl),并在1200g下离心5分钟。随后在剪切缓冲液(0.1%SDS,1 mM EDTA pH 8.0,10 mM Tris pH 8.0)中进行了两次冲洗,但没有重新悬浮颗粒,最后将颗粒重新悬浮在990 ul剪切缓冲液中,并使用Covaris聚焦超声仪在5%占空比、强度4、,140 PIP,每次脉冲200个周期。以10000g旋转超声材料5分钟,用¼体积的5x IP缓冲液(250 mM HEPES,1.5 M NaCl,5 mM EDTA pH 8.0,5%Triton-X100,0.5%DOC,0.5%SDS)稀释上清液,并直接用于随后的免疫沉淀。
核提取物的制备
细胞用胰蛋白酶分离并用PBS洗涤。细胞重新悬浮在缓冲液A中(25 mM HEPES(pH 7.6),5 mM MgCl2,25 mM KCl,0.05 mM EDTA,10%甘油,0.1%NP-40),补充1 mM DTT和完整蛋白酶抑制剂鸡尾酒(罗氏),并在冰上培养7分钟。离心(1000g)后,细胞核再次悬浮在缓冲液C中(10 mM HEPES(pH 7.6),3 mM MgCl2,100 mM KCl,0.1 mM EDTA,10%甘油)和1 mM DTT和蛋白酶抑制剂混合物(Roche),并添加硫酸铵至最终浓度300 mM。在4°C下以头顶旋转方式裂解细胞核30分钟,并通过100000 rpm的超速离心15分钟从核提取物中分离可溶性蛋白。将上清液与0.3 mg/ml硫酸铵在冰上孵育20分钟,然后以100000 rpm超速离心15分钟。丢弃上清液,并将沉淀蛋白用于免疫沉淀和Western blotting。
免疫沉淀
对于单个免疫沉淀反应,将来自核提取物的蛋白质沉淀重新悬浮在添加有1 mM DTT和蛋白酶抑制剂鸡尾酒(Roche)的IP缓冲液(50 mM Tris-HCl,pH 8.0,150 mM NaCl,0.1%NP-40)中,添加或不添加10 mM ATP、AMPPNPNP或ATPγS。Bradford测定后,在250μl IP缓冲液中将蛋白质浓度调节至300μg蛋白质裂解物,并与3μg抗体一起孵育(见表S2)4°C下12–16小时。抗体随后用蛋白A Dynabeads(ThermoFisher)培养4小时后固定,并在室温下用1 ml IP缓冲液洗涤三次,然后用2-巯基乙醇在12 ul 2x负载缓冲液(LDS,ThermoFisher)中再次悬浮,以进行后续的Western blot分析。对于使用DNase的实验,将带有或不带有10U DNase I(Roche)的2 ug质粒报告子添加到300 ul反应体积中。本研究中使用的所有抗体在表S2.
ChIP-seq库准备
根据之前描述的方案,所有文库都是从分开培养的样品中独立制备的,一式两份51–53在PCR扩增之前,通过在2%琼脂糖E-gel(Invitrogen)上提取200–400 bp的DNA片段进行大小选择,然后使用RNeasy MinElute净化试剂盒(Qiagen)进行提取。PCR扩增使用≤14个周期,并通过Qubit荧光定量法对所得DNA进行量化。使用Illumina HiSeq2000测序器上的单端读取进行测序。
ChIP-seq数据处理
高通量测序数据的分析不是盲目进行的,但以下技术统一应用于所有数据集。使用Bowtie 1.1.1映射到mm9参考小鼠基因组,处理单基因ChIP序列读取54,拒绝包含多个不匹配的读取。重复的读取被丢弃,只剩下唯一的读取。对于所有分析,峰值调用由MACS 1.4.2执行55通过比较每个单元格类型的输入样本。
将控制和治疗数据集中±1 kbp内的所有峰值合并,并丢弃低于30 RPM阈值(至少一个数据集中)的峰值,以消除低质量峰值呼叫。对于每个数据集,比较与每个结果峰值重叠的读取总数,以进行差异峰值调用。使用DESeq2进行差异峰值呼叫56使用95%以上的所有站点的总读取次数作为大小因子,以避免背景ChIP-seq读取的影响。DESeq2计算所有复制中的各个站点差异,以进行差异峰值调用。Log2倍数变化通过默认使用最大值计算后部使用零均值正态先验估计(Tikhonov-Ridge正则化)。使用Benjamini-Hochberg程序计算FDR校正的P值。通过要求任一方向的倍数变化>1.5倍进行差异调用,FDR校正p<0.10。基因组轨迹中的RPM值是每个条件下两个重复的平均值。使用bwtool计算平均基因组轨迹密度57使用Gviz准备浏览器曲目58使用bwtool计算给定条件下所有重复的平均碱基对覆盖率,然后使用6-kbp窗口计算所有站点的平均覆盖率,从而计算平均密度分布。使用Bedtools进行峰重叠59.
RNA-seq文库制备
RNA通过齐唑提取制备,然后进行聚(dT)捕获。mRNA通过前面描述的方法转化为DNA53然后在2%琼脂糖E-gel(Invitrogen)上选择200-400 bp DNA片段的大小。在PCR扩增(≤14个周期)和Qubit荧光定量后,使用Illumina HiSeq2000测序器上的单端读取进行测序。
RNA-seq数据处理
使用htseq统计编码区内的读取数60,基因定义来自UCSC表浏览器中RefSeq基因的refGene表。使用DESeq2,使用默认参数处理所有计数表。使用最大值计算对数2倍变化后部使用零均值正态先验估计(Tikhonov-Ridge正则化)。使用Benjamini-Hochberg程序计算FDR校正的P值。差分呼叫是通过要求两个方向上的折叠变化大于1.5倍以及FDR校正的p<0.10来实现的。
本研究分析的公共数据集
读取密度是从公开的NCBI GEO数据集获得的(表S1). 对于每个染色质特征数据集,读取片段从3′端扩展到200 bp,并使用Bedtools确定碱基对覆盖率59.
染色质因子/标记的多元分析
对于染色质的秩排序特征,使用100个样本的迭代引导重采样来获得平均值的99%置信区间。Fisher线性判别法用于分析定性位点类别内的特征组合(增加、减少、不变),并使用“glmnet”软件包进行Lasso回归38在R中直接分析每个染色质特征对该部位观察到的折叠变化的重要性。对于这两种分析,对每个染色质特征的峰中心±3 kb范围内的ChIP-seq读取次数进行汇总。
基因组注释富集
通过比较每个峰值落入基本基因组注释的频率,对与基因组注释重叠的内容进行富集,分别针对上述每类差异峰值调用确定。使用HOMER计算每个位点类别的基因组注释重叠的富集GO项和对数富集61.
残留物突变频率和保守性得分
将TCGA和CCLE的所有非沉默编码突变组装到SMARCA4中,获得突变频率。使用核密度估计来表示突变频率值,以获得真实潜在突变频率的估计值。利用FRpred对7033个与SMARCA4的750-900个氨基酸残基同源的RefSeq和GenBank序列进行多重序列比对,获得残基保守性得分62。该比对用于根据香农熵生成残留物保守性得分63,使用三残差平均窗口64.
TCGA数据集中突变的功能影响
对TCGA数据中存在的突变进行功能影响分析,并使用PolyPhen2评分将其分为四类(截断、有害错义、良性或未知)之一65,由Oncotator生成66截短突变包括移码突变和无义突变,并可能导致无义介导的衰变;所有其他突变都是影响编码序列的错义突变,但预计会完全表达。
密度测定和分析
Western blot条带的所有密度测定均通过LiCor ImageStudio 5.2.5计算积分条带强度进行。为了比较Smarca4-GFP和Smarca4-V5的富集情况,测量了联合免疫沉淀后每条带的强度,并与输入通道进行了比较。使用以下表达式计算co-IP产生的Log2富集率:Log2(V5/GFP)-Log2[V5(输入)/GFP(输入)]。
小鼠CIP-ASCL1 ES细胞的制备
使用前面描述的CRISPR-Cas9协议对小鼠ES细胞进行基因组工程67简单地说,含有修饰的ASCL1位点的修复模板质粒是用1-kbp的同源臂侧翼产生的。在ASCL1、12x ZFHD1元件(TAA TGA TGG GCG)和5x Gal4元件(CGG AGT ACT GTC CTC CGA G)的TSS上游278 bp处添加两个不同的DNA结合序列阵列。在ASCL1外显子1的ATG处插入一个核EGFP,以区分编辑的等位基因。将两个引导RNA序列(sg1:AAT AAA CAG GCC GCG CGC TCG GG,sg2:TGC CGG GCC AAA CTG TCG CGG GG)克隆到来自Feng Zhang的Cas9-2A-Puro质粒中。
染色质邻近性的化学诱导(CIP)
如前所述进行CIP测定44用表达ZFHD1的慢病毒直接融合到FKBP锚,SS18融合到Frb的两个串联重复序列,转导CIP-ASCL1 mESCs。在采集ChIP-qPCR之前,通过添加30 nM(最终浓度)的雷帕霉素0、5、15或60分钟来诱导接近。
用ChIP-qPCR定量染色质因子
如前所述进行染色质免疫沉淀(ChIP)44,并根据制造商的说明,使用SensiFAST SYBR Lo-Rox Kit(Bioline,Cat#BIO-94020)制备定量PCR样品。在QuantStudio 6 Flex系统(生命技术)上对qPCR样本进行分析。用于ChIP的抗体见表S2所用底漆见表S3.
统计
对基因组数据集(ChIP-seq和RNA-seq)的所有差异调用都是使用DESeq2进行的,其中P值是使用Wald检验计算的,如DESeq2文件中所述56使用Benjamini-Hochberg程序计算FDR校正的P值。为了在热图中显示,RNA-seq和ChIP-seq数据使用k均值聚类法分为k=3组。采用皮尔逊相关检验进行相关性分析。所有Student的t检验均为双侧检验。Fisher的精确测试作为双边测试进行。两样本Kolmogorov-Smirnov试验作为双边试验进行。为了使用ChIP-qPCR数据验证Smarca4破坏的影响,使用单向方差分析作为双边测试,比较抗体和Smarca4condition中每个引物的qPCR富集值。上述所有统计检验均使用R进行。过度表达的超几何检验使用HOMER进行单侧检验61.
拉索多元回归
拉索多元回归38用于关联Smarca4 ATP酶突变体诱导的环1b占用的折叠变化(fc(财务总监))111个染色质特征的线性组合:
在每个Ring1b峰值处,使用之前发布的数据集中的数据,对111个特征中的每个特征从峰值中心±3 kbp内的读取次数进行汇总。每个站点的总读取计数为日志10转换并缩放到所有站点的单位方差(x个我). 使用“glmnet”R包进行拉索回归68,默认混合惩罚参数α=1。受限参数的值
通过10倍交叉验证获得每个Smarca4突变体,选择的最小值提供最低的平均交叉验证误差。