引言
生物学的一个主要挑战是理解单个基因组如何产生由数百种不同细胞类型组成的生物体。重点放在应用高通量工具研究相互作用的细胞组件上1系统生物学领域利用动态基因表达模式揭示功能模块、途径和网络2然而,在细胞条件下,顺调控成分在很大程度上仍未被发现,它们可能同样具有动态性。
鉴于染色质在调节信号和控制DNA通路中的核心作用,以及可识别序列信号的缺乏,染色质分析为检测顺调控元件提供了一种系统化的方法。特定组蛋白修饰与调节蛋白结合、转录起始和延伸、增强子活性和抑制相关1,三-6结合修饰可以更精确地了解染色质状态7,8.
在这里,我们应用一个高通量管道来绘制9种染色质标记和跨9种细胞类型的输入控制。我们使用标记的循环组合来定义15个染色质状态,对应于抑制、平衡和活性启动子、强弱增强子、假定绝缘体、转录区以及大规模抑制和非活性结构域。我们使用定向实验来验证状态之间的生化和功能差异。
由此产生的染色质状态图描绘了一个高度动态的景观,跨细胞类型的特定变化模式揭示了相互作用的功能元件之间的强烈相关性。我们使用染色质状态、基因表达和调节器活性之间的相关活动模式,将增强子与可能的靶基因联系起来,预测细胞类型特异性激活物和阻遏物,并确定负责这些相互作用的单个结合基序。
我们的结果对解释全基因组关联研究具有启示。我们发现疾病变异体经常与特定于相关细胞类型的增强子元件相一致。在一些情况下,我们可以预测其调控基序实例受到影响的上游调控因子或其表达可能改变的靶基因,从而提出疾病相关基因型如何导致观察到的疾病表型的具体机制假设。
结果
多种细胞类型染色质标记的系统定位
为了在多种细胞类型中以统一的方式探索染色质状态,我们应用了染色质免疫沉淀生产管道,然后进行高通量测序(ChIP-seq),以生成全基因组染色质数据集(参见方法,). 我们分析了九种人类细胞类型,包括ENCODE联盟指定的共同线1和原始细胞类型。这些细胞包括胚胎干细胞(H1 ES)、红细胞白血病细胞(K562)、B淋巴细胞母细胞(GM12878)、肝细胞癌细胞(HepG2)、脐静脉内皮细胞(HUVEC)、骨骼肌成肌细胞(HSMM)、正常肺成纤维细胞(NHLF)、正常表皮角质形成细胞(NHEK)和乳腺上皮细胞(HMEC)。
染色质状态发现和表征a、,上图:九个染色质标记(灰度)的轮廓显示在四种细胞类型的wnless(WLS)基因上,并汇总在每个细胞类型的单个染色质状态注释轨迹中(根据b条). WLS在ES细胞中稳定,在GM12878细胞中被抑制,在HUVEC和NHLF中转录。其TSS相应地在稳定(紫色)、抑制(灰色)和活性(红色)启动子状态之间切换;基因体内的增强子区域被强烈激活(橙色、黄色);其基因体从低信号(白色)变为转录(绿色)。这些染色质状态变化总结了许多染色质标记的协同变化;例如,H3K27me3、H3K4me3和H3K4me2联合标记一个稳定的启动子,而H3K17me3的缺失和H3K27ac和H3K 9ac的获得标记启动子的激活。底部:以WLS为中心的900kb区域中的九个染色质状态轨迹,每个细胞类型一个,以直接可解释的动态注释总结了90个染色质轨迹,显示了6个基因和数百个调控区域的激活和抑制模式,包括增强子状态。b、,多变量HMM跨细胞类型联合学习染色质状态。表中显示了学习到的发射参数从头开始基于全基因组染色质标记的重复组合。每个条目表示在与染色质状态相对应的基因组位置上发现给定标记的频率。c中,每个染色质状态的基因组覆盖率、功能富集度和候选注释。蓝色阴影表示强度,按列缩放。日期:,方框图描述了预测调控元件的增强子活性。将250bp-long序列插入荧光素酶基因上游,对应于强或弱/稳定的HepG2增强子元件,或GM12878特异性强增强子元素,并转染到Hep G2细胞中。报告者的活动是以相对光单位测量的。在匹配的细胞类型中,强效增强子表现出较强的活性,但弱/平衡增强子或不同细胞类型的强效增效子表现不出活性。方框和胡须表示5第个, 25第个, 50第个, 75第个和95第个百分位数。
我们使用组蛋白H3赖氨酸4三甲基化(H3K4me3)抗体,这是一种与启动子相关的修饰4,5,9; H3K4me2,与启动子和增强子相关1,三,6,9; H3K4me1,优先与增强子相关1,6; 赖氨酸9乙酰化(H3K9ac)和H3K27ac,与活性调节区相关9,10; H3K36me3和H4K20me1,与转录区相关三-5; H3K27me3,与多梳重表达区域相关三,4; 和CTCF,一种具有多种功能的序列特异性绝缘体蛋白11我们通过蛋白质印迹和肽竞争验证了每种抗体,并对每种细胞类型的输入控制进行了排序。我们还收集了H3K9me3、RNAPII和H2A的数据。单元格子集中的Z。
这就产生了90个染色质图,对应于约24亿个读数,覆盖了9种细胞类型的约1000亿个碱基,我们开始用计算方法解释。
学习跨细胞类型的一组常见染色质状态
为了将这些数据集归纳为九个易于解释的注释,每个细胞类型一个注释,我们应用了一个多元隐马尔可夫模型(HMM),该模型使用染色质标记的组合模式来区分染色质状态8该方法明确建模了一组“排放”参数中的标记组合和一组“过渡”参数中相邻基因组片段之间的空间关系(参见方法). 相对于单个标记的研究,它具有更高的可靠性、稳健性和准确性,能够捕获监管元素的优势8.
我们通过创建来自所有细胞类型的所有染色体的虚拟串联来共同了解染色质状态。我们选择了15个表现出明显生物富集并持续恢复的州(;补充图1). 即使了解了状态从头开始仅根据染色质标记的模式及其空间关系,它们与转录起始位点(TSS)、转录物、进化保守的非编码区、DNA酶超敏位点有明显的关联12,调节器的结合位点,c-Myc13和NF-κB14以及与核膜相关的非活性基因组区域15().
我们区分了六大类染色质状态,即启动子、增强子、绝缘体、转录、抑制和非活性状态(). 在他们之中,积极、软弱和沉着4启动子(状态1-3)在表达水平上不同,强候选增强子和弱候选增强子(状态4-7)在近端基因的表达上不同,强转录区和弱转录区(状态9-11)在沿着转录物的位置富集上也不同。类似地,多梳重表达区域(状态12)不同于异色和重复状态(状态13-15),它们也富集于H3K9me3(补充图2-4).
这些状态的平均片段长度差异很大(启动子和增强子状态约500bp,非活性区域约10kb),以及基因组覆盖的部分(启动子状态和增强器状态<1%,非活性状态13>70%)。对于每种状态,覆盖范围在不同的单元格类型中相对稳定(补充图5),除了ES细胞外,其稳定的启动子状态更丰富,而强增强子和多结合重表达状态被耗尽,这与多能干细胞的独特生物学相一致4,16.
我们确认启动子和增强子状态显示出不同的生化特性(补充图6). RNAPII在强启动子处高度富集,在强增强子处弱富集,在弱/平衡增强子处几乎检测不到,这与启动子处的强转录一致,并且有报道称在活性增强子处弱转录17,18.H2A。Z、 与核小体游离区相关的组蛋白变体19,富含活性启动子和强增强子,与TSS处的核小体置换和活性增强子中丰富的转录因子(TF)结合位点一致。
我们还使用荧光素酶报告子分析来验证预测增强子的功能、强弱增强子状态之间的区别及其预测的细胞类型特异性。通过转染HepG2细胞,我们测试了针对不匹配细胞类型的强增强剂、弱增强剂和强增强剂。我们观察到,只有来自匹配细胞类型的强增强子元素具有较强的荧光素酶活性().
这些结果和模型的其他属性(补充图7-10)表明染色质状态是基因组固有的生物信息特征。该框架使我们能够通过直接研究细胞类型之间的染色质状态变化(我们称之为“变化”或“动力学”,而不暗示任何时间关系)来推断标记中的协调差异。
不同细胞类型染色质状态变化的程度和意义
接下来,我们探讨了染色质状态在不同细胞类型之间的变化程度。可变性的总体模式(补充图11,12)这表明调控区域在不同细胞类型的活性水平上存在显著差异。增强子状态显示强增强子和弱增强子之间的频繁交换,启动子状态在活性、弱和平衡之间变化。启动子状态比增强子更稳定;它们保持发起国地位、控制覆盖率的可能性是其他国家的八倍。也观察到启动子、增强子和转录过渡状态之间的转换,但没有发现其他组的优先变化。这些一般模式表明,尽管活性水平不同,但增强子和启动子区域往往保持其染色质特性,作为具有调节潜力的区域。
细胞类型之间的染色质状态差异与细胞类型特异性基因功能有关。淋巴母细胞和骨骼肌细胞中注释TSS的染色质状态谱的无偏聚类区分了下游基因表达和功能基因类的预测信息模式(补充图13、14). 当TSS被简单地分配到最普遍的染色质状态时,细胞类型特异性模式也很明显。骨骼肌中的启动子激活与细胞外结构基因(8.5倍富集)、具有免疫反应基因的淋巴母细胞中激活的启动子(7.2倍富集)以及在两者中均具有代谢看家基因的启动子相关。
基于活性模式的启动子和增强子状态聚类
扩展我们的成对启动子分析,我们在所有细胞类型中聚集了强启动子和强增强子区域(参见方法). 这揭示了显示共同活动并与高度相干功能相关的簇(). 对于启动子簇,这些包括免疫反应(GM12878特异性簇,p<10−18),胆固醇转运(HepG2特异性,10−4)和代谢过程(所有细胞,10−131). 值得注意的是,通过邻近性分配给增强子簇的基因也显示出强大的功能丰富性,包括免疫反应(GM12878特异性,10−6),脂质代谢(HepG2特异性,10−5)和血管生成(HUVEC特异性,10−4).
细胞类型特异性启动子和增强子状态及相关功能富集a、,细胞类型(列)中分配给活性启动子状态1(红色)的基因组位置(行)的聚类揭示了20种常见的活性模式(A-T)(见方法). 对于每个聚类,基于最近的TSS,用超几何P值和折叠富集来显示富集基因本体(GO)术语。对于大多数集群,几种细胞类型显示出强(深红色)或中等(浅红色)活性。b、,强增强子状态4(黄色)的相似聚类和功能丰富。增强状态显示出更大的细胞类型特异性,大多数簇只在一种细胞类型中活动。
启动子和增强子的总体特异性不同。大多数启动子簇在多种细胞类型中表现出活性,这与之前的工作一致5,10(). 增强子簇明显更具细胞类型特异性,少数区域在两种以上的细胞类型中表现出活性,而大多数区域只对单个细胞类型具有特异性().
我们还发现基因类别之间基于增强子和基于启动子的调控的相对贡献存在差异。发育基因似乎受到这两种基因的强烈调控,显示出近端增强子数量最多,启动子状态多样,包括平衡和多梳重表达(补充图15). 组织特异性基因(如免疫基因、类固醇代谢基因)似乎更依赖增强子调控,显示出多种组织特异性增强子,但启动子状态不太多样。最后,家政基因主要由启动子调控,其附近几乎没有增强子。
总的来说,染色质景观的这一动态视图表明,多细胞染色质图谱对于系统生物学来说可以像传统的表达分析一样富有成效,并且可能包含关于基因组调控程序的额外信息,我们接下来将对此进行探讨。
活性谱中的相关性将增强子与靶基因联系起来
接下来,我们通过定义细胞类型中每个增强子的“活性谱”,研究了增强子、激活或抑制增强子和调控其表达的基因之间的功能关联(). 我们补充了这些增强子活动概况()带有基因表达谱(),序列基序富集()以及识别每个基序的TF的表达(). 我们使用这些曲线之间的相关性,以概率方式将增强子与其下游目标和上游调节器联系起来(参见方法).
活动模式的相关性将增强子与基因靶点和上游调节器联系起来a、,中定义的每个增强器簇(行)的单元类型(列)中的平均增强器活动(标记为A-T)和每个簇中200bp窗口的数量。b、,跨细胞类型最近基因的平均mRNA表达及其与增强子活性谱的相关性一增强子活性和基因表达之间的高度相关性为将增强子与靶基因联系起来提供了一种方法。c中,ES细胞中Oct4结合的富集24和NF-κB在淋巴母细胞中的结合14对于每个集群。日期:,每个簇的强富集(红色)或贫化(蓝色)图案,来自323个共识图案的目录。e、,基于基序富集(左上三角)和TF表达(右下三角)之间的正(激活子)或负(阻遏子)相关性,预测每个簇的因果调节因子。例如,红/黄组合预测Oct4是ES-特异性增强子的阳性调节物,因为其基于基序的预测靶点富集了ES(簇a)中活性增强子(红色上三角),Oct4基因在ES细胞中特异性表达,导致TF表达正相关(黄色三角)。所有簇中模体和TF表达之间的总体相关性表示预测的激活物(正相关,橙色)和阻遏物(负相关,紫色)。
我们发现增强子活性的模式(图。
,)与最近基因表达模式密切相关(20个聚类中有16个聚类的相关性>0.9)。由于这种相关性即使在远距离(>50kb)也保持较高,我们使用活性相关性作为基因组距离的补充,将增强子与目标基因联系起来(参见方法). 基于活性的链接增加了几个簇的功能基因类富集(补充图16).
我们使用数量性状位点(QTL)定位研究验证了我们的方法,该研究使用SNP等位基因和基因表达水平之间的共同变异将顺调控区域与目标基因联系起来。四种肝脏QTL研究进展20和淋巴母细胞21-23显示出与我们的增强子预测非常一致。通过我们的方法连接到特定靶基因的增强子显著富集了与基因表达水平相关的SNP(补充图17)从而用正交数据证实了我们的增强子-基因连锁。
与TF表达和基序富集的相关性预测上游调控因子
接下来,我们根据调控基序的丰富程度预测了序列特异性TF可能以给定簇中的增强子为靶点。这意味着许多TF的已知生物学作用与各自的细胞类型相匹配(,补充图18). 当相关细胞类型中的ChIP-seq数据可用时,我们确认丰富的基序优先受同源因子的约束(). 簇A中的Oct4基序实例(ES-specific enhancers)在ES细胞中优先与Oct4结合24和F簇(淋巴母细胞特异性增强子)中的NF-kB基序实例优先与淋巴母细胞中的NF-kB结合14在这两种情况下,细胞类型特异性增强子中的基序实例显示,与其他增强子相比,结合增加了约5倍。
然而,基于序列的基序丰富并不能区分因果关系。富集可以反映不影响染色质状态的平行结合事件,或者该基序实际上可以通过正交细胞类型中的特异性抑制与增强子状态拮抗。为了区分这些可能性,我们用相应TF的细胞类型特异性表达来补充观察到的基序丰富(). 然后,我们将基于给定簇中模体丰富程度的“模体分数”与基于TF表达模式和簇活动特征之间一致性的“TF表达分数”进行关联(参见方法). 两个分数之间的正相关意味着TF可能正在建立或加强染色质状态。相反,负相关意味着TF可能充当阻遏物。例如,除了ES-特异性簇A中Oct4基序的富集外,Oct4在ES细胞中特异性表达,导致其被预测为ES细胞的因果调节因子()与已知生物学一致16.
对于20个集群中的18个,该分析揭示了一个或多个候选监管机构。对经过充分研究的监管机构的已知角色的恢复验证了我们的方法。例如,HNF1、HNF4和PPARγ被预测为HepG2特异性增强子(簇H、I)的激活剂,PU.1和NF-κB被预测为淋巴母细胞(GM12878)增强子的激活剂(簇C、F、G),Gata1被预测为K562特异性增增子的激活器(簇B),Myf被预测为骨骼肌(HSMM)增强器的激活剂14,25-27.
分析还揭示了潜在的新型监管互动。ETS因子(Elk1、Tel2、ETS)是GM12878和HUVEC(簇G)中活性增强因子的预测激活因子,但不是GM12878特异性或HUVEC-特异性簇的预测激活剂,强调无偏见簇的价值。这些联系与ETS因子在淋巴生成和内皮细胞中的作用相一致28预测p53在HSMM、NHLF、NHEK和HMEC中作为激活物(簇N、Q、R)可能反映了其在这些原代细胞中保持的活性,而在其他细胞模型中,它可能被突变抑制(K562)29,病毒灭活(GM12878)30或细胞质定位(ES细胞)31p53在调节远端元件中的广泛作用与其与远端区域的已知结合一致32,33.
我们的分析还揭示了几种阻遏物特征,包括K562和GM12878细胞中的Gfi1(簇B、C)和ES细胞中的Bach2(簇A)。已知这两种调节因子通过向近端启动子募集组蛋白脱乙酰化酶和甲基转移酶来抑制转录34,35Gfi1也参与了卫星重复序列的沉默35我们的调控推断表明,它们还调节染色质以抑制增强子活性,从而提出了一种新的远端基因调控机制。
预测约束事件和监管结果的验证
上述调控推断表明,在特定的细胞环境中,增强子区域内的基序实例中发生了TF结合事件,我们试图使用一般的分子签名来验证这一点。结合事件与核小体移位有关,这是组蛋白的ChIP-seq数据中明显的结构变化36因此,我们研究了染色质强度剖面(“dips”)中的局部耗竭,作为TF结合的指示。我们证实在活性增强子的单个信号轨道中存在凹陷,并且与优先序列保护和调控基序实例相关().
通过核小体耗竭和增强子活性验证监管预测a、,K562特异性强增强子(橙色)染色质强度剖面的凹陷与预测的因果GATA基序实例(徽标)一致。这种下降可能反映了与TF结合相关的核小体位移,并由DNA酶超敏性支持12和GATA1约束25.b、,H3K27ac信号在含有GATA基序的基因座之间的重叠,以基序实例为中心,如预测的那样,在K562细胞中出现凹陷。c中,如预测的那样,HepG2细胞的H3K4me2信号叠加显示HNF4基序在强增强状态下下降。日期:,在报告分析中测试了具有预测因果HNF基序的HepG2特异性强增强子。与野生型(蓝色)相比,具有置换HNF基序(红色)的构建物导致荧光素酶活性显著降低,平均降低2倍。显示了三个重复和95%置信区间的平均荧光素酶相对光单位。
为了测试我们的具体预测,我们将协调调控的增强子区域的染色质剖面叠加,将其锚定在隐含的基序实例上。突触性凹陷与调控基序完全一致,并且与预测完全一致,具有细胞类型特异性和区域特异性(). 由于dip仅在表达因子时出现,因此它们也支持反作用TF的特性。
为了验证预测的因果基序有助于增强活性,我们使用荧光素酶报告子。我们的模型表明HNF调节器是HepG2特异性增强子的激活剂()和上下文特定的dip支持的绑定交互(). 因此,我们选择了10个具有HNF基序的位点进行功能分析,这些位点在强HepG2特异性增强子中表现为凹陷,并对其进行了评估,包括有无HNF基序。我们发现,基序的排列始终导致增强子活性的降低()支持其预测的因果作用。
为疾病相关变体分配候选调节功能
最后,我们探讨了我们的染色质注释和调控预测是否可以深入了解与疾病表型相关的序列变异。为此,我们从GWAS目录中收集了大量非编码SNP,其中一小部分目前已被了解37.
我们发现疾病相关SNP与强增强子(状态4,5;2倍富集,p<10−10)尽管事实上,一般的SNP或研究中测试的SNP与这些状态没有显著关联。为了测试与特定疾病相关的SNP是否有更具体的对应关系,我们检查了426个GWAS数据集。我们确定了10项研究38-47其变体与细胞类型特异性强增强子状态显著对应(参见方法;).
染色质动力学和调控预测注释的疾病变异a、,来自GWAS研究的强增强状态(4,5)与疾病相关SNP的交叉显示相关细胞类型显著富集(蓝色阴影)(参见方法). 指出了每种细胞类型在强增强状态下SNP的折叠富集。b、,对于三个GWAS数据集38-40,显示了9种细胞类型中领先SNP子集的状态注释(颜色如,但状态11为白色)。强增强子状态(橙色)在与表型相关的细胞类型中最常见。对于SNPs重叠的强增强子,显示了具有相关表达的近端基因,以及链接分数和距离。c中,具有血脂特征的GWAS基因座示例41关联,其中先导变异体(红色圆圈)没有功能注释,但链接的SNP(箭头)与HepG2特异性强增强子(橙色)一致,可能代表因果变异体。所有单元格类型都显示了强增强符注释。日期:,疾病SNP影响预测因果基序的保守实例的GWAS位点示例。左:红细胞表型GWAS中的领先SNP rs937408038来自K562红白血病细胞中的强增强子<100 bp,并增强K562中预测的阻遏物Gfi1b的基序(). 右:SNP rs9271055与狼疮相关39与淋巴母细胞(GM12878)特异性强增强子一致,并增强了Ets1的基序,Ets1是预测的淋巴母细胞增强子激活物(). 直接影响Ets1基因座的lupus相关变异体进一步暗示了这一因素39.
这些研究中的个体变异体在相关细胞类型中特别活跃的增强子状态中高度富集(). 例如,与红细胞表型相关的SNP38在红白血病细胞(K562)增强子中发现,SNP与系统性红斑狼疮相关39在淋巴母细胞(GM12878)增强子中发现,而SNP与甘油三酯相关40表型或血脂表型41在肝细胞癌细胞(HepG2)增强子中发现。我们还将我们的模型应用于T细胞的染色质数据三(补充图19)强增强状态与儿童急性淋巴细胞白血病风险相关的变异相关48进一步验证了我们的方法。
我们还使用我们预测的增强子-靶基因关联来寻找候选下游基因,这些基因的表达可能受到增强子区域顺式变化的影响。虽然大多数预测的靶基因都接近增强子,但更远端的预测靶基因子集可以反映疾病表型的新候选基因().
此外,我们发现了几个案例,其中一个主要的GWAS变体与特定的染色质元素不对应,但一个连接的变体与具有预测细胞类型特异性的增强子一致(). 因此,染色质图谱可能提供了一种在单倍型块中分类变体的通用方法,这是GWAS面临的一个常见问题。
最后,我们确定了一些病例,在这些病例中,疾病相关SNP在相关细胞类型中为预测的因果TF创建或破坏了调控基序实例()这表明疾病相关基因型可导致观察到的疾病表型符合我们的调控预测的特定分子机制。
讨论
我们的工作提供了跨多种细胞类型的许多染色质标记的系统视图,证明了染色质分析作为基因组注释的附加动态层的威力。我们提出了区分不同类别功能元件的方法,阐明了它们的细胞类型特异性,并揭示了控制它们并最终驱动目标基因表达的顺调节相互作用。通过将我们的预测与GWAS数据集的非编码SNP相结合,我们提出了疾病变体的潜在机制解释,无论是通过其在细胞类型特异性增强子状态中的存在,还是通过其对预测调控因子的结合基序的影响。
染色质状态极大地减少了90个染色质数据集(2^90个组合)的大组合空间,使其成为一组可管理的生物解释注释,从而提供了一种有效而稳健的方法来跟踪不同细胞类型的协调变化。这使得能够对>10000个启动子和增强子元件进行系统鉴定和比较。这两种类型的元素都是细胞类型特异性的,与基序丰富相关,并呈现出与邻近基因表达和功能相关的强、弱和稳定状态。增强子显示出精细的组织特异性,在发育和细胞类型特异性基因附近富集,对近端基因表达具有预测能力,加强了它们作为组织特异性基因表达的哨兵的作用49通过系统地阐明增强子,并将其与上游调节器和下游基因联系起来,我们的分析可以帮助提供调节器和目标基因之间缺失的联系。随着额外表型直径细胞类型的调查,该方法的威力将大大增强,并使更大比例的增强子元素纳入连接网络。
推断出的顺调节相互作用做出了具体的可测试预测,其中许多预测通过额外的实验和分析得到了证实。我们的增强子-靶基因连锁得到了来自QTL定位研究的顺调控推断的支持。在特定情况下,通过TF结合以及在适当的细胞环境中因果基序的染色质谱中的缺失,可以证实细胞类型特异性增强子内预测的TF-运动相互作用。在增强子分析中也证实了被预测为细胞类型特异性增强子因果调节因子的基序。
多细胞染色质谱提供的调控推断与TF结合、表达、染色质可及性、核小体定位和染色体构象的数据集具有独特性和高度互补性50例如,我们的监管预测有助于将TF结合事件的范围集中于较少数量的功能性相互作用。以染色质为中心的方法还补充了从表达数据推断生物网络的大量工作,有可能将增强子和其他基因组元素引入连接网络。
我们的研究对理解疾病具有重要意义。我们对相对未知的非编码基因组进行了详细的动态功能注释,通过预测与特定疾病和表型相关的特定细胞类型和调节器,可以帮助解释GWAS数据集。此外,增强子区域与上游调节器和下游基因之间的联系表明顺式和反式作用相互作用可能受到序列变体的调节。虽然目前的研究只是朝着这个方向迈出的第一小步,但我们预计,未来具有更大细胞类型多样性和改进方法的迭代将有助于确定人类疾病的分子基础。