Systematic analysis of chromatin state dynamics in nine human cell types

Jason Ernst; Pouya Kheradpour; Tarjei S. Mikkelsen; Noam Shoresh; Lucas D. Ward; Charles B. Epstein; Xiaolan Zhang; Li Wang; Robbyn Issner; Michael Coyne; Manching Ku; Timothy Durham; Manolis Kellis; Bradley E. Bernstein

doi:10.1038/nature09906

自然。作者手稿；PMC 2011年11月5日发布。

以最终编辑形式发布为：

自然。2011年5月5日；473(7345): 43–49.

2011年3月23日在线发布。数字对象标识：10.1038/自然09906

预防性维修识别码：项目经理3088773

NIHMSID公司：美国国家卫生研究院270546

PMID：21441907

九种人类细胞染色质状态动力学的系统分析

杰森·恩斯特,^1,² Pouya Kheradpour公司,^1,² 塔吉·米克尔森,¹ 诺姆·肖雷什,¹ 卢卡斯·沃德,^1,² 查尔斯·爱泼斯坦,¹ 张晓兰,¹ 李旺,¹ 罗宾·伊斯纳,¹ 迈克尔·科恩,¹ Manching Ku公司,^1,^三，⁴ 蒂莫西·达勒姆,¹ 马诺利斯·凯利斯,^1,^2,^*和布拉德利·伯恩斯坦^1,^三，⁴

杰森·恩斯特

¹麻省理工学院布罗德学院和哈佛大学，美国马萨诸塞州剑桥

²麻省理工学院计算机科学和人工智能实验室，美国马萨诸塞州剑桥

查找文章依据杰森·恩斯特

Pouya Kheradpour公司

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

²麻省理工学院计算机科学和人工智能实验室，美国马萨诸塞州剑桥

查找文章依据Pouya Kheradpour公司

塔吉·米克尔森

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据塔吉·米克尔森

诺姆·肖雷什

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据诺姆·肖雷什

卢卡斯·沃德

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

²麻省理工学院计算机科学和人工智能实验室，美国马萨诸塞州剑桥

查找文章依据卢卡斯·沃德

查尔斯·爱泼斯坦

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据查尔斯·爱泼斯坦

张晓兰

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据张晓兰

李旺

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据李旺

罗宾·伊斯纳

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据罗宾·伊斯纳

迈克尔·科恩

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据迈克尔·科恩

满清区

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院病理科霍华德·休斯医学院

⁴美国马萨诸塞州波士顿马萨诸塞总医院系统生物学中心和癌症研究中心

查找文章依据Manching Ku公司

蒂莫西·达勒姆

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

查找文章依据蒂莫西·达勒姆

马诺利斯·凯利斯

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

²麻省理工学院计算机科学和人工智能实验室，美国马萨诸塞州剑桥

查找文章依据马诺利斯·凯利斯

布拉德利·伯恩斯坦

¹美国马萨诸塞州剑桥市麻省理工大学和哈佛大学博德学院

^三美国马萨诸塞州波士顿市马萨诸塞总医院和哈佛医学院病理科霍华德·休斯医学院

⁴美国马萨诸塞州波士顿马萨诸塞总医院系统生物学中心和癌症研究中心

查找文章依据布拉德利·伯恩斯坦

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1
NIHMS270546-补充-1.pdf（240万）
GUID:1D0B9EE0-292C-4FFE-BBAC-9E66428B9466
2
NIHMS270546-补充-2.pdf（155K）
编号：896B04F7-90A3-488C-955e-D85A991121F3
三。
NIHMS270546-补充-3.pdf（274000）
GUID:B6DC3FAF-62C5-4530-8289-2D6F23314AD1
4
NIHMS270546-增补-4.xls（3.6万）
GUID:C3E1D15C-9CB4-40A6-95ED-C8BDEEC65578

摘要

染色质分析已成为基因组注释和检测调节活性的有力手段。在这里，我们绘制了九种细胞类型的九个染色质标记，以系统地描述调控元件、它们的细胞类型特异性及其功能相互作用。聚焦于启动子和增强子的细胞类型特异性模式，我们定义了染色质状态、基因表达、调控基序富集和调控表达的多细胞活性谱。我们利用这些图谱之间的相关性将增强子与假定的靶基因联系起来，并预测调节它们的细胞类型特异性激活剂和阻遏物。由此产生的注释和调控预测对解释全基因组关联研究具有意义。顶核疾病SNP通常位于相关细胞类型中特别活跃的增强子元件内，在某些情况下影响预测调控因子的基序实例，从而提出关联机制。我们的研究提供了一个解释顺调控联系及其在疾病中作用的一般框架。

引言

生物学的一个主要挑战是理解单个基因组如何产生由数百种不同细胞类型组成的生物体。重点放在应用高通量工具研究相互作用的细胞组件上¹系统生物学领域利用动态基因表达模式揭示功能模块、途径和网络²然而，在细胞条件下，顺调控成分在很大程度上仍未被发现，它们可能同样具有动态性。

鉴于染色质在调节信号和控制DNA通路中的核心作用，以及可识别序列信号的缺乏，染色质分析为检测顺调控元件提供了一种系统化的方法。特定组蛋白修饰与调节蛋白结合、转录起始和延伸、增强子活性和抑制相关¹^,^三^-⁶结合修饰可以更精确地了解染色质状态⁷^,⁸.

在这里，我们应用一个高通量管道来绘制9种染色质标记和跨9种细胞类型的输入控制。我们使用标记的循环组合来定义15个染色质状态，对应于抑制、平衡和活性启动子、强弱增强子、假定绝缘体、转录区以及大规模抑制和非活性结构域。我们使用定向实验来验证状态之间的生化和功能差异。

由此产生的染色质状态图描绘了一个高度动态的景观，跨细胞类型的特定变化模式揭示了相互作用的功能元件之间的强烈相关性。我们使用染色质状态、基因表达和调节器活性之间的相关活动模式，将增强子与可能的靶基因联系起来，预测细胞类型特异性激活物和阻遏物，并确定负责这些相互作用的单个结合基序。

我们的结果对解释全基因组关联研究具有启示。我们发现疾病变异体经常与特定于相关细胞类型的增强子元件相一致。在一些情况下，我们可以预测其调控基序实例受到影响的上游调控因子或其表达可能改变的靶基因，从而提出疾病相关基因型如何导致观察到的疾病表型的具体机制假设。

结果

多种细胞类型染色质标记的系统定位

为了在多种细胞类型中以统一的方式探索染色质状态，我们应用了染色质免疫沉淀生产管道，然后进行高通量测序（ChIP-seq），以生成全基因组染色质数据集（参见方法,图1a). 我们分析了九种人类细胞类型，包括ENCODE联盟指定的共同线¹和原始细胞类型。这些细胞包括胚胎干细胞（H1 ES）、红细胞白血病细胞（K562）、B淋巴细胞母细胞（GM12878）、肝细胞癌细胞（HepG2）、脐静脉内皮细胞（HUVEC）、骨骼肌成肌细胞（HSMM）、正常肺成纤维细胞（NHLF）、正常表皮角质形成细胞（NHEK）和乳腺上皮细胞（HMEC）。

保存图片、插图等的外部文件。对象名为nihms-270546-f0001.jpg

在单独的窗口中打开

图1

染色质状态发现和表征

a、，上图：九个染色质标记（灰度）的轮廓显示在四种细胞类型的wnless（WLS）基因上，并汇总在每个细胞类型的单个染色质状态注释轨迹中（根据b条). WLS在ES细胞中稳定，在GM12878细胞中被抑制，在HUVEC和NHLF中转录。其TSS相应地在稳定（紫色）、抑制（灰色）和活性（红色）启动子状态之间切换；基因体内的增强子区域被强烈激活（橙色、黄色）；其基因体从低信号（白色）变为转录（绿色）。这些染色质状态变化总结了许多染色质标记的协同变化；例如，H3K27me3、H3K4me3和H3K4me2联合标记一个稳定的启动子，而H3K17me3的缺失和H3K27ac和H3K 9ac的获得标记启动子的激活。底部：以WLS为中心的900kb区域中的九个染色质状态轨迹，每个细胞类型一个，以直接可解释的动态注释总结了90个染色质轨迹，显示了6个基因和数百个调控区域的激活和抑制模式，包括增强子状态。b、，多变量HMM跨细胞类型联合学习染色质状态。表中显示了学习到的发射参数从头开始基于全基因组染色质标记的重复组合。每个条目表示在与染色质状态相对应的基因组位置上发现给定标记的频率。c中，每个染色质状态的基因组覆盖率、功能富集度和候选注释。蓝色阴影表示强度，按列缩放。日期：，方框图描述了预测调控元件的增强子活性。将250bp-long序列插入荧光素酶基因上游，对应于强或弱/稳定的HepG2增强子元件，或GM12878特异性强增强子元素，并转染到Hep G2细胞中。报告者的活动是以相对光单位测量的。在匹配的细胞类型中，强效增强子表现出较强的活性，但弱/平衡增强子或不同细胞类型的强效增效子表现不出活性。方框和胡须表示5^第个, 25^第个, 50^第个, 75^第个和95^第个百分位数。

我们使用组蛋白H3赖氨酸4三甲基化（H3K4me3）抗体，这是一种与启动子相关的修饰⁴^,⁵^,⁹; H3K4me2，与启动子和增强子相关¹^,^三^,⁶^,⁹; H3K4me1，优先与增强子相关¹^,⁶; 赖氨酸9乙酰化（H3K9ac）和H3K27ac，与活性调节区相关⁹^,¹⁰; H3K36me3和H4K20me1，与转录区相关^三^-⁵; H3K27me3，与多梳重表达区域相关^三^,⁴; 和CTCF，一种具有多种功能的序列特异性绝缘体蛋白¹¹我们通过蛋白质印迹和肽竞争验证了每种抗体，并对每种细胞类型的输入控制进行了排序。我们还收集了H3K9me3、RNAPII和H2A的数据。单元格子集中的Z。

这就产生了90个染色质图，对应于约24亿个读数，覆盖了9种细胞类型的约1000亿个碱基，我们开始用计算方法解释。

学习跨细胞类型的一组常见染色质状态

为了将这些数据集归纳为九个易于解释的注释，每个细胞类型一个注释，我们应用了一个多元隐马尔可夫模型（HMM），该模型使用染色质标记的组合模式来区分染色质状态⁸该方法明确建模了一组“排放”参数中的标记组合和一组“过渡”参数中相邻基因组片段之间的空间关系（参见方法). 相对于单个标记的研究，它具有更高的可靠性、稳健性和准确性，能够捕获监管元素的优势⁸.

我们通过创建来自所有细胞类型的所有染色体的虚拟串联来共同了解染色质状态。我们选择了15个表现出明显生物富集并持续恢复的州(图1a、b;补充图1). 即使了解了状态从头开始仅根据染色质标记的模式及其空间关系，它们与转录起始位点（TSS）、转录物、进化保守的非编码区、DNA酶超敏位点有明显的关联¹²，调节器的结合位点，c-Myc¹³和NF-κB¹⁴以及与核膜相关的非活性基因组区域¹⁵(图1c).

我们区分了六大类染色质状态，即启动子、增强子、绝缘体、转录、抑制和非活性状态(图1c). 在他们之中，积极、软弱和沉着⁴启动子（状态1-3）在表达水平上不同，强候选增强子和弱候选增强子（状态4-7）在近端基因的表达上不同，强转录区和弱转录区（状态9-11）在沿着转录物的位置富集上也不同。类似地，多梳重表达区域（状态12）不同于异色和重复状态（状态13-15），它们也富集于H3K9me3(补充图2-4).

这些状态的平均片段长度差异很大（启动子和增强子状态约500bp，非活性区域约10kb），以及基因组覆盖的部分（启动子状态和增强器状态<1%，非活性状态13>70%）。对于每种状态，覆盖范围在不同的单元格类型中相对稳定(补充图5)，除了ES细胞外，其稳定的启动子状态更丰富，而强增强子和多结合重表达状态被耗尽，这与多能干细胞的独特生物学相一致⁴^,¹⁶.

我们确认启动子和增强子状态显示出不同的生化特性(补充图6). RNAPII在强启动子处高度富集，在强增强子处弱富集，在弱/平衡增强子处几乎检测不到，这与启动子处的强转录一致，并且有报道称在活性增强子处弱转录¹⁷^,¹⁸.H2A。Z、与核小体游离区相关的组蛋白变体¹⁹，富含活性启动子和强增强子，与TSS处的核小体置换和活性增强子中丰富的转录因子（TF）结合位点一致。

我们还使用荧光素酶报告子分析来验证预测增强子的功能、强弱增强子状态之间的区别及其预测的细胞类型特异性。通过转染HepG2细胞，我们测试了针对不匹配细胞类型的强增强剂、弱增强剂和强增强剂。我们观察到，只有来自匹配细胞类型的强增强子元素具有较强的荧光素酶活性(图1d).

这些结果和模型的其他属性(补充图7-10)表明染色质状态是基因组固有的生物信息特征。该框架使我们能够通过直接研究细胞类型之间的染色质状态变化（我们称之为“变化”或“动力学”，而不暗示任何时间关系）来推断标记中的协调差异。

不同细胞类型染色质状态变化的程度和意义

接下来，我们探讨了染色质状态在不同细胞类型之间的变化程度。可变性的总体模式(补充图11,12)这表明调控区域在不同细胞类型的活性水平上存在显著差异。增强子状态显示强增强子和弱增强子之间的频繁交换，启动子状态在活性、弱和平衡之间变化。启动子状态比增强子更稳定；它们保持发起国地位、控制覆盖率的可能性是其他国家的八倍。也观察到启动子、增强子和转录过渡状态之间的转换，但没有发现其他组的优先变化。这些一般模式表明，尽管活性水平不同，但增强子和启动子区域往往保持其染色质特性，作为具有调节潜力的区域。

细胞类型之间的染色质状态差异与细胞类型特异性基因功能有关。淋巴母细胞和骨骼肌细胞中注释TSS的染色质状态谱的无偏聚类区分了下游基因表达和功能基因类的预测信息模式(补充图13、14). 当TSS被简单地分配到最普遍的染色质状态时，细胞类型特异性模式也很明显。骨骼肌中的启动子激活与细胞外结构基因（8.5倍富集）、具有免疫反应基因的淋巴母细胞中激活的启动子（7.2倍富集）以及在两者中均具有代谢看家基因的启动子相关。

基于活性模式的启动子和增强子状态聚类

扩展我们的成对启动子分析，我们在所有细胞类型中聚集了强启动子和强增强子区域（参见方法). 这揭示了显示共同活动并与高度相干功能相关的簇(图2a、b). 对于启动子簇，这些包括免疫反应（GM12878特异性簇，p<10⁻¹⁸)，胆固醇转运（HepG2特异性，10⁻⁴)和代谢过程（所有细胞，10⁻¹³¹). 值得注意的是，通过邻近性分配给增强子簇的基因也显示出强大的功能丰富性，包括免疫反应（GM12878特异性，10⁻⁶)，脂质代谢（HepG2特异性，10⁻⁵)和血管生成（HUVEC特异性，10⁻⁴).

保存图片、插图等的外部文件。对象名为nihms-270546-f0002.jpg

在单独的窗口中打开

图2

细胞类型特异性启动子和增强子状态及相关功能富集

a、，细胞类型（列）中分配给活性启动子状态1（红色）的基因组位置（行）的聚类揭示了20种常见的活性模式（A-T）（见方法). 对于每个聚类，基于最近的TSS，用超几何P值和折叠富集来显示富集基因本体（GO）术语。对于大多数集群，几种细胞类型显示出强（深红色）或中等（浅红色）活性。b、，强增强子状态4（黄色）的相似聚类和功能丰富。增强状态显示出更大的细胞类型特异性，大多数簇只在一种细胞类型中活动。

启动子和增强子的总体特异性不同。大多数启动子簇在多种细胞类型中表现出活性，这与之前的工作一致⁵^,¹⁰(图2a). 增强子簇明显更具细胞类型特异性，少数区域在两种以上的细胞类型中表现出活性，而大多数区域只对单个细胞类型具有特异性(图2b).

我们还发现基因类别之间基于增强子和基于启动子的调控的相对贡献存在差异。发育基因似乎受到这两种基因的强烈调控，显示出近端增强子数量最多，启动子状态多样，包括平衡和多梳重表达(补充图15). 组织特异性基因（如免疫基因、类固醇代谢基因）似乎更依赖增强子调控，显示出多种组织特异性增强子，但启动子状态不太多样。最后，家政基因主要由启动子调控，其附近几乎没有增强子。

总的来说，染色质景观的这一动态视图表明，多细胞染色质图谱对于系统生物学来说可以像传统的表达分析一样富有成效，并且可能包含关于基因组调控程序的额外信息，我们接下来将对此进行探讨。

活性谱中的相关性将增强子与靶基因联系起来

接下来，我们通过定义细胞类型中每个增强子的“活性谱”，研究了增强子、激活或抑制增强子和调控其表达的基因之间的功能关联(图3). 我们补充了这些增强子活动概况(图3a)带有基因表达谱(图3b)，序列基序富集(图3d)以及识别每个基序的TF的表达(图3e). 我们使用这些曲线之间的相关性，以概率方式将增强子与其下游目标和上游调节器联系起来（参见方法).

保存图片、插图等的外部文件。对象名为nihms-270546-f0003.jpg

在单独的窗口中打开

图3

活动模式的相关性将增强子与基因靶点和上游调节器联系起来

a、，中定义的每个增强器簇（行）的单元类型（列）中的平均增强器活动图2亿（标记为A-T）和每个簇中200bp窗口的数量。b、，跨细胞类型最近基因的平均mRNA表达及其与增强子活性谱的相关性一增强子活性和基因表达之间的高度相关性为将增强子与靶基因联系起来提供了一种方法。c中，ES细胞中Oct4结合的富集²⁴和NF-κB在淋巴母细胞中的结合¹⁴对于每个集群。日期：，每个簇的强富集（红色）或贫化（蓝色）图案，来自323个共识图案的目录。e、，基于基序富集（左上三角）和TF表达（右下三角）之间的正（激活子）或负（阻遏子）相关性，预测每个簇的因果调节因子。例如，红/黄组合预测Oct4是ES-特异性增强子的阳性调节物，因为其基于基序的预测靶点富集了ES（簇a）中活性增强子（红色上三角），Oct4基因在ES细胞中特异性表达，导致TF表达正相关（黄色三角）。所有簇中模体和TF表达之间的总体相关性表示预测的激活物（正相关，橙色）和阻遏物（负相关，紫色）。

我们发现增强子活性的模式(图。 2亿2亿,，3a）3a年)与最近基因表达模式密切相关(图3b20个聚类中有16个聚类的相关性>0.9）。由于这种相关性即使在远距离（>50kb）也保持较高，我们使用活性相关性作为基因组距离的补充，将增强子与目标基因联系起来（参见方法). 基于活性的链接增加了几个簇的功能基因类富集(补充图16).

我们使用数量性状位点（QTL）定位研究验证了我们的方法，该研究使用SNP等位基因和基因表达水平之间的共同变异将顺调控区域与目标基因联系起来。四种肝脏QTL研究进展²⁰和淋巴母细胞²¹^-²³显示出与我们的增强子预测非常一致。通过我们的方法连接到特定靶基因的增强子显著富集了与基因表达水平相关的SNP(补充图17)从而用正交数据证实了我们的增强子-基因连锁。

与TF表达和基序富集的相关性预测上游调控因子

接下来，我们根据调控基序的丰富程度预测了序列特异性TF可能以给定簇中的增强子为靶点。这意味着许多TF的已知生物学作用与各自的细胞类型相匹配(图3d,补充图18). 当相关细胞类型中的ChIP-seq数据可用时，我们确认丰富的基序优先受同源因子的约束(图3c). 簇A中的Oct4基序实例（ES-specific enhancers）在ES细胞中优先与Oct4结合²⁴和F簇（淋巴母细胞特异性增强子）中的NF-kB基序实例优先与淋巴母细胞中的NF-kB结合¹⁴在这两种情况下，细胞类型特异性增强子中的基序实例显示，与其他增强子相比，结合增加了约5倍。

然而，基于序列的基序丰富并不能区分因果关系。富集可以反映不影响染色质状态的平行结合事件，或者该基序实际上可以通过正交细胞类型中的特异性抑制与增强子状态拮抗。为了区分这些可能性，我们用相应TF的细胞类型特异性表达来补充观察到的基序丰富(图3e). 然后，我们将基于给定簇中模体丰富程度的“模体分数”与基于TF表达模式和簇活动特征之间一致性的“TF表达分数”进行关联（参见方法). 两个分数之间的正相关意味着TF可能正在建立或加强染色质状态。相反，负相关意味着TF可能充当阻遏物。例如，除了ES-特异性簇A中Oct4基序的富集外，Oct4在ES细胞中特异性表达，导致其被预测为ES细胞的因果调节因子(图3e)与已知生物学一致¹⁶.

对于20个集群中的18个，该分析揭示了一个或多个候选监管机构。对经过充分研究的监管机构的已知角色的恢复验证了我们的方法。例如，HNF1、HNF4和PPARγ被预测为HepG2特异性增强子（簇H、I）的激活剂，PU.1和NF-κB被预测为淋巴母细胞（GM12878）增强子的激活剂（簇C、F、G），Gata1被预测为K562特异性增增子的激活器（簇B），Myf被预测为骨骼肌（HSMM）增强器的激活剂¹⁴^,²⁵^-²⁷.

分析还揭示了潜在的新型监管互动。ETS因子（Elk1、Tel2、ETS）是GM12878和HUVEC（簇G）中活性增强因子的预测激活因子，但不是GM12878特异性或HUVEC-特异性簇的预测激活剂，强调无偏见簇的价值。这些联系与ETS因子在淋巴生成和内皮细胞中的作用相一致²⁸预测p53在HSMM、NHLF、NHEK和HMEC中作为激活物（簇N、Q、R）可能反映了其在这些原代细胞中保持的活性，而在其他细胞模型中，它可能被突变抑制（K562）²⁹，病毒灭活（GM12878）³⁰或细胞质定位（ES细胞）³¹p53在调节远端元件中的广泛作用与其与远端区域的已知结合一致³²^,³³.

我们的分析还揭示了几种阻遏物特征，包括K562和GM12878细胞中的Gfi1（簇B、C）和ES细胞中的Bach2（簇A）。已知这两种调节因子通过向近端启动子募集组蛋白脱乙酰化酶和甲基转移酶来抑制转录³⁴^,³⁵Gfi1也参与了卫星重复序列的沉默³⁵我们的调控推断表明，它们还调节染色质以抑制增强子活性，从而提出了一种新的远端基因调控机制。

预测约束事件和监管结果的验证

上述调控推断表明，在特定的细胞环境中，增强子区域内的基序实例中发生了TF结合事件，我们试图使用一般的分子签名来验证这一点。结合事件与核小体移位有关，这是组蛋白的ChIP-seq数据中明显的结构变化³⁶因此，我们研究了染色质强度剖面（“dips”）中的局部耗竭，作为TF结合的指示。我们证实在活性增强子的单个信号轨道中存在凹陷，并且与优先序列保护和调控基序实例相关(图4a).

保存图片、插图等的外部文件。对象名为nihms-270546-f0004.jpg

在单独的窗口中打开

图4

通过核小体耗竭和增强子活性验证监管预测

a、，K562特异性强增强子（橙色）染色质强度剖面的凹陷与预测的因果GATA基序实例（徽标）一致。这种下降可能反映了与TF结合相关的核小体位移，并由DNA酶超敏性支持¹²和GATA1约束²⁵.b、，H3K27ac信号在含有GATA基序的基因座之间的重叠，以基序实例为中心，如预测的那样，在K562细胞中出现凹陷。c中，如预测的那样，HepG2细胞的H3K4me2信号叠加显示HNF4基序在强增强状态下下降。日期：，在报告分析中测试了具有预测因果HNF基序的HepG2特异性强增强子。与野生型（蓝色）相比，具有置换HNF基序（红色）的构建物导致荧光素酶活性显著降低，平均降低2倍。显示了三个重复和95%置信区间的平均荧光素酶相对光单位。

为了测试我们的具体预测，我们将协调调控的增强子区域的染色质剖面叠加，将其锚定在隐含的基序实例上。突触性凹陷与调控基序完全一致，并且与预测完全一致，具有细胞类型特异性和区域特异性(图4b、c). 由于dip仅在表达因子时出现，因此它们也支持反作用TF的特性。

为了验证预测的因果基序有助于增强活性，我们使用荧光素酶报告子。我们的模型表明HNF调节器是HepG2特异性增强子的激活剂(图3)和上下文特定的dip支持的绑定交互(图4c). 因此，我们选择了10个具有HNF基序的位点进行功能分析，这些位点在强HepG2特异性增强子中表现为凹陷，并对其进行了评估，包括有无HNF基序。我们发现，基序的排列始终导致增强子活性的降低(图4d)支持其预测的因果作用。

为疾病相关变体分配候选调节功能

最后，我们探讨了我们的染色质注释和调控预测是否可以深入了解与疾病表型相关的序列变异。为此，我们从GWAS目录中收集了大量非编码SNP，其中一小部分目前已被了解³⁷.

我们发现疾病相关SNP与强增强子（状态4,5；2倍富集，p<10⁻¹⁰)尽管事实上，一般的SNP或研究中测试的SNP与这些状态没有显著关联。为了测试与特定疾病相关的SNP是否有更具体的对应关系，我们检查了426个GWAS数据集。我们确定了10项研究³⁸^-⁴⁷其变体与细胞类型特异性强增强子状态显著对应（参见方法;图5a).

保存图片、插图等的外部文件。对象名称为nihms-270546-f0005.jpg

在单独的窗口中打开

图5

染色质动力学和调控预测注释的疾病变异

a、，来自GWAS研究的强增强状态（4,5）与疾病相关SNP的交叉显示相关细胞类型显著富集（蓝色阴影）（参见方法). 指出了每种细胞类型在强增强状态下SNP的折叠富集。b、，对于三个GWAS数据集³⁸^-⁴⁰，显示了9种细胞类型中领先SNP子集的状态注释（颜色如图1亿，但状态11为白色）。强增强子状态（橙色）在与表型相关的细胞类型中最常见。对于SNPs重叠的强增强子，显示了具有相关表达的近端基因，以及链接分数和距离。c中，具有血脂特征的GWAS基因座示例⁴¹关联，其中先导变异体（红色圆圈）没有功能注释，但链接的SNP（箭头）与HepG2特异性强增强子（橙色）一致，可能代表因果变异体。所有单元格类型都显示了强增强符注释。日期：，疾病SNP影响预测因果基序的保守实例的GWAS位点示例。左：红细胞表型GWAS中的领先SNP rs9374080³⁸来自K562红白血病细胞中的强增强子<100 bp，并增强K562中预测的阻遏物Gfi1b的基序(图3d). 右：SNP rs9271055与狼疮相关³⁹与淋巴母细胞（GM12878）特异性强增强子一致，并增强了Ets1的基序，Ets1是预测的淋巴母细胞增强子激活物(图3d). 直接影响Ets1基因座的lupus相关变异体进一步暗示了这一因素³⁹.

这些研究中的个体变异体在相关细胞类型中特别活跃的增强子状态中高度富集(图5a、b). 例如，与红细胞表型相关的SNP³⁸在红白血病细胞（K562）增强子中发现，SNP与系统性红斑狼疮相关³⁹在淋巴母细胞（GM12878）增强子中发现，而SNP与甘油三酯相关⁴⁰表型或血脂表型⁴¹在肝细胞癌细胞（HepG2）增强子中发现。我们还将我们的模型应用于T细胞的染色质数据^三(补充图19)强增强状态与儿童急性淋巴细胞白血病风险相关的变异相关⁴⁸进一步验证了我们的方法。

我们还使用我们预测的增强子-靶基因关联来寻找候选下游基因，这些基因的表达可能受到增强子区域顺式变化的影响。虽然大多数预测的靶基因都接近增强子，但更远端的预测靶基因子集可以反映疾病表型的新候选基因(图5b).

此外，我们发现了几个案例，其中一个主要的GWAS变体与特定的染色质元素不对应，但一个连接的变体与具有预测细胞类型特异性的增强子一致(图5c). 因此，染色质图谱可能提供了一种在单倍型块中分类变体的通用方法，这是GWAS面临的一个常见问题。

最后，我们确定了一些病例，在这些病例中，疾病相关SNP在相关细胞类型中为预测的因果TF创建或破坏了调控基序实例(图5d)这表明疾病相关基因型可导致观察到的疾病表型符合我们的调控预测的特定分子机制。

讨论

我们的工作提供了跨多种细胞类型的许多染色质标记的系统视图，证明了染色质分析作为基因组注释的附加动态层的威力。我们提出了区分不同类别功能元件的方法，阐明了它们的细胞类型特异性，并揭示了控制它们并最终驱动目标基因表达的顺调节相互作用。通过将我们的预测与GWAS数据集的非编码SNP相结合，我们提出了疾病变体的潜在机制解释，无论是通过其在细胞类型特异性增强子状态中的存在，还是通过其对预测调控因子的结合基序的影响。

染色质状态极大地减少了90个染色质数据集（2^90个组合）的大组合空间，使其成为一组可管理的生物解释注释，从而提供了一种有效而稳健的方法来跟踪不同细胞类型的协调变化。这使得能够对>10000个启动子和增强子元件进行系统鉴定和比较。这两种类型的元素都是细胞类型特异性的，与基序丰富相关，并呈现出与邻近基因表达和功能相关的强、弱和稳定状态。增强子显示出精细的组织特异性，在发育和细胞类型特异性基因附近富集，对近端基因表达具有预测能力，加强了它们作为组织特异性基因表达的哨兵的作用⁴⁹通过系统地阐明增强子，并将其与上游调节器和下游基因联系起来，我们的分析可以帮助提供调节器和目标基因之间缺失的联系。随着额外表型直径细胞类型的调查，该方法的威力将大大增强，并使更大比例的增强子元素纳入连接网络。

推断出的顺调节相互作用做出了具体的可测试预测，其中许多预测通过额外的实验和分析得到了证实。我们的增强子-靶基因连锁得到了来自QTL定位研究的顺调控推断的支持。在特定情况下，通过TF结合以及在适当的细胞环境中因果基序的染色质谱中的缺失，可以证实细胞类型特异性增强子内预测的TF-运动相互作用。在增强子分析中也证实了被预测为细胞类型特异性增强子因果调节因子的基序。

多细胞染色质谱提供的调控推断与TF结合、表达、染色质可及性、核小体定位和染色体构象的数据集具有独特性和高度互补性⁵⁰例如，我们的监管预测有助于将TF结合事件的范围集中于较少数量的功能性相互作用。以染色质为中心的方法还补充了从表达数据推断生物网络的大量工作，有可能将增强子和其他基因组元素引入连接网络。

我们的研究对理解疾病具有重要意义。我们对相对未知的非编码基因组进行了详细的动态功能注释，通过预测与特定疾病和表型相关的特定细胞类型和调节器，可以帮助解释GWAS数据集。此外，增强子区域与上游调节器和下游基因之间的联系表明顺式和反式作用相互作用可能受到序列变体的调节。虽然目前的研究只是朝着这个方向迈出的第一小步，但我们预计，未来具有更大细胞类型多样性和改进方法的迭代将有助于确定人类疾病的分子基础。

方法总结

如前所述，在生物复制中进行ChIP-seq分析⁴使用经蛋白质印迹和肽竞争验证的抗体。使用Illumina基因组分析仪对ChIP DNA和输入对照进行测序。使用Affymetrix基因芯片阵列获得表达谱。染色质状态通过HMM联合学习⁸9种单元类型中的每一种都有10个数据轨道。我们重点研究了一个15态模型，该模型提供了足够的分辨率来解析生物学上的缺陷模式，但在独立处理时可以跨细胞类型进行复制。我们使用该模型生成了9个全基因组染色质状态注释，并通过附加的ChIP实验和报告分析进行了验证。使用k-means算法，在至少一种细胞类型中分配给强启动子状态1（或强增强子状态4）的位置上进行多细胞类型聚类。通过将H3K27ac、H3K4me1和H3K4me2的标准化信号强度与细胞类型间的基因表达相关，并将其作为与TSS距离的函数，预测增强靶基因的连锁。使用一组从多个来源组装而成的已知TF基序预测上游调控因子。通过序列匹配和进化保守性来识别Motif实例。GWAS研究的P值基于SNP位置的随机性，而FDR基于SNP在研究中的随机分配。数据集可从ENCODE网站获得(http://genome.ucsc.edu/ENCODE)，本文的支持网站(http://compbio.mit.edu/ENCODE_chromatin_states)和基因表达总览(GSE26386标准).

补充材料

致谢

我们感谢布罗德研究所（Broad Institute）的表观基因组学社区成员以及伯恩斯坦和凯利斯实验室（Bernstein and Kellis laborators）的有益讨论和批评。我们还感谢马里奥·苏瓦、埃里克·门登霍尔和肖恩·吉莱斯皮在实验方面的帮助，以及洛亚尔·戈夫和安德鲁·切斯对手稿的批判性阅读。我们感谢Broad Institute基因组测序平台在数据生成方面的专业知识和帮助。这项研究得到了国家人类基因组研究所（ENCODE）的资助（U54 HG004570）、R01 HG004037、RC1 HG005334、霍华德·休斯医学研究所、国家科学基金会（0644282和0905968）以及斯隆基金会的支持。

附录

方法

细胞培养

人类H1西班牙细胞在TeSR培养基中培养⁵¹由Cellular Dynamics International在Matrigel上发布。用dispase分裂细胞，以30到40的传代数收获。收获前，对细胞进行核型分析，并对其进行10月4日染色，以确认其多能性。K562型红细胞白血病细胞（ATCC CCL-243，批号4607240）在含有10%胎牛血清（FBS）和1%抗生素-抗真菌（GIBCO 15240-062）的RPMI培养基（HyClone SH30022.02）中悬浮培养。细胞密度保持在3×10之间⁵和7×10⁵细胞/ml。通用12878B淋巴细胞母细胞（Coriell Cell Repositories，“expansion A”）在含有15%FBS（非热灭活）、2 mM L-谷氨酰胺和1%青霉素/链霉素的RPMI 1640培养基中悬浮培养。细胞以~2×10的浓度接种⁵活细胞/ml，破坏最小，维持在3×10之间⁵和7×10⁵细胞/ml。HepG2型肝细胞癌细胞（ATCC HB-8065，批号4968519）在含有10%FBS和1%青霉素/链霉素的DMEM（HyClone SH30022.02）中培养。将细胞进行胰蛋白酶消化，再悬浮到单细胞悬浮液中，分裂成15%到20%的汇合点，然后在约75%的汇合处收获。NHEK公司从皮肤分离出的正常人表皮角质形成细胞（Lonza CC-2501，批号4F1155J，第1代）生长在补充了BPE、hEGF、氢化可的松、GA-1000、转铁蛋白、肾上腺素和胰岛素的角朊细胞基础培养基2（KGM-2 BulletKit，Lonza）中。以推荐密度（3500个细胞/cm）播种细胞²)在聚苯乙烯组织培养板上培养2到3代，收获率为70到80%。HSMM公司原代人类骨骼肌成肌细胞（Lonza CC-2580，批号6F4444，第2代）在补充有rhEGF、地塞米松、L-谷氨酰胺、FBS和GA-1000的平滑肌生长介质-2（SkGM-2 BulletKit，Lonza）中培养。以推荐密度（3500个细胞/cm）接种细胞²)经过两到三次传代，收获率为50%到70%。NHLF公司原代正常人肺成纤维细胞（Lonza CC-2512，批号4F0758，第2代）在补充有hFGF-β、胰岛素、FBS和GA-100的成纤维细胞基础培养基2（FGM-2 BulletKit，Lonza）中生长。以推荐密度（2500个细胞/cm）播种细胞²)经过两到三次传代，收获量约为80%。HUVEC公司原代人脐静脉内皮细胞（Lonza CC-2517，批号7F3239，传代1）在补充有hFGF-β、氢化可的松、VEGF、R3-IGF-1、抗坏血酸、肝素、FBS、hEGF和GA-1000的内皮基础培养基2（EGM-2 BulletKit，Lonza）中生长。以推荐的密度（2500–5000个细胞/cm2）接种细胞，进行两到三次传代，并在70%到80%的汇合处收获。HMEC公司从乳腺缩小组织（Lonza CC-2551，第7代）获得的原代人乳腺上皮细胞在添加了hEGF-β、氢化可的松、BPE、GA-1000和胰岛素的乳腺上皮基础培养基（MEGM BulletKit，Lonza）中生长。细胞按照推荐密度（2500个细胞/cm2）播种，经过两到三次传代，并在60%到80%的汇合处收获。

抗体

使用以下抗体试剂进行ChIP分析：H3K4me1（Abcam ab8895，批号38311/659352）、H3K4me2，H4K20me1（Abcam ab9051，批号104513/519198）、H3K27me3（Millipore 07-449，批号DAM1387952/DAM1514011）、CTCF（Millibore 07-729，批号1350637）、H3 K9me3（Abcam-ab8898，批号484088）、H2A。Z（Millipore 07-594，批号DAM1504736）和RNAPII N终点（Santa Cruz sc-899X，批号H0510）。所有抗体批次在ChIP-seq中的特异性和有效性都得到了广泛验证。蛋白质印迹用于确认组蛋白（或CTCF）的特异性识别。使用代表不同修饰状态的阵列组蛋白尾部肽进行的点图用于确认适当修饰的特异性。对普通细胞试剂进行的ChIP-seq分析用于确认同一抗体不同批次之间的一致性。

染色质免疫沉淀（ChIP）

在37°C下，用1%甲醛在细胞培养基中交联10分钟，获得细胞。在37°C下加入125 mM甘氨酸淬火5分钟后，用含蛋白酶抑制剂（罗氏）的冷PBS洗涤细胞两次。吸入所有液体后，含有约10⁷细胞被快速冷冻并储存在−80°C。使用生物破坏者（Diagenode）对固定细胞进行解冻和超声处理，以获得约200至700 bp的染色质片段。按照说明进行免疫沉淀，保留输入“全细胞提取物”（WCE）的一部分作为对照⁴简单地说，将超声染色质稀释10倍，并与~5μg抗体孵育过夜。抗体-染色质复合物用蛋白A-琼脂糖拉下，清洗，然后洗脱。在交联逆转和蛋白酶K处理后，用苯酚提取免疫沉淀DNA，在乙醇中沉淀，然后用核糖核酸酶处理。使用Qubit分析（Invitrogen）通过荧光测定法定量ChIP DNA。

下一代测序

对于每个ChIP或对照样品，使用约5 ng DNA生成标准Illumina测序文库。简言之，DNA片段使用端-It DNA端修复试剂盒（Epicenter）进行端修复，并使用Klenow（3′→5′exo-，0.3 U/μl，NEB），使用DNA连接酶（0.05 U/μl，NEB。这些文库通过荧光测定法进行量化，并通过定量PCR或基于多重数字杂交的分析（NanoString n计数器）进行评估⁵²确认DNA物种的代表性和特异性富集。在Illumina Genome Analyzer上，使用标准的集群扩增和序列合成程序在一个或两个通道中对文库进行测序。

表达式分析

使用RNeasy柱（Qiagen）从上述相同的细胞批次中分离细胞溶胶RNA。使用Affymetrix基因芯片阵列获得基因表达谱。使用GenePattern表达数据分析包对数据进行规范化⁵³.CEL文件通过RMA、分位数归一化和背景校正进行处理。对每种细胞类型的两个复制表达数据集进行平均并记录₂转化。通过平均归一化计算跨细胞类型的基因水平归一化。

排序读取的初级处理

ChIP-seq读数与人类基因组构建HG18和Maq一致(网址：http://maq.sourceforge.net/makman.shtml)使用默认参数。在对齐之前，所有读数都被截断为36个基数。通过在3′方向将测序读数延长200 bp（ChIP片段的估计中值大小），然后以25 bp的间隔计算重叠读数的总数，得出可视化的信号密度图。通过比较所述的富集区间，验证了重复ChIP-seq实验⁴，然后合并为单个数据集。对于HMM，密度图是通过在3′方向将测序读数扩展200 bp，然后根据扩展读数的中点将其分配到单个200 bp窗口而得出的。然后，基于泊松背景模型，使用阈值10，以200 bp的分辨率对这些地图进行二值化⁻⁴.

跨细胞类型的HMM状态联合学习

为了处理来自9种细胞类型的数据，我们将它们的基因组串联起来，创建一个扩展的虚拟基因组，用于训练HMM。我们将该模型应用于对应于不同染色质标记的10个轨迹，并使用所述的多元HMM模型输入⁸这里，我们使用欧氏距离来确定嵌套初始化步骤的初始参数。在学习和评估了一组大致嵌套的模型后，考虑到多达25种状态，我们将重点放在15种状态的模型上，该模型提供了足够的分辨率来解析生物上微小的染色质模式，并且当独立处理时，在不同细胞类型之间具有高度的可重复性(补充图7). 我们使用此模型计算每个位置处于给定状态的概率，然后将每个200 bp的间隔分配给每个细胞类型的最可能状态。尽管我们的模型关注标记的存在/不存在频率，但我们发现我们的状态还捕获了高频和低频标记之间的信号强度差异(补充图9).

富集分析

对于每种状态，不同注释的富集度以200 bp的分辨率计算，而保守度则以核苷酸分辨率计算。我们使用通过UCSC基因组浏览器获得的注释⁵⁴RefSeq TSS和转录区域⁵⁵，PhastCons公司⁵⁶，K562细胞的DNase-seq¹²，c-Myc ChIP-seq用于K562细胞¹³，NF-κB ChIP-seq用于GM12878¹⁴，ES细胞中的Oct4²⁴和核膜¹⁵使用STEM测定基因功能群富集⁵⁷和基因本体数据库中的生物过程注释⁵⁸基于超几何分布计算P值，并使用Bonferonni校正对多次测试进行校正。

比较不同细胞类型的染色质状态分配

对于每对细胞类型，比较每个基因组位置的染色质状态分配。我们计算了每对状态发生的频率，并根据每个状态所覆盖的基因组数量将其与预期频率进行了标准化。折叠丰富图2a反映了跨越所有72对可能的细胞类型的聚集。

成对启动子聚类

RefSeq基因的启动子根据TSS中心2 kb区域内最可能的染色质状态分配进行聚类。在GM12878和HSMM上联合进行聚类，并仅限于具有相应Affymetrix表达的基因。简单地说，每个启动子被视为一个330元素的二元载体，其中载体的每个位置对应于启动子、细胞类型和状态的一个位置。在Matlab中通过k-means对这些向量进行聚类。根据最接近TSS的相应Affymetrix探针集计算基因表达值。

多细胞型启动子和增强子聚类

在至少一种细胞类型中，对分配给强启动子状态（状态1）的所有200bp间隔进行启动子状态聚类。每个区间由一个向量表示，该向量对应于9种细胞类型中每种细胞处于强启动子状态的估计概率，考虑到模型分配的不确定性和生物噪声。这些是根据状态分配的模型后验概率和重复实验数据中状态分配的比较确定的。使用Matlab通过k-means进行聚类。我们发现，20个簇提供了足够的分辨率来区分主要的细胞类型特异性模式。使用相同的程序对至少一种细胞类型中强增强子状态4的所有200 bp间隔进行增强子态聚类。为了在中显示图2，位置随机下采样。为了确定图2b，增强子与最近的TSS相连，距离达50kb，不包括5kb以内的增强子。基于最近基因的增强基因对应用于基于距离的连锁基因的表达分析图3b.

将增强子位置与相关基因联系起来

为了预测增强子状态和目标基因之间的联系，我们将基于距离的信息与基因表达水平的细胞类型之间的相关性与三种组蛋白修饰的读取深度标准化信号强度相结合：H3K4me1、H3K4me2和H3K27ac。对于TSS中每个增强子状态（4-7）、细胞类型和5kb到125kb之间的200bp间隔，我们训练了逻辑回归分类器。训练分类器使用标记强度-表达相关值来区分增强子状态对的真实实例和基于对不同基因随机重新分配表达值的对照对的基因表达值。为了在每个位置学习平稳稳健的功能，我们在以该位置为中心的10kb窗口内将所有增强状态分配作为培训的一部分。特定增强子-基因连锁的链接分数定义为相应的逻辑回归分类器概率分数与随机数据的概率分数之比。

为了评估表达数量性状位点（QTL）分析，我们使用了2.5的链接得分。eQTL数据来自芝加哥大学QTL浏览器(http://eqtl.uchicago.edu/cgibin/gbrowse/eqtl/). 在对每个SNP的QTL评估中，重叠了一个强增强子状态（4或5），并且在TSS的125kb范围内（不包括5kb内的位置），并且与我们有表达数据的基因相关，这些SNP被认为有资格得到我们关联预测的支持。我们根据我们的关联预测计算了我们观察到的关联分数，该预测与在已知SNP相对于TSS基因的距离分布的条件下预期关联的分数相关。

对于使用基因本体评估链接预测，我们使用相同的链接分数和相对于用于定义与簇相关的基因的TSS的相同距离。这里的富集分析中的基本基因集是所有基因，它们至少可以在一个簇中连锁。

Motif和TF分析

通过结合TRANSFAC（11.3版）中的基序，对已知TF基序数据库进行了整理⁵⁹，贾斯帕（2010-05-07）⁶⁰和蛋白质结合微阵列数据集⁶¹^-⁶³。使用这些基序和序列保守性，通过对欧洲哺乳动物基因组进行29向比对，确定了基因组非编码和非重复区域的基序实例（Lindblad-Toh等人，正在准备中）。使用显著性阈值p＜4进行过滤⁻⁸用于图案⁶⁴和基于守恒的置信水平。使用源提供的元数据将主题链接到相应的TF。染色质状态簇的基序丰度被计算为与洗牌基序实例的比率，以纠正非特异性保守性和组成。使用Wilson评分区间（z=1.5）计算每个比率的置信区间，在置信区间内选择最保守的值。在同一TF存在多个基序变体的情况下，选择在簇间富集差异最大的基序变体。

为了预测因果激活因子和阻遏因子，基序得分和TF表达得分的相关性如下。如上所述计算Motif评分。通过将跨细胞类型的TF表达与该簇中增强子的活性谱相关联（由k均值聚类的聚类平均值定义），计算每个簇的TF表现分数。然后将基序得分和TF表达得分相互关联，以确定正相关和负相关的TF。

通过使用原始ChIP-seq标记富集作为核小体定位的代理，验证了预测特定细胞类型中强增强状态的TF-motif相互作用。为此，测序读取如上所述进行处理，但推断的ChIP片段中间75 bp用于推导核小体完整性（dip）的信号密度信息，如所述³⁶。叠加图显示了相对于基于测序深度计算的统一背景的标签丰富程度。

定量实时PCR

RNAPII和H2A的富集比。如前所述，在生物复制中，使用ABI 7900检测系统通过定量实时PCR测定Z ChIP相对于输入染色质的含量⁶⁵。用于验证的区域对应于3种不同的染色质状态，其中13个表示状态1（任意选择），11个表示状态4（任意选择但不包括状态1注释的2kb内的区域），以及11个表示国家7（任意选择，但不包括在状态1或状态4注释的2KB内的区域。PCR引物列于补充数据1.

功能增强剂分析

SV40启动子首先插入pGL4.10（Promega）的HindIII和NcoI位点之间。接下来，合成参考基因组（hg18）中对应不同染色质状态的250bp序列（8个来自HepG2状态4，7个来自Hep G2状态7，7个位于GM12878状态4），然后插入SV40启动子上游的两个SfiI位点之间。HepG2细胞以5×10^4个细胞/孔的密度接种到96孔板中，隔夜扩增至约50%汇合。然后用400 ng pGL4.10衍生质粒和100 ng pGL4.73（Promega）用Lipofectamine LTX转染细胞。使用Dual-Glow（Promega）和EnVision 2103多标签阅读器（PerkinElmer）从三份实验中测量转染24小时后萤火虫和肾小球荧光素酶的活性。数据以相对于对照质粒的光单位报告。为了验证因果TF基序，对10个250 bp的序列进行了上述测试，这些序列对应于HepG2特异性强增强子（状态4），带有dip和HNF基序。测试的增强器元件列于补充数据1.

GWAS SNP分析

GWAS变体和SNP坐标从NHGRI目录和UCSC浏览器中获得（2010年10月30日）³⁷^,⁵⁴通过延长血脂GWAS来完善这一组⁴¹设置为包含所有报告的SNP，并通过分叉血液学和生物化学特性研究⁴⁶分为血液学特征集和生物化学特征集。我们将分析局限于报告2个或更多相关SNP的研究。每项研究的变异与每种细胞类型的染色质状态相交。报告的p值基于相关SNP与强增强状态4和5的重叠。我们根据随机测试控制了近端SNP之间的非依赖性，其中SNP在保持相对距离的同时随机移动。然后，我们根据SNP随机重新分配到不同研究中的排列，定义了一个估计的错误发现率，并重新计算校正的p值。基于这些排列的错误发现率估计控制了研究和细胞类型的多重测试，以及具有GWAS命中的状态4和5的一般非特异性富集。使用上述链接方法，根据铅细胞类型预测与增强子状态相关的变异体子集的候选基因靶点。

参考文献

51Ludwig TE等。人类胚胎干细胞的饲养者依赖培养。自然方法。2006;三:637–646.[公共医学][谷歌学者]

52Geiss GK等。用彩色编码探针对直接多路测量基因表达。国家生物技术。2008;26:317–325.[公共医学][谷歌学者]

53Reich M等人，GenePattern 2.0。自然遗传学。2006;38：500–501。[公共医学][谷歌学者]

54Kent WJ等人。加州大学旧金山分校的人类基因组浏览器。基因组研究。2002;12:996–1006. [PMC免费文章][公共医学][谷歌学者]

55Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列（RefSeq）：基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35：D61–65。 [PMC免费文章][公共医学][谷歌学者]

56Siepel A等人。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守的元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]

57Ernst J，Bar-Joseph Z.STEM：分析短时间序列基因表达数据的工具。BMC生物信息学。2006;7:191. [PMC免费文章][公共医学][谷歌学者]

58Ashburner M等人。基因本体联盟基因本体：生物学统一的工具。自然遗传学。2000;25:25–29. [PMC免费文章][公共医学][谷歌学者]

59Matys V等人。TRANSFAC：从模式到剖面的转录调控。核酸研究。2003;31:374–378. [PMC免费文章][公共医学][谷歌学者]

60Sandelin A、Alkema W、Engstrom P、Wasserman WW、Lenhard B.JASPAR：真核转录因子结合图谱的开放存取数据库。核酸研究。2004;32：D91–94。 [PMC免费文章][公共医学][谷歌学者]

61Berger MF等。通过序列偏好的高分辨率分析揭示同源域DNA结合的变化。单元格。2008;133:1266–1276. [PMC免费文章][公共医学][谷歌学者]

62Rosenkranz HS，Klopman G.重新检查硫唑嘌呤的遗传毒性和致癌性。突变研究。1991;251:157–161.讨论163-154。[公共医学][谷歌学者]

63Berger MF等，紧凑型通用DNA微阵列，用于全面确定转录因子结合位点的特异性。国家生物技术。2006;24:1429–1435. [PMC免费文章][公共医学][谷歌学者]

64Touzet H，Varre JS公司。位置权重矩阵的有效且准确的P值计算。算法分子生物学。2007;2:15. [PMC免费文章][公共医学][谷歌学者]

65Bernstein BE等人。双价染色质结构标志着胚胎干细胞中的关键发育基因。单元格。2006;125:315–326.[公共医学][谷歌学者]

脚注

作者声明没有竞争性的经济利益。

参考文献

1Birney E等人。通过ENCODE试点项目鉴定和分析人类基因组中1%的功能元件。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]

2Kim HD，Shay T，O'Shea EK，Regev A.转录调控电路：从字母预测数字。科学。2009;325：429–432。 [PMC免费文章][公共医学][谷歌学者]

三。Barski A等人。人类基因组中组蛋白甲基化的高分辨率分析。单元格。2007;129:823–837.[公共医学][谷歌学者]

4Mikkelsen TS等人。多能干细胞和谱系提交细胞中染色质状态的全基因组图。自然。2007;448:553–560. [PMC免费文章][公共医学][谷歌学者]

5Guenther MG、Levine SS、Boyer LA、Jaenisch R、Young RA。人类细胞中大多数启动子的染色质标志物和转录起始。单元格。2007;130:77–88. [PMC免费文章][公共医学][谷歌学者]

6Heintzman ND等。人类基因组中转录启动子和增强子的独特和预测染色质特征。自然遗传学。2007;39：311–318。[公共医学][谷歌学者]

7Hon G，Wang W，Ren B.人类基因组中功能染色质特征的发现和注释。公共科学图书馆计算生物学。2009;5：e1000566。 [PMC免费文章][公共医学][谷歌学者]

8Ernst J，Kellis M.人类基因组系统注释染色质状态的发现和表征。国家生物技术。2010;28:817–825. [PMC免费文章][公共医学][谷歌学者]

9Bernstein BE等。人类和小鼠组蛋白修饰的基因组图谱和比较分析。单元格。2005;120:169–181.[公共医学][谷歌学者]

10Heintzman ND等。人类增强子的组蛋白修饰反映了全球细胞类型特异性基因表达。自然。2009 [PMC免费文章][公共医学][谷歌学者]

11Phillips JE，Corces VG。CTCF：基因组编织大师。单元格。2009;137:1194–1211. [PMC免费文章][公共医学][谷歌学者]

12Hansen RS等人。对新复制的DNA进行测序揭示了人类复制时间的广泛可塑性。美国国家科学院院刊。2010;107:139–144. [PMC免费文章][公共医学][谷歌学者]

13Raha D等。RNA聚合酶II和许多转录因子与Pol III基因的密切关联。美国国家科学院院刊。2010;107:3639–3644. [PMC免费文章][公共医学][谷歌学者]

14Kasowski M等人。人类之间转录因子结合的变异。科学。2010;328:232–235. [PMC免费文章][公共医学][谷歌学者]

15Guelen L等人。通过核膜相互作用的映射揭示了人类染色体的结构域组织。自然。2008;453:948–951.[公共医学][谷歌学者]

16Jaenisch R，Young R.干细胞，多能性和核重编程的分子电路。单元格。2008;132:567–582. [PMC免费文章][公共医学][谷歌学者]

17De Santa F等人。大部分外源RNA pol II转录位点重叠增强子。《公共科学图书馆·生物》。2010;8：e1000384。 [PMC免费文章][公共医学][谷歌学者]

18Kim TK等。神经元活性调节增强子的广泛转录。自然。2010;465:182–187. [PMC免费文章][公共医学][谷歌学者]

19Talbert PB，Henikoff S.Histone变体——表观基因组的古代包裹艺术家。Nat Rev Mol细胞生物学。2010;11:264–275.[公共医学][谷歌学者]

20Schadt EE等。绘制人类肝脏基因表达的遗传结构。《公共科学图书馆·生物》。2008;6：e107。 [PMC免费文章][公共医学][谷歌学者]

21Pickrell JK等人。通过RNA测序了解人类基因表达变异的机制。自然。2010;464：768–772。 [PMC免费文章][公共医学][谷歌学者]

22蒙哥马利·SB等人。在高加索人群中使用第二代测序的转录组遗传学。自然。2010;464:773–777. [PMC免费文章][公共医学][谷歌学者]

23Veyrieras JB等。表达-QTL的高分辨率定位有助于深入了解人类基因调控。公共科学图书馆-遗传学。2008;4：e1000214。 [PMC免费文章][公共医学][谷歌学者]

24Kunarso G等人。转座元件重新连接了人类胚胎干细胞的核心调控网络。自然遗传学。2010;42:631–634.[公共医学][谷歌学者]

25Fujiwara T等人通过GATA因子染色质占据的全基因组分析发现造血机制。分子细胞。2009;36：667–681。 [PMC免费文章][公共医学][谷歌学者]

26堪萨斯州萨雷特Lemaigre F。肝脏发育更新：新胚胎模型、细胞谱系控制和形态发生。当前操作基因开发。2004;14:582–590.[公共医学][谷歌学者]

27Sabourin LA，Rudnicki MA。肌肉发生的分子调控。临床遗传学。2000;57:16–25.[公共医学][谷歌学者]

28Bartel FO，Higuchi T，Spyropoulos DD。转录因子Ets家族研究中的小鼠模型。致癌物。2000;19:6443–6454.[公共医学][谷歌学者]

29Law JC，Ritke MK，Yalowich JC，Leder GH，Ferrell RE。人类红细胞白血病K562细胞系中p53基因的突变失活。Leuk研究。1993;17:1045–1050.[公共医学][谷歌学者]

30Forte E，Luftig MA。Epstein-Barr病毒B细胞生长转化和感染细胞存活需要MDM2依赖性抑制p53。《维罗尔杂志》。2009;83:2491–2499. [PMC免费文章][公共医学][谷歌学者]

31Solozobova V，Rolletschek A，Blattner C.DNA损伤后胚胎干细胞中p53的核积累和激活。BMC细胞生物学。2009;10:46. [PMC免费文章][公共医学][谷歌学者]

32Cawley S等人。转录因子结合位点沿人类染色体21和22的无偏定位表明非编码RNA的广泛调控。单元格。2004;116:499–509.[公共医学][谷歌学者]

33Wei CL等。人类基因组中p53转录因子结合位点的全球地图。单元格。2006;124:207–219.[公共医学][谷歌学者]

34Hoshino H，等。辅阻遏物SMRT和II类组蛋白去乙酰化酶促进Bach2核滞留和形成负责局部转录抑制的核病灶。生物化学杂志。2007;141:719–727.[公共医学][谷歌学者]

35Vassen L、Fiolka K、Moroy T.Gfi1b改变了靶基因启动子和含异染色质的γ-卫星位点的组蛋白甲基化。EMBO J。2006;25:2409–2419. [PMC免费文章][公共医学][谷歌学者]

36He HH等。核小体动力学定义了转录增强子。自然遗传学。2010;42:343–347. [PMC免费文章][公共医学][谷歌学者]

37Hindorff LA等人，全基因组关联位点对人类疾病和特征的潜在病因和功能影响。美国国家科学院院刊。2009;106:9362–9367. [PMC免费文章][公共医学][谷歌学者]

38Ganesh SK等。CHARGE联盟中的多个基因座影响红细胞表型。自然遗传学。2009;41:1191–1198. [PMC免费文章][公共医学][谷歌学者]

39Han JW等。中国汉族人群的全基因组关联研究确定了9个新的系统性红斑狼疮易感性位点。自然遗传学。2009;41:1234–1237.[公共医学][谷歌学者]

40Kathiresan S等人。人类血液中与低密度脂蛋白胆固醇、高密度脂蛋白胆固醇或甘油三酯相关的六个新基因座。自然遗传学。2008;40:189–197. [PMC免费文章][公共医学][谷歌学者]

41Teslovich TM等。95个血脂基因座的生物学、临床和人群相关性。自然。2010;466:707–713. [PMC免费文章][公共医学][谷歌学者]

42Houlston RS等。全基因组关联数据的荟萃分析确定了四个新的结直肠癌易感基因座。自然遗传学。2008;40:1426–1435. [PMC免费文章][公共医学][谷歌学者]

43Newton-Cheh C等。全基因组关联研究确定了八个与血压相关的基因座。自然遗传学。2009 [PMC免费文章][公共医学][谷歌学者]

44Stahl EA等。全基因组关联研究荟萃分析确定了七个新的类风湿性关节炎风险基因座。自然遗传学。2010;42：508–514。 [PMC免费文章][公共医学][谷歌学者]

45Liu X等。全基因组荟萃分析确定了三个与原发性胆汁性肝硬化相关的基因座。自然遗传学。2010;42:658–660. [PMC免费文章][公共医学][谷歌学者]

46Kamatani Y等人。日本人群血液学和生物化学特征的全基因组关联研究。自然遗传学。2010;42:210–215.[公共医学][谷歌学者]

47Soranzo N等人。一项全基因组荟萃分析在HaemGen联合体中确定了22个与8个血液学参数相关的基因座。自然遗传学。2009;41:1182–1190. [PMC免费文章][公共医学][谷歌学者]

48Papaemmanuil E等。7p12.2、10q21.2和14q11.2位点与儿童急性淋巴细胞白血病风险相关。自然遗传学。2009;41:1006–1010. [PMC免费文章][公共医学][谷歌学者]

49Visel A，Rubin EM，Pennacchio LA。远效增强子的基因组观点。自然。2009;461:199–205. [PMC免费文章][公共医学][谷歌学者]

50Naumova N，Dekker J.整合基因组的一维和三维图。细胞科学杂志。2010;123:1979–1988. [PMC免费文章][公共医学][谷歌学者]