跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2014年9月4日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理4154057
NIHMSID公司:美国国立卫生研究院541492
PMID:22955619

基于ENCODE数据的人类调节网络架构

关联数据

补充资料

摘要

转录因子(TF)以组合方式结合,以指定基因的开启和关闭状态;这些结合事件的集合形成了一个调控网络,构成了一个细胞的接线图。为了检验人类转录调控网络的原理,我们在458个ChIP-Seq实验中测定了119个TF的基因组结合信息。我们发现转录因子的组合、共结合具有高度的上下文特异性:不同的因子组合在特定的基因组位置结合。特别是,基因近端和远端的结合存在显著差异。我们将所有TF结合组织成一个层次结构,并将其与其他基因组信息(例如miRNA调控)集成,形成一个密集的元网络。不同水平的因子具有不同的属性:例如,顶级TF更强烈地影响表达,而中级TF共同调节目标以缓解信息流瓶颈。此外,这些共同调节产生了许多丰富的网络主题,例如噪声缓冲前馈回路。最后,更多连接的网络组件受到更强的选择,表现出更大程度的等位基因特异性活动(即与两个亲本等位基因的差异结合)。本研究中获得的调控信息对于解释个人基因组序列和理解人类生物学和疾病的基本原理至关重要。

生物学的一个中心目标是了解有限的转录因子(TF)队列如何能够在不同的细胞类型和条件下编排基因表达模式的巨大多样性。在过去的十年中,在单细胞模型生物中对TF结合模式进行了系统分析,例如大肠杆菌和酵母,并透露了大量有关组织监管信息1-8此类研究为网络中心等功能提供了深入见解1,连通性相关性9,分层组织10,11和网络主题12,13此外,整合不同形式基因组和蛋白质组数据的更复杂网络,如蛋白质相互作用和磷酸化,与其他生物过程相关的基因调控14-16然而,对于人类来说,由于TF曲目和基因组的大小,系统级分析一直是一个挑战,迄今为止只报告了具有少数因素的特定监管子网络17-19ENCODE项目的大规模数据现在开始支持此类分析20此外,有大量人类多态性数据和许多哺乳动物的基因组序列21,22,有可能对选择与网络的关系获得前所未有的看法。

在此,我们对119个转录相关因子的全基因组结合谱进行了分析,包括序列特异性因子、一般性因子和染色质作用因子。(为了简单起见,我们将所有这些缩写为TF,并使用TFSS表示规范序列特定因子)。我们首先使用TF结合数据分析不同TF之间的联合模式,以及它们在启动子-近端和远端调控区域的差异模式。然后,我们将结合模式组织成代表整个系统级调控线路的分层层次结构。为此,我们添加了其他形式的网络信息,包括ncRNA调控(尤其是miRNAs)23,24,蛋白质相互作用25,26和蛋白质磷酸化27。我们分析了这种“元网络”的属性,这些属性根据层次结构和连接性的不同而不同(例如,集线器与非集线器),并搜索了丰富的网络模式。最后,我们调查了网络上的序列变异模式,检查了选择压力和等位基因效应(与母体或父系等位基因的优先结合)。

我们的几个主要发现包括:

  • *人类TF以组合和上下文特定的方式联合;不同的因子组合在不同的靶点附近结合,一个TF的结合常常会改变其他TF的首选结合伙伴。此外,TF在基因末端和基因末端区域通常表现出不同的联合模式。
  • *分层TF网络的不同部分具有不同的特性。例如,中间层具有最多的信息流瓶颈,并且为了抵消这一瓶颈,TF之间往往具有最多的监管协作。相反,较高级别的TF与其他网络(例如磷酰亚胺)的连通性最大。
  • *前馈环的出现在TF网络中非常丰富,还有许多由TF共同调节的两个基因通过蛋白质相互作用或调节miRNA桥接的基序。
  • *高度连接的网络元件(TF和靶点)受到强烈的进化选择,表现出更强的等位基因特异性活性(当涉及多个TF时,这一点尤为明显)。然而,令人惊讶的是,与非等位基因相比,具有等位基因活性的元素受到较弱的选择。

数据和处理概述

ENCODE项目在五个主要细胞系上生成了119个不同转录因子的ChIP-seq数据集(SOM/B.1,表S1和S2a). 每个数据集至少包含两个生物复制。此外,对于一组选定的因子(图S1c)进行siRNA实验,其中TF被耗尽,表达变化通过RNA-seq定量(SOM/B.2). 大多数因素(88,74%)是TFSS,可以根据其DNA结合结构域序列进行亚分类(表S2a)28一小部分(16,13%)包括POL2和一般转录机制;最后一个亚群(15.13%)由染色质修饰和重塑因子组成。

为了对这些不同的数据集进行有效的综合分析,我们制定了统一的处理流程和质量控制措施(SOM/B.1,图S1a、B和S2a,数据位于www.encodeproject.org). 总的来说,我们确定了7424765个峰;2948387(~40%)与注释基因转录起始位点(TSS)接近(+/-2.5 Kbp以内)。

特定上下文的TF Co-association

我们首先通过分析所有因子对的峰值之间的重叠来检查所有因子对的全基因组共关联20虽然可以确定许多一般趋势,但这种方法没有考虑TF结合的上下文特异性(即TF在不同基因组位置以不同组合结合在一起,并且一对TF的共同结合经常受到另一个TF的结合的影响;SOM/C.1). 因此,我们开发了一个框架,重点关注由特定TF(焦点系数)并检查了所有其他TF的联合(合作伙伴)在此背景下(图S2a). 对于焦点因子上下文中的每个~350 bp区域,我们提取所有TF重叠峰的归一化结合信号,生成一个共结合图.图1a显示了GATA1上下文的这种映射。这里,持续相互关联的因素以及GATA1峰值的很大一部分被称为“主要合作伙伴'(例如,第6组TF,如GATA2和TAL1图1a). 除这些因素外,还有“当地合作伙伴“在存在GATA1的情况下相互联合,但仅在GATA1结合峰的特定子集(例如,第7组中的JUN和第3组中的MAX;图1aS2c-1型). 这些双星簇,通常包含2到5个TF,可以是互斥的或部分重叠的。

保存图片、插图等的外部文件。对象名为nihms-541492-f0001.jpg
TF联合

(a) K562中GATA1焦点因子上下文的共结合图显示了K562(行)中重叠每个GATA1峰(列)的所有TF峰的结合强度。彩色矩形代表8个关键集群,由共同关联的伙伴-因素的不同组合组成。

(b) 所有合作伙伴因素的GATA1上下文相关相对重要性得分(RI)(顶部)和所有成对TF之间的联合关联得分矩阵(CS)(底部)。GATA的主要合作伙伴和当地合作伙伴的RI得分较高。共同关联得分矩阵捕获在(a)中观察到的8个聚类。

(c) 不同的伙伴因子优先富集于基因直径(正差异RI)和近端(负差异RI”)GATA1峰值。

(d) 通过堆叠K562中所有焦点-因素上下文(行)中所有伙伴-因素(列)的RI获得的聚合因素重要性矩阵显示了9个功能不同的上下文簇(C1到C9),这些上下文可大致分为远端、近端、混合和抑制。蓝色矩形突出显示集群中具有高RI的代表性合作伙伴。从(b)到(d)的箭头表示GATA1上下文特定的RI得分在该矩阵中形成一行。

(e) GATA1(左面板)和FOS(右面板)在所有K562焦点因素上下文(行)中的合作伙伴(列)的协同关联可变性图。在大多数焦点因素背景下,TAL1和GATA2与GATA1表现出一致的高CS,但JUND表现出特定背景的共同关联。FOS显示了不同背景下合作伙伴的CS发生的巨大变化(例如,远端背景下的FOS-JUND和近端背景下的FOS-SP2)。

(更多详细信息请参阅图S2c、S2f-1、S2d、S2l-2.)

为了系统地确定每个关注因素上下文的所有主要和本地合作伙伴,我们使用了机器学习方法。我们学习了每个聚焦因子的共结合图相对于随机对照图的非线性组合模型(SOM/C.2;图S2a、b). 反过来,对这些模型中的多元规则进行分析,可以识别出具有显著相关性的TF的成对和高阶簇。此外,这些联合对峰值重叠和调用阈值都很可靠(SOM/C.4).

从模型导出的第一个统计数据是相对重要性(RI)得分(SOM/C.2.4.2标准),这说明了TF在模型中的总体重要性。它反映了特定TF所属双团簇的“大小”,并与共结合因子的数量和所涉及的峰位比例有关。GATA1背景(图1bS2c-2型)主要合作伙伴TAL1、GATA2和POL2以及当地合作伙伴MAX和JUN的RI得分较高。为了在特定环境中进一步体现合作关系,我们计算了联合评分在所有对和高阶TF集之间(SOM/C.2.4标准). 这些分数衡量了特定配对中隐含的共同依赖性对整体模型的影响,与RI分数相比,它们更直接地探讨了焦点-因素上下文中TF的共现性。对于GATA1上下文,共关联分数揭示了预期的和新的配对(例如,分别为MYCMAX-E2F6和CCNT2-HMGN3;图1bS2c-2和SOM/C.3.1.4). 此外,GATA1通常与增强子活性相关。然而,联合评分显示,它与抑制性(如NRSF、HDAC2)和激活性TF(如P300)有关。这种“两面派”的行为以前就已经观察到了29; 在这里,表达研究和击倒证明了这一点(索姆/约3.1.4). 特别是,在GATA1基因敲除后,我们发现GATA1的94个靶点显著上调,只有54个靶点下调(图S2e-4). 最后,我们分析了共同相关TF簇附近基因的功能,发现许多基因具有丰富的特定生物功能(图S2e-2). 例如,一个涉及E2F6的双簇(E2F6-GATA1-GATA2-TAL1)富含与髓系分化相关的基因,而另一个(E2F6-SP1-SP2-FOS-IRF1)参与DNA损伤反应(SOM/C.3.3标准). 因此,不同的因子组合调节特定类型的基因。

跨上下文比较协同关联

聚合RIM和PPM

在每个TF上下文中建立共同绑定结构后,我们比较了不同上下文中的共同关联统计数据。特别是我们将每个TF的RI得分组合成单个矩阵(RIM,图S2a). 聚类揭示了九类功能不同的TF上下文,分为四大类:近端、远端、抑制和混合(图1d;S2f-1;SOM/C.3.4.1标准). 接下来,将不同背景下所有焦点因素的联合关联得分结合起来,以主部分矩阵(PPM,图S2f-4). RIM反映了焦点因素约束背景下的总体相似性,而PPM则强调了倾向于相互联合的特定因素(共同的主要合作伙伴)。在某种程度上,人们可以将PPM视为RIM中隐含的关系的子集。也就是说,两个因子可以具有相似的结合上下文,而无需显式的联合——例如,两个因素倾向于结合启动子,但接近不同的基因集。总的来说,PPM显示了一些众所周知的共同相关TF,例如FOS-JUN(AP1复合体30,31)和CTCF-RAD21-SMC3(内聚复合体32,33)以及许多新的联合体,如CHD2-ZBTB33、EGR1-ZBTB7A和ZNF143-CTCF-SIX5(SOM/C3.6.2). 我们使用联合免疫沉淀和质谱法证实了一种新的联合作用(CEBPB-TAL1)(表S3a).

可变性图

可变性图显示了给定TF的伙伴在上下文中的可变性程度(由协联得分确定)。例如,图1e表明GATA1在许多情况下都有相同的合作伙伴(例如,TAL1和GATA2几乎在所有情况下都是合作伙伴)。然而,只有少数合作伙伴(例如JUND)出现在某些情况下。一个极端的例子是FOS,它在不同的环境中完全改变了它的合作伙伴(图1e,S2l-2和SOM/C.3.6.1).

将共缔合与细胞类型和基因组定位联系起来

细胞类型差异

我们分析了5种主要ENCODE细胞类型中的TF联合(SOM/C.3.4). GM12878和K562细胞系具有最多(31)个常见的TF数据集(SOM/C.3.5). 比较分析表明,超过80%的TF对在K562和GM12878之间的联合相关性没有显著变化。然而,有一些细胞系差异的戏剧性例子。例如,FOS和JUND在K562中联合使用,但在GM12878中没有联合使用(SOM/3.5.1标准)尽管事实上,FOS的大多数其他合作伙伴在这两种细胞系中都存在。

近端与远端的差异

总的来说,我们发现近端和远端的伴侣偏好不同。这些结果对用于定义近端和远端区域的距离的选择是可靠的(图S2c-3). 特别是,对于GATA1,我们发现RI评分在近端或远端部位之间发生了显著变化(图1c;S2c-3型):典型的核心启动子TF(如POL2、E2F6、MAX和ELF1)具有显著的近端启动子偏倚,而JUND、JUNB、JUN和P300显示与远端位点的优先联合。另一种分析近端和远端位点差异的方法是在变异图的框架内,在变异图中可以观察到TF在不同环境中的变化伙伴。例如,FOS有完全不同的合作伙伴,它与这些合作伙伴在近距离和远距离都有合作关系(图1e;S2l-2和SOM/C.3.6.1).

将成对交互组合成层次结构

联合关联分析明确了多个调节器的DNA结合特征之间的关系。为了获得系统级的透视图,我们将TF关联重铸为网络(图S4a),其中节点是调节器或其目标,边缘表示调节关系。在这里,我们关注所有单元类型的全局布线模式。我们期望此框架中的不同子网在不同的单元中具有不同程度的活动性。

利用我们的结合位点列表,我们从具有启动子-近端结合位点的基因中确定了一组初始调控靶点。由此产生的原始网络由500542个启动子相关的TF与其所有假定靶点之间的相互作用组成,其中4809个位于成对TF之间(位于encodenets.gersteinlab.org上的网络)。我们使用概率模型对此进行了筛选,以确定最有信心的交互,共给出26070个交互,TF之间只有338个交互34(索姆/天1). 我们使用siRNA实验验证了过滤的性能;对于每种情况,我们的模型确定的靶点在siRNA处理的细胞中的表达比简单的基于峰的方法确定的靶点差(图S1c-e).

接下来,我们计算了单个TF的通用连接性统计数据,即出射度(O)、入射度(I)和介度,然后使用这些数据来识别集线器和信息流瓶颈(SOM/K公司). 特别有趣的是出度和入度(O-I)之间的差异,它衡量信息流的方向(图S3a). 正值表明TF位于网络中的“上游”,而负值表示TF位于“下游”。我们进一步定义了这个“层次高度”度量的标准化版本,h=(O-I)/(O+I)。我们发现这可以近似为3个级别(图S3c)顶层的“高管”TF调节许多其他因素(h~1),底层的“领班”TF比调节(h~-1)更受监管。为了可视化,我们使用模拟退火程序将119个TF优化并稳健地排列为3个离散级别(使向下指向的边数最大化)(图2a,SOM/D.2).

保存图片、插图等的外部文件。对象名为nihms-541492-f0002.jpg
总体网络

(a) TF层次结构的特写。节点描述TF:TFSS是三角形,非TFSS是圆。在左侧,我们显示了近端边缘层次结构,向下指向的边缘用绿色表示,向上指向的边缘用红色表示。节点根据其在整个网络中的输出程度进行着色(如中所述表1). 右侧显示了放置在同一近端层次中的TF,但现在与远端调控相对应的边缘为绿色和红色,节点根据远端网络中的外缘重新着色。我们看到远端边缘不遵循近端层次。

(b) TF-miRNA调控特写。外圈包含119个TF,而内圈包含miRNAs。红边对应于调节TF的miRNAs;绿色的,TF调节miRNAs。TF和miRNAs都是按其偏离度排列的,从12点钟开始,并按顺时针顺序递减。节点大小与外倾角成比例。对于TF,外差如所述表1; 对于miRNAs,这是根据该网络的外向度。红色节点富集为miRNA-TF边缘,绿色节点富集为TF-miRNA边缘。灰色节点具有平衡的边数(在±1范围内)。

(c) 各种属性(拓扑、动态、表达相关和选择相关)的平均值-顺序一致表1)对于每个级别,都显示了近似边缘层次结构。顶行、中行和底行分别对应于层次结构的顶部、中部和底部。灰色圆圈的大小表示三个级别值的相对顺序。使用Wilcoxon秩和检验得出的显著不同的值(P<0.05)用黑色括号表示。右侧所示的近缘层次显示了非同义SNP密度,其中阴影对应于相关TF的密度。

(更多详细信息请参阅图S4.)

远端、ncRNA和蛋白质相互作用的分层

过滤后的TF层次结构由最强的启动子相关相互作用组成。在这个框架的基础上,我们添加了其他类型的连接。

涉及远端调控元件(例如增强子)的相互作用比涉及近端元件的相互作用更难识别。这里,我们使用了一个统计模型35利用染色质特征识别具有潜在多个结合TF的远端位点。如果跨细胞系染色质标记的变化模式与该基因的表达相关,则这些区域与该基因相关(SOM/E.1标准). 总体而言,该模型确定了19258个远端边缘(图2a).

TF和ncRNA之间的调节相互作用构成了添加到元网络的额外信息层。我们使用接近ncRNA的TF峰值来确定TF对ncRNA的调节。接下来,我们结合了TargetScan的miRNA-TF调控相互作用36(SOM/E.2标准). 最后,我们结合了物理蛋白质相互作用26以及预测的磷酸化(SOM/F.3和图S7a). 总的来说,这些不同的相互作用形成了一个密集的元网络,并对其有趣的生物特性进行了进一步分析。

关联网络连通性和基因组特性

接下来,我们将每个TF的连接性和层次位置的测量值与各种基因组和蛋白质组特性相关联(图2c,表1S4系列,后面的p值)。

表1

将属性与中心度和层次高度关联

类别财产与的相关性
频度中心^中间中心性 O(运行)O(运行)+
完全TF-TF公司完全TF-TF公司TF-TF公司
拓扑结构 #PPI中的TF合作伙伴 0.28** 0.27** 0.25* 0.33** 0.08
#miRNA调节因子 0.24* 0.33** −0.020 0.29**
#ncRNA靶点 0.65** 0.49** 0.34** 0.35** 0.22*
#miRNA靶点的 0.62** 0.50** 0.33** 0.34** 0.19*
#远端靶点的 0.32** 0.24* 0.19* 0.23* 0.07
力学 重新布线的数量 −0.14−0.12 0.44* 0.35 −0.42*
表达式 表达式级别 0.140.12 0.23* 0.27* −0.04
绑定-导出更正。 0.41** 0.31** 0.30** 0.36** 0.19*
因子的选择属性 ns SNP密度 −0.19* −0.27* −0.01−0.03−0.22
过敏原 0.20 0.28* −0.10−0.160.18
目标的选择属性 ns SNP密度 −0.05**
数字/数字 −0.05**

各种属性(拓扑、动态、表达相关和选择相关)与中心性度量和层次高度(h)的Spearman相关值。仅列出与中心性或h显著相关的属性(*表示P<0.05,**表示P<0.01)。有关完整的属性、p值和解释,请参阅表S4和S6.学位中心性(注^)除了目标上的选择属性外,它指的是外度,在这种情况下,它指内度。特别是,在整个TF目标网络中,out-degere指的是表S4a,并且在整个过程中使用相同的数量图2.

与远端边缘的相关性

远端边缘与近端边缘具有不同的程度分布(图2a第5章). 检查表明,TF层次中有许多点向上,与大多数最近的边相反。此外,我们发现许多TF在近端网络中具有低程度,而在远端网络中具有高程度,这表明它们通过增强子受到严重调控(图S5a). 其中一些是众所周知的特定于疾病和组织的调节器(例如IRF4和GATA1)37.

近距离网络内的相关性

无论是总体还是仅考虑其他TF作为目标时,上层TF往往比下层TF有更多的目标。通过近端调节的介数来衡量,中层TF形成信息流瓶颈(图2c). 此外,近端TF网络的介数与更多的远端调节相关。这往往会进一步增加通过中级瓶颈的信息流。(请参见SOM/F.3.6以澄清其含义。)

与蛋白质相互作用和磷酸基的相关性

我们发现,与较低水平的转录因子相比,顶级转录因子在蛋白质相互作用网络中往往有更多的伴侣(图2cS4e系列表1). 我们进一步研究了激酶如何调节不同水平的TF。虽然在不同水平上调节TF的激酶数量没有显著差异,但我们发现,如果使用与组织TF网络相同的方法将磷酰体排列成层次,那么底部的激酶倾向于不磷酸化TF,但它们往往受到它们的监管(尤其是顶级TF;图S7).

与ncRNAs的相关性

我们发现,顶级和中级转录因子的ncRNA靶点总数最高(图2c,S6a系列表1)与我们对蛋白质编码靶点的研究结果一致。然后,我们得出了一个分数,表明TF的总调节作用与ncRNAs有关的蛋白质编码基因的比例(SOM/E.2标准); 这确定了一些优先靶向非编码RNA的TF,如BDP1和BRF2(图S6b、c).

与一般的ncRNA模式相匹配,参与miRNA调节的大多数TF往往是顶级或中级TF(图2c). 此外,高度连接的TF倾向于调节更多的miRNAs并受其调节(表1图2b). 然而,当我们详细分析TF-miRNA调节时,我们发现参与miRNA调节的TF往往要么在很大程度上调节,要么受miRNA调节(图2b,第四阶段). 也就是说,很少有具有“平衡调节”的高阶TF(相对于控件,传入和传出边缘的数量相似;图S3m). miRNAs也有相同的模式(图S3l).

与系列和功能类别的相关性

染色质相关因子在层次结构的顶部富集,而TFSS在中间富集(表S5a和SOM/F.1). 此外,TFSS表现出更大程度的组织特异性,并且与普通因子和染色质相关因子相比,其受miRNAs的调节更高(SOM/F.4)这表明他们的表达可能更加精细。检查功能富集,我们发现顶部的TF往往具有更一般的功能,而底部的TF则具有更具体的功能(表S5c和SOM/F.1).

与网络动力学的相关性

我们研究了TF如何在不同细胞类型之间改变其结合模式,主要是K562和GM12878。我们将“重新布线”的数量量化为非共享目标的分数,通过两个目标集的合并进行标准化(SOM/F.3.5). 我们发现这个“重新布线得分”与层次高度呈负相关(图2c表1). 这意味着低水平TF的目标往往在细胞类型之间发生更多变化,这与它们在更专业化的过程中的作用相一致。

与基因表达的相关性

我们计算了34个组织中转录因子的平均表达水平26; 高度连接的TF往往高度表达。我们通过计算每个TF围绕其靶点的结合信号与靶点表达水平之间的相关性,进一步检查了连通性与表达之间的关系(SOM/F.3.4标准). 这种结合表达相关性与TF连接性呈正相关。此外,顶级和中级TF表现出更大的相关性。因此,越“有影响力”的TF往往联系越紧密,层次越高。(考虑到更高级别的TF往往有更多的目标,当人们考虑用TF目标的数量来加权相关性时,这种程度的“影响”变得更加清晰。)然而,有些令人惊讶的是,集成所有高度连接的TF的绑定-表达式关系的模型对表达式的预测能力与集成所有不太连接的TFs的模型大致相同,这表明影响力较小的TF之间的弱绑定-表达式关联对表达式的总体影响相当大(SOM/F.3.4标准)38.

层次结构级别之间的协作

我们探讨了层次结构中顶层、中层和底层(T、M和B)的TF如何在层间(TM、MB、TB)和层内(TT、MM、BB)关系方面进行协作(图3a). 我们研究了三种协作:联合(如前所述)、物理交互和目标表达协作。我们将两个TF定义为合作的如果他们的共享目标与非共享目标在表达上有显著差异(SOM/G.2标准). 总的来说,我们发现涉及中间层(以及较小程度上的顶层)的合作趋于丰富。特别地,TM和MM TF对协同影响基因表达。其次,所有涉及顶级和中级TF的联合关联都得到了丰富,而涉及底层TF的关联则被耗尽。在蛋白质相互作用中观察到类似的模式,TT和TM共同调节更可能发生在物理相互作用的TF之间(图3aSOM/G.1标准).

保存图片、插图等的外部文件。对象名为nihms-541492-f0003.jpg
级别之间的协作

(a) 丰富不同层次(T、M、B)的协作TF对。TF由每个条形图下方的两个节点表示。橙色虚线表示预期的协作级别。高于或低于该水平的显著富集或耗竭用星号标记(P<0.05)。(更多详细信息请参阅SOM/G.1、2.)

(b) 网络层次中近端和远端共同调节对的丰富。不同级别的共调节对由每个条下面的两个节点显示。

最后,我们分析了近端和远端站点如何“协作”。我们鉴定了一对TF,它们与同一靶基因的启动子和远端调控区结合(SOM/G.3标准)并研究了它们在TF层次结构中的各自位置。我们发现近端和远端调控之间存在不对称,通过启动子调控相关的TF更可能位于较高水平(图3b).

丰富的网络主题

除了其全局结构外,我们还从网络的组成构建块的角度进一步研究了网络,即网络基序,这是一种执行规范功能的小型连接模式39我们首先在启动子调控层次中系统地搜索基序,然后在包括远端、miRNA和蛋白质-蛋白质相互作用的元网络中搜索基序。我们的程序是为广泛的“模板模式”实例化所有可能的模体,然后确定相对于随机控制,这些模体中哪些显著过度或不足40(SOM/H公司). 例如,从近端网络中所有可能的“3-TF基序”开始(图4a),我们发现最丰富的基序是经过仔细研究的前馈环路(FFL)39根据观察到的层次结构内的协作,许多FFL涉及中间层(图S9a). 此外,通过分析许多组织中FFL的组成基因的表达水平,我们发现许多FFL的表达水平是正相关的,突显了基序中隐含的紧密调控(图4aSOM/H.1标准). 最后,我们发现进一步丰富的3-TF基序在FFL基序之上包含额外的调控。这就在一对TF之间形成了相互调节,从而实例化了一个切换开关,该开关已被证明在细胞脂肪测定中起着至关重要的作用41.

保存图片、插图等的外部文件。对象名为nihms-541492-f0004.jpg
主题分析

基序伴随着出现频率,N。丰富的基序以绿色突出显示,而枯竭的基序则以红色突出显示。带有星星的出现频率意味着相应的丰富/枯竭具有统计学意义(P=1e-5)。对图案进行分类,使末端的图案具有更显著的p值。(更多详细信息请参阅图S9h.)

(a) 3-TF基序的系统搜索。最丰富的基序是FFL。突出显示了由STAT1、STAT3和RUNX1组成的特定示例。这里,边缘上的“+”符号表示源基因表达与跨组织靶基因表达之间的相关性为正。在基本FFL设计之上还显示了其他包含开关调节的图案。

(b) 近距离PPI MIM。在这里,我们搜索了所有涉及两个TF(可能是近端或远端TF)的共同调节的模体,它们之间有(或没有)蛋白质相互作用。我们发现含有蛋白质相互作用的基序趋于丰富。

(c) miRNA-SIM。该图显示了通过列举miRNA以不同方式连接的两个TF为靶点的所有基序而产生的2个富集基序。这2个基序包含一个由2个TF组成的蛋白复合物以及一对协同的启动子和远端调控TF。

(d) TF-TF网络中丰富了自调节因子基序:所有TF中有28个是自调节因子。此外,相对于非自动调节器,自动调节器更有可能是阻遏物(-),并且它们往往以更多的ncRNAs为目标。

接下来,我们分析了另一个模板:所有可能的多输入模块(MIM,定义于SOM/K公司)涉及启动子和远端调控以及蛋白-蛋白质相互作用(近端-PPI MIMs,图4b). 我们发现,共同调节的TF可能会发生物理上的相互作用,这表明它们作为一个复合物一起工作。此外,在富集中排名第二的基序由远端调控关系、启动子调控关系和蛋白质相互作用组成。这暗示了DNA循环的一个常见画面,TF的相互作用复合物同时结合到启动子和增强子。

共同调控实体之间的联系延伸到miRNA调控。我们调查了miRNA调节两个TF的所有可能实例(“miRNA-SIM图4c)并发现miRNAs更有可能调节一对物理相互作用的TF。这种富集表明,为了避免不必要的串扰,miRNA往往关闭整个功能单元(即TF复合体),而不仅仅是单个成分。同样,我们发现miRNAs倾向于靶向一对近端和远端结合的TFs(图4c). 这表明miRNA抑制启动子和远端调节器的表达,以完全关闭靶点。除了miRNA,我们还研究了涉及其他种类ncRNA的基序。在涉及TF调节两个ncRNAs(“TF-ncRNA-SIM”)的基序中,这两个ncRNA都是lincRNAs,具有极大的富集性(SOM/H.2标准).

最后,我们发现网络中的自调节因子(119个TF中的28个)更加丰富,这是一个简单但重要的基序,通常在表现出多重稳定性的网络中发现42此外,我们发现自动调节器往往是阻遏物,这代表了维持稳定状态的众所周知的设计原则39(图4d).

网络框架中的等位基因行为

我们研究了序列变异和TF调节之间的关系。特别是,我们研究了等位基因特异性结合和表达(ASB和ASE)之间的协调43,44我们使用了GM12878的测序数据集,该数据集具有深度测序的二倍体基因组(SOM/I.1). 我们扩展了等位基因特异行为的成对分析20以研究调节共同靶标的多个TF的高阶协调。我们首先为GM12878生成了未经过滤的启动子调控网络,然后在其中确定了一个子网络,其中4798个TF目标边缘显示等位基因特异性调控(SOM/I.2). 此子网络如所示图5a边缘为红色或蓝色,主要代表母系或父系调控目标;靶点的颜色类似,主要表示母系或父系的表达。我们发现,在4798例调节其相关靶点的单个TF的ASB病例中,57%的病例表现出协调的等位基因结合和表达。然后我们发现,在两个TF调节一个共同靶点的情况下,63%是一致的(即两个TFs结合到表达的相同等位基因)。对于三重TF调节一个共同目标的情况,一致性增加到65%。这一趋势继续存在,表明随着组合调控程度的增加,表达的等位基因和调控的等位蛋白之间的关系逐渐增强。

保存图片、插图等的外部文件。对象名为nihms-541492-f0005.jpg
等位基因效应

(a) 一个“等位基因效应网络”描述了ASB和ASE之间的协调随着调节靶点的TF数量的增加而增加。中央白色节点表示TF,外围节点表示靶点,如果它们是由父系(母系)等位基因表达的,则为蓝色(红色)。蓝色(红色)边表示ASB为父系(母系)等位基因。这个网络代表了父系和母系特定监管网络之间最大的差异。当你逆时针(顺时针)绕着较大的圆圈旋转时,每个小圆圈簇代表的目标具有逐渐增强的父系(母系)调控,由簇侧的小蓝色(红色)数字表示。此外,在每个集群中,主要由父亲(母亲)表达的靶点的比例随着围绕较大的圆圈而增加。如图所示,这一分数由右下角三个较大集群内的比率明确表示。

(b) TF等位性和选择之间的关系。条高是显示等位基因行为的那些TF结合峰中的选择程度(通过SNP密度或平均DAF测量)与所有其他TF结合峰中的选择程度的比率。星号代表显著差异(P<0.05,Wilcoxon秩和检验)。

(更多详细信息请参阅SOM/I.2和图S10b,c.)

每个TF的等位基因特异性行为的程度可以通过我们称之为“等位性”的统计来量化。TF的等位性定义为在所有可能出现ASB的SNP中出现ASB SNP的分数(SOM/I.3). 因此,从定性上讲,等位性可以被认为是TF与母体与父系变体结合的敏感性。使用我们在这里描述的网络,我们发现具有较高等位性的TF往往具有更多的靶基因,这表明特异性较低的TF在与序列的结合上往往变化更大(表1). 最后,我们发现,与单核苷酸多态性相比,小的插入和缺失(indels)往往会导致这些等位基因事件的比例失调(表S6g).

网络环境中的选择

以前的研究已经检验了进化选择与人类蛋白质相互作用网络中位置之间的关系45然而,尚未探索监管网络中的类似关系。

选择

为了解决这个问题,我们首先分析了TF及其靶点的选择压力。我们主要使用了1000 Genomes Pilot中的非同义SNP密度21决定现代人类的选择(SOM/J公司). 我们还使用其他选择指标(即衍生等位基因频率(DAF)和pN/pS统计量)验证了我们的结果(SOM/J公司). 对于较长时间尺度上的选择,我们计算了人类-黑猩猩直系同源比对中非同义替换与同义替换的比率(dN/dS)。我们发现靶基因的调控程度与其非同义SNP密度和dN/dS值之间存在显著的负相关(表1S6e系列). 因此,受更多TF调控的靶基因受到更强的负选择。同样,我们发现TF调节性外显和非同义SNP密度之间存在显著的负相关(表1S6d系列). 我们观察到与TF dN/dS值和其他选择测量值一致的结果,尽管这些并不都具有统计显著性(表S6d和SOM/J). 这表明调节更多目标的TF往往处于较强的负选择之下。此外,在TF层次结构中,我们发现位于顶层的TF受到明显更强的负面选择(图2c,表1S6b系列).

与所有这些与约束连接相关的结果一致,我们发现耐受功能丧失突变的基因46处于较弱的负选择下,与其他基因相比,总度(I+O)显著更低(SOM/J公司).

选择和等位基因效应

最后,我们试图将选择和等位基因效应联系起来。我们提取了显示ASB的启动子和基因体中的TF结合峰,并将其与对照组的选择压力(在没有ASB的相同区域内的结合峰)进行了比较。我们发现,与对照相比,具有等位基因效应的TF结合峰具有更高的SNP密度(图5b). 此外,没有等位基因效应的结合峰显示出DAF谱相对于ASB谱向更稀有SNP倾斜(图5bS10c型). 同样的趋势也适用于指数和结构变化(图5b步骤S10b,c). 有趣的是,这些结果表明,等位基因调控似乎受到较少的选择性约束。

讨论

本研究首次详细分析了人类监管信息的组织方式。许多明确的设计原则由此产生。其中许多原则与模型生物共享(表S7)表明它们是TF监管的一般特征。首先,我们发现调控因子的连接性和层级组织反映在许多基因组属性中。例如,顶级TF的结合与其靶基因的表达密切相关,这可能表明它们的“影响力”更大,正如模型生物所报道的那样47其次,中层包含信息流瓶颈以及与miRNA和远端调控的大量连接。针对这些瓶颈(例如通过药物)可能会对通过监管电路的信息流产生最强烈的影响。在某种程度上,该单元通过让两对中层TF合作进行调控来缓解瓶颈的影响。(共同调控降低了“瓶颈”的程度。)第三,调控网络似乎是通过重复使用小的模块化基序构建的。特别是,水平之间的调节涉及许多前馈回路,可以用来过滤输入刺激的波动。同样,这些特性与模式生物是相同的;在酵母中观察到网络基序和协同中间层48.

相反,近端和远端调节的差异似乎是人类调节的一个独特特征。这一发现在TF联合和网络结构分析中都很明显。近距离差异反映了人类基因间空间比模型生物大得多,以及相应的远端结合量更大。最后,保守性分析表明,网络中连接更紧密的部分受到更强的选择,这与模型生物的结果一致。然而,人类的一个独特发现是“等位基因”效应。更高连接的TF更有可能表现出等位基因特异性结合。有趣的是,我们发现实际的等位基因特异性结合位点往往选择较少。揭示选择和调控网络之间的这种相互作用对于解释未来许多个人基因组序列中的变异至关重要。

方法总结

与论文各部分相关的详细方法见补充在线材料(SOM);请参阅SOM目录和概述(SOM/A)。特别是,我们的数据处理管道概述见SOM/B(系统操作手册).

补充材料

补充材料

单击此处查看。(1900万,pdf)

致谢

我们感谢ENCODE项目(NIH/NGHRI)的资助。我们感谢伯克利大学的彼得·比克尔和本·布朗的有益对话。美国国立卫生研究院生物物理学博士前培训项目(Declan Clarke;T32 GM008283-24)和萨克勒研究所(Gili Zilberman Schapira)也提供了资金。Manoj Hariharan感谢Gouri Nair设计数据库操作。

脚注

作者贡献

论文的工作分为数据生成和分析。分析师包括A Abyzov、R Alexander、P Alves、S Batzoglou、N Bhardwaj、D Chen、C Cheng、D Clarke、Y Fu、M Hariharan、A Harmanci、E Khurana、A Kundaje、J Leng、R Min、X Mu、J Rozowsky、A Sidow、J Wang、K Yan、K Yep和G Zilberman-Shapira。数据制作人是N Addleman、A Boyle、P Cayting、A Charos、Y Cheng、C Eastman、G Eukilchen、P Farnham、S Frietze、J Gertz、F Grubert、P Jain、M Kasowski、P Lacroute、S Landt、J Lian、H Monahan、R Myers、H O'Geen、Z Ouyang、E Partridge、D Patacsil、F Pauli、D Raha、L Ramirez、T Reddy、B Reed、M Shi、T Slifer、S Weissman、L Wu和X Yang。联合第一作者在分析和数据生成方面付出了更大的努力。作者对具体展品和文件的贡献见SOM/N和SOM/O总体项目管理由两位相应的作者(M Gerstein和M Snyder)进行。

此处描述的数据集可以从ENCODE项目网站encodeproject.org和encodenets.gersteinlab.org获得。有关数据可用性的更多详细信息,请参阅SOM/B和SOM/N作者宣布了相互竞争的经济利益:M Snyder是Personalis的创始人,并在Personali和Genapsys的科学咨询委员会任职。他也是Illumina的顾问。所有其他作者都声明没有相互竞争的利益。

工具书类

1Lee TI等,《酿酒酵母的转录调控网络》。科学。2002;298:799–804.[公共医学][谷歌学者]
2Balazsi G、Barabasi AL、Oltvai ZN。大肠杆菌转录调控网络中环境信号处理的拓扑单元。程序。国家。阿卡德。科学。美国。2005;102:7841–7846. [PMC免费文章][公共医学][谷歌学者]
三。Yu HY,Gerstein M.调控网络层次结构的基因组分析。程序。国家。阿卡德。科学。美国。2006;103:14724–14731. [PMC免费文章][公共医学][谷歌学者]
4Hu ZZ、Killion PJ、Iyer VR。功能转录调控网络的遗传重建。自然遗传学。2007;39:683–687.[公共医学][谷歌学者]
5Balaji S,Babu MM,Aravind L.转录调控网络中转录因子的网络结构、调控模式和传感机制之间的相互作用大肠杆菌.分子生物学杂志。2007;372:1108–1122. [PMC免费文章][公共医学][谷歌学者]
6基因组分析揭示了转录因子动力学和调控网络结构之间的紧密联系。摩尔系统。生物。2009;5:294.doi:10.1038/Msb.2009.52。[PMC免费文章][公共医学][谷歌学者]
7Barabasi AL,Oltvai ZN公司。网络生物学:了解细胞的功能组织。Nat.Rev.基因。2004;5:101–113.[公共医学][谷歌学者]
8.Kim HD,Shay T,O’Shea EK,Regev A.转录调控电路:从字母表预测数字。科学。2009;325:429–432. [PMC免费文章][公共医学][谷歌学者]
9Maslov S,Sneppen K。蛋白质网络拓扑的特异性和稳定性。科学。2002;296:910–913.[公共医学][谷歌学者]
10Ma HW、Buer J、Zeng AP。一种新的自顶向下方法揭示了大肠杆菌转录调控网络的层次结构和模块。BMC生物信息学。2004;5:199.doi:10.1186/1471-2105-5-199。[PMC免费文章][公共医学][谷歌学者]
11Balaji S,Iyer LM,Aravind L,Babu MM。揭示无标度转录调控网络背后隐藏的分布式架构。分子生物学杂志。2006;360:204–212.[公共医学][谷歌学者]
12Milo R等人,《网络主题:复杂网络的简单构建块》。科学。2002;298:824–827.[公共医学][谷歌学者]
13Cosentino Lagomarsino M、Jona P、Bassetti B、Isambert H。大肠杆菌转录网络进化中的层次结构和反馈。程序。国家。阿卡德。科学。美国。2007;104:5516–5520. [PMC免费文章][公共医学][谷歌学者]
14Ptacek J等。酵母中蛋白质磷酸化的全局分析。自然。2005;438:679–684.[公共医学][谷歌学者]
15Beyer A、Bandyopadhyay S、Ideker T。整合物理和遗传地图:从基因组到交互网络。Nat.Rev.基因。2007;8:699–710. [PMC免费文章][公共医学][谷歌学者]
16Yu HY,Xia Y,Trifonov V,Gerstein M。通过全球比较和复合基序揭示的分子网络设计原则。基因组生物学。2006;7:11.doi:10.1186/gb-2006-7-7-r55。[PMC免费文章][公共医学][谷歌学者]
17.Chen X等。胚胎干细胞中外部信号通路与核心转录网络的整合。单元格。2008;133:1106–1117.[公共医学][谷歌学者]
18Boyer LA等。人类胚胎干细胞的核心转录调控电路。单元格。2005;122:947–956. [PMC免费文章][公共医学][谷歌学者]
19Reed BD、Charos AE、Szekely AM、Weissman SM、Snyder M.SREBP1及其伙伴NFY和SP1的全基因组占用揭示了不同类别基因的新功能作用和组合调控。公共科学图书馆-遗传学。2008;4:e1000133。 [PMC免费文章][公共医学][谷歌学者]
20ENCODE项目联盟对人类基因组中DNA元素百科全书的初步分析。自然。(提交NCP000)[谷歌学者]
21.Altshuler DL等人。人群规模测序的人类基因组变异图。自然。2010;467:1061–1073. [PMC免费文章][公共医学][谷歌学者]
22Lindblad-Toh K等人。使用29种哺乳动物绘制的人类进化约束高分辨率地图。自然。2011;478:476–482. [PMC免费文章][公共医学][谷歌学者]
23Barski A等人。染色质平衡miRNA和蛋白质编码基因以供表达。基因组研究。2009;19:1742–1751.doi:10.1101/gr.090951.109。[PMC免费文章][公共医学][谷歌学者]
24Ozsolak F等。染色质结构分析确定miRNA启动子。基因。开发。2008;22:3172–3183. [PMC免费文章][公共医学][谷歌学者]
25Stark C等人。BioGRID交互数据库:2011年更新。核酸研究。2011;39:D698–D704。 [PMC免费文章][公共医学][谷歌学者]
26Ravasi T等人,《小鼠和人的组合转录调控图谱》。单元格。2010;140:744–752. [PMC免费文章][公共医学][谷歌学者]
27Novershtern N等人,《人类造血中紧密连接的转录电路控制细胞状态》。单元格。2011;144:296–309. [PMC免费文章][公共医学][谷歌学者]
28Vaquerizas JM、Kummerfeld SK、Teichmann SA、Luscombe NM。人类转录因子普查:功能、表达和进化。Nat.Rev.基因。2009;10:252–263.[公共医学][谷歌学者]
29Kerenyi MA,Orkin SH.红细胞生成网络。实验医学学报2010;207:2537–2541. [PMC免费文章][公共医学][谷歌学者]
30Curran T、Franza BR、Fos和Jun——Ap-1连接。单元格。1988;55:395–397.[公共医学][谷歌学者]
31.Chinenov Y,Kerppola TK。多种亲密接触:介导转录调节特异性的Fos-Jun相互作用。致癌物。2001;20:2438–2452.[公共医学][谷歌学者]
32.Rubio ED等。CTCF将粘着蛋白与染色质物理联系起来。程序。国家。阿卡德。科学。美国。2008;105:8309–8314. [PMC免费文章][公共医学][谷歌学者]
33Parelho V等。凝集素在哺乳动物染色体臂上与CTCF功能相关。单元格。2008;132:422–433.[公共医学][谷歌学者]
34Cheng C,Min R,Gerstein M.TIP:一种从ChIP-Seq结合图谱中识别转录因子靶基因的概率方法。生物信息学。2011;27:3221–3227. [PMC免费文章][公共医学][谷歌学者]
35Yip KY等。对100多个转录因子结合位点的全基因组分析定义了具有不同生物学特性的不同类型的基因组区域。基因组生物学。(GBCP033手稿编制中)[谷歌学者]
36Friedman RC、Farh KKH、Burge CB、Bartel DP。大多数哺乳动物的mRNA是microRNA的保守靶点。基因组研究。2009;19:92–105.doi:10.1101/Gr.082701.108。[PMC免费文章][公共医学][谷歌学者]
37Baron MH,Farrington SM。分化红细胞中的系特异性转录因子Gata-1的阳性调节因子。分子细胞。生物。1994;14:3108–3114. [PMC免费文章][公共医学][谷歌学者]
38Cheng C等。通过转录因子结合数据的综合分析了解转录调控。基因组研究。(GRCP032修订稿)[PMC免费文章][公共医学][谷歌学者]
39网络主题:理论和实验方法。Nat.Rev.基因。2007;8:450–461.[公共医学][谷歌学者]
40Cheng C等人,基于高通量测序数据的综合调控网络的构建和分析。公共科学图书馆计算。生物。2011;7:e1002190。 [PMC免费文章][公共医学][谷歌学者]
41黄S,周JX。了解细胞脂肪分支点的基因回路,以便进行合理的细胞重新编程。趋势Genet。2011;27:55–62.[公共医学][谷歌学者]
42Burda Z、Krzywicki A、Martin OC、Zagorski M.Motifs在模型基因调控网络中发挥作用。程序。国家。阿卡德。科学。美国。2011;108:17263–17268. [PMC免费文章][公共医学][谷歌学者]
43McDaniell R等人,《人类遗传性个体特异性和等位基因特异性染色质特征》。科学。2010;328:235–239. [PMC免费文章][公共医学][谷歌学者]
44Rozowsky J等人。AlleleSeq:网络框架中等位基因特异表达和结合的分析。摩尔系统。生物。2011;7doi:10.1038/msb2011.54。[PMC免费文章][公共医学][谷歌学者]
45Kim PM、Korbel JO、Gerstein MB。蛋白质网络外围的正向选择:根据结构约束和细胞环境进行评估。程序。国家。阿卡德。科学。美国。2007;104:20274–20279. [PMC免费文章][公共医学][谷歌学者]
46麦克阿瑟DG等人,《人类蛋白编码基因功能缺失变异的系统调查》。科学。2012;335:823–828. [PMC免费文章][公共医学][谷歌学者]
47Bhardwaj N,Kim PM,Gerstein MB。转录调控网络的改写:层次,而不是连通性,更好地反映了调控者的重要性。科学。信号。2010;:ra79。[公共医学][谷歌学者]
48Bhardwaj N、Yan K-K、Gerstein MB。在层级背景下对不同监管网络的分析表明,中层合作的趋势是一致的。程序。国家。阿卡德。科学。美国。2010;107:6841–6846. [PMC免费文章][公共医学][谷歌学者]