跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
自然。作者手稿;PMC 2010年2月12日提供。
以最终编辑形式发布为:
预防性维修识别码:项目经理2745234
NIHMSID公司:NIHMS125128
PMID:19212405

ChIP-seq准确预测增强子的组织特异性活性

关联数据

补充材料

摘要

解码人类基因组的一个主要但尚未解决的任务是识别控制基因时空表达的调控序列。远程作用转录增强子的发现尤其具有挑战性,因为它们分散在基因组的巨大非编码部分中。进化序列约束可以促进增强子的发现,但无法预测增强子何时何地发挥作用体内在这里,我们展示了用增强子相关蛋白p300进行染色质免疫沉淀的结果,然后进行大规模平行测序,并绘制了数千个体内p300在小鼠胚胎前脑、中脑和肢体组织中的结合位点。我们在转基因小鼠实验中测试了其中86个序列,在几乎所有情况下,都证明了p300结合预测的组织中的可复制增强子活性。我们的结果表明体内p300结合图谱是识别增强子及其相关活性的一种高度准确的手段,并表明这些数据集将有助于在全基因组范围内研究组织特异性增强子在人类生物学和疾病中的作用。

人类基因组的初始测序1,2辅以哺乳动物基因发现的有效计算和实验策略,4产生了一个几乎完整的蛋白质编码序列列表。相反,调控发育中和成年体内基因表达的调控元件的基因组位置和功能仍然较为模糊,阻碍了对其对发育过程和人类疾病贡献的研究。非编码序列的进化约束可以预测基因组中增强子的位置5-12,但没有透露这些增强子在何时何地起作用体内此外,有人认为,相当一部分调控元件没有足够的保守性,无法通过比较基因组方法检测到13-16.

染色质免疫沉淀结合大规模平行测序(ChIP-seq)已被证明能够实现蛋白质结合和表观遗传标记的全基因组定位17-22ChIP-seq方法依赖于蛋白质与特定DNA元素的交联,随后是蛋白质-DNA复合物的抗体富集,以及回收DNA片段的高通量测序。原则上,ChIP-seq使用增强子结合蛋白特异性抗体可以提供一种非保守的方法来鉴定候选增强子序列。

乙酰转移酶和转录辅激活因子p300是增强子相关蛋白组装体的一种几乎无处不在的表达成分,是胚胎发育所必需的23-27在均质细胞制备中,p300与增强子相关28,29,但这些体外研究只提供了在培养条件下特定细胞类型中活性的增强子子集,对它们的研究有限体内功能。在本研究中,我们测定了直接从发育中的小鼠胚胎分离的前脑、中脑和肢体组织中p300的全基因组占有率。使用转基因小鼠报告试验,我们表明,这些胚胎组织中的p300结合不仅可以高精度地预测增强子在基因组中的位置,还可以预测它们在哪些组织中具有活性体内根据组织类型,预测前脑、中脑和肢体增强器的成功率是通过比较基因组学发现此类增强器之前的研究的5到16倍10,11.

p300在组织中的全基因组定位

生成p300结合的全基因组图体内我们对150多个胚胎第11.5天(E11.5)小鼠胚胎的前脑、中脑和肢体组织进行了显微解剖,并使用p300抗体直接从这些组织样本中进行了ChIP(图1). 使用大规模平行测序分析免疫沉淀DNA片段,结果的36碱基对(bp)序列读取与参考小鼠基因组对齐17,30.

保存图片、插图等的外部文件。对象名为nihms-125128-f0001.jpg
组织解剖边界、ChIP-seq方法概述和p300结果总结

组织切割边界显示在一个典型的未染色E11.5小鼠胚胎中。对于每个样本,收集150多个胚胎的组织,使用p300抗体进行ChIP-seq。对与参考小鼠基因组明确对齐的三个组织中的每一个组织获得的读数用于定义峰值(FDR<0.01)。有关排序和绘图结果的更全面概述,请参见补充表1.fb,前脑;li,肢体;mb,中脑。

经过适当的质量过滤后,从每个组织样本中获得的240万到360万条对齐读取数据用于识别基因组中p300相关DNA序列显著富集的区域,以下称为“峰值”,因为它们出现在全基因组密度图中17(补充表1). 使用估计的假发现率(FDR)阈值<0.01,我们分别从前脑、中脑和肢体识别出2543、561和2105个峰值(补充表2-4). 大多数峰值位于转录起始点至少10kb处(补充图1). 中脑峰数较少可能是由于ChIP富集效率的变化所致(补充图2). 数据子集的重新取样表明,已经发现了这三种组织中的主要p300结合位点,而随着测序覆盖率的增加,预计可以识别出更多的结合位点,这些结合位点只存在于每个组织中较小的细胞亚群中(补充图3). 尽管大多数基因组区域体内p300结合由单个组织中的峰确定,在两个组织中有386个峰区,在所有三个组织中都有21个峰区(补充图4).

p300预测增强子活动模式

直接测试发育中的小鼠组织中p300结合是否指示增强子活性体内,我们在转基因小鼠中选择了至少一个组织中p300峰值的86个区域进行分析,共包含122个特定组织中增强子活性的个体预测(补充表5). 这些元素是在不知道其附近基因的身份的情况下选择的,与其他脊椎动物物种表现出广泛的进化保守性(参见方法),并且大致反映了p300峰在内含子和基因间区域的全基因组分布特性,以及它们相对于已知基因的距离(补充图1).

我们将与这些增强子候选区域同源的人类基因组序列克隆到增强子报告载体中,并生成如前所述的转基因小鼠10,31对于86个候选增强子中的每一个,有几个独立的转基因胚胎(平均n个=8)评估可重复报告基因表达。如果在三个或更多胚胎中对相同的解剖结构进行染色,则认为模式是可复制的。在几乎所有的情况下,都超过了这个最小阈值,平均80%以上的胚胎在前脑、中脑或肢体出现了可重复的报告染色(补充表5).

首先,我们确定p300结合是否可以预测可重复性体内增强剂活性与组织特异性无关。分别考虑三个p300数据集的峰值,63个前脑预测中的55个(87%)、34个中脑预测中30个(88%)和25个肢体预测中的22个(88%体内E11.5,如可重复LacZ染色所定义(图2,灰色和彩色条). 总的来说,87%(86个元素中的75个)的测试元素在E11.5是可重复的增强子。相比之下,我们之前的研究预测增强子的成功率为47%(528个中的246个),在这些研究中,元素是根据其极端进化保守性进行鉴定的,并使用相同的转基因小鼠试验进行测试10,11因此,使用p300 ChIP-seq的假阳性预测率比使用极端进化保守性的假阳性预测率低四倍多(13%,而之前为53%;P(P)= 4.2 × 10−10,费希尔精确测试)。

保存图片、插图等的外部文件。对象名为nihms-125128-f0002.jpg
p300结合准确预测增强子及其组织特异性活动模式

条形图高度表示体内在任何组织中活性的增强子(E11.5处可复制)(灰色条和彩色条),以及图案中包含或仅限于可复制前脑(蓝色条)、中脑(红色条)或肢体活动(绿色条)的增强器部分。在每种情况下,通过前脑、中脑或肢体p300峰值预测的候选元素与528个先前通过极端进化保守性(参考文献1011). 分别计算预测在几种组织中具有活性的元素的组分活性*P(P)<0.00005,Fisher精确检验,单尾。

接下来,我们确定了p300结合预测增强子活性发生的组织的准确性。在63个与前脑p300峰重叠的测试元素中,发现49个(78%)在发育中的前脑中具有可重复的增强子活性(图2,蓝色). 同样,34种(82%)测试元素中有28种被中脑p300富集所识别(图2,红色)以及通过肢体p300富集鉴定的25种受试元素中的20种(80%)(图2,绿色),在预测的组织中被证实具有活性。86个测试元件包括32个序列,通过p300在多个组织中的结合进行识别。其中,32个组织中有27个(84%)在至少一个预测组织中活性,22个序列(69%)完美地再现了预测的表达模式(补充表6).

为了评估预测组织中增强子活性的富集程度,我们比较了这三种组织中每一种增强子的相对频率,背景组包括528个先前测试的序列,根据与先前组织特异性预测无关的极端序列约束预测为发育增强子10,11例如,虽然前脑增强子仅占通过比较方法确定的测试元素的16%(528个元素中有86个),但前脑p300峰值预测的元素中有78%(63个元素中的49个)被发现是前脑中的活性增强子(图2). 因此,与通过比较方法确定的增强剂相比,前脑预测中前脑增强剂的含量增加了五倍(P(P)< 1 × 10−22). 同样,我们观察到中脑增强子的含量增加了六倍(P(P)< 1 × 10−11)以及16倍丰富的肢体增强剂(P(P)< 1 × 10−18)中脑和肢体p300分别达到峰值。ChIP-seq确定的增强子的代表性示例如所示图3关于本研究中测试的所有元素的转基因小鼠的详细注释和再现性,请访问网址:http://enhancer.lbl.gov(参考。32). 总之,这些结果表明p300峰值是体内增强子及其空间活动模式。

保存图片、插图等的外部文件。对象名为nihms-125128-f0003.jpg
成功预测的示例体内胚胎组织中p300结合增强子

a、,扩展p300覆盖前脑(蓝色)、中脑(红色)和肢体(绿色)。星号表示从各组织分离的染色质中p300显著富集(FDR<0.01)。多物种脊椎动物保护区(黑色)来自UCSC基因组浏览器50。灰色方框对应于候选增强子区域。右侧的数字表示重叠的扩展读取。b、 具有代表性的LacZ染色胚胎体内E11.5处的增强子活性。箭头表示前脑、中脑和肢体的可复制染色。数字显示了LacZ报告染色的再现性。使用每个构建体和基因组坐标获得的其他胚胎可以使用在Vista Enhancer浏览器上32.

大多数p300结合区是保守的

先前的研究表明,发育过程中增强子活性与非编码序列保守性呈正相关6,8-11,33,但也有人认为,并非脊椎动物基因组中的所有调控元件都处于可检测的进化约束之下13-16为了测试E11.5组织中的p300结合是否通常与进化受限的非编码序列相关,我们确定ChIP-seq阅读是否在先前确定的极为保守的非编码顺序中全面富集9,11我们观察到p300 ChIP-seq阅读在这些保守序列中强烈富集,但在随机位点或外显子中没有(图4补充表7). 反之亦然,脊椎动物中86%到91%的p300峰重叠了进化限制下的序列34相比之下,小于30%的大小匹配随机区域(P(P)< 1 × 10−172Fisher精确试验;补充图5). 使用更严格的约束阈值得分,我们观察到10%到21%的峰值受到高度约束,而随机区域只有1%(P(P)< 1 × 10−82). 这些结果表明,研究组织中的大多数p300峰值处于进化约束下,支持p300在基因组高度保守的非编码区域中的全球富集,而这些区域以前与发育增强因子相关。

保存图片、插图等的外部文件。对象名为nihms-125128-f0004.jpg
在所有检测的组织中,p300在高度保守的非编码区富集

我们使用了一组在人类-老鼠基因组比对中确定的50000个极度受限的非编码序列的全基因组11评估p300富集与非编码序列保守性之间的相关性。尽管在任何给定的胚胎组织中,预计只有受约束的非编码元素的子集是活性增强子,但与输入的DNA相比,我们观察到所有三个组织中p300结合的强富集*P(P)< 1 × 10−100,费希尔精确测试。比较显示了随机位点和内部外显子附近的相对p300覆盖率。棕色条表示保守元件或外显子的中等大小(两种情况下均为124 bp)。有关更多详细信息,请参阅补充表7.

与基因表达模式的相关性

为了检验胚胎组织中p300富集区与邻近基因转录调控的相关性,我们将E11.5前脑中p300峰值的基因组分布与该组织的基因表达数据进行了比较。使用高密度微阵列,我们确定了一组885个基因,与全胚胎相比,它们在E11.5的前脑中过度表达(补充表8). 当我们将这些前脑基因的基因组位置与2453个前脑衍生p300峰的全基因组分布进行比较时,我们观察到它们的启动子上下游90kb的间隔在p300结合位点中总体富集了2.4倍(P(P)< 0.05,图5a). 总的来说,14%的前脑p300峰值位于来自前脑过度表达基因启动子的101kb范围内。最显著的富集(4.8倍,P(P)<0.01)在前脑特异性表达基因启动子的上游和下游10kb内观察到。相反,在身体其他部位过度表达的基因附近,前脑峰值并不丰富(图5b,补充表9). 在前脑中过表达五倍或更多的基因附近,观察到前脑峰值的富集程度更高(启动子在10 kb内富集11倍,数据未显示)。我们发现边缘衍生p300峰值在边缘过度表达基因附近也有类似的富集(补充图6补充表10和11). 这些观察结果与第11.5天胚胎前脑或肢体中p300结合的序列一致,这些胚胎是在此时点驱动这些组织中相邻基因表达的增强子。

保存图片、插图等的外部文件。对象名为nihms-125128-f0005.jpg
p300峰值在同一组织中表达的基因附近富集

我们将E11.5前脑组织中p300富集区的全基因组分布与同期前脑的微阵列表达数据进行了比较。在选定的阈值下,八个和八十五个基因的前脑特异性过度表达,495个基因相对于整个胚胎RNA的表达不足。启动子(定义为转录起始位点上游和下游1kb)被排除在分析之外。蓝色条表示与2435个前脑衍生峰的比较,灰色条表示与2635个随机位点的比较。a、,在前脑p300峰中,与前脑过表达基因相距91kb的10个千碱基仓显著富集。b、,前脑低表达基因没有观察到峰值富集。误差条表示基于1000次随机分布迭代的90%置信区间*P(P)< 0.05, **P(P)<0.01,均为单尾。

讨论

在本研究中,我们确定了转录辅激活蛋白p300的全基因组分布(参考文献。23)使用ChIP-seq17直接来自发育中的小鼠组织。值得注意的是,在转基因小鼠试验中,80%的受试病例中,p300在不同小鼠组织中的富集正确地预测了人类非编码序列的空间增强子活性,而在93%的相应组织中没有增强子活动的病例中,没有p300富集相关(补充表5). p300 ChIP-seq预测的组织中没有驱动报告基因表达的少数元素可能代表调节元素的功能在ChIP-se q确定的小鼠序列和转基因小鼠试验中测试的人类同源区域之间发生了差异。为了支持这一假设,我们观察到一些情况,其中来自小鼠的非编码p300结合区,而不是同源人类序列,具有可复制的增强子活性,如来自小鼠组织的p300 ChIP-seq所预测的那样(数据未显示)。总之,与基于保守性的方法相比,本方法在人类基因组中定位增强子的特异性显著提高10,11并预测他们体内与目前可用的基于motif的计算方法相比,具有更高精确度的活动模式(例如refs35,36).

在发育中的小鼠组织中发现的大多数p300结合区都受到可检测的进化约束。它们通常重叠保守的非编码序列,其长度(中位数为113 bp)远远超过单个转录因子结合位点的长度,表明存在较大的功能模块。在基于细胞培养的染色质研究中,发现人类基因组中有相当一部分非编码区具有功能性但不受限制13,14这种明显的差异可能是由于发育中组织中活性增强子与单个细胞类型中的增强子之间的进化约束不同,但强调了推断的内在挑战体内细胞培养研究中的功能。

全基因组染色质研究已开始对与不同类型的功能性非编码元件相关的表观遗传标记和蛋白质进行全面描述13,18,28,37-41我们现在可以开始使用这些特征来揭示生物背景下基因组尺度上的基因调控。本文提出的鉴定发育促进剂及其活性模式的高度特异性方法代表了朝着这个方向迈出的一步。互补的体内-未来可能会产生衍生的基因组数据集,涵盖更多的胚胎阶段、解剖区域和亚区,并可能考虑额外的分子标记28,42-45由这些见解提供信息的重点实验将加快对发育、生理和病理过程中增强子全基因组活动动力学的研究。

方法总结

在E11.5从小鼠胚胎中分离出胚胎前脑、中脑和肢体组织。如前所述,使用抗p300抗体进行交叉链接、染色质分离、超声处理和免疫沉淀40,46如前所述,ChIP DNA通过超声波进一步剪切、末端修复、连接到测序适配器并通过乳化PCR扩增47在Illumina Genome Analyzer II平台上对300至500 bp之间的凝胶纯化扩增ChIP DNA进行测序,以产生36 bp的读数。

使用BLAT将序列读数与小鼠参考基因组(mm9)进行比对48在3′方向上,将唯一对齐的读操作扩展到300 bp,并用于确定在整个小鼠基因组中以25 bp的间隔在单个核苷酸上的读覆盖率。通过与相同读取次数的随机分布进行比较,确定了估计FDR≤0.01的p300富集区(峰)。映射到重复区域的候选峰被删除为可能的人工制品。

根据ChIP-seq结果选择转基因检测的候选区域,并涵盖广泛的保护范围。通过PCR从人类基因组DNA中扩增增强子候选区域,并将其克隆到之前描述的Hsp68基因LacZ报告载体中6,31。如前所述,生成转基因小鼠胚胎,并评估E11.5的可复制LacZ活性6.

将E11.5全胚胎和前脑组织的总RNA与基因芯片小鼠基因组430 2.0阵列(Affymetrix)杂交,并根据制造商的建议进行分析。前脑和全胚胎富集基因在一个数据集中的表达量是另一个数据集的至少2.5倍,最小信号强度为100。通过与公开的野生型E11.5近端后肢基因表达数据(基因表达总览(GEO)系列GSE10516、样本GSM264689、GSM264690和GSM26469)进行比较,确定富含肢体的基因49.

方法

组织剥离和染色质免疫沉淀

胚胎前脑、中脑和肢体组织是在E11.5通过在冷PBS中沿着图1所示的解剖边界进行显微切割,从定时妊娠的CD-1品系小鼠胚胎中分离出来的图1组织样品在室温下交联15分钟(1%甲醛、10μM NaCl、100 mM EDTA、50μM EGTA、5 mM HEPES、pH 8.0)。通过添加125 mM甘氨酸终止交叉链接,并在玻璃琼脂中分离细胞。如前所述进行染色质分离、超声和免疫沉淀40,46简而言之,将1 mg超声染色质(OD260)与10μg抗体(兔多克隆抗p300(C-20),Santa Cruz Biotechnology)与IgG磁珠(Dynal Biotech)在4°C下孵育过夜。用RIPA缓冲液(50 mM HEPES,pH 8.0,1 mM EDTA,1%NP-40,0.7%DOC和0.5 M LiCl,辅以Roche Applied Science的完整蛋白酶抑制剂)清洗磁珠八次,然后用TE缓冲液清洗一次(10 mM Tris,pH8.0,1mM EDTA)。洗涤后,结合DNA在65℃的洗脱缓冲液(10 mM Tris,pH 8.0,1 mM EDTA和1%SDS)中洗脱10 min,并在65℃下培养过夜以逆转交联。在交联逆转后,免疫沉淀DNA依次用蛋白酶K和核糖核酸酶A处理,并用QIAquick PCR纯化试剂盒(Qiagen)脱盐。

ChIP DNA的扩增和Illumina测序

ChIP DNA用Qubit分析HS试剂盒定量。使用Sonicator XL2020(Misonix)和微孔板喇叭在55%功率输出和90%振幅下剪切约0.1 ng的每个ChIP DNA样本10分钟。使用末端-It DNA末端修复试剂盒(Epicenter)对剪切的ChIP DNA提取物进行末端修复。使用T4 DNA连接酶(5 Uμl)连接Illumina适配器(56 bp和34 bp)−1,发酵剂),并使用MinElute反应净化试剂盒(Qiagen)进行回收。如前所述,通过乳液PCR将连接的ChIP DNA扩增40个周期47扩增的300至500 bp之间的ChIP DNA在2%琼脂糖上进行凝胶纯化,并根据制造商的说明在Illumina Genome Analyzer II上进行测序,但含有GA2测序适配器的乳化PCR-扩增DNA直接应用于集群站进行桥接扩增。对产生的流-细胞进行36个周期的测序,以产生36-bp的读数。

Illumina序列数据处理

使用BLAT将未过滤的36-bp Illumina序列读数与小鼠参考基因组(NCBI构建37,mm9)对齐48带有可选参数(minScore=20,minIdentity=80,stepSize=5)。BLAT是在sge集群上并行执行的。每次读取时,都会比较两个最高分对齐,并将读取视为重复,除非最佳对齐的分数至少比第二个最佳对齐的得分大两倍。对其余的读取进行进一步筛选,以拒绝BLAT比对分数<21、插入或删除>1 bp或读取开始时有>2个未对齐碱基的读取。最后,在小鼠基因组中具有相同起始位点的读取被认为可能是重复序列,作为样本扩增或测序的人工制品而产生,并且只计数一次。其余的读取被归类为与小鼠基因组唯一对齐。

唯一对齐的读取在3′方向扩展到300 bp,以解释用于测序的大小选择的p300 ChIP片段的平均长度。这些扩展读取坐标用于确定在整个小鼠基因组中以25 bp间隔的单个核苷酸的读取覆盖率。这些数据用于生成覆盖图,以便在UCSC基因组浏览器中进行可视化。

为了确定p300富集区域(峰值),我们将观察到的覆盖深度频率与之前描述的计算生成的相同读取次数的随机分布预期的频率进行了比较17简而言之,观察到覆盖深度至少为H(H)读数由泊松概率之和表示为:

1Σk=0H(H)1e(电子)λλkk!

其中λ是由(读取长度×对齐读取数)/可对齐基因组长度给出的扩展读取的平均全基因组覆盖率。为了估计可比对的基因组长度,使用与读取相同的比对和过滤方案,从小鼠基因组中随机选择100万个36个碱基聚合物,将其与小鼠基因组重新比对。共有77.3%的36个碱基聚合物被唯一地映射回小鼠基因组,导致可比对基因组长度为2.107 Gb。

对于每个样本,我们确定了读取覆盖深度,在该深度下,具有该覆盖率的站点的观察频率超过了预期频率100倍(FDR≤0.01)。候选峰值被确定为覆盖率超过该阈值的站点,峰值边界被延伸到最近的侧翼位置,在该位置读取覆盖率低于两次读取。所有连续富集区被大于两次读数的连续覆盖区分隔开,合并成一个单一峰。候选峰映射到chr_random contigs、着丝粒区域、端粒区域、片段重复、卫星重复、核糖体RNA重复或重复序列>70%的区域,以及那些与对照样品(输入DNA)中富集区域一致的候选峰由于小鼠参考基因组序列中目前未表示的异色序列的错位,作为可能的伪影被去除。其余峰值代表高置信度p300富集区和在特定组织中具有活性的假定增强子。

p300 ChIP-seq读取数据集关于邻近基因(UCSC已知基因)的注释50),内部外显子(小鼠RefSeq51转录末端外显子>30kb)和保守非编码序列(使用GUMBY和R(右)-比率参数R(右)= 50; 参考9,11)使用Galaxy执行52和自定义Perl脚本。关于UCSC已知基因和脊椎动物相蛋白元件的p300富集区注释34是使用自定义Perl脚本执行的。

转基因小鼠增强子分析

根据ChIP-seq结果选择转基因检测的候选区域。人类同源区无法明确确定的峰值和负鼠中未检测到保护的峰值53被排除在转基因检测之外。因此,测试的峰涵盖了广泛的保守性,但总体上比全基因组确定的所有峰更受限制(所有峰的中位数得分为457,而测试的峰为626)。从人类基因组DNA(Clontech)中通过PCR扩增增强子候选区域(平均大小为2.4 kb),并将其克隆到与LacZ报告基因偶联的Hsp68基因上游的Hsp68-promoter-LacZ报告载体中,如前所述6,31。候选序列未在任何特定方向克隆,有效地导致了测试结构中的随机插入方向。扩增区域的基因组坐标报告于补充表5.通过原核注射和F0如前所述,在E11.5收集胚胎并对LacZ活性进行染色6。只有在同一构造的独立转基因整合事件产生的至少三个不同胚胎中观察到的模式才被认为是可复制的(参见补充表5). 为了解释在组织切割过程中分离前脑和中脑的微小差异,前脑和大脑p300峰值也被认为是正确的预测,如果体内该模式位于前脑/中脑边界区,而p300峰的缺失仅被认为是一个假阴性预测体内图案明显超出边界区域。

微阵列

从E11.5处的CD-1系小鼠胚胎中分离出组织。前脑进一步细分为基底端脑(前脑下部)、背侧端脑(大脑皮层)和间脑,在随后的步骤中分别进行处理。为了进行比较,收集了整个胚胎(同窝)。所有样品均采集、处理并杂交,一式两份。使用Trizol试剂(Invitrogen)提取总RNA。根据制造商的建议,合成互补RNA,与基因芯片小鼠基因组430 2.0阵列(Affymetrix)杂交,并分析杂交结果。对于每个样本,重复样本的平均表达值用于下游分析。前脑富集基因的定义是,与整个胚胎相比,在三个前脑区域中的至少一个区域中的表达至少是2.5倍,并且最小信号强度为100。全胚胎富集基因是指在整个胚胎中的表达量至少是三个前脑区域中每个区域的2.5倍,且最小信号强度为100。利用小鼠MOE430(A和B)的p300峰和Affymetrix共识互补DNA序列5′端与小鼠参考基因组(mm9)的距离,确定最近的前脑富集基因和全胚胎富集基因(补充表8和9). 使用相同的程序分析肢体p300峰值与肢体基因表达的相关性,但肢体表达基因是通过比较公开的野生型E11.5近端后肢基因表达数据(GEO系列GSE10516,样本GSM264689、GSM264690和GSM26469)确定的49,以及本研究中生成的整个胚胎基因表达数据(补充表10和11).

动物工作

所有动物工作均按照劳伦斯伯克利国家实验动物福利和研究委员会审查和批准的方案进行。

补充材料

补充1

单击此处查看。(120万,pdf)

补充2

单击此处查看。(473K,xls)

补充3

单击此处查看。(85K,xls)

补充4

单击此处查看。(773K,xls)

致谢

我们要感谢R.Hosseini和S.Phouanenavong的技术支持,以及J.Rubenstein、J.Long、J.Choi和Y.Zhu对微阵列实验的帮助。这项工作由美国能源部科学、生物和环境研究计划办公室和加利福尼亚大学劳伦斯伯克利国家实验室根据合同号DE-AC02-05CH11231进行,劳伦斯利弗莫尔国家实验室根据协议号DE-AC52-07NA27344进行,合同号DE-AC02-06NA25396。L.A.P.和E.M.R.分别由伯克利-PGA和美国国家心脏、肺和血液研究所资助的基因组应用项目提供支持,L.A.P由美国国家人类基因组研究所资助。A.V.由美国心脏协会博士后奖学金资助。B.R.得到了国家人类基因组研究所和路德维希癌症研究所的资助。

脚注

完整的方法任何相关的参考文献都可以在论文的在线版本中找到,网址为www.nature.com/nature(自然).

补充信息链接到该论文的在线版本www.nature.com/nature(自然).

重印和权限信息可在www.nature.com/reprints网站。本研究中描述的所有ChIP-seq数据集已保存在国家生物技术信息中心(NCBI)的基因表达综合数据库(GEO)中,登录号为GSE13845。

工具书类

1Venter JC等人,《人类基因组序列》。科学。2001;291:1304–1351.[公共医学][谷歌学者]
2Lander ES等人,人类基因组的初步测序和分析。自然。2001;409:860–921.[公共医学][谷歌学者]
三。Burge C,Karlin S.人类基因组DNA中完整基因结构的预测。分子生物学杂志。1997;268:78–94.[公共医学][谷歌学者]
4Okazaki Y等。基于60770全长cDNA功能注释的小鼠转录组分析。自然。2002;420:563–573.[公共医学][谷歌学者]
5Marshall H等。同源异型盒基因早期表达所需的保守视黄酸反应元件霍克斯b-1.自然。1994;370:567–571.[公共医学][谷歌学者]
6Nobrega MA、Ovcharenko I、Afzal V、Rubin EM。扫描人类基因沙漠中的长程增强子。科学。2003;302:413.[公共医学][谷歌学者]
7de la Calle-Mustienes E等。脊椎动物保守非编码序列增强子活性的功能调查易洛魁人簇基因沙漠。基因组研究。2005;15:1061–1072. [PMC免费文章][公共医学][谷歌学者]
8Woolfe A等人。高度保守的非编码序列与脊椎动物的发育有关。《公共科学图书馆·生物》。2005;:e7。 [PMC免费文章][公共医学][谷歌学者]
9Prabhakar S等人。近距离序列比较足以鉴定人类顺式调节元件。基因组研究。2006;16:855–863. [PMC免费文章][公共医学][谷歌学者]
10Pennacchio LA等人。体内人类保守非编码序列的增强子分析。自然。2006;444:499–502.[公共医学][谷歌学者]
11Visel A等。超保守发现了一小部分极度受限的发育促进剂。自然遗传学。2008;40:158–160. [PMC免费文章][公共医学][谷歌学者]
12文昌鱼基因组阐明了脊椎动物起源和头索动物生物学。基因组研究。2008;18:1100–1111. [PMC免费文章][公共医学][谷歌学者]
13ENCODE项目联盟通过ENCODE试点项目确定和分析人类基因组1%中的功能元件。自然。2007;447:799–816. [PMC免费文章][公共医学][谷歌学者]
14Margulies EH等。哺乳动物深层序列比对分析和人类基因组1%的限制性预测。基因组研究。2007;17:760–774. [PMC免费文章][公共医学][谷歌学者]
15Cooper GM,Brown CD。确定序列保守性和分子功能之间的关系。基因组研究。2008;18:201–205.[公共医学][谷歌学者]
16McGaughey DM等。在phox2b的详尽分析中,序列约束的度量忽略了调控序列。基因组研究。2008;18:252–260. [PMC免费文章][公共医学][谷歌学者]
17Robertson G等人。使用染色质免疫沉淀和大规模平行测序法对STAT1 DNA关联的全基因组图谱。自然方法。2007;4:651–657.[公共医学][谷歌学者]
18Mikkelsen TS等人。多能干细胞和谱系提交细胞中染色质状态的全基因组图。自然。2007;448:553–560. [PMC免费文章][公共医学][谷歌学者]
19Robertson AG等。组蛋白H3赖氨酸4单甲基化和三甲基化与转录因子结合之间的全基因组关系。基因组研究。2008;18:1906–1917. [PMC免费文章][公共医学][谷歌学者]
20Cuddapah S等。染色质屏障区绝缘体结合蛋白CTCF的整体分析揭示了活性域和抑制域的划分。基因组研究。2009;19:24–32. [PMC免费文章][公共医学][谷歌学者]
21Wederell ED等,全球分析体内采用大规模平行测序法研究小鼠成年肝脏中Foxa2结合位点。核酸研究。2008;36:4549–4564. [PMC免费文章][公共医学][谷歌学者]
22.Valouev A等人,基于ChIP-Seq数据的转录因子结合位点的全基因组分析。自然方法。2008;5:829–834. [PMC免费文章][公共医学][谷歌学者]
23Eckner R等人。腺病毒E1A-相关300-kD蛋白(p300)的分子克隆和功能分析揭示了一种具有转录适配器特性的蛋白质。基因开发。1994;8:869–884.[公共医学][谷歌学者]
24Eckner R,Yao TP,Oldard E,Livingston DM。p300/CBP和bHLH蛋白在肌肉和B细胞分化中的相互作用和功能协作。基因开发。1996;10:2478–2490.[公共医学][谷歌学者]
25.Yao TP等。缺乏转录整合蛋白p300的小鼠的基因剂量依赖性胚胎发育和增殖缺陷。细胞。1998;93:361–372.[公共医学][谷歌学者]
26Merika M,Williams AJ,Chen G,Collins T,Thanos D.通过IFNb增强子体招募CBP/p300是协同激活转录所必需的。分子细胞。1998;1:277–287.[公共医学][谷歌学者]
27Maston GA,Evans SK,Green MR人类基因组中的转录调控元件。每年。基因组学评论。2006;7:29–59.[公共医学][谷歌学者]
28Heintzman ND等。人类基因组中转录启动子和增强子的独特和预测染色质特征。自然遗传学。2007;39:311–318.[公共医学][谷歌学者]
29Xi H,等。人类基因组中细胞类型特异性和普遍存在的染色质调节结构的鉴定和表征。公共科学图书馆-遗传学。2007;:e136。 [PMC免费文章][公共医学][谷歌学者]
30小鼠基因组测序联盟小鼠基因组的初始测序和比较分析。自然。2002;420:520–562.[公共医学][谷歌学者]
31Kothary R等。插入肌张力障碍位点的含有lacZ的转基因在神经管中表达。自然。1988;335:435–437.[公共医学][谷歌学者]
32Visel A、Minovitsky S、Dubchak I、Pennacchio LA。VISTA增强浏览器——组织特异性人类增强剂数据库。核酸研究。2007;35:D88–D92。 [PMC免费文章][公共医学][谷歌学者]
33Cheng Y等。GATA1占据的DNA片段的转录增强与结合位点基序的进化约束密切相关。基因组研究。2008;18:1896–1905. [PMC免费文章][公共医学][谷歌学者]
34Siepel A等人。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守的元素。基因组研究。2005;15:1034–1050. [PMC免费文章][公共医学][谷歌学者]
35Hallikas O等。基于转录因子结合亲和力分析的哺乳动物增强子全基因组预测。细胞。2006;124:47–59.[公共医学][谷歌学者]
36Pennacchio LA,Loots GG,Nobrega MA,Ovcharenko I.预测人类基因组中的组织特异性增强子。基因组研究。2007;17:201–211. [PMC免费文章][公共医学][谷歌学者]
37Kim TH等。人类基因组中活性启动子的高分辨率地图。自然。2005;436:876–880. [PMC免费文章][公共医学][谷歌学者]
38Boyle AP等。全基因组开放染色质的高分辨率定位和表征。细胞。2008;132:311–322. [PMC免费文章][公共医学][谷歌学者]
39Schones DE,Zhao K.研究染色质修饰的全基因组方法。《自然·遗传学评论》。2008;9:179–191. [PMC免费文章][公共医学][谷歌学者]
40Barrera LO等。小鼠胚胎干细胞和成人器官中活性启动子的全基因组定位和分析。基因组研究。2008;18:46–59. [PMC免费文章][公共医学][谷歌学者]
41Chen X等。胚胎干细胞中外部信号通路与核心转录网络的整合。细胞。2008;133:1106–1117.[公共医学][谷歌学者]
42郭RP等。核蛋白CBP是转录因子CREB的辅激活子。自然。1994;370:223–226.[公共医学][谷歌学者]
43Ogryzko VV、Schiltz RL、Russanova V、Howard BH、Nakatani Y。转录辅激活子p300和CBP是组蛋白乙酰转移酶。细胞。1996;87:953–959.[公共医学][谷歌学者]
44Agalioti T等。将染色质修饰因子和一般转录因子有序招募到IFN-β启动子。细胞。2000;103:667–678.[公共医学][谷歌学者]
45.Ge K等。转录辅激活子TRAP220是PPARγ2刺激脂肪生成所必需的。自然。2002;417:563–567.[公共医学][谷歌学者]
46.Li Z等。c-Myc在Burkitt淋巴瘤细胞中的全球转录调控作用。程序。美国国家科学院。科学。美国。2003;100:8164–8169. [PMC免费文章][公共医学][谷歌学者]
47Blow MJ等。通过基因组测序鉴定古代遗迹的来源。基因组研究。2008;18:1347–1353. [PMC免费文章][公共医学][谷歌学者]
48肯特·WJ。BLAT-类似BLAST的对齐工具。基因组研究。2002;12:656–664. [PMC免费文章][公共医学][谷歌学者]
49Krawchuk D,Kania A.在发育中的小鼠肢芽中由LMX1B控制的基因的鉴定。开发动态。2008;237:1183–1192.[公共医学][谷歌学者]
50Karolchik D等人。UCSC基因组浏览器数据库:2008年更新。核酸研究。2008;36:D773–D779。 [PMC免费文章][公共医学][谷歌学者]
51Pruitt KD、Tatusova T、Maglott DR.NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库。核酸研究。2007;35:D61–D65。 [PMC免费文章][公共医学][谷歌学者]
52Giardine B等人,《银河:交互式大规模基因组分析平台》。基因组研究。2005;15:1451–1455. [PMC免费文章][公共医学][谷歌学者]
53Mikkelsen TS等人,有袋动物基因组短尾负鼠揭示了非编码序列的创新。自然。2007;447:167–177.[公共医学][谷歌学者]