美国国家科学院院刊。2007年3月20日;104(12): 4852–4857.
敏感的ChIP-DSL技术揭示了人类基因启动子上广泛的雌激素受体α结合程序
,* ,† ,†‡ ,†‡ ,§ ,§ ,*‡ ,* ,* ,¶ ,¶ ,§ ,* ,†‖和*‖
Young-Soo Kwon先生
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
伊凡·加西亚-资产
†霍华德·休斯医学院医学系和加利福尼亚大学圣地亚哥医学院,加利福尼亚州拉霍亚,邮编92093;
凯西·R·赫特
†霍华德·休斯医学院医学系和加利福尼亚大学圣地亚哥医学院,加利福尼亚州拉霍亚,邮编92093;
‡加利福尼亚大学圣地亚哥分校生物信息学研究生项目,加利福尼亚州拉霍亚,邮编92093;
克里斯汀·郑(Christine S.Cheng)
†加利福尼亚州拉霍亚市霍华德休斯医学院和加州大学圣地亚哥医学院医学系,邮编92093;
‡加利福尼亚大学圣地亚哥分校生物信息学研究生项目,加利福尼亚州拉霍亚,邮编92093;
金明杰
§Aviva Systems Biology Corporation,加利福尼亚州圣地亚哥,邮编92121;和
刘东燕
§Aviva Systems Biology Corporation,加利福尼亚州圣地亚哥,邮编92121;和
克里斯·本纳
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
‡加利福尼亚大学圣地亚哥分校生物信息学研究生项目,加利福尼亚州拉霍亚,邮编92093;
董旺(Dong Wang)
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
甄冶
*加利福尼亚大学圣地亚哥医学院细胞与分子医学系,加利福尼亚州拉霍亚,92093-0651;
玛丽娜·比比科娃
¶Illumina Inc.,加利福尼亚州圣地亚哥,邮编92121
建平风机
¶Illumina Inc.,加利福尼亚州圣地亚哥,邮编92121
段凌汛
§Aviva Systems Biology Corporation,加利福尼亚州圣地亚哥,邮编92121;和
克里斯托弗·K·格拉斯
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
迈克尔·罗森菲尔德
†霍华德·休斯医学院医学系和加利福尼亚大学圣地亚哥医学院,加利福尼亚州拉霍亚,邮编92093;
向东府
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
*加利福尼亚大学圣地亚哥医学院细胞和分子医学系,加利福尼亚州拉霍亚,92093-0651;
†霍华德·休斯医学院医学系和加利福尼亚大学圣地亚哥医学院,加利福尼亚州拉霍亚,邮编92093;
‡加利福尼亚大学圣地亚哥分校生物信息学研究生项目,加利福尼亚州拉霍亚,邮编92093;
§Aviva系统生物公司,加利福尼亚州圣地亚哥,邮编92121;和
¶Illumina Inc.,加利福尼亚州圣地亚哥,邮编92121
作者:Michael G.Rosenfeld,2007年1月26日
.作者贡献:Y.S.K.和I.G.-B.对这部作品的贡献相等;Y.-S.K.、I.G.-B.、K.R.H.、C.K.G.、M.G.R.和X.-D.F设计的研究;Y.-S.K.、I.G.-B.、K.R.H.、D.W.、M.B.和J.-B.F.进行了研究;M.J.、D.L.、Z.Y.和L.D.贡献了新的试剂/分析工具;K.R.H.、C.S.C.和C.B.分析数据;I.G.-B.、K.R.H.、M.G.R.和X.-D.F.撰写了这篇论文。
M.J.、D.L.和L.D.是Aviva Systems Biology Corporation的员工。X.-D.F.是Aviva Systems Biology Corporation的科学创始人,也是其董事会成员。M.B.和J.-B.F.是Illumina Inc.的员工。两家公司都销售本文中使用的阵列产品。
人类和其他模式生物基因组的阐明使在基因组尺度上进行基因表达和调控分析成为可能。基因表达通常伴随着染色质重塑活动和组蛋白修饰。一个重要的概念进展是“组蛋白密码”假说,它表明组蛋白修饰反映了与转录机制相关的酶的顺序作用,因此在调节基因表达期间,一个先前的活动可能影响下一个(1,2). 组蛋白乙酰化导致修饰赖氨酸的电荷中和,这通常与基因激活有关(3). 相反,不同残基上的组蛋白甲基化似乎为特定转录调节器提供了结合位点,从而对基因表达产生积极或消极的影响(4). 虽然组蛋白甲基化可能以基因特异性和环境依赖性的方式调节基因表达,但某些位点特异性修饰似乎普遍适用于大多数基因。因此,表观遗传学标记提供了识别和表征基因组中功能性DNA元件的路线图。
转录调节剂的核受体(NR)超家族在许多发育和疾病过程中起着核心作用,该系统已被广泛研究,作为了解基因表达时空控制机制的模型(5). 单个NR在启动子和增强子中具有一致的结合位点,已对其进行了详细描述,但仅限于有限数量的NR调节基因。如果是第2页基因(也称为TFF1型)例如,雌激素受体α(ERα)的结合启动了大量转录因子在启动子上的顺序募集,从而开始转录(6). 然而,尽管在本例和其他研究充分的病例中,对转录起始有广泛的机制性见解,但关于有多少基因是NR的直接靶点还知之甚少。基因组范围的ChIP结合微阵列,称为ChIP-on-ChIP,通过确定与转录因子直接结合的启动子,提供了解决这个问题的方法(7–10). 然而,令人惊讶的是,最近的启动子和拼接阵列分析表明,与基因间区域相比,ERα与基因启动子的结合相对较少,这表明长距离增强子在哺乳动物细胞中调节基因表达中起着关键作用(11–13).
这里我们描述一种检测方法体内通过将ChIP与DNA选择和连接(DSL)策略耦合,DNA-蛋白质相互作用,允许分析比传统ChIP-on-ChIP方法所需更少的细胞。我们基于这个ChIP-DSL平台构建了一个全基因组启动子阵列,我们的分析表明,ERα在MCF-7细胞的启动子近端区域中结合了>3%的人类基因,增强了在调控基因表达期间启动子近端区直接结合事件的重要性。内置平铺阵列的结果允许直接可视化结合事件,即使不需要对原始数据进行统计过滤,并且全面的组蛋白修饰剖面扩展了当前的组蛋白代码假设。这些结果证明了ChIP-DSL技术在全基因组范围内通过特定转录因子搜索直接靶基因以及在特定基因组位点内的调控程序综合分析中的通用性和准确性。此外,ERα结合和17β-雌二醇(E2)-MCF-7细胞中诱导的基因表达揭示了一组基因,其表达可追踪人类乳腺癌的进展,这不仅表明了这些基因作为乳腺癌生物标记物的预后价值,也说明了解剖癌症分子途径的一般策略。
结果和讨论
ChIP-DSL技术的设计和开发。
为了检测高灵敏度和特异性的功能性DNA元件,我们设计了一种结合ChIP和DSL方法的多重检测方法(). 首先在长度为0.5–1 kb的基因组片段中通过计算鉴定出一个特征性40-nt序列。对于启动子分析,每个这样的探针对应于与转录起始点相关的从+200 nt到−800 nt的近端启动子区域,该区域包含≈95%人类转录因子的已知结合位点(8). 为了构建平铺阵列,每个探针用于表示待平铺路径中≈0.5-kb的非重复基因组块。该探针密度考虑了基因组序列最大覆盖所需的探针数量以及检测免疫沉淀DNA的充分性,免疫沉淀DNA通常剪切到0.5–1 kb的平均长度。胺修饰的40-mers被发现在固体载体上形成阵列。
ChIP-DSL方案。该技术的一个关键特征是以染色质免疫沉淀(ChIP)DNA和DSL为模板的寡核苷酸连接。这使得靶基因的高通量分析具有更高的特异性和敏感性。
对应于每个40-mer,合成一对分析寡核苷酸,每个寡核苷酸由40-mer中的两个20-mer半体组成,两侧有一个通用引物登陆位点。将多个寡核苷酸对混合形成一个池。测试从标准ChIP开始,分离的DNA随机生物素化,然后退火到寡核苷酸池。在链霉亲和素结合磁珠上选择退火的寡核苷酸,并冲洗掉未退火的寡核苷酸。这种选择策略允许使用过量的寡核苷酸来实现遵循伪一级动力学的最大退火,并防止溶液中过量的游离寡核苷酸干扰后续步骤。所有选定的寡核苷酸都被固定,那些与特定靶DNA配对的寡核苷酸被连接,从而仅将正确靶向的寡核苷酸转换为PCR扩增的全扩增子。其中一个PCR引物用荧光染料进行末端标记,以便PCR产物可以直接杂交到40-mer阵列。
该技术在几个关键方面与传统的ChIP-on-ChIP分析不同。首先,染色质免疫沉淀DNA用于模板寡核苷酸连接,而不是直接扩增用于杂交。这一步可以容忍不完全的去交联,因为交联加合物对寡核苷酸杂交的影响应该小于聚合酶信号放大。其次,我们只针对人类基因组中唯一的特征序列,从而避免了杂交过程中重复序列和相关序列的潜在干扰。第三,通过以无偏见的方式对连接性寡核苷酸进行PCR扩增,灵敏度显著提高,因为所有扩增子都包含相同的一对特异性引物登陆位点,并且长度与之前的记录一致(14).
我们逐步扩大了检测的多样性,最终覆盖了人类基因组中大多数注释的基因启动子。滴定实验表明,ChIP-DSL技术可以对单个100 mm培养皿中三分之一的细胞进行常规操作,相当于1–5×106细胞,取决于所调查的细胞类型。尽管事实上每个启动子都是由一个寡核苷酸对靶向的,但正如本研究和其他研究所报告的那样,产生了高质量的数据(15)证明ChIP-DSL技术的再现性和稳健性。
我们最初评估了可能在转录中具有活性的启动子,基于它们与E中RNA聚合酶(Pol)II的相关性2-经处理的MCF-7细胞(A类). 富含抗-Pol II(Pol II+)启动子(红色)与内置平铺阵列控制标记的背景(黄色)明显分离,发现43%的总启动子是Pol II+按标准P(P)值<0.001。对随机选择的启动子进行定量ChIP/定量PCR(qPCR)分析表明,假阳性率约为3%,假阴性率约为33%[B和支持信息(SI)图6]. 使用不相关的IgG观察到类似的假阳性率(SI图7A类). 假阴性率与已发表的ChIP-ChIP研究报告的假阴性率非常相似(16). 波尔二世+启动子还标记有AcH3K9(98%)、Me2H3K4(98%)和Me3H3K4(88%),尽管有很大一部分启动子仅与这些基因激活标记相关,但与Pol II无关(C类). 相反,“抑制性”组蛋白标记为Me3仅在Pol II的一小部分(10%)中检测到H3K27+发起人。事实上,这种抑制性组蛋白标记已被证明与一些活性基因有关(17). 在同一E中的RNA分析实验2-刺激的MCF-7细胞显示,大多数Pol II+发起人积极转录(D类). 总之,这些可靠且高度一致的数据证明了ChIP-DSL技术的实用性和敏感性。
ChIP-DSL对启动子占用率的全球分析。(A类)大肠杆菌Pol-II结合启动子的全局分析2-刺激MCF-7细胞。一组拼接的基因组位点(黄色)用作内部阴性对照,因为大多数基因组序列预计不会与一般和序列特异性转录因子相互作用。Pol II阳性(红色)和阴性(黑色)启动子根据单阵列误差模型在P(P)<0.001,Pol II阳性和阴性启动子的百分比如插入. (B)ChIP/qPCR验证ChIP-DSL结果。(C类)E中修饰组蛋白的启动子分析2-经处理的MCF-7细胞。(左侧)阳性启动子的百分比。(赖特)阳性启动子与Pol II的重叠。Pol II结合和单个组蛋白修饰事件之间的重叠如单个Venn图所示。(D类)通过Pol II和组蛋白修饰标记将基因表达与启动子占用率相关联。E基因表达谱分析2-诱导的MCF-7细胞在Illumina基因表达阵列上进行。通过无监督分层聚类分析,使用启动子和表达谱阵列共有的约10000个基因,并在所有测量中可靠评分,构建二元图谱。
人类基因组中ERα占用基因启动子的鉴定。
接下来,我们应用ChIP-DSL技术来识别序列特异性DNA结合转录因子的靶基因。ERα在人类生殖和乳腺癌中起着重要作用。最近使用1-kb启动子区域进行的启动子分析检测到153个ERα结合启动子(13). 此外,ERα结合的平铺分析表明,ERα普遍与人类基因组中的基因间区域结合,这表明雌激素调节的基因表达可能主要由长距离增强子驱动的新范式(11,12). 补充这些最近的基因组分析,我们的得分约为1300抗ERα富集(ERα+)E中的启动子2-基于单阵列误差模型的受激MCF-7细胞(9)在标准截止点P(P)<0.001,且≈700,更严格的截止值为P(P)< 0.0001 (A类). 大量ERα+在载体处理的MCF-7细胞中也发现了启动子,这表明存在一类激素依赖性募集事件(SI图7B). 识别ERα+具有高统计置信度的启动子,我们使用基于不同数学原理的三种统计方法分析了来自多个生物重复的数据,揭示了578个最高置信度ERα的重叠集+发起人,占所有得分可靠的发起人的3.3%(B和SI数据集1).
E中ERα的启动子分析2-诱导的MCF-7细胞。(A类和B)ERα结合启动子在P(P)<0.0001。所有三种分析方法均对ERα结合启动子评分为正的百分比显示为A插图,并且通过一种或两种方法得到正分数的其他启动子显示在B. (C类)列出了21号和22号染色体上新鉴定的ERα阳性启动子。比率是从阵列测量中推导出来的。选择的启动子通过ChIP/qPCR验证(赖特). (D类)抗ERα富集启动子的基序分析。第一个基序在基因启动子中普遍存在,但识别该基序的蛋白质尚不清楚。当这个基序被掩盖时,最丰富的基序对应于完全或半一致的雌激素反应元件。在允许一个碱基错配的情况下,计算了在总ERα结合启动子中含有全一致性或半一致性雌激素反应元件的启动子的百分比,如赖特.
ChIP/qPCR分析证实所有ERα+检测启动子,包括位于21号和22号染色体上的启动子(C类)以及其他染色体上的20个额外启动子(数据未显示),表明抗ERα的假阳性率可以忽略不计+-通过严格的统计测试支持的强化促进剂。当大多数探针位于“阴性”人群中时,假阴性率的估计被证明具有挑战性(8). 我们使用了最近报道的ChIP/qPCR确认的启动子(13)以客观地估计我们的假阴性率。在两个阵列平台之间常见的27个经验证的启动子中,20个在我们的阵列中得分为阳性P(P)<0.0001和24P(P)<0.001,表明我们的假阴性率分别为≈26%和11%P(P)价值截断,这可能被高估了,因为有三个推动者(CYP4F3公司,建议1、和ABCG2基因)在之前的ChIP/qPCR实验中,未检测到的仅富集<2倍(13). 总之,这些结果证明了ChIP-DSL数据的准确性,并保守地确定了约4倍于先前全基因组定位分析中检测到的ERα靶启动子数量,这表明基于ChIP-DSL技术的启动子阵列对于一般研究群体来说是一个有用的资源。
接下来,我们使用一种新的改进算法进行了模体分析,该算法将富含ChIP的启动子与所有启动子(C.B.和C.K.G.,未发表的数据)中的归一化核苷酸频率进行了比较,揭示了与ERα结合启动子相关的高度富集但无特征的模体(D类). 当这个基序被掩盖时,下一个最丰富的基序是经典的ERα结合共有序列(18)占总ERα的44%+发起人(D类). 有趣的是,虽然该算法证实了FoxA1识别基序围绕一部分基因间ERα结合位点的存在(11),它没有检测到FoxA1结合位点与ERα的广泛关联+ChIP-DSL鉴定的启动子。鉴于研究发现FoxA1对ERα与几个靶基因的结合至关重要(11,13)在未来的研究中,确定FoxA1是选择性还是普遍需要用于ERα靶向是很有意思的。
ERα结合和组蛋白修饰的位点特异性拼接阵列分析。
为了便于启动子阵列的数据分析,我们构建了一些平铺位点作为内部阴性对照,因为并非所有基因组区域都被普通和序列特异性DNA结合转录因子占据。这些数据反过来说明了ChIP-DSL技术在揭示构成单个基因组位点调控程序的特定分子识别事件方面的有用性。如所示,我们发现ERα与启动子(填充箭头)和假定的增强子(开放箭头)结合TFF1型基因,如前所述(11). 转录共激活因子CBP类似地与启动子和增强子相互作用,而Pol II覆盖了这个相对较小的基因的主体。如果是绿色1基因,我们观察到ERα、CBP和Pol II在之前描述的三个启动子中的两个上存在类似的模式(19). 有趣的是,我们发现这三个因子都与基因上游的三个不同位点相互作用绿色1启动子,表明这些位点可能起到增强子的作用。这些观察结果与大量文献一致,即基因启动子和增强子被序列特异性DNA-结合转录因子识别,而这些转录因子反过来又招募转录辅激活子。
E中ERα结合和组蛋白修饰的位点特异性拼接阵列分析2-诱导的MCF-7细胞。顶部显示单个基因和刻度,底部显示探针位置和基因结构。左侧显示了单个转录因子和染色质重塑标记。转录开始,已知或推定的增强子分别由底部的填充箭头和开放箭头指定。
在启动子和增强子中均观察到乙酰化组蛋白(AcH3K9)TFF1型和绿色1如预期。组蛋白3赖氨酸-4甲基化通常与活性基因相关,但个别修饰的情况明显不同:1H3K4似乎与活性基因广泛相关,但与酵母中的情况相反,这种修饰并不优先与活性基因的3′端相连(2,20,21). 我2H3K4标记启动子和增强子,对启动子的偏好明显高于增强子。再次,与酵母中的事件相反,我们没有检测到实质性Me2H3K4在绿色1和其他平铺基因。我3H3K4仅在启动子中发现,这与大多数酵母和哺乳动物细胞的定位研究一致(20,22,23).
有趣的是,AcH3K9和甲基化H3K4标记存在于许多基因启动子中,包括KAI1公司()MCF-7细胞中未检测到RNA转录物。这些观察结果表明,一些组蛋白修饰发生在一般转录机制招募之前,或者这些基因可能在无法检测到的基础水平上转录。尽管人们无法正式区分这些可能性,组蛋白修饰模式与“沉默”基因明显不同,例如风险调整比率β (). 这个风险调整比率β启动子由Me特异标记3H3K27,通常与异染色质中的沉默基因有关(24). 因此,非压迫基因的标记存在异质性,例如观察到KAI1公司启动子可被转录因子利用,而风险调整比率β启动子在MCF-7细胞中被积极抑制。
为了进一步表征与基因抑制相关的组蛋白修饰,我们绘制了Me2H3K79和我3H3K9型(). 我2H3K79先前被认为与基因沉默期间Sir蛋白的相互作用有关(25,26)尽管最近的一项研究表明这种修饰与基因激活有关(27). 我们发现了我2H3K79确实与活性基因相关,但以独特的基因特异性方式。在TFF1型,这种修饰发生在启动子附近的转录区,而在绿色1,我2H3K79在整个转录单元中传播,包括编码区和启动子/增强子区。我3H3K9以前也被作为HP1的结合位点,促进异染色质的组装,从而与基因阻遏联系在一起(25,26,28–30). 我们在这里找到了我3H3K9修饰了这两个基因的大部分3′转录区TFF1型和绿色1与最近在酵母中提出的这种特定组蛋白修饰在转录延长中的作用相一致(31). 这些发现表明,要概括大多数组蛋白修饰事件在基因激活或抑制方面的意义仍然十分仓促,因为相同的组蛋白修饰可能以高度基因特异性和位置依赖性的方式积极或消极地反映或影响转录,与组蛋白组合密码一致。
乳腺癌细胞和组织中直接ERα靶基因的表达。
而大多数ERα结合启动子也由Pol II和与基因激活相关的表观遗传标记标记(A类),我们通过RNA分析评估了调控基因表达的时间进程,并鉴定了879个对E2-MCF-7细胞的诱导,这与其他已发表的基因表达谱研究基本一致(32–34). 引人注目的是,879 E中只有54个2-受影响的基因在启动子近端区域被ERα结合(B),表明E的大多数2-诱导基因可能受到远离启动子近端区域的ER反应元件的间接影响或调节。其中879 E2-调控基因中,562个上调,317个下调。与这两类基因中相似百分比的基因在启动子近端区域被ERα靶向的预期相反,我们发现49个(10.5%)与ERα结合的启动子被E2而只有5例(1.1%)表达下调( B和C类). 这些观察结果表明,上调和下调类别中的许多基因都可能受到间接影响,与上调基因相比,更多下调基因受到间接机制的影响(35).
E类2-诱导基因表达和直接ERα靶基因的生物学相关性。(A类)ERα结合与组蛋白修饰之间的关系。直接比较ERα结合和E2-我们分析了启动子阵列和Illumina基因表达阵列中常见的578个ERα结合启动子中的467个诱导基因表达。大多数ERα阳性启动子也由Pol II和与基因激活相关的修饰组蛋白标记。(B)显示ERα结合启动子和E之间重叠的文氏图2-诱导基因。(C类)E反应的基因表达谱分析2治疗。ERα结合与E2-受调控基因分为四类。在上调基因中,有29个基因被快速诱导,随后水平保持相对稳定;8只以时间依赖性方式诱导;诱导12只,随后迅速衰退。E类2-诱导表达的基因占启动子近端区域ERα结合基因总数的10.5%。只有5个ERα结合基因被E下调2占启动子近端区域ERα结合基因总数的1.1%。(D类)基于ERα结合和E分离ER表达和乳腺肿瘤分级(顶部用蓝色条表示)2-诱导MCF-7细胞中的基因。(E类)基于ERα结合和E分离的不同组患者存活率的Kaplan–Meier曲线2-MCF-7细胞中的诱导基因。统计显著性由χ决定2测试。
相反,只有54个ERα结合启动子对E2mRNA水平的快速变化表明大多数ERα结合启动子可能需要额外的辅因子2-依赖性基因表达(36–39). 因此,我们预测不同组ERα占据的启动子可能对E2不同细胞类型的刺激。事实上,我们发现ERα束缚的子集,但E2-MCF-7细胞中不敏感的启动子可被ERα直接靶向并被E诱导2在稳定表达ERα的U2OS细胞中(数据未显示)。这一观察表明,至少对于一些启动子来说,它们代表了不同环境下真正的雌激素靶基因。
为了进一步研究ERα结合和雌激素调节基因表达的生物学相关性,我们询问了新鉴定的54 E2-利用251例乳腺癌患者的一组全面的基因表达谱数据,乳腺癌组织中反应性ERα靶基因可能受到不同的调控(40). 通过无监督的层次聚类,我们发现基因表达与肿瘤进展直接相关(D类). 患者被分为三组。第2组中约有一半的基因被强烈抑制,表现为ER阴性状态和晚期肿瘤分级(D类). 值得注意的是,与其他两组相比,该患者组的存活率大大降低(E类). 这些结果说明了通过将基因表达谱与特定疾病中改变的关键转录调控因子的位置分析相结合来进行疾病病因学研究的一般策略。
材料和方法
细胞培养和抗体。
MCF-7细胞在添加10%FBS的MEM中培养。诱导前,细胞在无酚MEM和炭化物耗尽的FBS中进行激素释放4天,然后用100 nM E处理2(Sigma–Aldrich,St.Louis,MO)1小时用于ChIP或不同时间段的RNA分析,如图所示。用于ChIP分析的抗体是抗RNAP(8WG16)(MMS-126R;Covance,Princeton,NJ)、抗ERα(HC-20和H-184组合;Santa Cruz Biotechnology,Santa Cruz,CA)、抗CBP(C-20和A22组合;Santa Cruz Biotechnology)。所有抗修饰组蛋白抗体均来自Upstate Biotechnology(Lake Placid,NY),包括抗AcH3K9(07-352)、抗Me1H3K4(07-436),抗Me2H3K4(07-030),抗Me3H3K4(07-473),抗Me3H3K9(07-442),抗Me3H3K27(07-449)和抗Me2H3K79(07-366)。
阵列制造和ChIP-DSL分析。
人类启动子通过将Refseq mRNA与人类基因组对齐进行注释,并使用现有EST进行扩展。相对于每个转录起始点,从+200到−800 bp的序列用于确定代表该启动子的最独特的40-mer。根据制造商的说明(Amersham Biosciences),所有40-mer寡核苷酸都是在寡核苷酸合成过程中氨基衍生的,并打印在3D-CodeLink载玻片上。对应于每个40-mer,合成了一对分析寡核苷酸,每个寡核苷酸包含40-mer序列的一半,两侧有一个通用的引物结合位点。内部控制的内置平铺路径基于多个人类基因的序列,寡核苷酸探针在每个基因单元中以≈0.5-kb的间隔选择。注释的人类基因启动子的基因组坐标和阵列数据已提交给ArrayExpress(网址:www.ebi.ac.uk/aerep).
如前所述,细胞通过甲醛交联并接受标准ChIP(41). 每个ChIP-DSL实验使用一个100 mm培养皿中的细胞。根据制造商的说明,使用试剂盒(Vector Laboratories)对输入的(约占总DNA的5%)和富含抗体的DNA进行随机生物素化。所有T7-连接分析寡核苷酸均为激酶,然后与所有T3-连接寡核苷酸混合。对于每个反应,我们在悬浮在10μl TE缓冲液中的池中使用0.1 pmol每寡核苷酸。寡核苷酸退火、固相选择、连接和PCR扩增的程序如下所述(42),除塔克用连接酶代替T4连接酶以提高结扎特异性。输入DNA用Alexa Fluor 647标记,染色质免疫沉淀DNA用Cy3标记。将PCR产物混合、变性并杂交到40-mer Hu20K阵列。幻灯片在GenPix 4000B扫描仪(Axon Instruments)上进行扫描。Hu20K阵列和带有详细说明的相关检测试剂盒可从Aviva Systems Biology公司购买。