MEDME: An experimental and analytical methodology for the estimation of DNA methylation levels based on microarray derived MeDIP-enrichment

Mattia Pelizzola; Yasuo Koga; Alexander Eckehart Urban; Michael Krauthammer; Sherman Weissman; Ruth Halaban; Annette M. Molinaro

doi:10.1101/gr.080721.108

基因组研究。2008年10月；18(10): 1652–1659.

数字对象标识：10.1101/gr.080721.108

预防性维修识别码：PMC2556264型

PMID：18765822

MEDME：一种基于微阵列衍生MeDIP富集的DNA甲基化水平估计的实验和分析方法

马蒂亚·佩利佐拉,^1,⁵ Yasuo Koga公司,^2,⁵ 亚历山大·埃克哈特·乌尔本,² 迈克尔·克劳萨默尔,^三谢尔曼·魏斯曼,² 鲁斯·哈拉班,⁴和安妮特·莫利纳罗^1,⁶

作者信息文章注释版权和许可信息 PMC免责声明

摘要

DNA甲基化是影响转录机制的表观遗传修饰的重要组成部分，在许多人类疾病中是异常的。已经开发了几种方法来绘制有限区域或全基因组的DNA甲基化。特别是，甲基化CpG特异性抗体已成功应用于全基因组研究。然而，尽管所得结果具有相关性，但对抗体富集的解释并不简单。最重要的是，富含抗体的甲基化片段与微阵列的偶联产生了与真实甲基化水平不线性相关的DNA甲基化估计。在这里，我们提出了一种实验和分析方法，MEDME(米建模电子实验的d日ata与M（M）电子数据保护协议电子nrichment），以获得更好地描述整个基因组中DNA甲基化水平的真实值的增强估计。我们提出了一个在高通量环境中评估真实关系的实验方案，以及一个基于模型的分析来预测绝对和相对DNA甲基化水平。我们成功地将该模型应用于评估正常人类黑色素细胞与黑色素瘤细胞株相比的DNA甲基化状态。尽管基于免疫沉淀的方法具有低分辨率的典型特征，但我们表明，DNA甲基化的模型推导估计值与测量的绝对和相对水平具有相对较高的相关性，正如亚硫酸氢盐基因组DNA测序所证实的那样。重要的是，模型衍生的DNA甲基化估计简化了对单基因座和染色体宽水平结果的解释。

表观遗传学可以定义为研究不受基因序列信息驱动的基因活动和表达调控的变化。表观遗传改变现已被公认为与许多常见人类疾病高度相关(埃斯特勒2007;Jirtle and Skinner 2007年). 因此，一项主要工作致力于绘制整个人类基因组的表观遗传修饰。

表观遗传学中公认的两个主要过程是DNA包装和DNA甲基化。在前者中，组蛋白主要负责DNA的包装，进而决定转录机制的局部可及性和随后的基因活性。特别是，组蛋白的许多翻译后修饰控制着这种包装(Goldberg等人，2007年). 在第二个过程中，CpG二核苷酸中的胞嘧啶被甲基修饰。这些细微的改变对基因转录的控制有着极其重要的影响(Goldberg等人，2007年).

DNA包装和甲基化是错综复杂且高度相互依赖的(Goldberg等人，2007年). 然而，对前者的完整评估仍然是一个挑战，因为它需要评估在各种条件下可能发生的一系列翻译后组蛋白修饰。另一方面，DNA甲基化由于其稳定性以及廉价简单的检测诊断试验的前景，对生物标记物的发现极具吸引力(埃斯特勒2003).

到目前为止，有几种方法可用于确定DNA甲基化水平。虽然亚硫酸氢盐基因组DNA测序是鉴定特定CpG甲基化状态的金标准，但它尚不适合高通量分析(埃斯特勒2003). 最近的一份出版物报道了亚硫酸氢盐DNA序列测定拟南芥基因组(Cokus等人，2008年); 然而，已测序的基因组（120Mb）的大小远小于小鼠和人类的基因组。其他基于限制性内切酶、体内结合甲基化CpG的蛋白质或抗体的技术目前用于全基因组定量分析。首先，利用甲基化敏感和不敏感限制性内切酶的混合物来消化DNA(舒马赫等人，2006年). 该技术的优点是甲基化/非甲基化序列的富集不依赖于CpG对的密度。尽管如此，限制性内切酶仅能识别有限的CpG位点子集，即使在鸡尾酒中结合。在第二种技术中，甲基化的DNA结合蛋白用于富集DNA片段(Ballestar等人，2003年). 在第三种方法中，针对甲基化CpG（mCpG）的抗体用于在甲基化序列中富集DNA（甲基化DNA免疫沉淀，或MeDIP）(Weber等人，2005年). 基于结合蛋白和抗体的技术的主要优点是富集独立于CpG位点周围的序列，也就是说，无论CpG是否属于特定的限制性内切酶识别序列，它们都会被识别。缺点是噪音会侵入CpG密度低的区域。对于这两种方法，得到的富集序列集要么直接测序，要么与寡核苷酸微阵列杂交。

基于MeDIP的研究表明，抗体富集可以定量测定DNA甲基化水平，并与RNA聚合酶II的结合量相关，表明转录活性或抑制(Weber等人，2005年,2007). 然而，通过MeDIP富集估算的DNA甲基化水平分析存在一些尚未充分解决的缺陷。

最令人担忧的是当前MeDIP分析中的错误假设，这迫使MeDIP富集估计值与真实甲基化水平之间存在线性关系。第二，报告的特定于地方的验证韦伯等人（2005）清楚地表明，DNA甲基化水平作为抗体富集的一个函数的预测是非常重要的，并且在很大程度上取决于相应区域的总CpG含量。第三，MeDIP富集度被确定为富集分数和输入分数的对数比（logR）。这种测量不同于与基因表达相关的logR，缺乏直观的解释，因为它的动态范围被任意指定为亚甲基化和超甲基化区域。忽视这些相关观察结果会严重影响DNA甲基化绝对水平和差异水平的估计。以前在高通量基因表达研究中也研究过类似的基本问题，从而发展了数据分析方法，更准确地估计表达水平，并随后识别差异表达基因(Allison等人，2006年).

在这里，我们表明MeDIP富集是真实甲基化水平的非线性函数，并提出了一种实验和分析方法的组合，即MEDME(米建模电子实验的d日ata与M（M）电子数据保护协议电子nrichment），以改进MeDIP衍生DNA甲基化估计的评估和解释。

结果

MeDIP富集与真实DNA甲基化水平之间关系的建模

此前，研究假设MeDIP检测产生抗体富集，抗体富集随着甲基化CpG（mCpG）的数量线性增加。然而，这一假设并没有确凿的证据，因为它是基于一组有限的基因组位点，并且忽略了微阵列杂交的影响(Weber等人，2005年). 为了确切地估计这种关系，我们设计了一个高通量实验，其中真实的甲基化水平是已知的。

简而言之，我们通过用CpG甲基转移酶处理非甲基化DNA来生成完全甲基化的DNA（有关详细信息和验证，请参阅方法）。在每个CpG都被甲基化的DNA样本中，MeDIP的富集预计是基因组上CpG密度的直接函数。为了确定估计甲基化水平和真实甲基化水平之间的关系，将前水平MeDIP富集与基因组CpG含量进行比较。

在对完全甲基化的DNA进行MeDIP分析后，将其与包含整个X染色体探针的平铺阵列杂交。输入的DNA未经MeDIP富集，被标记并与对照组杂交到同一阵列。随后，MeDIP与输入的对数比（logR）被准确地解释为富集度的度量。通常，ChIP-ChIP实验中平铺阵列探针的评分基于平滑数据，方法是将探针水平测量值替换为一组相邻探针的平均值或加权平均值(Irizarry等人，2008年). 同样，我们为每个探针定义了MeDIP富集我作为以探针为中心的1kbp窗口中探针的加权平均值我（有关详细信息，请参见方法）。在这个定义中有两个重要的考虑因素。首先，窗口的大小直接影响每个探针CpG计数的测定（即实际甲基化水平）。其次，CpG之间的距离可以改变探针强度。因此，我们决定减轻来自远离正在考虑的探测器的信号的重量。最后，我们将线性加权与1 kbp窗口大小配对，以确定每个探针的CpG数量（CpGw；有关详细信息，请参阅方法）。在实验数据集中，CpGw和mCpGw是等效的，因为每个CpG都被预期甲基化。

我们用实验数据进行了两次独立的微阵列杂交。首先，建立了富集水平和有效DNA甲基化状态之间的真正关系。图1A显示了第一次杂交的密度散点图，显示了探针水平MeDIP富集与对数₂mCpGw（百万立方厘米）。通过评估整个甲基化范围内一系列容器内的中值，可以观察到明显的乙状趋势。因此，我们用一个逻辑模型来近似这个趋势。基于中值的模型残差在0左右对称分布（未显示数据），拟合优度得到确认（偏差χ² 对-值=5×10⁻⁵⁸). 观察值在逻辑曲线周围的分散，可见于图1A这是由于抗体富集和微阵列背景相结合而产生的噪声。如中所述韦伯等人（2007）预期mCpG特异性抗体与低mCpG-密度的靶序列的结合不太稳定。因此，我们预计在mCpG密度较低的区域进行噪声富集测量，并且随着甲基化水平的增加，散射显著减少。物流功能的两个平稳期在图1A：第一个对应于日志₂甲基化水平低于1，归因于背景噪声；第二种与高于5的水平有关，是由于抗体饱和。预计在1 kbp窗口内准确检测不到2 mCpGw，因为这大致相当于在相似大小的区域中发现四个甲基化CpGs。类似地，精确估计超过32 mCpGw相当于在1 kbp区域内清楚地描绘出超过64 mCpG。在实验数据中，~15%的探针在1 kbp窗口中的mCpGw小于2，5.5%的探针的mCp Gw大于16。基于第一次杂交的数据，我们实现了一个参数模型，该模型允许我们预测mCpGws的数量作为MeDIP富集的函数。该值称为绝对甲基化得分（AMS）（有关详细信息，请参阅方法）。

在单独的窗口中打开

图1。

MeDIP logR是对数甲基化水平的逻辑函数。(A类)逻辑模型（蓝线）描述了MeDIP日志之间的关联₂R和日志₂观察到甲基化水平。使用完全甲基化的基因组DNA，我们基于每个探针中心1 kb窗口中mCpG的加权计数来确定甲基化水平（mCpGw，使用染色体X平铺阵列）。红点表示整个mCpGw动态范围内每个箱子内的中值MeDIP logR。(B类)X染色体的绝对甲基化得分（AMS）和预期DNA甲基化水平。根据第一次杂交估算的模型参数已应用于从第二次杂交（黑线）导出的MeDIP logR，以确定对数₂（AMS）（红线）。日志₂（mCpGw）对应于预期的甲基化水平（蓝线）。对数相对甲基化得分（RMS）用金线表示。所有估计值都是用三次样条函数进行染色体宽度平滑的。

模型推导的绝对和相对DNA甲基化估计值的测定

第二次杂交获得的数据用于在独立实验中测试模型的一致性。因此，从第一次杂交数据中获得的模型参数随后用于根据第二次杂交中的MeDIP富集预测前水平绝对甲基化（AMS）。将AMS与整个X染色体的预期甲基化水平（mCpGw）进行比较，并在图1B：。探针水平AMS和mCpGw之间的相关性很好（皮尔逊相关系数=0.60），而与三次样条平滑的染色体宽度数据的相关性非常显著（皮尔逊相关性系数=0.93）。这一结果表明，该模型可以成功地估计mCpG的数量，并证实相邻探针组比单个探针组信息更丰富(Irizarry等人2008).

在评估亚硫酸氢盐基因组DNA测序产生的甲基化状态时，人们通常认为mCpG的绝对数量和相对数量都提供了相关和补充信息。通过对AMS相对于CpGw表示的CpG总数进行归一化，可以得出甲基化的相对测量值。这使我们能够获得甲基化的相对测量值，该测量值独立于相应区域的CpG密度。该测量被称为相对甲基化得分（RMS）（有关详细信息，请参阅方法）。我们表明，当比较具有不同CpG密度的区域时，RMS特别有用。在实验数据集中，每个CpG都被甲基化，RMS预计为1。日志₂RMS实际上在0左右对称分布（未显示数据），X染色体上的轮廓由三次样条平滑确定(图1B).

这些结果加强了上述模型的优点。随后，我们使用相同的微阵列平台和协议，对其在实际数据集中的应用进行了评估。

该方法在实际数据集中的应用

为了验证该方法并显示所设想的优势，将其应用于实际数据集。使用MeDIP测定并比较两种细胞类型的DNA甲基化状态：正常新生儿黑素细胞（NBMEL）和黑色素瘤细胞株（YUSAC2）（各两次杂交）。对于相同的样本，还可以使用NimbleGen表达阵列获得全基因组表达数据，每个重复四次。确定了MeDIP logR的加权平均值，并应用该模型确定AMS和RMS。

与其他基因组区域相比，启动子区域是低甲基化的，与健康样本相比，肿瘤中的启动子区域相对高甲基化(埃斯特勒2007). 基因组区域在CpG含量方面差异很大。因此，为了解决这种偏差，将甲基化水平标准化是很方便的。RMS非常适合于此目的，并且清楚地表明，与其他基因组区域相比，启动子通常是低甲基化的（有关其定义，请参阅方法）(图2A、B). 此外，它证实启动子在黑色素瘤中通常是超甲基化的(图2C). 值得注意的是，在评估MeDIP富集时，不可能发现任何启动子亚甲基化(图2D，E). 只观察到黑色素瘤启动子的富集增加，而没有测量其大小(图2F).

在单独的窗口中打开

图2。

不同基因组区域的探针水平甲基化。该图显示了NBMEL不同基因组区域中probelevel RMS的分布(A类)和YUSAC2(B类). 两个样本的启动子RMS比较见C类.MeDIP logR在NBMEL不同基因组区域的分布(D类)和YUSAC2(E类). 两个样本启动子MeDIP logR的比较如所示如果所有的分布已经通过每个基因组区域中的探针数量进行了归一化。启动子区域识别TSS上游1 kb内的探针；TSS上游1–4kb范围内的基因间上游识别探针。

启动子DNA甲基化有望决定下游基因的转录抑制。事实上，启动子的平均RMS与下游基因的表达呈显著的负相关（例如，NBMEL样本的X染色体上的1035个转录物，参见图3). 值得注意的是，当用相同启动子的平均MeDIP logR重复相同的分析时，DNA甲基化和基因表达之间的关联明显更为杂乱（参见图3).

在单独的窗口中打开

图3。

平均NBMEL启动子RMS与基因表达水平的相关性。对于每个RMS箱，报告基因表达盒和胡须图（识别对数的第一、第二和第三四分位的框₂平均基因表达）。该线表示中位数的趋势。(插入)显示与MeDIP logR相同的分析X（X）-轴。

基因级验证

我们的方法预测的绝对和相对甲基化水平已与NBMEL和YUSAC2样品上14个基因座的亚硫酸氢盐基因组DNA测序确定的绝对和相对甲基化水平进行了比较。这一比较因两个问题而变得复杂。首先，亚硫酸氢盐基因组DNA测序的分辨率明显高于MeDIP，后者的分辨率受到免疫沉淀所需片段大小的限制。这导致甲基化测量的准确性降低，尤其是在甲基化水平高度可变的区域。其次，AMS预计与mCpG的实际绝对数呈线性相关；然而，预计绝对水平不具有可比性。事实上，亚硫酸氢盐测序扩增子的大小明显小于用于确定AMS的1kb区域。此外，AMS是由1-kbp区域甲基化CpG的加权平均值得出的，而不是由精确位点测量的非加权估计值得出的。

尽管有这些并发症，AMS和RMS与CpG的实际绝对数和相对数（分别为0.75和0.75，图4A、B; 实际数字见补充表2）。扩增子周围区域的探针水平数据也报告了两个基因(ARMCX2系列和ZIC3公司;图4C、D)与五个克隆的亚硫酸氢盐基因组DNA测序一致(图4E、F). 例如，关于ZIC3公司相对DNA甲基化水平在1kb内预测为10%（NBMEL）和75%（YUSAC2）100*mCpG/CpG，在221-bp测序扩增子中发现0%（NBMEL）和67%（YUSAC 2）。

在单独的窗口中打开

图4。

亚硫酸氢盐基因组DNA测序验证。通过亚硫酸氢盐测序确定14个基因的启动子甲基化状态，并与AMS进行比较(A类,Y（Y）-轴）和RMS(B类,Y（Y）-轴）。AMS和RMS是指用于亚硫酸氢盐基因组DNA测序的扩增子内探针的平均值。甲基化水平的加权MeDIP logR（MeDIPw）、绝对（AMS）和相对（RMS）测量ARMCX2系列促进剂(C类)和ZIC3公司促进剂(D类)如图所示。灰色线表示通过亚硫酸氢盐基因组DNA测序分析的区域。CpGr表示每个探针的CpG比率（有关详细信息，请参阅方法）。差异甲基化亚硫酸氢盐测序ARMCX2系列促进剂(E类)和ZIC3公司促进剂(如果)如图所示。每一行表示单个克隆的序列。CpG表示为开放点（如果未甲基化）或填充点（如果甲基化）。每个扩增子显示CpG甲基化的百分比。

为了验证该模型适用于不同设计的微阵列平台，对相同样本进行MeDIP，并将DNA杂交到NimbleGen制造的全基因组启动子拼接阵列。尽管两个微阵列平台的设计完全不同，但结果高度一致（参见示例，ARMCX2系列在补充条款中图3).

讨论

MeDIP是目前全基因组富集DNA甲基化序列的最佳方法之一(Weber等人，2005年,2007). 尽管与亚硫酸氢盐DNA测序相比，其分辨率相对较低，但甲基化胞嘧啶特异性抗体沉淀是少数允许无偏见评估全基因组DNA甲基化的技术之一。尽管它很受欢迎，但我们在分析MeDIP衍生数据时发现了需要进一步调查的陷阱。

基于MeDIP富集的DNA甲基化测量无法明确解释，因为人们无法轻易将其与实际甲基化水平关联。在MeDIP技术开发人员的原始出版物中，这种限制是显而易见的(Weber等人，2005年). 事实上，尽管成功验证了他们的结果，抗体富集数据仍然不容易与亚硫酸氢盐基因组DNA测序提供的绝对和相对甲基化测量值相关联(Weber等人，2005年). 我们已经表明，这种困难的原因与抗体富集数据和DNA甲基化水平之间的非线性关系直接相关。根据原始出版物(Weber等人，2005年)这种关系应该是线性的。然而，如中所示图1A成功地将其建模为mCpG数量对数的逻辑函数。

基于这个模型，我们的方法提供了绝对和相对甲基化水平的估计。我们指出了这两种估计在解释数据以及启动子甲基化和基因表达模式之间的相关性方面是如何有用的。事实上，我们建议将绝对和相对甲基化估计值都考虑在内，以便进行深入分析（正如亚硫酸氢盐DNA测序后所做的那样）。特别是，我们证明RMS在比较具有不同CpG密度的基因组区域以及描述启动子甲基化与转录抑制的关联方面是有效的。此外，在癌症生物学背景下的分析证实了黑色素瘤启动子区域相对于正常细胞的预期DNA超甲基化。所有报告的发现都通过模型衍生的甲基化估计而非MeDIP富集更清晰地捕获。

目前，人们对使用下一代基于序列分析的方法进行表观基因组分析越来越感兴趣。特别是，MeDIP可以与这些测序方法结合。需要进行新的实验来研究我们在这里描述的抗体富集和甲基化水平之间的关系是否仍然有效。如果是这样，我们希望这种方法有助于解释下一代测序方法得出的抗体富集测量结果。

总之，我们已经证明，可以确定抗体富集和甲基化水平之间的真正关系。我们的方法通过将抗体富集数据转换为可理解的绝对和/或相对范围来促进结果的解释。此外，我们还提供了实验证据，证明我们的方法可以应用于使用相同协议和阵列平台导出的实际数据集。最后，我们证明了该方法适用于具有不同设计的两个微阵列平台。

方法

细胞

从新生儿包皮（NBMEL）在基础培养基（OptiMEM，补充5%胎牛血清和青霉素/链霉素）中培养正常人黑素细胞，该培养基富含增殖所需的以下成分：TPA（20 nM，12-O（运行）-十四烷酰基佛波醇-13-乙酸酯）、IBMX（0.1 mM，3-异丁基-1-甲基黄质）、霍乱毒素（2.5 nM）、钒酸盐（1μm）和dbcAMP（0.1 mM，N⁶, 2′-O（运行）-二丁酰腺苷3:5-环一磷酸），称为TICVA(Cheng等人，2006年). 从转移性黑色素瘤中建立黑色素瘤细胞（YUSAC2），并在基础培养基中生长。样本是根据健康保险携带和责任法案（HIPAA）规定和人类调查委员会协议收集的。根据制造商的说明，使用DNeasy Blood&Tissue Kit（QIAGEN）提取基因组DNA。

完全甲基化DNA的衍生

应用全基因组扩增技术产生正常人类黑素细胞基因组DNA的非甲基化拷贝（REPLI-g Mini-Kit，QIAGEN）。用CpG甲基转移酶（M.SssI，NEB）处理扩增的非甲基化DNA，将甲基基团添加到CpG二核苷酸内的所有胞嘧啶残基中，以获得完全甲基化的基因组DNA。这已通过八个基因组位点的亚硫酸氢盐DNA测序得到验证。我们确认非甲基化基因组DNA中存在0%的mCpG，完全甲基化DNA中存在90%–100%的mCp G（见补充表1）。

甲基化DNA免疫沉淀

MeDIP改编自之前的研究(Weber等人，2005年). 通过超声将基因组DNA剪切成300–1200-bp片段，并通过在4°C下将10μg超声基因组DNA与20μg小鼠抗5-甲基胞苷单克隆抗体（Eurogentec）孵育12 h，使甲基化DNA免疫沉淀。将50μL带有M-280绵羊抗小鼠IgG抗体的Dynabeads（Dynal Biotech）添加到混合物中，并在4°C下孵育2 h。分别在含有1.0%和0.67%SDS的200μL TE中进行两次洗脱，然后通过标准蛋白酶K/酚-氯仿程序回收甲基化DNA。还从未结合组分中回收DNA。实时PCR用于验证甲基化富集量HOXA5型启动子和未甲基化ACTB公司发起人以及第19页单等位甲基化印迹控制区(H19ICR公司) (Tremblay等人，1997年)在每个DNA片段中。使用来自NBMEL（参见补充图1）和黑色素瘤细胞（数据未显示）的DNA，富集每个级分的三个生物重复显示出高再现性。用荧光染料（Cy3/Cy5）对洗脱组分和声波输入DNA中的剩余DNA进行差异标记，并竞争性地与基因组DNA阵列杂交。实时PCR的引物序列见补充表3。

染色体DNA甲基化检测阵列的设计、探针注释和数据处理

阵列设计

染色体X平铺阵列是NimbleGen根据UCSC人类基因组的Hg17版本制造的定制微阵列。它包含约380000个探针，平均长度为60 nt，跨越整个染色体，每个110 bp。

数据处理

Limma Bioconductor/R库中可用的归一化方法内（基于黄土）和间（基于分位数）(伊哈卡与绅士1996;Smyth和Speed 2003;Gentleman等人2004;史密斯2005)作为双通道微阵列的标准方法。

阵列探测器注释

阵列上每个探针中心的位置已与从UCSC人类基因组注释下载的已知RefSeq的Hg17基因组位置进行了比较。考虑了七个不同的基因组区域：基因间、基因间上游、启动子、外显子、内含子、5′UTR和3′UTR。基因间区域被定义为TSS上游大于4kb或每个RefSeq ID转录本末端的下游。基因间上游区域被定义为由TSS上游小于4kb但大于1kb的区域。启动子区域定义为TSS上游1 kb内。允许在不同区域和/或与不同RefSeq ID关联的多个探测器注释。

全基因组基因表达检测阵列的设计、探针注释和数据处理

使用NimbleGen全基因组人类表达阵列（2005-04-20_human_60mer_1in2）。该阵列上共有约400000个探针，用于约30000个转录物和约20000个已知基因。NimbleGen提供设计和探针注释。

采用Limma Bioconductor/R库中可用的归一化方法内（基于黄土）和间（基于分位数），作为双通道微阵列的标准方法(伊哈卡与绅士1996;Smyth和Speed 2003;绅士等人2004;Smyth 2005年).

MEDME算法

以下各节说明了使用MeDIP扩展算法（MEDME）建模实验数据的详细信息。MEDME R库也可在线访问网址：http://espresso.med.yale.edu/medme/PDF小插曲是该包的一部分，说明了对本手稿中数据子集的分析。

MeDIP富集加权

对于每个探针我，以中心为中心的1kbp窗口内探针抗体富集的加权平均值我已确定（MeDIPw）。重量是探针距离中心距离的线性函数我，在中心等于一我上游或下游500 bp时为零。在仔细考虑了应用加权计数以及片段大小范围为～300 bp–1200 bp的事实后，将窗口大小设置为1 kbp（进一步讨论请参见下一段）。

预期甲基化水平

完全甲基化样品的预期甲基化水平与基因组中CpG的数量直接相关。要确定与每个探针相关的CpG总数，需要选择窗口大小。同时，为了考虑到CpG在所考虑窗口内的相对位置的影响，可以采用加权方案。

为了确定窗口大小，我们评估了MeDIP富集与300 bp至2000 bp窗口中CpG数量的相关性。为了确定CpG距离探针的影响，我们确定了每个窗口的CpG加权计数，这些窗口实现了不同的加权函数（无、线性、指数或对数，权重一位于每个探针的中心，零位于窗口大小/2-bp上游或下游）。结果表明，MeDIP logR可以建模为甲基化水平的逻辑函数（确定为log₂CpG总数的百分比），并且采用CpG加权计数(CpGw公司)确定散射略有减少，尤其是窗口大小大于800bp时（未显示数据）。根据这些结果，选择了大小为1 kbp的窗口和CpG的线性加权计数。这些条件提供了充分的模型拟合，并与免疫沉淀片段的预期大小保持一致（数据未显示）。在完全甲基化样品的情况下，CpGw和mCpGw被认为是等效的。最佳窗口大小的选择可能取决于MeDIP协议、微阵列平台和设计。为此，可用的MEDME软件允许设置此参数以及权重函数（无、线性、指数或对数）。

模型参数的确定

探针水平加权MeDIP富集（MeDIPw）与测井有关₂mCpG的（mCpGw）计数，并基于跨越甲基化水平范围的箱子内估计的中值富集集拟合逻辑模型。在确定每个箱子的中值之前，微阵列控制探针和对数探针₂（mCpGw）小于零被丢弃（～数组的9%）。其余探测根据日志进行分组₂（mCpGw），在0至6个箱子中，每个箱子的尺寸为0.1。然后，为每个箱子内的探针确定MeDIPw浓度中值。使用drc R库（1.3版）将四参数逻辑模型拟合在MeDIPwmedians集合上，该库最初用于提供乙状结肠剂量响应曲线的模型：

绝对和相对DNA甲基化水平估计值的生成

一旦模型参数{a、 b、c、d}经估计，可以估计前水平绝对甲基化水平AMS_我（即，探针在1 kbp窗口中的mCpG加权计数我)基于加权MeDIP富集，MeDIPw_我，通过：

AMS公司_我根据中可见的模型平台，小于1和大于32分别强制为1和32图1A：。这些分别代表了微阵列衍生抗体富集的背景噪声和饱和度。这些值可能取决于MeDIP协议和微阵列平台和设计。因此，MEDME软件允许根据模型拟合和窗口大小参数的选择来设置这些值。

确定每个探针的DNA甲基化（RMS）相对测量值我通过考虑以中点为中心的1kbp窗口内的一组探针我.探针的RMS我通过将该集合中的平均AMS除以相应的平均CpGw数得到。

见补充条款图2以总结方法。

亚硫酸氢盐基因组DNA测序

亚硫酸氢盐基因组测序如前所述Jacobsen等人（2000年）。测序的区域和使用的引物列于补充表3。

CpG比率（CpGr）的测定

中报告的探针水平CpGr图4C、D根据韦伯等人（2007）。简单地说，每个探针的GC含量和观察到的与预期的CpG二核苷酸的比率被确定为（CpGs数量×500 bp）/（Cs数量×Gs数量）。

致谢

我们感谢耶鲁大学皮肤病研究核心中心的细胞培养核心设施，该设施由NIAMS拨款5 P30 AR 041942-12（Robert Tigelaar博士，PI）支持，提供了正常的人类黑色素细胞和黑色素瘤细胞；Chris Hart协助设计X染色体拼接阵列；凯伦·洛斯特里托（Karen Lostritto）、大卫·埃尔森（David Elson）和三位评论员提出了建设性的批评和有益的建议。这项工作得到了由国家癌症研究所资助的耶鲁皮肤癌孢子基金的支持，该基金的资助号为1 P50 CA121974（Halaban，PI）。M.K.获得了国家医学图书馆拨款K22LM009255的支持，A.M.M.获得了国家癌症研究所拨款K22CA123146-2的支持。

脚注

[补充材料可在线获取，网址为网址：www.genome.org本研究的微阵列数据已提交给基因表达总署（GEO），注册号：。GSE12096标准MEDME R库、安装说明和PDF教程可在线获取，网址为http://espresso.med.yale.edu/medme网站/.]

文章在印刷前在线发布。文章和发布日期为http://www.genome.org/cgi/doi/10.1101/gr.080721.108.

工具书类

Allison D.B.、Cui X.、Page G.P.、Sabripour M.、Cui X、Page General P.、Samripour M、Page Global P.和Sabripoour M.微阵列数据分析：从混乱到巩固和共识。Genet国家牧师。2006;7：55–65。[公共医学][谷歌学者]
Ballestar E.、Paz M.F、Valle L.、Wei S.、Fraga M.F.、Espada J.、Cigudosa J.C.、Huang T.H.、Esteller M.、Paz MF、Valle L、Wei S、Fraga MF、Esbada J.C.、Chigudosa J.C.、黄T.H。，Fraga M.F.、Espada J.、Cigudosa J.C.、Huang T.H.、Esteller M.、Espada J.，Cigudosa J.C.、黄T.H.，Esteller M、Cigudosa J.C.，Huang T.H.、酯ler M.和Esteller M.甲基-CpG结合蛋白确定了人类癌症中表观遗传失活的新位点。EMBO J。2003;22:6335–6345. [PMC免费文章][公共医学][谷歌学者]
Cheng E.、Trombetta E.S.、Kovacs D.、Beech R.D.、Ariyan S.、Reyes-Mugica M.、McNiff J.M.、Narayan D.、Kluger H.M.、Picardo M.、Trombetta E.S、Kovacs-D.、Beech-R.D.、阿里扬S.、雷耶斯·穆吉卡M.、麦克尼夫J.M.和纳拉扬D.、Klauger H.M。，Beech R.D.、Ariyan S.、Reyes-Mugica M.、McNiff J.M.、Narayan D.、Kluger H.M.、Picardo M.、Ariyan S.、Ryes-Mugina M.、McNiff J.M、Narayan D.、K卢ger H.M.、Picarto M.、Reyes-Mugic M.、麦克尼夫J.M.，Narayan.D.、Kluger H.M..、Picardom、Naryan D。，Picardo M.等人。Rab33A：通过表观遗传修饰进行表征、表达和抑制。J.投资。皮肤病。2006;126:2257–2271.[公共医学][谷歌学者]
Cokus S.J.、Feng S.、Zhang X.、Chen Z.、Merriman B.、Haudenschild C.D.、Pradhan S.、Nelson S.F.、Pellegrini M.、Jacobsen S.E.、Feng S、Zhan X.、陈Z.、梅里曼B.、豪登柴尔德C.D.、普拉丹S.、纳尔逊S.F.和Nelson M.、尼尔森S.F。，Chen Z.、Merriman B.、Haudenschild C.D.、Pradhan S.、Nelson S.F.、Pellegrini M.、Jacobsen S.E.、Merrima B.、Haugenschild C.D.、Prdhan S.、纳尔逊S.F.，Pellegrinit M.，Jacobsens S.E.、Haudeschild C.D.PradhanS.、尼尔森S.F.和Pellegroni M。，雅各布森S.E.、佩莱格里尼M.、雅各布森S.E.、雅各布森S.E.Shotgun亚硫酸氢盐序列测定拟南芥基因组揭示了DNA甲基化模式。自然。2008年；452:215–219. [PMC免费文章][公共医学][谷歌学者]
Esteller M.DNA甲基化在癌症管理中的相关性。柳叶刀Oncol。2003;4:351–358.[公共医学][谷歌学者]
Esteller M.癌症表观基因组学：DNA甲基体和组蛋白修饰图谱。Genet国家牧师。2007;8:286–298.[公共医学][谷歌学者]
绅士R.C.、Carey V.J.、Bates D.M.、Bolstad B.、Dettling M.、Dudoit S.、Ellis B.、Gautier L.、Ge Y.、Gentry J.、Carey 5.J.、Betes D.M.，Bolstat B.、Detling M.、杜多伊特S.、埃利斯B.、Gaitier L.，Ge Y..、Ge D.、Bolsta B.、Detteling M..、Dudoits S.、Erlis B。，Gautier L.、Ge Y.、Gentry J.、Dettling M.、Dudoit S.、Ellis B.、Gautier L、Ge Y.、Gentroy J.，Dudoit S.、Elli B.、Gaustier L.、Get Y.，Gentry J，Ellis B，Ge Y.Gentry L.，Gautier J.，Ge Y，Gentry.，Gentroy J，et al.生物导体：计算生物学和生物信息学的开放软件开发。基因组生物学。2004;5：R80。 [PMC免费文章][公共医学][谷歌学者]
Goldberg A.D.、Allis C.D.、Bernstein E.、Allis C.D.、Bernstein E.、Bernstien E.表观遗传学：景观形成。单元格。2007;128：635–638。[公共医学][谷歌学者]
Ihaka R.，Gentleman R.，Gentleman R.R：一种用于数据分析和图形的语言。J.计算。图表。斯达。1996;三:299–314. [谷歌学者]
Irizarry R.A.、Ladd-Acosta C.、Carvalho B.、Wu H.、Brandenburg S.A.、Wen B.、Feinberg A.P.、Ladd-Acosta C、Carvalho B.、Wou H.，Brandenberg S.A.、Win B.、Feenberg A.P、Carvalho B.、吴H.、布兰登堡S.A.、文B.、范伯格A.P。，Feinberg A.P.相对甲基化综合高通量阵列（CHARM）基因组研究。2008年；18:780–790. [PMC免费文章][公共医学][谷歌学者]
Jacobsen S.E.、Sakai H.、Finnegan E.J.、Cao X.、Meyerowitz E.M.、Sakai H.、Fennegan E.J、Cao X、Meyerowsitz E.M、Finnegan E.J.，Cao X.Meyerowitz E.M..、Cao X-、Meyerovitz E.M.、Meerowitz E拟南芥.货币。生物。2000;10:179–186.[公共医学][谷歌学者]
Jirtle R.L.、Skinner M.K.、Skiner M.K.环境表观基因组学和疾病易感性。Genet国家牧师。2007;8:253–262. [PMC免费文章][公共医学][谷歌学者]
舒马赫A.、卡普兰诺夫P.、卡明斯基Z.、弗拉纳根J.、阿萨扎德A.、姚P.、维塔南C.、维内加登N.、郑J.、金戈拉斯T.、卡普拉诺夫P、卡明斯克Z.、福拉纳根J、阿萨达德A.、尤P.、维塔南C、威内加登N、郑J、金戈拉T、卡明斯基Z、弗拉纳根J、亚萨达德A、姚P、维塔纳C、维内加登N、程J、金戈拉斯T、。，Flanagan J.、Assadzadeh A.、Yau P.、Virtanen C.、Winegarden N.、Cheng J.、Gingeras T.、Assazadeh A.、Youu P.，Virtanen-C.、Winegarten N.、程J.、金戈拉斯T.、Yau P、Virtan C.、Wingegarden N。，等。基于微阵列的DNA甲基化分析：技术和应用。核酸研究。2006;34:528–542. [PMC免费文章][公共医学][谷歌学者]
Smyth G.K.Limma：微阵列数据的线性模型。作者：R.绅士等，编辑。使用R和生物导体的生物信息学和计算生物学解决方案。施普林格；纽约：2005年。第397-420页。[谷歌学者]
Smyth G.K.，Speed T.P.，Speed T.P.cDNA微阵列数据的标准化。方法。2003;31:265–273.[公共医学][谷歌学者]
Tremblay K.D.、Duran K.L.、Bartolomei M.S.、Dulan K.L、Bartolmei M.S.和Bartolomai M.S.A印迹小鼠H19基因的5′2-千碱基区在整个发育过程中表现出专属的父系甲基化。分子细胞。生物。1997;17:4322–4329. [PMC免费文章][公共医学][谷歌学者]
Weber M.、Davies J.J.、Wittig D.、Oakeley E.J.、Haase M.、Lam W.L.、Schübeler D.、Davie J.J.，Wittig D、Oakley E.J.，Haase M，Lam W.L.、Shübeler D.、Wittig-D.、Oakeli E.J.和Haase M.，Lam W.L.，Schü的beler D.，Oakeley-E.J.。施贝尔D.，施贝尔D。染色体和启动子特异性分析确定正常和转化人类细胞中差异DNA甲基化的位点。自然遗传学。2005;37:853–862.[公共医学][谷歌学者]
韦伯M.、赫尔曼I.、斯塔德勒M.B.、拉莫斯L.、帕博S.、瑞宾M.、施贝尔D.、赫尔曼I、斯塔德勒M.B.、拉莫斯L..、帕博S、瑞宾M、施贝尔D、斯塔德尔M.B.、拉姆斯L.，帕伯S.、瑞宾M.，施贝尔D.，Schübeler D。人类基因组中启动子DNA甲基化的分布、沉默潜力和进化影响。自然遗传学。2007;39:457–466.[公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社