Impact of Chromatin Structures on DNA Processing for Genomic Analyses

Leonid Teytelman; Bilge Özaydın; Oliver Zill; Philippe Lefrançois; Michael Snyder; Jasper Rine; Michael B. Eisen

doi:10.1371/journal.pone.0006700

公共科学图书馆一号。2009; 4（8）：e6700。

2009年8月20日在线发布。数字对象标识：10.1371/journal.pone.0006700

预防性维修识别码：PMC2725323型

PMID：19693276

染色质结构对基因组分析中DNA处理的影响

列奥尼德·泰特尔曼,¹ 舱底水扎伊德,¹ 奥利弗·齐尔,¹ 菲利普·勒弗兰索瓦,² 迈克尔·斯奈德,² 贾斯拍·赖尼,¹和迈克尔·艾森^1,^三,^*

鲁道夫·阿拉马尤，编辑器

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充材料: 图S1： 不同菌株之间输入-Seq覆盖模式的再现性：散点图，比较基因组中各个位置的不同实验之间的序列读取密度。六个图显示了四个输入Seq读取计数的所有可能的成对比较酿酒酵母/巴亚努斯酵母杂交二倍体样品。
（3.29 MB畅通节能法）
电话：0006700.s001.tif（310万）
制导：5A28A588-54B0-45EA-88F6-75D5ED4C0C91
图S2： 输入Seq下覆盖区在染色体上的分布酿酒酵母/巴亚努斯酵母混合动力：输入序列覆盖率低的区域的百分比，作为与端粒距离的函数，间隔为20KB。χ²每个20 KB区间的p值，将该区间的覆盖下区域部分与全基因组的覆盖下部分进行比较，显示在每个图中。蓝线表示全基因组覆盖下区域的平均百分比（5.9%）。
（0.53 MB畅通节能法）
电话：0006700.s002.tif（513000）
GUID:13480CDC-09C7-459A-9FB8-3CFDD911AC70
图S3： 端粒的高输入Seq覆盖率酿酒酵母/巴亚努斯酵母混合动力：端粒和非端粒区域的输入-Seq读取覆盖的箱线图，归一化为非交联基因组读取。端粒箱线图中显示了Wilcoxon-Mann-Whitney p值，它比较了端粒和全基因组DNA的输入覆盖率分布。
（44百万桶/立方英尺）
部件.006700.s003.tif（432000）
GUID:C50A044B-FFA3-4D56-B610-51C24A108426
图S4： 端粒的高输入Seq覆盖率巴亚努斯链球菌以下为：的箱线图巴亚努斯链球菌input-Seq读取覆盖率，标准化为巴亚努斯链球菌非交联基因组读取，用于端粒和非端粒区域。端粒箱线图中显示了Wilcoxon-Mann-Whitney p值，它比较了端粒和全基因组DNA的输入覆盖率分布。
（0.44 MB畅通节能法）
电话：0006700.s004.tif（432000）
GUID:F194E3FB-068D-4D77-BD8F-6AEABF6063D3
数据集S1： 全基因组输入和基因组序列读取覆盖率：列出100 bp窗口的全基因组位置、中值输入和基因组序列读取计数。
（2.97 MB GZ）
电话：0006700.s005.gz（280万）
指南：76F76348-389B-4E67-8029-FE4CD5C01031
表S1： Input-Seq最小覆盖区域：由基因组读取计数归一化的300个输入Seq最小覆盖区域组成的表。
（0.04 MB XLS）
电话：0006700.s006.xls（4.1万）
GUID:5FE521F7-A02A-4B14-9187-EB852F50D497
表S2： Input-Seq最受覆盖的区域：根据基因组序列读数归一化的300个输入Seq最覆盖区域表。
（0.03 MB XLS）
电话：0006700.s007.xls（32K）
GUID:7206050F-4BA2-472D-BC94-B2497F300160

摘要

染色质对DNA的重组、修复、复制和进化有影响。在这里，我们报告了染色质结构也会以扭曲染色质免疫沉淀（ChIP）实验结果的方式影响实验室DNA操作。我们最初在酿酒酵母HMR该位点，我们发现沉默的染色质相对于常染色质来说不易剪切。使用ChIP-Seq研究的输入样本，我们在酵母基因组的异色部分检测到了类似的偏差。我们还观察到端粒、蛋白质结合位点和基因的显著染色质相关效应，反映在输入Seq覆盖率的变化中。候选区域的实验测试表明，染色质影响某些位点的剪切，染色质也可能导致制备样品中DNA水平的增加或减少，与剪切效应无关。我们的结果表明，基于染色质免疫沉淀的分析会因封装在不同染色质结构中的区域之间的内在差异而产生偏差，而这些偏差迄今为止大多被忽视。这些结果确立了这种偏差在全基因组范围内的普遍性，并表明这种偏差可用于检测基因组中染色质结构的差异。

介绍

染色质包装影响真核生物的转录、复制和重组[1]–[4]最近的出版物也强调了染色质结构对核苷酸替代率和模式的影响。异染色质中的基因黑腹果蝇与常染色对应物相比，其突变速度更快[5]，沉默的酵母DNA增加了碱基对取代率[6]和核小体结合和连接DNA在日本killifish中以不同的速度进化青鳉 [7]考虑到染色质对许多生化过程的影响体内，我们想知道一个基因座的染色质状态如何影响其在实验过程中的行为。特别是，染色质是否会在染色质免疫沉淀技术所涉及的物理操作中引入偏差，如果是的话，这些影响是否完全混淆，或者可能有用？

该分析是基于我们先前关于沉默交配位点DNA剪切的结果HMR公司属于酿酒酵母.无声交配磁带HML公司和HMR公司基因座是异染色质的酵母版本。监管场所，称为消音器，侧翼HML公司和HMR公司在里面酿酒酵母，并招募Sir蛋白质，这些蛋白质随后扩散到各个位点并抑制转录（参见[8]). 我们在Sir2存在和不存在的情况下测定了DNA剪切，这对沉默至关重要。在全球范围内，Sir+和Sir−菌株的基因组剪切程度相似，但在HMR公司具体地说，相对于Sir+细胞，Sir−细胞中声波剪切作用在数量上更广泛（提交的Øzayd n B.）。因此，染色质的一种复杂的生物状态体内对染色质的物理操作产生了影响在体外这一结果使我们不禁要问，染色质结构是否只影响沉默的交配盒的实验结果，或者更广泛地影响其他异色区，甚至影响基因组中常染色质的实验结果。

对于全基因组分析，我们依赖于来自ChIP-Seq实验的数据，该实验使用高通量测序来绘制基因组中特定蛋白质或染色质修饰的结合图[9],[10]特别是，我们检查了输入样本的测序读数的分布，其中剪切的染色质在没有免疫沉淀的情况下测序。我们的计算分析表明，这个控制数据集包含了一个意想不到的信息证明，反映了与不同类型染色质结构相关的DNA物理性质的差异。

结果

在染色质免疫沉淀和许多其他实验基因组应用中，DNA在随后的操作之前被物理剪切以产生小片段。如果剪切不均匀，以致基因组的某些区域在长片段中过度代表，我们推断这些区域将产生相对较少的序列读取。这可能是由于片段末端的密度较低，测序前的大小选择，以及测序过程中对小片段的偏见。如果酵母基因组中存在广泛的抗剪切染色质结构域，我们预计，在ChIP-Seq实验的输入控制中，这些区域将在序列读取中被低估，在这些实验中，剪切的甲醛交联染色质尚未被针对蛋白质的抗体或感兴趣的修饰物分离。

为了探索这种可能性，我们将1200万个input-Seq读取映射到酿酒酵母基因组。在整个手稿中，“输入”是指从这个交联和剪切的非免疫沉淀DNA中读取的序列。为了控制测序和绘图中的偏差，我们还绘制了900万份已发表的纯化基因组DNA（“基因组”）读取数据，这些数据在准备深度测序时也被剪切[11]在基因组的100个碱基对滑动窗口中，我们将映射输入读数的中位数除以每个窗口的映射基因组读数的中位数(数据集S1). 输入DNA序列读取的平均碱基覆盖率为16倍，基因组DNA序列读取为8倍，全基因组比率为2。然后，我们将输入序列读取覆盖的所有窗口从最少到最多进行排序，并根据基因组读取计数进行标准化。

序列读入偏差HMR公司,HML公司和亚砾岩区域

300块最小覆盖碎片(表S1)包括HML公司和HMR公司沉默的交配盒，证实了我们检测由于沉默而不能很好剪切的区域的能力。在300个区域中，159个（53%）位于亚粒区（端粒50千碱基对内），沉默蛋白也在那里形成抑制性染色质[12]–[14]作为酿酒酵母亚群基因组占13.4%，亚群区域的未覆盖DNA比例显著增加（p<10⁻¹⁶按χ²-统计数据）。在整个基因组中，只有亚聚集体区域异常地富含未被覆盖的片段(图1).

保存图片、插图等的外部文件。对象名称为pone.0006700.g001.jpg

在单独的窗口中打开

图1

输入Seq覆盖下区域在染色体上的分布。

输入序列覆盖率低的区域的百分比，作为与端粒距离的函数，间隔为20KB。χ²每个图中显示了每个20KB区间的p值，将该区间中未被覆盖区域的分数与全基因组未被覆盖分数进行比较。蓝线表示全基因组覆盖下区域的平均百分比（7.6%）。

端粒重复序列阅读的过度表达

由于沉默染色质与输入读取的欠采样有关，我们询问其他染色质状态是否会扭曲相反方向的覆盖，从而导致读取密度增加。覆盖率最高的300个地区(表S2)，138（46%）位于端粒内，尽管端粒DNA仅占基因组的1.17%酵母菌属基因组数据库[15]端粒的覆盖范围显著增加。端粒内的中位输入覆盖率为128倍，而全基因组为16倍。基因组读取几乎没有观察到端粒增加，其中端粒覆盖率中值为11倍，而全基因组为8倍。端粒DNA的标准化覆盖率几乎与基因组的其余部分完全不重叠（Wilcoxon-Mann-Whitney p<10⁻¹⁶) (图2).

保存图片、插图等的外部文件。对象名称为pone.0006700.g002.jpg

在单独的窗口中打开

图2

端粒中的高输入情商覆盖率。

端粒和非端粒区域的输入-Seq读取覆盖的箱线图，归一化为非交联基因组读取。端粒箱线图中显示了Wilcoxon-Mann-Whitney p值，它比较了端粒和全基因组DNA的输入覆盖率分布。箱线图中每个方框的顶部表示75%的百分位，底部表示25%的百分位数，方框内的粗条表示中间值。胡须延伸至最极端的数据点，该数据点最多为方框四分位范围的1.5倍。

转录因子结合位点和DNase I足迹的高覆盖率

通过分析超覆盖位置，我们注意到许多最富集的非端粒基因座位于基因间区域内。因为基因上游区域往往具有高组蛋白周转率，并且可能是核小体耗竭[16]–[18]，我们假设基因间DNA覆盖率的增加可能是由于DNA结合蛋白的存在及其对核小体定位和周转的影响。我们分析了4900个推测转录因子结合位点的读取密度，这些位点在密切相关的酵母物种中保守，并且有来自ChIP-ChIP实验的支持证据[19]。这些结合位点中的大多数可能代表真正的监管位点。结合位点的覆盖率远高于其余基因间区域(图3，上部面板）。通过相应的转录因子分离结合位点，几乎所有因子的输入读数都很高。在数据集中具有40个或更多结合位点的37个转录因子中，只有Ste12和Dig1两个转录因子的input-Seq覆盖率没有增加(表1).

保存图片、插图等的外部文件。对象名称为pone.0006700.g003.jpg

在单独的窗口中打开

图3

蛋白质-DNA相互作用位点的高输入Seq覆盖率。

输入-Seq读取覆盖的箱线图，归一化为基因组读取。上面的面板显示了转录因子结合位点和全基因组输入覆盖率的箱线图。下部面板显示了DNase I抗性足迹的箱线图和输入序列覆盖的全基因组分布。蓝色是基因间区域的箱线图，黄色是编码区域的箱线上。箱线图中显示了Wilcoxon-Mann-Whitney p值，用于比较结合位点或DNA酶I足迹位点与全基因组DNA的输入覆盖率分布。

表1

转录因子结合位点的Input-Seq覆盖率。

转录因子	基因组中的总结合位点	中值输入-相等读数
STE12型	179	16
数字1	161	17
FKH2型	62	19
电话2	90	19
TEC1公司	55	19
CIN5公司	82	20
DAL82号机组	40	20
FKH1型	61	20
MCM1型	43	20
YAP6号机组	65	20
MBP1型	124	21
NDD1（NDD1）	61	21
ABF1型	151	22
REB1级	154	22
通用电气公司6	72	22
YAP7号机组	50	22
GCN4号机组	106	23
GLN3号机组	52	23
RPN4号机组	47	24
SWI5系列	91	25
通用条款2	45	26
乙酰胆碱酯酶2	40	29
FHL1层	70	29
MSN2型	81	29
MSN4型	68	29
SWI6系列	164	29
CBF1系列	115	30
SWI4号机组	143	31
1号核反应堆	67	33
RAP1型	66	35
SOK2标准	91	38
第一阶段	172	40
HAP1型	60	50
RCS1（RCS1）	54	52
AFT2型	66	69
库存7	130	82
SUT1系列	140	88

在单独的窗口中打开

每个因子在基因组中具有40个或更多结合位点的转录因子。第三列显示了包含相应转录因子结合位点的所有100 bp窗口的中间输入Seq读取计数。

作为另一种测试，我们询问在蛋白-DNA相互作用的位点中输入覆盖率是否通常更高。作为这些区域的代理，我们使用假定的相互作用区域，基于全基因组体内DNA酶I足迹研究[20]事实上，在编码区和基因间区域内，覆盖率明显高于足迹(图3，下部面板）。

基因和启动子序列覆盖率的转录依赖性变异

在酵母和果蝇属，启动子组蛋白周转率与相邻基因的转录水平相关[17],[18]这种快速转换，再加上我们对结合位点和DNaseI足迹的高序列覆盖率的观察，促使我们询问基因或启动子的输入覆盖率是否与表达水平相关。

我们根据公布的酿酒酵母 [21]与全基因组编码覆盖率相比，低表达基因的读取次数明显较少（Wilcoxon-Mann-Whitney p=2×10⁻¹⁶). 覆盖率逐渐增加，跟踪表达水平，对于最高表达的基因，读取密度要高得多（Wilcoxon-Mann-Whitney p=10⁻¹⁶) (图4，上部面板）。在基因本身的上游，基因间区域显示出与下游基因高表达相关的增加覆盖率的类似模式(图4，下部面板）。

保存图片、插图等的外部文件。对象名称为pone.0006700.g004.jpg

在单独的窗口中打开

图4

作为基因表达的函数，输入-Seq覆盖率。

作为基因表达水平的函数，输入-Seq读取覆盖率的箱线图归一化为非交联基因组读取。基于全基因组转录谱的RNA-Seq读取密度，输入-Seq覆盖率按表达水平进行分类（Nagalakshmi U.，2008）。上部面板显示基因的箱线图，下部面板显示基因间区域。Wilcoxon-Mann-Whitney p值比较了每个表达水平的输入覆盖率分布和全基因组DNA，显示在每个箱线图中。蓝线表示全基因组的中位输入-Seq读取覆盖率（编码为1.9，基因间区域为2.0）。

在不同输入Seq实验中，覆盖率的变化是可重复的

为了测试输入Seq覆盖模式的再现性，我们分析了来自四个额外样本的输入Seq读数。这四种输入来自于酿酒酵母/巴亚努斯酵母杂交二倍体（仅在两个标记位点上不同）。这些样品是在与上述分析所用实验室（耶鲁大学医学中心）不同的实验室（加州大学伯克利分校文森特·科茨基因组测序实验室）中制备和测序的。在四个样本的所有配对中，整个基因组的读取密度紧密相关，皮尔逊相关系数在0.94到0.99之间(图5A,图S1). 考虑到所有四个样本的相似性，我们对映射到酿酒酵母四个杂交菌株的基因组，并将其覆盖率与酿酒酵母从上面输入Seq(数据集S1); 相关性也很高，为0.82(图5B). 这种一致性水平特定于输入-Seq样本，因为输入和基因组样本之间的覆盖率相关性为0.1和0.12(图5C).

保存图片、插图等的外部文件。对象名称为pone.0006700.g005.jpg

在单独的窗口中打开

图5

不同菌株和实验的输入-方程覆盖模式的再现性。

散点图，比较基因组中各个位置的不同实验之间的序列读取密度。A.两个不同但接近同质的输入-等式读取计数的比较酿酒酵母/巴亚努斯酵母杂交二倍体菌株。样品在同一实验室平行制备，如材料和方法.B来自酿酒酵母和酿酒酵母/巴亚努斯酵母杂交，在不同实验室制备。C.基因组序列读取计数与输入Seq读取计数的比较(巴亚努斯酵母菌左侧面板中的混合比较，以及酿酒酵母右侧面板中的input-Seq比较）。

我们用酿酒酵母/巴亚努斯酵母混合输入-Seq，得出相同的结论(图S2,第3章). 我们还担心S288C和W303菌株之间端粒重复序列的大小和数量的差异酿酒酵母可能在端粒输入-Seq富集中发挥作用。为了解决这个问题，我们比较了全基因组和端粒输入-Seq覆盖率巴亚努斯链球菌，归一化为从相同的基因组序列读取巴亚努斯链球菌应变。端粒输入-Seq覆盖率很高，与酿酒酵母结果(图S4). 本节中的分析表明，染色质相关的序列覆盖偏差在不同的实验室和菌株中是稳健的和可重复的。

一些输入Seq高覆盖和低覆盖区域的正常染色质剪切

因为我们之前发现沉默的染色质在HMR公司我们根据输入序列方程分析测试了候选区域，以确定序列覆盖率的变化是否是由于染色质剪切差异造成的。我们选择了三个不同区域的探针：V染色体上的一个覆盖不足的亚团区，一个覆盖过度的启动子上游RPL26A型基因，以及TRA1公司基因(表2).

表2

对候选区域进行剪切和DNA水平分析。

地区	染色体	起点	停止	中值的S.证书input-Seq读取	中值的S.cer/S.隔间input-Seq读取	基因组读数中值
整个基因组	-	-	-	16	126	8
行动1	不及物动词	53,843	53,969	23	127	7
HMR公司a1级	三	293,833	294,104	7	47	6
亚端粒	五	564,442	564621个	6	54	10
TRA1公司	八、	307,328	307,462	7	61	7
RPL26A型发起人	十二	818,802	818,971	46	238	7

在单独的窗口中打开

DNA印迹中用于测试剪切差异的探针的染色体位置。输入Seq和基因组序列读取计数的中位数超过了每个区域的指定间隔。相同的五个区域在Q-PCR实验中测试了它们在输入和基因组样本中的DNA水平。

在Sir+和Sir−菌株中，我们探测了交联和剪切DNAHMR公司a1，染色体V的粒下区，和行动1作为控件(图6A). 正如所料，DNA在行动1在有沉默和没有沉默的菌株中，基因座剪切相似，而HMR公司正如其他地方重复的那样，a1在野生型菌株中的剪切效果不如Sir−菌株（Özaydın B.，提交）。喜欢HMR公司与Sir−菌株中的较短片段相比，野生型菌株中覆盖下的亚砾岩区域分布显示出向较长片段的轻微转变(图6B). 在具有完整沉默的野生型菌株中行动1是752个碱基对，而HMR公司球下位点为a1和858bp。这些数据表明，与HMR公司盒中，团下区域的Sir依赖异染色质导致剪切阻力，可能导致这些区域在深度测序中的平均值不足。

保存图片、插图等的外部文件。对象名称为pone.0006700.g006.jpg

在单独的窗口中打开

图6

候选区域中剪切的比较。

A.用野生型和sir1Δ，sir2Δ菌株和杂交斑点行动1,HMR公司一1和输入Seq下覆盖的端粒亚区。B.通过分析每个片段的信号强度来量化杂交数据，并绘制为计数（y轴）和片段大小（x轴）。该图比较了每个探针的Sir+和Sir−电池的尺寸分布。C.仅从野生型菌株制备的样品的凝胶图像和杂交的斑点行动1（平均投入-均衡覆盖率），TRA1型（覆盖不足）和覆盖过度的发起人。D.图，如B所示，比较行动1作为控件TRA1公司和启动子分布。

接下来，我们检查了TRA1公司基因（未覆盖）和RPL26A型发起人（超额覆盖）。这两个位点不受Sir蛋白的结合，因此预计Sir−细胞的剪切大小不会发生变化。然而，由于其他原因，它们仍有可能具有不同的剪切特性，从而导致其序列覆盖范围发生变化。因此，我们探讨了这两个候选区域，以及行动1，来自野生型菌株的DNA(图6C). 启动子和TRA1型表现出类似的剪切倾向行动1(图6D). 如果剪切阻力导致TRA1公司在input-Seq中，在我们的blot中预期会出现更长的片段，类似于HMR公司和染色体V的粒下区。然而TRA1公司相对于行动1，这与基于input-Seq覆盖范围的预期相反(图6D，左侧面板). 剪切RPL26A型实际上，启动子与剪切行动1(图6D，右侧面板). 这些结果表明，这些位点的输入覆盖率差异是由染色质效应引起的，而不是剪切效应。

候选区域的输入-Seq覆盖率变化是由于染色质引起的

考虑到动作1，TRA1和RPL26A型如上所述，我们询问染色质结构是否会影响输入样品制备中特定位点的分子浓度。我们对输入样本和基因组样本使用定量PCR（Q-PCR）来比较感兴趣区域的DNA相对数量。对于五个地区中的每一个(表2)，我们测量了输入样本和基因组样本中的DNA分子数量，然后根据基因组结果对输入水平进行了归一化。Q-PCR结果与输入-Seq覆盖变化密切匹配：三个输入-Seq-覆盖下区域(HMR公司a1，亚砾岩区，TRA1公司)Q-PCR水平低于行动1和输入Seq覆盖过度RPL26A型启动子的Q-PCR水平高于行动1(图7). 这些定量测量与任何技术性的深度测序偏差无关，这意味着DNA含量存在位置特异性差异，即使剪切是正常的。

在单独的窗口中打开

图7

候选区域DNA水平的比较。

Q-PCR DNA水平图（黑色）酿酒酵母/巴亚努斯酵母输入样本和从input-Seq数据集读取的相应序列中值（蓝色）。将输入的Q-PCR测量值归一化为每个区域的基因组Q-PCR结果，相对于行动1输入/基因组Q-PCR结果。输入Seq读取计数也归一化为行动1输入服务质量覆盖率为127（全基因组中位覆盖率酿酒酵母/巴亚努斯酵母输入Seq为126×）。

GC组成与基因组覆盖率和输入读数相关，与染色质结构无关

基于Illumina的植物基因组深度测序表明，在富含GC的区域，测序偏向于更高的读取密度普通β和细菌不动杆菌 [22]。我们在样本中观察到类似的偏差，这促使我们通过基因组序列读取将所有输入覆盖范围标准化。关键的是，富含GC的DNA中序列读取的过度表示可能会产生误导，因为许多基因组特征具有特殊的GC成分，与全基因组38%GC含量的平均值有很大偏差。例如，着丝粒平均GC含量为23%，输入读数覆盖率为6倍而非16倍，基因组读数覆盖率5倍而非8倍。此外，在所有基因中，3′转录末端位点的平均GC含量为25%，这与基因组和输入样本的覆盖率降低了两倍有关(图8).

在单独的窗口中打开

图8

转录本3′端的GC内容和序列读取覆盖率。

基因组和输入样本的中位归一化序列读取计数，以及归一化GC含量，作为与3′转录末端位点距离的函数。在3′端上游的10个基线间隔中计算序列读取密度和GC含量。

讨论

异染色质对几种酶的活性不敏感，包括限制性内切酶、DNA甲基化酶和总公司内切酶[23]–[25]然而，以前有人认为DNA的物理操作在体外通过超声波等高能方法，染色质的生物特性不受影响。这项研究结束了这一假设，染色质的新特性在之前仅被视为其他实验对照的样品的深度测序中得以揭示。我们发现，对于许多不同的位置，包括沉默的亚端粒DNA、端粒、蛋白结合位点以及高转录基因和启动子，输入-Seq覆盖范围差异很大。这些差异将显著影响ChIP实验的解释，这是一个以前未被认识到的问题。这些差异也可以用来检测异常的染色质状态。

通过比较剪切染色质样品和剪切基因组DNA的序列读取覆盖率，我们能够将与技术相关的测序偏差与生物学意义上的影响区分开来。最隐蔽的区域严重偏向于在酵母中沉默的亚集团区域，类似于HML公司和HMR公司 [12]–[14]该分析支持沉默干扰DNA剪切的假设。相比之下，端粒内的DNA在测序输入样本中表现得过于明显。酵母端粒和其他生物体一样，是一种特殊的结构，具有高度重复的序列，被各种蛋白质包裹[26]染色体末端序列读数的过度表达是剪切的染色质样品所特有的，并且在剪切的基因组DNA中没有观察到。因此，端粒内独特的DNA序列组成不能解释这些区域输入序列读取的过度表达。

我们观察到蛋白质结合位点的覆盖范围存在显著差异。转录因子结合位点和DNase I足迹周围的序列覆盖率高于基因间或编码DNA。基因及其启动子的读取密度也与基因的转录水平相关——高表达水平与读取密度增加相关，低表达水平与减少相关。结合位点和DNaseI足迹的覆盖率增加，以及高覆盖率和高RNA水平之间的相关性可能反映了核小体重塑器、转录因子、通用转录机制和RNA聚合酶的疯狂活动。值得注意的是，只有Ste12和Dig1两个转录因子的结合位点在输入读取中没有富集。两者都参与交配和侵入性生长途径[27]因此，在培养细胞以准备输入Seq的富媒体（YPD）条件下，可能是不活跃的。

在测试候选的高覆盖和低覆盖输入情商区域时，我们观察到剪切力的变化类似于HMR公司 a1级仅在覆盖下的亚砾岩地区。在覆盖不良的内部，剪切似乎是正常的TRA1公司基因与过度覆盖RPL26A型我们分析的启动子。这些结果表明，染色质状态也可以通过剪切以外的其他效应影响输入Seq覆盖率。事实上，上述区域的定量PCR（Q-PCR）测量显示，输入样本的DNA含量发生了类似的变化，正如我们在输入Seq涵盖率中观察到的那样。端粒结构、启动子和基因的染色质状态可能导致剪切步骤之前或交联逆转期间分离染色质化DNA的效率不同。

染色质免疫沉淀与平铺Q-PCR相结合，通常用于确定感兴趣蛋白质沿染色体的扩散程度。如果一个位点不易剪切和/或由于染色质状态而无法有效分离，则基于ChIP的蛋白质在该区域的定位会夸大该蛋白质与染色质相互作用的明显间隔。相反，较高的剪切敏感性或更好的隔离可能会导致对扩展的估计不足。特别是对于ChIP-Seq研究，我们对输入样本中普遍存在的覆盖不均匀性的观察强调了需要将ChIP样本中的序列读取计数标准化为输入控制计数。目前许多研究缺乏剪切染色质输入序列数据，这些研究的分析可能会增加假阳性和假阴性。

除了染色质结构对ChIP研究的影响外，我们的研究再次强调了将深度测序结果标准化为基因组DNA序列读取的重要性。正如我们在着丝粒和转录本上观察到的那样，GC含量和其他序列组成模式的偏差可能会在覆盖率上产生显著的峰值或低谷，这可能导致对潜在生物学的错误推断。这些偏差会影响ChIP-Seq研究，也会混淆使用高通量测序技术对RNA-Seq和拷贝数变异检测的解释。

随着更多具有适当输入控制的ChIP-Seq实验的执行，只要这些研究的原始数据仍然可用，覆盖范围偏差将成为识别不同染色质状态的一种越来越有力的方法。我们已经能够精确定位特定区域，通过减少或增加读取计数来定义数百个碱基对长的域。鉴于我们在不同输入Seq实验中观察到的高度重复性结果，随着同一物种的更多ChIP-Seq输入控制变得可用，将有可能以更高的分辨率检测特定位点的染色质差异。ChIP实验中与染色质相关的变异很可能在分类群中普遍存在。

材料和方法

Input-Seq数据集、映射和筛选

这个酿酒酵母甲醛交联剪切输入样品的制备如所述[28].酿酒酵母使用Illumina基因组分析仪对样本进行测序。酿酒酵母/巴亚努斯酵母杂交二倍体是通过杂交产生的酿酒酵母将W303应变为巴亚努斯链球菌来源于CBS 7001型菌株的菌株（见[29]详细信息）。这个酿酒酵母/巴亚努斯酵母如前所述，通过甲醛交联和超声处理制备输入样品以进行ChIP分析[30].ChIP序列库是根据Illumina配对库协议准备的，根据[28],[31]继适配器结扎后，在2%琼脂糖凝胶上选择500 bp的文库插入物。基因组文库是从亲本中制备的巴亚努斯链球菌应变。在Illumina Genome Analyzer II上通过36 bp配对读取对文库进行测序。这个酿酒酵母基因组读取来自酵母菌属基因组重测序项目，仅包括S288C酿酒酵母拉紧[11]，也使用Illumina基因组分析仪测序。

读取被映射到酿酒酵母使用MAQ软件的基因组[32]由于Illumina基因组分析仪的poly-A测序偏差，我们排除了10个或更多连续腺嘌呤或连续胸腺嘧啶序列50个碱基范围内的所有读取映射。rDNA位点（第十二号染色体，位置430000–520000）中的序列也未进行分析，因为已发布的SGD基因组组合仅包含rDNA的众多基因组副本中的一个，导致该位点的覆盖率被人为夸大。

从中读取的所有序列酿酒酵母/巴亚努斯酵母input-Seq和巴亚努斯链球菌基因组测序已保存在NCBI Short Read Archive中，登记号为SRP000997。

输入/基因组标准化

基因组的每个碱基都被分配了与之重叠的序列读取总数，分别用于输入和基因组序列读取。除转录停止位点覆盖率分析外，后续的归一化和分析是在100 bp窗口的中值读取覆盖率上进行的，以50 bp的步长沿着每条染色体滑动。每个100 bp区间的中位输入覆盖率除以同一窗口的中位基因组覆盖率。除3′转录末端外，所有序列覆盖分析均在100 bp的窗口上进行。

全基因组覆盖不足和覆盖过度分析

对于端粒序列的指定，我们使用了来自酵母菌属基因组数据库[15]亚端粒区域被定义为位于着丝粒-近端端粒边缘50KB范围内的序列。染色体III上沉默的交配位点坐标（基于侧翼基因）为11082–15798HML公司和289255–297046HMR公司在距离端粒越来越远的情况下，以20 KB的间隔计算100 bp窗口中输入/基因组比率中位数<0.8的百分比。亚端粒区不包括端粒序列。

蛋白质-DNA相互作用位点的覆盖率

绑定位置基于[19]在本研究中预测了结合位点的转录因子中，37个转录因子具有40个或更多的结合位点酿酒酵母基因组。我们使用37个转录因子分析每个因子在所有结合位点上的中位数结合位点覆盖率。DNase I足迹位置来自http://noble.gs.washington.edu/project/footprinting/yeast.footprints.bed [20]编码区和基因间区的定义如下所述，不包括重叠结合位点或足迹的窗口。

基因表达与基因覆盖率和基因间区域的相关性

表达水平从全基因组RNA测序数据集获得[21]对于每个基因，表达水平被定义为从该片段中读取的所有映射RNA序列的中位数。基因间区域酿酒酵母被定义为所有SGD注释基因转录末端之间的序列，包括未标记、可疑和编码区域。使用RNA测序数据集的注释定义转录末端，以从基因间序列中排除5′和3′非翻译区域。聚合转录基因之间的基因间区域被排除。每个基因间区域与其下游转录物的中位数基因表达配对。对于差异转录基因之间的基因间区域，每个区域都与两个基因中表达量最高的区域配对。

输入-方程实验的比较

对于每个100 bp窗口，从酿酒酵母输入-等式，计算四个变量的中值读取计数酿酒酵母/巴亚努斯酵母混合输入-方程实验。绘制了所有混合输入Seq数据集对的散点图和相关系数。随后，对基因组的每个碱基，从所有四个杂交输入Seq映射结果中求出序列读取计数。合并后的酿酒酵母/巴亚努斯酵母然后使用读取计数计算100 bp窗口的中位数覆盖率，然后与酿酒酵母在散点图中输入Seq覆盖范围。基因组覆盖率与混合输入Seq覆盖率的比较是基于总数。

巴亚努斯链球菌端粒覆盖

识别假定巴亚努斯链球菌端粒序列，我们使用NCBI BLAST[33]无重复屏蔽（-F F），使用所有酿酒酵母针对华盛顿大学的端粒DNA注释巴亚努斯链球菌装配[34]。我们使用的e值截止值为0.1，只接受连续端5000个碱基对内的匹配。在BLAST匹配的500个侧翼碱基对内计算“端粒”覆盖率。

基因组DNA分析

如前所述，制备全细胞提取物，如同用于ChIP分析[30]首先用蛋白酶K在37°C下消化这些提取物2小时，然后用酚氯仿萃取。在异丙醇沉淀和70%乙醇洗涤后，将颗粒重新悬浮在50µl水中。在2%琼脂糖凝胶上电泳分离约10-15µg每个样品，然后转移至Hybond N膜。通过PCR制备感兴趣的探针(表3)然后使用αP进行无线电标记³²dCTP与Amersham RediPrime随机素数标记系统（GE Healthcare）。如前所述进行DNA印迹分析[35]用Typhoon扫描仪和ImageQuant软件分析印迹。使用Invitrogen 1KB+DNA大小阶梯计算凝胶上每条通道每0.1 mm处发现的片段大小。

表3

本研究中使用的引物。

底漆套件	顺序
行动1	TGTCCTTGTACTCTCCGGT公司
	CCGGCAAAATCGATTCTCAA
HMR公司a1级	TGGATGATTTTGTAGTGGCGGA公司
	TCCCTTTGGGCTCTCTT公司
亚端粒	TGAAACAAACGAAGACCTCCACCTCG公司
	AACCGTGAAAGACGGTTTAGC公司
TRA1公司	TGTTAGATCACCTCACGGCATGGT公司
	CAGCTTTGGTGGCAGATAGAA公司
发起人	TTGCGAAACCGTGCGATGTTC
	TGTGTTGGTCATCGAGTCGGA公司

在单独的窗口中打开

引物序列用于在剪切试验中扩增DNA印迹探针，也用于基因组的Q-PCR测量和五个位点的输入样本DNA水平。

候选区域的Q-PCR

对于五个感兴趣区域中的每一个，如上所述将相同的引物用于Q-PCR(表3). 输入样本是酿酒酵母/巴亚努斯酵母最终500 bp库–与用于input-Seq的库相同。基因组样本也来自一个基于W303的菌株（JRY3009）。定量PCR（Q-PCR）分析在基因组和输入样本的不同平板上对每个区域进行三次。使用SYBR Q-PCR混合物（NEB）在MX3000P机器（Stratagene）上进行Q-PCR。然后测量DNA水平相对于行动1标准曲线。对于每个引物对，输入的DNA水平除以基因组样本的DNA水平。最终输入/基因组测量值标准化为行动1输入/基因组结果。

基因组特征覆盖率的GC偏差

计算上述100 bp窗口中每个窗口的GC含量，以分析着丝粒。跨基因、3′转录终止位点上游、输入覆盖率、基因组覆盖率和GC含量在所有基因的10 bp窗口中进行计算。对于跨基因的覆盖率和GC含量图，每个10 bp窗口中的中值读取计数由全基因组中值读取计数标准化（16用于输入Seq，8用于基因组），GC含量除以全基因组平均值0.38。

统计分析

所有统计测试均使用R[36].

支持信息

图S1

菌株间输入Seq覆盖模式的再现性：散点图，比较基因组中各个位置的不同实验之间的序列读取密度。六个图显示了四个输入Seq读取计数的所有可能的成对比较酿酒酵母/巴亚努斯酵母杂交二倍体样品。

（3.29 MB畅通节能法）

单击此处查看其他数据文件。^{（310万tif）}

图S2

输入Seq下覆盖区在染色体上的分布酿酒酵母/巴亚努斯酵母混合动力：输入序列覆盖率低的区域的百分比，作为与端粒距离的函数，间隔为20KB。χ²每个20 KB区间的p值，将该区间的覆盖下区域部分与全基因组的覆盖下部分进行比较，显示在每个图中。蓝线表示全基因组覆盖下区域的平均百分比（5.9%）。

（0.53 MB畅通节能法）

单击此处查看其他数据文件。^{（513000，tif）}

图S3

端粒的高输入Seq覆盖率酿酒酵母/巴亚努斯酵母混合动力：端粒和非端粒区域的输入-Seq读取覆盖的箱线图，归一化为非交联基因组读取。比较端粒和全基因组DNA的输入覆盖分布的Wilcoxon-Mann-Whitney p值显示在端粒盒图中。

（0.44 MB畅通节能法）

单击此处查看其他数据文件。^{（432K，tif）}

图S4

端粒的高输入Seq覆盖率巴亚努斯链球菌以下为：的箱线图巴亚努斯链球菌input-Seq读取覆盖率，标准化为巴亚努斯链球菌非交联基因组读取，用于端粒和非端粒区域。端粒箱线图中显示了Wilcoxon-Mann-Whitney p值，它比较了端粒和全基因组DNA的输入覆盖率分布。

（0.44 MB畅通节能法）

单击此处查看其他数据文件。^{（432K，tif）}

数据集S1

全基因组输入和基因组序列读取覆盖率：列出100 bp窗口的全基因组位置、中值输入和基因组序列读取计数。

（2.97 MB GZ）

单击此处查看其他数据文件。^{（280万加仑）}

表S1

输入序列覆盖最少的区域：由基因组读取计数归一化的300个输入Seq最小覆盖区域组成的表。

（0.04 MB XLS）

单击此处查看其他数据文件。^{（41K，xls）}

表S2

Input-Seq最受覆盖的区域：根据基因组序列读数归一化的300个输入Seq最覆盖区域表。

（0.03 MB XLS）

单击此处查看其他数据文件。^{（32K，xls）}

致谢

我们感谢雅各布·梅菲尔德（Jacob Mayfield）提出的富有洞察力的意见和建议，也感谢实验室成员的投入。我们还感谢约书亚·巴比亚兹和托马斯·克莱恩对这份手稿的批判性阅读。我们感谢匿名审稿人的宝贵意见和建议。

脚注

竞争利益：迈克尔·艾森是公共科学图书馆的联合创始人，也是董事会成员。

基金：这项工作得到了NIH向MBE拨款HG002779的支持。LT、BØ、OZ和JR由NIH拨款GM31105支持。PL和MS也得到NIH拨款的支持。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Hayashi MT、Takahashi TS、Nakagawa T、Nakayama J、Masukata H。异染色质蛋白Swi6/HP1激活着丝粒周围区域和沉默交配型位点的复制起源。自然细胞生物学。2009;11(3):357–362.[公共医学][谷歌学者]

2Baudat F，Nicolas A.酵母染色体III上减数分裂双链断裂的聚类。美国国家科学院院刊。1997;94(10):5213–5218. [PMC免费文章][公共医学][谷歌学者]

三。Gilbert DM.复制时间和转录控制：超越因果关系。当前操作细胞生物学。2002;14(3):377–383.[公共医学][谷歌学者]

4Grewal SI，Jia S.异染色质回顾。Nat Rev基因。2007;8(1):35–46.[公共医学][谷歌学者]

5Diaz-Castillo C，Golic KG。基因序列对染色体定位的响应进化。遗传学。2007;177(1):359–374. [PMC免费文章][公共医学][谷歌学者]

6Teytelman L，Eisen MB，Rine J.沉默但非静态：芽孢酵母沉默染色质的加速基面替换。公共科学图书馆-遗传学。2008;4(11)：e1000247。 [PMC免费文章][公共医学][谷歌学者]

7Sasaki S、Mello CC、Shimada A、Nakatani Y、Hashimoto S等。转录起始位点下游遗传变异的染色质相关周期性。科学。2009;323(5912):401–404. [PMC免费文章][公共医学][谷歌学者]

8Rusche LN，Kirchmier AL，Rine J.沉默染色质的建立、遗传和功能酿酒酵母.生物化学年度收益。2003;72:481–516.[公共医学][谷歌学者]

9Johnson DS、Mortazavi A、Myers RM、Wold B体内蛋白质与DNA的相互作用。科学。2007;316（5830）:1497–1502.[公共医学][谷歌学者]

10Robertson G，Hirst M，Bainbridge M，Bilenky M，Zhao Y，et al.使用染色质免疫沉淀和大规模平行测序的STAT1 DNA关联的全基因组图谱。自然方法。2007;4(8):651–657.[公共医学][谷歌学者]

11Liti G、Carter DM、Moses AM、Warringer J、Parts L等。家养和野生酵母的群体基因组学。自然。2009;458(7236):337–341. [PMC免费文章][公共医学][谷歌学者]

12Gottschling DE、Aparicio OM、Billington BL、Zakian VA。位置效应酿酒酵母端粒：pol II转录的可逆抑制。单元格。1990;63(4):751–762.[公共医学][谷歌学者]

13Vega-Palas MA，Martin-Figueroa E，Florencio FJ。天然亚群体基因的端粒沉默。分子遗传学。2000;263(2):287–291.[公共医学][谷歌学者]

14Barton AB，Kaback DB公司。开放阅读框的端粒沉默酿酒酵母.遗传学。2006;173(2):1169–1173. [PMC免费文章][公共医学][谷歌学者]

15Cherry JM、Adler C、Ball C、Chervitz SA、Dwight SS等。SGD：酵母菌属基因组数据库。核酸研究。1998;26(1):73–79. [PMC免费文章][公共医学][谷歌学者]

16Yuan GC，Liu YJ，Dion MF，Slack MD，Wu LF等酿酒酵母.科学。2005;309(5734):626–630.[公共医学][谷歌学者]

17Dion MF、Kaplan T、Kim M、Buratowski S、Friedman N等。萌发酵母中复制独立组蛋白周转的动力学。科学。2007;315(5817):1405–1408.[公共医学][谷歌学者]

18Mito Y、Henikoff JG、Henigoff S.组蛋白替换标志着顺调控域的边界。科学。2007;315(5817):1408–1411.[公共医学][谷歌学者]

19MacIsaac KD、Wang T、Gordon DB、Gifford DK、Stormo GD等酿酒酵母.BMC生物信息学。2006;7:113. [PMC免费文章][公共医学][谷歌学者]

20Hesselberth JR、Chen X、Zhang Z、Sabo PJ、Sandstrom R等。蛋白质-DNA相互作用的全球定位体内通过数字基因组足迹。自然方法。2009;6(4):283–289. [PMC免费文章][公共医学][谷歌学者]

21Nagalakshmi U，Wang Z，Waern K，Shou C，Raha D等。RNA测序确定的酵母基因组转录图谱。科学。2008;320(5881):1344–1349. [PMC免费文章][公共医学][谷歌学者]

22Dohm JC、Lottaz C、Borodina T、Himmelbauer H.高通量DNA测序的超短读数据集存在重大偏差。核酸研究。2008;36（16）：e105。 [PMC免费文章][公共医学][谷歌学者]

23Gottschling DE.端粒近端DNA酿酒酵母对体内甲基转移酶活性不敏感。美国国家科学院程序。1992;89(9):4062–4065. [PMC免费文章][公共医学][谷歌学者]

24辛格·J、克拉·AJ。芽殖酵母中的活性基因显示增强了外源DNA甲基化酶的体内可及性：一种用于酵母染色质结构的新型体内探针。基因发育。1992;6(2):186–196.[公共医学][谷歌学者]

25Loo S、Rine J.《沉默者与广义抑制领域》。科学。1994;264(5166):1768–1771.[公共医学][谷歌学者]

26路易斯·EJ。染色体末端酿酒酵母.酵母。1995;11(16):1553–1573.[公共医学][谷歌学者]

27Gustin MC、Albertyn J、Alexander M、Davenport K。酵母中的MAP激酶途径酿酒酵母.微生物分子生物学评论。1998;62(4):1264–1300. [PMC免费文章][公共医学][谷歌学者]

28Lefrancois P，Euskirchen GM，Auerbach RK，Rozowsky J，Gibson T等。使用多重短读DNA测序的高效酵母ChIP-seq。BMC基因组学。2009;10:37. [PMC免费文章][公共医学][谷歌学者]

29Zill OA，Rine J.种间变异揭示了α特异基因在酵母菌属酵母。基因发育。2008;22(12):1704–1716. [PMC免费文章][公共医学][谷歌学者]

30Aparicio O、Geisberg JV、Sekinger E、Yang A、Moqtaderi Z等。染色质免疫沉淀法测定体内蛋白质与特定基因组序列的关联。Curr Protoc Mol Biol章节。2005;21：单位21.3。[公共医学][谷歌学者]

31Quail MA、Kozarewa I、Smith F、Scally A、Stephens PJ等。大型基因组中心对Illumina测序系统的改进。自然方法。2008;5(12):1005–1010. [PMC免费文章][公共医学][谷歌学者]

32Li H，Ruan J，Durbin R.使用绘图质量分数绘制短DNA测序读取和调用变体。基因组研究。2008;18(11):1851–1858. [PMC免费文章][公共医学][谷歌学者]

33Altschul SF、Gish W、Miller W、Myers EW、Lipman DJ。基本本地对齐搜索工具。分子生物学杂志。1990;215(3):403–410.[公共医学][谷歌学者]

34Cliften P、Sudarsanam P、Desikan A、Fulton L和Fulton B等人。在酵母菌属基因组的系统发育足迹。科学。2003;301（5629）:71–76.[公共医学][谷歌学者]

35Southern E.Southern-blotting。国家协议。2006;1(2):518–525.[公共医学][谷歌学者]

36R开发核心团队。奥地利维也纳：R统计计算基金会；2005年：R：统计计算语言和环境。可用：网址：http://www.R-project.org通过互联网。[谷歌学者]

文章来自PLOS ONE系列由以下人员提供多环芳烃