跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
2008年12月;26(12):1351-9.
doi:10.1038/nbt.1508。 Epub 2008年11月16日。

DNA结合蛋白ChIP-seq实验的设计与分析

附属公司

DNA结合蛋白ChIP-seq实验的设计与分析

彼得·V·哈尔琴科等。 Nat生物技术 2008年12月

摘要

大规模平行测序平台的最新进展使得能够使用染色质免疫沉淀和测序(ChIP-seq)的组合对DNA相关蛋白进行全基因组表征。尽管已有多种方法用于分析已建立的替代ChIP微阵列(ChIP-ChIP),但很少有方法用于处理ChIP-seq数据。为了填补这一空白,我们提出了一种专门设计用于高精度检测蛋白结合位置的分析管道。使用先前报道的三种转录因子的数据集,我们说明了改善标签比对和校正背景信号的方法。我们将三种峰值检测算法的灵敏度和空间精度与已发表的方法进行了比较,证明了在考虑正负链上标签的不对称分布时,空间精度的提高。我们还分析了测序深度和检测到的结合位置特征之间的关系,并提供了一种方法来估计蛋白质结合位点所需的测序深度。

PubMed免责声明

数字

图1
图1
拟建ChIP-seq处理管道的主要步骤。b条ChIP-seq测量的示意图。DNA片段化或消化,用IP选择与感兴趣的蛋白质交联的片段。选定片段的5'端(正方形)被排序,通常在保护区两侧形成正负链标签组。红色虚线表示长交联产生的片段,这可能是CTCF和STAT1数据集中观察到的标签模式的原因。c(c).稳定NRSF结合位置周围的标签分布。垂直线显示标签数量(右轴),其5'位置映射到正(红色)或负(蓝色)绞线上的给定位置。y轴上的正值和负值分别用于说明标签映射到正链和负链。实心曲线显示了每条链的标签密度(左轴,基于σ=15bp的高斯核)。NRSF数据的股线互相关。y轴显示了正链和负链标记密度的全基因组剖面之间的皮尔逊线性相关系数,该系数相对于彼此移动了x轴上指定的距离。峰值位置(红色垂直线)表示与稳定结合位置相关的正负链峰之间的典型距离。
图2
图2。基于链互相关幅度的变化选择信息标签类
对于表1中列出的每一类标签对齐质量,图中显示了当这类标签与完全对齐标签的基类(25bp,无失配)一起考虑时,链平均互相关曲线的变化。三个图对应标签类()没有不匹配(b条)单个不匹配,以及(c(c))有两处不匹配。信息性标签类提高了互相关(用*标记),并被纳入最终的标签集中。y轴给出了互相关峰周围40bp范围内互相关曲线的平均变化(图1d)。
图3
图3。背景标签分布异常示例
。标签数量极高的奇异位置。b条背景标签密度增加的较大的、不均匀的区域。c(c)背景标签密度模式类似于真正的蛋白质结合位置。每个图显示来自ChIP和输入样本的标签密度。标签直方图给出了合并的标签计数。
图4
图4。绑定位置检测方法及其相对灵敏度
。窗口标签密度(WTD)方法的示意图。为了使用强绑定预期的标记模式来标识位置,该方法计算橙色标记区域(p1和n2)内标记计数的几何平均值与绿色标记区域(n1和p2)内标记数的平均值之间的差异。b条匹配链峰(MSP)方法首先确定正链和负链(开放圆)上的局部最大值,然后确定这两个峰值以正确顺序出现的位置,以及预期的分离和可比较的大小。c(c)。镜像标记相关(MTC)方法基于正负链标记密度的镜像相关。负片链标签密度的镜像由蓝色虚线显示。中心位置15bp以内的标签被省略。高置信度NRSF图案的覆盖率与顶峰匹配。该图显示了与已确定的结合位置一致(50bp)的基序实例的分数,这是不同方法确定的顶部结合位置数量增加的函数。除MSP和CSP外,大多数方法都能够实现类似的高覆盖率。
图5
图5。确定装订位置的准确性
高置信度NRSF基序实例与不同方法识别的结合位置之间的距离分布。每种方法都显示了结果分布的标准偏差(σ)。仅考虑了含有100bp内结合位置的基序。b–d段对于通过不同方法识别的越来越多的顶部结合位置,显示了在基序位置的10bp内识别的结合位置的比例。分析中只包括序列基序实例300bp内的结合位置。每个方法都减去到基序中心的中间距离,以说明序列基序相对于受保护结合区中心的非中心位置(参见方法)。MTC方法实现了CTCF和STAT1的最高精度;然而,WTD为NRSF绑定提供了更准确的位置。
图6
图6。测序深度分析
。给定使用完整数据集(y轴)确定的NRSF绑定位置,黑色曲线显示了可以使用较小部分标签数据(x轴)预测的位置分数(50 bp以内)。所有结合预测都是使用0.01的FDR和WTD方法生成的。该曲线没有达到水平渐近线,表明检测到的NRSF结合位点集在当前测序深度没有稳定。附加曲线将分析限制在背景上折叠富集率显著高于7.5(MSER:最小饱和富集率,虚线)和30(虚线)的结合部位。对于每个标签子样本(x轴),独立评估观察到的富集率。b条.高置信度NRSF基序位置周围的标签计数分布。不包括具有零标记的位置。c(c)。检测到的绑定位置的MSER与测序深度之间的关系(表示为完整数据集的一部分)。灰色虚线显示了一个对数模型,可用于估计以较低折叠富集率饱和检测结合位置所需的测序深度。根据这一估计,1.2×106需要更多的序列标签来饱和检测背景上两倍富集的结合位置(MSER=2对应于=0,其中红线穿过x轴:x个=2.8×106).

类似文章

  • ChIPulate:一个全面的ChIP-seq模拟管道。
    达塔五世、汉纳哈利·S、悉达多·R。 Datta V等人。 公共科学图书馆计算生物学。2019年3月21日;15(3):e1006921。doi:10.1371/journal.pcbi.1006921。eCollection 2019年3月。 公共科学图书馆计算生物学。2019 PMID:30897079 免费PMC文章。
  • 用于快速时间相关ChIP排序分析(TDCA)的软件。
    Myschyshyn M、Farren-Dai M、Chuang TJ、Vocadlo D。 Myschyshyn M等人。 BMC生物信息学。2017年11月25日;18(1):521. doi:10.1186/s12859-017-1936-x。 BMC生物信息学。2017 PMID:29178831 免费PMC文章。
  • 利用ChIP-Seq进行转录因子结合位点定位。
    Jaini S、Lyubetskaya A、Gomes A、Peterson M、Tae Park S、Raman S、Schoolnik G、Galagan J。 Jaini S等人。 微生物规范。2014年4月;2(2). doi:10.1128/microbiolspec。MGM2-0035-2013。 微生物规范。2014 PMID:26105820 审查。
  • ChIP-seq数据分析中计算分析方法的简要概述。
    Kim H、Kim J、Selby H、Gao D、Tong T、Phang TL、Tan AC。 Kim H等人。 人类基因组学。2011年1月;5(2):117-23. doi:10.1186/1479-7364-5-2-117。 人类基因组学。2011 PMID:21296745 免费PMC文章。 审查。
  • ChIP-seq实验中检测转录因子结合位点方法的实用比较。
    Laajala TD、Raghav S、Tuomela S、Lahesmaa R、Aittokalio T、Elo LL。 Laajala TD等人。 BMC基因组学。2009年12月18日;10:618. doi:10.186/1471-2164-10-618。 BMC基因组学。2009 PMID:20017957 免费PMC文章。

引用人

工具书类

    1. Kim TH,Ren B.蛋白质-DNA相互作用的全基因组分析。基因组学和人类遗传学年度综述。2006;7:81–102.-公共医学
    1. Johnson DS,Mortazavi A,Myers RM,Wold B.体内蛋白质-DNA相互作用的全基因组图谱。科学。2007;316:1497–1502.-公共医学
    1. Impey S等。CREB调节子的定义:转录因子调节区的全基因组分析。单元格。2004;119:1041–1054。-公共医学
    1. Roh TY、Cuddapah S、Zhao K。活性染色质结构域由全基因组定位揭示的乙酰化岛定义。基因开发2005;19:542–552.-项目管理咨询公司-公共医学
    1. Bhinge AA、Kim J、Eukilchen GM、Snyder M、Iyer VR。利用基因组富集序列标签分析(STAGE)Genome Res.2007绘制STAT1的染色体靶点;17:910–916.-项目管理咨询公司-公共医学

出版物类型