跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2010年5月;28(5):495-501.
doi:10.1038/nbt.1630。 Epub 2010年5月2日。

GREAT改善了顺调控区域的功能解释

附属公司

GREAT改善了顺调控区域的功能解释

科里·Y·麦克林等。 Nat生物技术. 2010年5月.

摘要

我们开发了基因组区域注释富集工具(GREAT),通过对整个基因组中DNA结合事件的局部测量来分析顺式调控区域的功能意义。虽然以前的方法只考虑了与基因近端的结合,但GREAT能够正确地结合远端结合位点,并通过对输入基因组区域的二项式检验来控制假阳性。GREAT集成了20个本体的注释,可以作为web应用程序使用。将GREAT应用于染色质免疫沉淀和多种转录相关因子(包括SRF、NRSF、GABP、Stat3和p300)在不同发育背景下的大规模平行测序(ChIP-seq)数据集,我们恢复了现有基因工具所遗漏的这些因子的许多功能,我们提出了可测试的假设。GREAT的用途不仅限于ChIP-seq,因为它还可以应用于开放染色质、局部表观基因组标记和类似的功能数据集,以及比较基因组集。

PubMed免责声明

数字

图1
图1
一组的富集分析顺式-监管区域。()当前流行的方法仅将近端结合事件与基因关联,并使用最初设计用于微阵列分析的工具进行功能丰富性的基因列表测试。(b条)GREAT的基因组区域二项式方法使用与给定本体术语(绿色条)关联的基因组总分数作为与该术语关联的输入区域的预期分数。
图2
图2
绑定配置文件及其对统计测试的影响。()几个调节蛋白的ChIP-seq数据集表明,对于序列特异性转录因子(SRF和NRSF,参考;Stat3,参考43)和一般增强子相关蛋白(p300,参考33,43),大多数结合事件都位于近端启动子之外。括号中给出了细胞类型:H,人类;M、 鼠标。(b条)当不限于近端启动子时,基于基因的超几何检验(红色)会产生假阳性富集项,特别是在ChIP-seq集合典型的1000-50000个输入区域的大小范围内。基于区域的二项检验(蓝色)观察到可忽略的假阳性富集。对于每个集的大小,我们生成了1000个随机输入集,其中人类基因组中的每个碱基对都很可能被包含在每个集中,从而避免了装配间隙。我们使用GREAT的5+1 kb基本启动子和高达1 Mb的扩展关联规则计算了超几何和二项式检验的所有GO项丰度(见结果)。绘制的是应用保守的Bonferroni校正后,在0.05阈值下人为显著的平均项数。(c(c))GO浓缩P(P)使用基于基因组区域的二项式的值(x个axis)和基于基因的超几何(axis)使用GREAT的5+1 kb基本启动子和高达1 Mb的扩展关联规则对SRF数据8进行测试(见结果)。当我们使用二项式检验时,b1到b10表示前十个最丰富的术语。当我们使用超几何检验时,h1到h10表示前十个最丰富的项。两种测试中显著的术语(BH)提供了由多个基因和结合事件支持的具体而准确的注释(表3)。仅通过超几何检验(H\B)显著的术语是通用术语,通常与大调控域的基因相关,而仅通过二项式检验(B\H)显著的词汇在仅有一个或两个用该术语注释的基因附近聚集了四到六个基因组区域(补充表46)。
图3
图3
远端结合事件大大有助于p300肢体峰的准确功能丰富。我们在三个已知的肢体相关术语和一个阴性对照术语(GO皮质细胞骨架)的背景下检查了2105 p300小鼠胚胎肢体峰值的特性。使用了三种不同的关联规则(见结果):基于基因的GREAT分析,仅使用最近转录起始位点2kb内的峰(标记为2kb),5+1kb基础和高达50kb延伸(50kb)的分析,以及5+1kb基础和高达1Mb延伸(1Mb)的分析。对于每个术语,我们通过比较实验结果(黑色条)和1000个模拟数据集(灰色条)的平均值来检查远端结合峰的相关性其中,在最近的转录起始位点2kb内的192个近端ChIP-seq峰被固定,1913个远端峰在小鼠基因组内被均匀洗牌,避免了组装间隙和近端启动子。根据设计,近端2-kb GREAT的模拟结果与实际数据相同,因此省略了。()将2-kb的近端启动子延长到50kb,有望增加每个学期的基因组覆盖率(第页π在图1b)中,增加了25倍,导致实际增加19-24倍;相比之下,将50-kb的扩展规则延长为1-Mb的扩展规则,预计将使基因组覆盖率提高20倍,但实际仅增加了2.5到6倍,因为调控域没有通过相邻基因进行扩展。(b条)随着调控域的长度从近端的2 kb增加到50 kb和1 Mb,调控域中具有p300肢体峰的相关基因数量增加。与模拟数据相比,仅通过远端关联选择的添加基因通常丰富了肢体功能。(c(c))随着调控域长度的增加,与相关基因相关的p300肢体峰值的数量超过了所有肢体相关术语的预期数量。(d日)如中所示c(c),包含远端峰显著增加了正确术语的统计显著性*使用2kb基因的超几何检验来模拟当前基于基因的方法,并使用50kb和1Mb基因组区域的二项式检验来测量统计显著性。误差线表示s.d。;NS,在假发现率多次测试校正后的阈值0.05时不显著;观察到的obs;exp,应为。注意刻度变化x个轴。

类似文章

引用人

参考文献

    1. Johnson DS、Mortazavi A、Myers RM、Wold B。体内蛋白质-DNA相互作用的全基因组绘图。科学。2007年;316:1497–1502.-公共医学
    1. Mardis ER.ChIP-seq:欢迎来到新的前沿。自然方法。2007年;4:613–614.-公共医学
    1. 驻车PJ。ChIP-seq:成熟技术的优势和挑战。Nat.Rev.基因。2009;10:669–680.-项目管理委员会-公共医学
    1. Ji H等人。用于分析ChIP-ChIP和ChIP-seq数据的集成软件系统。自然生物技术。2008年;26:1293–1300.-项目管理委员会-公共医学
    1. Kharchenko PV、Tolstorukov MY、Park PJ。DNA结合蛋白ChIP-seq实验的设计和分析。自然生物技术。2008年;26:1351–1359.-项目管理委员会-公共医学

出版物类型