跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

HTTP服务器

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并且被安全地传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2010年8月;28(8):817-25.
doi:10.1038/nbt.1662。 Epub 2010年7月25日。

用于人类基因组系统注释的染色质状态的发现和表征

附属公司

用于人类基因组系统注释的染色质状态的发现和表征

杰森·恩斯特等。 Nat生物技术. 2010年8月.

摘要

人类基因组中存在过多的表观遗传修饰,这些修饰在基因调控、细胞分化和疾病发病中发挥着不同的作用。尽管个别修饰与各种遗传功能元件的活性水平有关,但它们的组合模式仍未解决,其系统从头基因组注释的潜力仍未开发。在这里,我们使用多元隐马尔可夫模型来揭示人类T细胞中的“染色质状态”,基于染色质标记的重复和空间相干组合。我们定义了51种不同的染色质状态,包括启动子相关、转录相关、基因间活性、大规模抑制和重复相关状态。每个染色质状态在功能注释、序列基序和实验观察到的特定特征中都显示出特定的丰富性,表明了不同的生物学作用。这种方法提供了人类基因组的补充功能注释,揭示了不同类别表观遗传功能的全基因组位置。

PubMed免责声明

数字

图1
图1。染色质状态注释示例
输入人类7号染色体围绕CAPZA2基因的120kb区域的染色质标记信息和由此产生的染色质状态注释。对于每个200-bp的间隔,输入的ChIP-Seq序列标签计数(黑色条)被处理为18个乙酰化标记(浅蓝色)、20个甲基化标记(粉红色)和CTCF/Pol2/H2AZ(棕色)中的每一个的二进制存在/不存在调用。这些标记在空间上下文中的每个间隔中的精确组合用于推断最可能的染色质状态分配(彩色框)。尽管染色质状态是独立于任何先前的基因组注释而获得的,但它们与上游和下游启动子(红色)、5′-近端和远端转录区(紫色)、基因间活性区(黄色)、抑制区(灰色)和重复区(蓝色)(状态描述见补充表1)密切相关。这个例子表明,即使来自染色质标记的信号是嘈杂的,产生的染色质状态注释也是非常稳健的,可以直接解释,并且与基因注释显示出强烈的对应性。从活性基因附近的大规模抑制基因间区到活性基因间区,从TSS周围的上游启动子状态到下游启动子状态,以及沿着基因体从5′-近端转录区到远端转录区,可以看到几个空间相干的转变。状态16的频繁转换与注释的Alu元素相关(57%重叠,状态13和15分别为4%和25%)。过渡到状态13可能是由于CAPZA2第一内含子中的增强子元件引起的,CAPZA2是一个调控元件普遍存在的区域,与几个增强子标记相关。虽然此处显示了最大概率状态分配,但该区域中每个状态的完整后验概率如补充图2所示。
图2
图2。染色质状态定义和功能解释
a。与每个状态相关的染色质标记组合。每行显示与每个染色质状态相关的标记的特定组合,以及它们出现的频率(色阶)。这些对应于在模型训练期间通过基因组学习的隐马尔可夫模型(HMM)的发射概率参数(值如补充图2所示)。标记和状态的颜色如图1所示。b。染色质状态的基因组和功能富集。%表示百分比,xF表示褶皱富集。按顺序排列的列是:分配给该州的基因组的百分比;注释RefSeq转录起始点(TSS)2kb内重叠200bp-in间隔的状态百分比;在状态中找到的RefSeq TSS的百分比;TSS褶皱富集;与RefSeq转录区重叠的状态百分比;基因组区间重叠状态的平均表达水平;ZNF-命名基因的折叠富集;RefSeq 5′非翻译区(5′-UTR)外显子和内含子的折叠富集;RefSeq外显子的折叠富集;剪接外显子的折叠富集(2外显子或更高版本);RefSeq 3′非翻译区(3′-UTR)外显子和内含子的折叠富集;RefSeq转录末端位点(TES)的折叠富集;PhastCons保守元素的褶皱富集;DNaseI超敏位点的折叠富集;一组实验中转录因子结合位点的中位折叠富集(在补充图23中展开);CpG岛折叠富集;GC核苷酸百分比;实验核纹数据重叠百分比;与RepeatMasker元素重叠的百分比(在补充图31中展开)。所有的充实都基于后验概率赋值。基因组总数表示与特征或表达的基因组平均值和%GC相交的200bp的总百分比。c。简要的生物状态描述和解释(“hr”:染色质,“enh”:增强子,补充表1中的完整描述)。
图3
图3。启动子和转录染色质状态显示出不同的功能和位置富集
a。在转录起始位点(TSS)发现与不同启动子状态相关的基因的独特基因本体(GO)功能丰富(折叠和校正p值)。有关其他状态和GO术语,请参见补充图29。b。启动子状态相对于最近的RefSeq TSS的不同位置偏差区分了上游峰值、仅下游峰值和以TSS为中心的状态。c。转录状态相对于TSS、最近剪接外显子起始点和转录末端位点(TES)的位置偏差。这些区分了5′-近端状态(12-23,左侧面板)、5′-远端状态(24-28)、剪接外显子高度富集的状态(中间面板,另见补充图24,状态24-28的图)和TES相关状态(状态27的位置特别精确,右侧面板)。
图4
图4。染色质状态的SNP和GWAS富集
a。几种染色质状态显示了疾病关联数据集的丰富性。对于每个状态显示:基因组百分比;HapMap CEU群体SNP的折叠富集;从众多研究中收集的1640个与多种疾病和性状相关的全基因组关联研究(GWAS)单核苷酸多态性(SNP)中进行倍增(Hindorff等人,2009);GWAS SNP相对于HapMap CEU SNP富集的折叠富集;GWAS SNP相对于潜在SNP频率的显著性(当校正的p值<0.01时)。b。GWAS富集状态下的基因间SNP示例33,发现IKZF2基因下游40kb,与血浆嗜酸性粒细胞计数水平相关。补遗(Gudbjartsson等人,2009)中报告的SNP显著性显示了该区域中每个SNP(蓝色圆圈)和相关染色质状态注释(类似于图1)。红色圆圈表示顶部SNP及其与状态33的重叠。除了顶级SNP外,在一些案例中,次级SNP也经常出现在GWAS富集状态或附近。
图5
图5。染色质状态对基因组注释的发现能力
a。比较单个染色质标记(红色)、染色质状态(蓝色)的转录起始位点(TSS)的发现能力,以及基于所有可用细胞类型(金)的CAGE序列标签数据读取计数的定向实验方法,而染色质状态和标记仅使用CD4 T细胞的数据。在预测200bp间隔是否与RefSeq TSS相交的任务中,使用接收器操作特征(ROC)曲线比较染色质状态和CAGE标签,该曲线显示在不同预测阈值下的假阳性(x轴)和真阳性(y轴)率。细红色曲线比较了H3K4me3标记在不同强度阈值下的性能。b。检测RefSeq转录区染色质状态和标记的能力比较和基于所有可用单元类型的序列计数的来自Expressed Sequence Tag(EST)数据(gold)的定向实验信息。c。独立的实验和比较信息支持了面板中很大一部分“假阳性”b条是真正新颖的未标记TSS和RefSeq中目前缺失的转录区域。CAGE标记支持的每个状态的百分比(第1列),以及距离RefSeq TSS至少2kb的位置的相同百分比(第2列),表明RefSeq启动子之外的许多启动子相关状态都受到CAGE标记证据的支持。类似地,每个状态与GenBank mRNA重叠的百分比(第3列),以及特定于RefSeq基因之外的相同百分比(第4列),表明RefSeq以外的转录相关状态得到了mRNA证据的支持。GenBank Expressed Sequence Tags(ESTs)和进化保守预测的新外显子也发现了类似的支持(补充图33)。
图6
图6。用标记子集恢复染色质状态
a。该图显示了基于贪婪正向选择算法的标记排序,以优化状态错误的平方错误惩罚(在线方法)。如果左侧的所有标记都已被分析,则列出的标记是根据目标优化函数分析另一个标记的最佳选择。每个标记下面是使用标记子集进行相同赋值的州的百分比。b。基于贪婪方法的前10个标记与中使用的10个标记之间恢复的每个状态的百分比比较(Cui等人,2009)(补充图39)。状态ID后面的两列是使用贪婪算法恢复的状态的比例和中使用的集合(Cui等人,2009)。c。该图显示了状态错误分配的平方误差随着基于贪婪算法选择的标记数的增加而逐渐减小。

类似文章

引用人

参考文献

    1. Bernstein BE,Meissner A,Lander ES。哺乳动物表观基因组。单元格。2007;128:669–681.-公共医学
    1. Kouzarides T.染色质修饰及其功能。单元格。2007;128:693–705。-公共医学
    1. Strahl BD,Allis CD。共价组蛋白修饰的语言。自然。2000;403:41–45.-公共医学
    1. Schreiber SL,Bernstein BE。染色质的信号网络模型。单元格。2002;111:771–778.-公共医学
    1. Barski A等人。人类基因组中组蛋白甲基化的高分辨率分析。单元格。2007;129:823–837.-公共医学

出版物类型