跳到主页面内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https公司

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2012;8(12):e1002798。
doi:10.1371/journal.pcbi.1002798。 Epub 2012年12月6日。

利用转录因子占有率和染色质状态的综合模型预测时空基因表达

附属公司

利用转录因子占有率和染色质状态的综合模型预测时空基因表达

巴特克·威尔钦斯基等。 公共科学图书馆计算生物学. 2012.

摘要

精确的时空基因表达模式是后生动物复杂性的核心,是胚胎发育的驱动力。虽然在分析和预测顺调控活性方面已经取得了实质性进展,但我们对来自多个增强子元件的信息如何汇聚来调节基因表达的理解仍不明确。这在很大程度上是由于参与调节调节的不同生物过程的数量以及其中许多生物过程的实验测量可用性有限。在这里,我们使用贝叶斯方法对不同的实验调控数据进行建模,从而对基因表达的空间和时间方面进行准确预测。在果蝇发育期间,我们在全基因组范围内整合了有关转录因子募集到多个顺调控模块、绝缘体结合和单个基因位点附近组蛋白修饰状态的全胚胎信息。该模型使用贝叶斯网络表示特定组织和阶段中转录因子占有率与增强子活性之间的关系。所有参数均在期望最大化程序中进行了优化,该程序提供了一个能够预测新的、以前未宣布的基因的组织和阶段特异性活动的模型。利用输入数据子集进行优化表明,无论是增强子占位还是染色质状态都不能单独解释所有基因表达模式,但综合起来可以准确预测时空活动。利用BDGP联合体最近提供的600多个基因的表达模式验证了模型预测,表明在原始模型上,预测组织中表达的基因平均富集15倍。我们通过实验测试20个未知表达的预测目标基因的表达,进一步验证了模型,时间预测的准确率为95%,空间预测的准确度为50%。据我们所知,这是第一种全基因组方法,用于预测后生动物发育过程中组织特异性基因的表达,但我们的结果表明,这种类型的综合模型在未来将变得更加普遍。

PubMed免责声明

利益冲突声明

提交人声明,不存在相互竞争的利益。

数字

图1
图1。生成时空基因表达的预测模型。
()一个典型的基因组位点果蝇属基因组。描述的轨迹从上到下表示:转录因子(TF)结合(log2 ChIP-ChIP信号显示为一个因子,蓝色),计算顺式-15种发育条件下的调控模块(CRM)(绿色)。缩放的热图显示了所有5个TF和5个时间点的一个CRM的TF绑定的详细视图,蓝色水平表示log2中ChIP的富集程度。绝缘体(INS)结合以红色显示(CP190显示ChIP信号,深红色为6个因子之一),选定时间点的组蛋白H3K4me3(橙色)和RefSeq的基因模型以黑色(非活性基因)或红色(活性基因)表示,具体取决于H3K4me3信号的水平。绝缘子占用的边界将所有CRM放置在三个基因附近,两倍CG30194型l(2)06496,而富集的H3K4me3信号位于两倍l(2)06496启动子表明,它们是这些阶段唯一活跃表达的基因。在这个位点中只有一个增强子的活性是已知的(两倍-PE)。的时空表达模式两倍基因显示,特征为原位杂交。(b条)迭代贝叶斯建模方法的示意图。该模型由两个通过EM算法迭代连接的主要组件组成:贝叶斯网络,该网络使用TF占用率数据(ChIP)和TF活动数据(来自转基因报告者分析)来建模CRM活动(优化运行的示例性网络拓扑显示在单独的面板中);使用绝缘体占用率、启动子活性、CRM占用率和CRM活性估计来建模时空基因表达的概率模型。单独的面板包括用于包含Tinman和Bagpipe基因的示例性基因座的所有数据。这是一个有趣的例子,因为这两个基因在不同的时间和来自中胚层的亚组织中表达。本质上,该模型根据两个绝缘体元件(镶嵌面板中的绿色芯片信号)之间的所有数据来估计基因活动的概率。使用期望最大化步骤(EM)迭代改进BN拓扑、CRM活动预测、最大CRM-基因距离(dmax)和基因表达预测,直到达到局部最大似然。
图2
图2。迭代贝叶斯模型可以准确预测基因表达。
()学习的贝叶斯网络拓扑揭示了转录因子(TF)和特定组织之间的调节关系。网络中的每个节点表示TF占用数据(TF-f和时间T)或特定活动类别(组织或时间段)。边缘表示CRM作为特定绑定事件的函数处于活动状态的概率,深蓝线的概率最高。Meso类中的预测活动取决于Twist(Twi)在2-4小时绑定到CRM,而VM活动取决于Biniou(Bin)在两个时间点的占用率。Meso公司===========================================================不明中胚层===========================================================内脏肌肉===========================================================躯体肌肉。(b条)直方图显示了所有10个活动类别中后验概率最高的前2%基因中正确预测的平均富集度,其中使用包括所有数据集的迭代训练模型获得了15倍的富集度。当删除一个或多个数据集时,该富集度稳步下降,当省略绝缘体结合和H3K4me3放射性数据(TF+EM)时,将形成9倍的富集,当TF结合与绝缘体或H3K4me3数据一起使用而无需迭代EM程序时,则为~6倍的富集,当仅使用TF结合数据或组蛋白标记时,达到~3倍的富集。(c(c))使用验证交叉验证模型现场训练集中没有包含600个基因的杂交数据。所有10个班的平均曲线下面积(AUC)从0.82(训练)到0.78(新数据)不等。
图3
图3。验证内脏肌肉的时空表达预测。
()活动级内脏肌肉(VM)的接受者-操作员曲线(ROC)。对于使用所有数据的完整迭代模型(TF+all),曲线下面积(AUC)为0.87,对于不包括染色质数据(TF+EM)或不包括EM步骤(TF+His,TF+Ins)的简单模型,曲线下区域逐渐变小。(b条)不同模型和验证数据的前(2%)基因中正确预测的丰富程度。蓝色条表示使用内脏肌肉活动类(VM)的训练数据的不同模型的性能。红色条表示现场验证的例子以及VM中表达的前100个基因预测,这些预测是根据文献手动注释的。(c(c))显示双荧光的胚胎图像现场与预测表达的基因(红色)和VM的特异标记(绿色、,比尼奥),其中VM中重叠的基因表达显示在合并面板中。白色箭头指向VM。所有胚胎的方向都是左前方,背侧向上。现场所有22个测试基因的数据如图S9所示。

中的注释

  • 基因表达:跨空间和时间的预测。
    弗林托夫特L。 弗林托夫特L。 Nat Rev基因。2013年2月;14(2):78. doi:10.1038/nrg3411。Epub 2012年12月27日。 Nat Rev基因。2013 PMID:23269464 没有可用的摘要。

类似文章

引用人

工具书类

    1. Azpiazu N,Frasch M(1993)《铁皮人和风笛:决定果蝇背部中胚层细胞命运的两个同源盒基因》。基因与发育7:1325–1325。-公共医学
    1. Zaffran S、Kuchler A、Lee HH、Frasch M(2001)biniou(FoxF),果蝇内脏中胚层发育和中肠形态发生调控网络中的一个核心成分。基因Dev 15:2900–2915。-项目管理咨询公司-公共医学
    1. Fujioka M,Wu X,Jaynes JB(2009)染色质绝缘体介导转基因归巢和非常远程的增强子-启动子通信。开发136:3077–3087。-项目管理咨询公司-公共医学
    1. Beer MA,Tavazoie S(2004)从序列预测基因表达。手机117:185–198。-公共医学
    1. Zinzen RP、Girardot C、Gagneur J、Braun M、Furlong EEM(2009)组合转录因子结合预测时空顺调控活性。自然462:65–70。-公共医学

出版物类型

赠款和资金

这项工作得到了ERASysBio(ModHeart)和人类前沿科学计划(HFSP)向EEMF提供的资助,以及波兰科学基金会向BW提供的Homing Plus资助(由欧盟共同资助)-欧洲区域发展基金的资助。资助者在研究设计、数据收集和分析、出版决策、,或手稿的准备。