跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
科学。作者手稿;PMC 2011年10月13日发布。
以最终编辑形式发布为:
2010年12月22日在线发布。 数字对象标识:10.1126/科学.1198374
预防性维修识别码:项目经理3192495
NIHMSID公司:NIHMS302053
PMID:21177974

功能元件和调节电路的识别果蝇属modENCODE(模式编码)

modENCODE联盟,* 苏什米塔·罗伊,1中,2, 杰森·恩斯特,1中,2, 彼得·V·哈尔琴科,三, Pouya Kheradpour公司,1中,2, 尼古拉斯·内格尔,4, 马修·伊顿,5, 简·兰多林,6, 克里斯托弗·布里斯托,1中,2, 马丽嘉,4, 迈克尔·F·林,1中,2, 斯特凡·瓦西特尔,1中, 布拉德利·阿尔希诺夫,7,18, 费哈特·艾,1中,33, 帕特里克·梅耶,1中,30, 尼古拉斯·罗宾,8, 妮科尔·华盛顿,9, 路易斯·迪·斯特凡诺,1中,31, 尤金·别列齐科夫,23, 克里斯托弗·布朗,4, 罗杰里奥·坎迪斯,1中, 约瑟夫·卡尔森,6, 阿德里安·卡尔,10, 欧文·容雷斯,1中,2, 丹尼尔·马尔巴赫,1中,2, 雷切尔·西尔弗恩,1中,2, 迈克尔·托尔斯托鲁科夫,三, 塞巴斯蒂安·威尔,1中, Artyom A.Alekseynko,11 卡洛·阿蒂埃里,12 本杰明·W·布斯,6 安吉拉·布鲁克斯,28 齐代,8 卡莉·戴维斯,13 迈克尔·达夫,14 新丰,13,18,35 安德烈·戈尔查科夫,11 顾婷婷,15 Jorja G.Henikoff先生,8 菲利普·卡普兰诺夫,16 李仁华,17 Heather K.MacAlpine公司,5 约翰·马龙,12 阿基·米诺达,6 杰瑞德·诺德曼,22 冈村克寿,8 马克·佩里,18 萨拉·鲍威尔,5 妮科尔·里德尔,15 酒井明子,29 阿纳斯塔西亚·萨姆索诺娃,19 杰里米·桑德勒,6 尤里·施瓦茨, 诺亚·谢尔,22 丽贝卡·斯波科尼,4 大卫·斯图吉尔,12 马里克·范巴伦,20 肯尼思·H·万,6 李阳,14 如何在科幻世界中生存,6 伊丽莎·芬戈尔德,17 彼得·古德,17 马克·盖尔,17 丽贝卡·洛登,17 卡米·艾哈迈德,29 贾斯汀·安德鲁斯,21 邦妮·伯杰,1中,2 史蒂文·布伦纳,28中,32 迈克尔·布伦特,20 露西·切尔巴斯,21,24 莎拉·C·R·埃尔金,15 托马斯·金戈拉斯,13,16 罗伯特·格罗斯曼,4 罗杰·霍斯金斯,6 托马斯·考夫曼,21 肯特,34 Mitzi I.黑田东彦,11 特里·奥尔·韦弗,22 诺伯特·佩里蒙,19 文森佐·皮罗塔,27 詹姆斯·波萨科尼,26 冰人,26 史蒂文·拉塞尔,10 彼得·切尔巴斯,21,24 布伦顿·R·格雷夫利,14 苏珊娜·刘易斯,9 戈斯·米克伦,10 布莱恩-奥利弗,12 彼得·帕克, 苏珊·塞尔尼克,6,§ 史蒂文·海尼科夫,25中,§ 加里·H·卡彭,6,28中,§ 埃里克·赖,8,§ 大卫·M·麦克阿尔宾,5,§ 林肯·D·斯坦,18,§ 凯文·怀特,4,§马诺利斯·凯利斯1中,2,

关联数据

补充资料

摘要

为了深入了解基因组信息如何转化为细胞和发育程序果蝇属模式生物DNA元素百科全书(modENCODE)项目全面绘制了转录物、组蛋白修饰、染色体蛋白、转录因子、复制蛋白和中间产物以及核小体特性在发育过程和多个细胞系中的分布。我们已经生成了700多个数据集,并发现了蛋白质编码、非编码、RNA调节、复制和染色质元素,使注释部分增加了三倍多果蝇属基因组。这些元素的相关活性模式揭示了一个功能调节网络,该网络预测了基因的假定新功能,揭示了阶段和组织特异性调节因子,并使基因表达预测成为可能。我们的结果为以下方面的直接实验和计算研究提供了基础果蝇属和相关物种,以及系统数据集成模型,以实现全面的基因组和功能注释。

许多物种完成基因测序几年后,仍不清楚如何将基因组信息转化为细胞和发育程序的功能图。DNA元素百科全书(ENCODE)(1)和模型生物ENCODE(modENCODE)(2)项目使用不同的基因组分析来全面注释智人(人类),黑腹果蝇(果蝇),以及秀丽隐杆线虫(蠕虫)基因组,通过功能基因组数据集的系统生成和计算集成。

以往对苍蝇的基因组研究对我们理解基本生物学机制和基因组功能作出了重大贡献,这得益于常染色和异色基因组的遗传、实验、计算和人工注释()基因组小,生命周期短,对发育、基因功能和染色体生物学有深入的了解。约40%的蛋白质和非蛋白质编码基因的功能[FlyBase 5.12(4)]已从cDNA收集中确定(5,6),手动管理基因模型(7)基因突变和全基因组RNA干扰筛选(8——10)和比较基因组分析(11,12)。

这个果蝇属modENCODE项目已经生成了700多个数据集,这些数据集描述了转录物、组蛋白修饰和核小体物理特性、一般和特殊转录因子(TF)以及细胞系、分离组织和整个生物体在几个发育阶段的复制程序(图1). 在这里,我们通过计算整合这些数据集并报告(i)改进和附加的基因组注释,包括全长蛋白编码基因和短至21个氨基酸的肽;(ii)非编码转录本,包括132个候选结构RNA和1608个非结构转录本;(iii)额外的Argonaute(Ago)相关小RNA基因和通路,包括蛋白质编码外显子内编码的新microRNAs(miRNAs)和来自3′非翻译区的内源性小干扰RNA(siRNAs;(iv)由18个染色质标记的组合模式定义的染色质“状态”,这些标记与不同的功能和性质相关;(v) 具有表观遗传调控的高TF占有率和复制活性区域;(vi)具有层次结构和丰富前馈回路的混合TF和miRNA调节网络;(vii)近3000个基因基于共表达和共调控的功能注释;(viii)阶段和组织特定的调节器;(ix)基因表达水平和调节器功能的预测模型。

保存图片、插图等的外部文件。对象名为nihms302053f1.jpg

概述果蝇属modENCODE数据集。研究了基因组元件和反式因子的范围,以及相关技术和由此产生的基因组注释。hnRNA,异质核RNA。

数据集概述

我们的数据集提供了对转录、表观遗传、复制和调控景观的广泛描述果蝇属基因组(表S1). 实验测定包括高通量RNA测序(RNA-seq),捕获大小RNA和剪接变异体;染色质免疫沉淀(ChIP)-芯片和ChIP,然后进行高通量测序(ChIP-seq),分析染色体和RNA结合或加工蛋白;拼接阵列,识别和测量复制模式、核小体溶解度和周转;和基因组DNA测序,测量拷贝数变化。我们对测序菌株进行了大多数分析y;中国bw sp(13)在培养细胞中,主要有四种细胞系(S2、BG3、Kc和Cl.8;表S2)。

基因转录本及其启动子区域的注释

为了全面表征转录序列,我们使用poly(A)进行RNA-seq+和总RNA,基因表达的cap分析,cDNA末端的快速扩增,并产生表达序列标签(表S1)(14——16)和cDNA。这些数据支持90%以上的注释基因、外显子和剪接连接,并为17000个蛋白编码和非编码基因提供了实验证据,其中1938个以前未注释。除了基因外,我们在14016个不同的替代转录物中发现了52914个先前未描述或修改的外显子(65%由cDNA支持)和22965个新的剪接连接[35%由cDNA、逆转录聚合酶链反应产物和长聚(A)支持+核糖核酸序列(14)]. 总的来说,74%的注释基因显示出至少一个先前未描述或修改的外显子或替代剪接形式,尽管之前进行了大量注释工作,这说明了探测其他细胞类型的重要性。在S2细胞中表达的21071个新预测外显子中,89%与转录区的染色质特征有关(17)。

我们还对56%的注释基因(70%的胚胎表达基因)的形状和转录起始位点(TSS)分布进行了表征。我们发现并验证了2075个已知基因的替代启动子。在发现的427个与活性S2细胞转录物相邻的替代启动子中,72.5%由该细胞类型中启动子相关染色质标记支持(18),证实了预测,并表明这些地区包含监管元素。同样,与整只动物的染色质标记相比,产生了1117个额外的经验证的启动子(19)。

除1498(9.9%)个之前注释外,我们检测到所有注释D.黑腹果蝇基因(4)在任意一个poly(A)中+或总RNA-seq样本。未检测到的基因包括多拷贝基因家族成员[例如,核糖体RNA、paralogs、小核仁RNA(snoRNAs)、tRNAs]以及已知低表达或限制表达的基因。我们仅在总的胚胎RNA-seq数据中发现了新的snoRNAs、scaRNAs和pri-miRNA转录物,甚至不包括幼虫、蛹或成虫样本。

蛋白质编码、结构和非编码转录本

我们在12个序列的比对中搜索保守蛋白编码DNA序列的进化特征果蝇属基因组(12,20)以及与已知蛋白质的相似性。1938年只有57个以前未描述的基因模型(17)包含一个完整、保守的开放阅读框(ORF),可能代表未知的蛋白编码基因(图2A). 另外81个基因模型可能是不完全重构的编码基因,因为它们至少包含一个蛋白编码外显子,但缺乏可明确识别的翻译起始或终止位点(17). 这138个基因的平均表达量比已知的蛋白编码基因低近六倍[每千基转录片段/百万片段测序(FPKM)6.7比34.8],40%的基因仅表达于晚期幼虫、蛹和成年雄性,这可能解释了为什么在之前的注释中遗漏了这些基因。对于剩下的1800个基因模型,我们没有发现使用PhyloCSF进行蛋白编码选择的证据,也没有发现使用blastx进行已知蛋白序列的相似性,这表明它们不太可能代表蛋白编码基因(20)。

保存图片、插图等的外部文件。对象名为nihms302053f2.jpg

编码和非编码基因和结构。(A类)染色体2R中雄性特异表达的扩展区域,包括新的蛋白编码和非编码转录物。MIP03715包含两个分别为23和21个密码子的短ORF。ORF多物种比对(颜色编码)显示出丰富的同义(亮绿色)和保守(深绿色)替换以及非同义替换(红色)的耗尽,这表明蛋白质编码选择[非同义与同义替换的比率(数字/数字)两者均<1,P(P)< 10−7P(P)< 10−11分别为似然比检验]。周围区域显示丰富的终止密码子(蓝色、品红色、黄色)和移码位置(橙色)。(B类)3R染色体(26572290至26573456)中的一个转录区,由RNA-seq鉴定,并由启动子特异性和转录相关染色质标记支持,在8个果蝇属物种。(C类)从蛋白编码外显子衍生的新miRNA示例CG6700型,21到23-nt RNA指示Drosha/Dicer-1处理,也从S2细胞和成人头部的AGO1-免疫沉淀库中恢复,指示Argonaute负载。进化证据表明,蛋白质编码受到限制,成熟臂没有守恒,恒星臂也有守恒。红色方框表示可能介导3′UTR靶向的8-mer“种子”序列。

我们在通过RNA测序检测到的1740个转录物(不包括60个snoRNA和miRNA转录物)中寻找非编码RNA(ncRNAs)的特性,这些转录物似乎不编码蛋白质。我们研究了折叠热力学和FlyBase中列出的140个ncRNA和预测的ncRNA中局部二级结构的比较证据(4)不属于主要类别的结构RNA,如miRNAs和snoRNAs。我们使用RNAz程序预测了132个转录本(7.6%)的高置信结构(21),表明作为结构RNA的保守功能,类似于FlyBase ncRNAs中观察到的具有预测结构的转录物的比例(7.8%)(4). 我们在新预测的转录本中发现了候选结构RNA(图2B)以及之前研究充分的ncRNAs中未知的结构元素,包括性染色体剂量补偿调节器roX2和热休克调节器HSRω(图S1)(17). 然而,绝大多数ncRNAs缺乏高度结构区域,这表明其功能独立于二级结构。

精氨酸相关小分子调控RNA

我们对深度测序的18-28-核苷酸(nt)RNA的分析大大扩展了Ago-依赖性小分子调控RNA的目录(22)包括miRNAs、siRNAs和piwi-associated RNAs(piRNAs)。在典型的miRNA途径中,通过Drosha和Dicer-1核糖核酸酶(RNase)III酶从发夹前体中切割~21-至24-nt RNA,并加载到AGO1效应复合物中以抑制mRNA靶点。我们注释了61个额外的典型miRNA,其中12个来自已知miRNA位点的反义链(23)这可能为新的miRNA活性的进化提供了一条有效的途径。我们意外地检测到与mRNAs重叠的miRNAs,包括9例保守蛋白编码区的RNA发夹分裂成miRNA和伴侣链miRNA*物种的双倍体,其中许多存在于AGO1复合物中(例如。,图2C). 这些mRNA-resident miRNAs是否具有可检测的反调节活性,是否影响顺式构型中的宿主转录物,或者只是中性底物,还有待观察。我们通过剪接短发夹内含子鉴定了另外15个产生miRNAs的mirtrons(24)将已知病例数从14例增加到29例,翻了一番。我们定义了多达7个带有3′末端的杂交微中子,它们似乎需要在切割之前由外显子进行处理(25). 总之,我们认识到至少三种miRNA生物生成策略,从至少240个基因组位点产生miRNA。

我们和其他人发现了几种内源性siRNA(endo-siRNAs)和21-nt RNA,它们被Dicer-2 RNase III酶处理并优先加载到AGO2中(26——31). 内源性siRNAs来源于三个不同的来源:(i)不同的转座因子(TEs),其活性受到限制;(ii)编码长倒重复转录物的七个基因组区域,指导特定mRNA靶点的切割;和(iii)双向转录区域。最后一类主要由3′非翻译区(3′UTR)重叠的收敛转录物组成,称为3′顺-天然反义转录物(3′顺-NAT)。我们目前的分析将3′顺式NAT–siRNA区域的数量增加了一倍,达到237个,其中包括近四分之一的重叠3′UTR(表S4)。

最后,piRNAs是约24-30-nt的RNAs,主要受性腺Piwi-类精氨酸、Piwi、Aubergine(Aub)和AGO3结合。大多数piRNAs在正义或反义方向上与TEs相匹配,对抑制其活性至关重要(32). 虽然很多果蝇属piRNA独特地映射到数十个主基因座,这些主基因座是TE防御的遗传库(32),我们发现数百个细胞转录物的3′UTR也在体细胞卵泡细胞中产生大量Piwi负载的初级piRNAs(33——35). 这表明,除了转座子控制外,piRNA途径可能在细胞基因调控中发挥更广泛的作用。

染色质景观的大规模组织

真核基因组被组织成大的结构域(约10 kb到兆碱基),表现出独特的染色质特性,例如覆盖基因组三分之一的异色区域,通常以转录沉默而闻名(36). 我们的分析表明,异染色质的染色质组成、组织和边界在细胞类型之间表现出惊人的复杂性和可塑性(37). 我们发现了令人惊讶的活跃异色区,45%的中心周围异染色质基因表达(而常染色质基因表达为50%),活跃异色基因中活跃和沉默标记均富集。相反,我们发现富含异色标记的结构域(例如H3K9me2)覆盖了惊人大比例的常染色序列(BG3细胞中为12%,S2细胞中为6%)(37)。

我们通过描述果蝇属细胞系中的DNA复制程序,我们观察到时间复制程序是由局部染色质环境决定的(18,38)以及复制起始因子的密度(39). 我们还发现,在多烯唾液腺、幼虫中肠和脂肪体中,高达300kb的特定常染色区以组织特异的方式未被复制(40)这表明拷贝数变异可能有助于调节基因表达水平。

功能元件的染色质特征

许多基因组调控区域由于缺乏特征性序列特征而难以识别,但它们通常以特定的组蛋白修饰、变体和其他表观遗传因子为标志(41,42). 为了鉴定这种特征,我们检测了多个细胞系中ChIP-ChIP的18种组蛋白修饰和变体(18)和发展阶段(19),我们定义了核小体的物理性质(43,44). 我们将这些信息与基因注释、转录组数据集、复制因子的结合位点谱、岛叶结合蛋白和TF相关联,以表征每种元素的染色质特征(图3A). TSS近端区域以H3K4me3富集标记(45)核小体密度减少,核小体周转增加,颗粒染色质部分富集(43,44). 基因体显示H2B泛素化覆盖整个转录区,H3K36me3和K3K79me1标记的3′偏倚富集。此外,H3K36me1、H3K18ac和H3K27ac的大内含子富集;特异染色质重塑子;核小体周转率高;H3.3组蛋白变体;和DNase I超敏位点,均提示有调节功能(18). 这些特征通常不存在于短基因和内含子序列比例低的基因中。大多数转录沉默基因缺乏明显的染色质特征,除非位于Pc结构域(H3K27me3)或异染色质(H3K9me2/3、HP1a、H3K23ac缺失)内(37)。

保存图片、插图等的外部文件。对象名为nihms302053f3.jpg

基于染色质的功能元素注释。(A类)组蛋白标记、染色体蛋白和基因物理染色质属性、复制起源、绝缘体蛋白和TF结合位置的平均富集情况。每个面板显示以指定位置为中心的4kb,可以是TSS的近端(接近),也可以是远端(距离)。(B类)通过与启动子(红色轨迹)和基因体(蓝色方框)相关的染色质特征预测并得到cDNA证据支持的转录物的例子。强RNA Pol II和H3K4me3在启动子区域出现峰值,强H2B泛素化延伸至先前注释的卢娜该基因通过RNA-seq连接读取得到确认,但预测中没有使用。(C类)基因间H3K36me1染色质特征可预测复制活性。多重染色质标记的富集用于识别位于注释基因之外的假定大(>10 kbp)基因间H3K36me1/H3K18ac结构域。尽管这些标记通常对应于转录物中的长内含子,但它们的基因间结构域富含复制活性(图S5). 在这个来自BG3细胞的示例中,在该位点与早期复制相关,包含早期起源,富含ORC结合,并由NippedB结合进一步支持。

位置相关性分析确定了组蛋白标记和核小体物理性质之间的关系。活性标记[如H3K27Ac、RNA聚合酶II(RNA Pol II)、H3K4me3]与高染色质溶解度和高核小体翻转率相关,而与沉默染色质相关的标记(如H3K 27me3、H1、H3K 9me2/3)则相反,与核小体密度增加相关(图S2). 染色质溶解度高表明核小体不太稳定(44),核小体的高转换水平表明染色质结构是动态的(43),与相应标志的生物功能相一致。

我们绘制了细胞周期S期早期激活的复制起源和起源识别复合体(ORC)的结合位点,ORC是一种保守的复制起始因子,在体外几乎没有序列特异性(46,47). ORC相关序列通常在TSS中发现,并且大量核小体缺失,但变异组蛋白H3.3富集(39)并进行活跃的核小体转换(43). 这些发现表明,局部核小体占据和组织是ORC结合的决定因素果蝇属,如酵母(48,49). 通过将ORC位点细分为TSS近端和远端位点,我们发现GAGA因子(GAF)和H4Ac tetra、H3K27Ac、H4K8Ac和H3K18Ac的局部富集对这两个位点都是常见的,而H3K36me1似乎对TSS远端ORC位点是特异的(图3A). ORC标记黏着素复合物加载的位置果蝇属(38); H3K36me1,也在凝集素位点富集(18)在没有TSS相关标记的情况下,可能需要,以促进ORC结合和随后的粘合加载(50,51)。

绝缘元件和蛋白质(例如CP190、CTCF、SUHW和BEAF)阻断增强子-启动子相互作用并限制组蛋白修饰的传播(52). 对绝缘体蛋白基因组分布的分析表明,BEAF32、CP190和ZW5优先结合TSS上游,而SUHW几乎只与TSS远端结合,CTCF结合相同(53). 绝缘体区域显示出明显的染色质特征(图3A),但大多数差异是由TSS近端和远端染色质上下文之间的差异解释的,这表明绝缘体结合或功能不需要特定标记。然而,核小体耗竭是TSS近端和远端绝缘体结合位点的一个共同特征,就像哺乳动物一样(54),这一特性可能有助于绝缘体结合或反映绝缘体蛋白取代核小体的能力。

基于染色质的功能元素注释

与TSS和转录区相关的染色质特征(45)通过基于转录的注释识别缺失的基因和启动子。我们利用18个组蛋白标记的位置富集、ORC复合物定位以及验证的活性启动子周围1-kb区域的核小体稳定性和周转,建立了细胞系中活性启动子的预测模型。我们的逻辑回归分类器以21.5%的错误发现率(FDR)达到93.7%的灵敏度(图S4)并预测了2203个额外的启动子位置,距离注释的TSS至少500个碱基对(bp)(17). 其中包括10个初级miRNA转录物的启动子,其中7个也通过RNA-seq鉴定(14). 我们还使用了H3K36me3/H2B-泛素化签名(图S3)鉴定注释基因以外的53个转录基因体,其中11个由启动子预测支持(例如。,图3B). 这些包括四个主要的miRNA转录本,其中三个也由RNA-seq支持(14)其中一个也得到了我们的启动子预测的支持(mir-317型)。

染色质特征还可以识别与其他染色体过程(如复制和分离)相关的功能元件。我们在含有H3K36me1大(>10-kbp)基因间结构域的BG3和S2细胞中鉴定出133个位点和78个位点。在BG3细胞中,90%和68%的基因间H3K36me1结构域与凝集素重叠(18)和早期起源活性,如在基因(图3C图S5). 虽然只有15%的早期复制起源似乎由基因间H3K36me1结构域定义,但与内聚物富集重叠(18)提出了一种共享机制,以确保忠实的染色体遗传。

组合染色质状态的从头发现

多种组蛋白修饰协同作用,决定基因组功能,产生组合染色质状态(55). 我们根据S2和BG3细胞中18个组蛋白标记的组合模式,使用两个无监督的多变量隐马尔可夫模型来分割基因组(图4图S6)(18). 我们没有寻求真正数量的不同染色质状态;相反,我们试图找出在现有染色质标记下平衡分辨率和可解释性的模型,因为更多的状态导致特定基因组特征的富集增加,但逐渐捕获每种特征的较小部分(图S7)。

保存图片、插图等的外部文件。对象名为nihms302053f4.jpg

染色质状态及其功能富集的发现和表征。S2和BG3细胞染色质标记的组合模式揭示了与不同类别功能元件相关的染色质状态。离散模型(状态d1至d30)捕获存在/不存在信息,连续模型(状态c1至c9)也包含标记强度信息(22). 状态仅从标记的映射位置(左侧)得知,并与modENCODE定义的元素(右侧)关联,其中常染色质(绿色)和异染色质(蓝色)的模式最为明显(其他变化如图S6)。

从这些考虑出发,我们重点关注了一个9态、基于强度的模型,该模型反映了广泛的染色质功能类别(连续模型状态c1到c9),以及一个30态模型,它以更精细的分辨率识别组合模式(离散模型状态d1到d30)(图4,左侧面板)(17). 这些表现出明显的功能和基因组丰富性(图4,右侧面板),与不同染色体(第4号染色体,男性X)、调节元件(启动子、增强子)、基因长度和外显子结构(例如,第一个长内含子)、遗传功能(例如,发育调节子)和基因表达水平(高或中、低或沉默)相关。

基因间区域和沉默基因与常染色质中的d30(c9)状态(覆盖基因组的51%,缺乏任何检测标记的富集)和异染色质中的状态d26、d28和d29(c7和c8)相关(以H3K9me2/3富集和H3K23ac缺失为特征)。这些状态对其他映射因子(例如绝缘体、组蛋白去乙酰化酶(HDAC)、TF)缺乏富集,并且染色质溶解度和核小体转换水平较低。

相反,表达的基因在几个因子和染色质属性方面表现出大量复杂的丰富性。大多数活性TSS与已知启动子相关标记H3K4me3和H3K9ac定义的状态c1相关(45). 其他活性TSS额外富集H3K36me1和多重乙酰化(d13)。即使在c1内,一些TSS与核小体周转、第1组绝缘体蛋白和HDAC(d1、d3)表现出更高的相关性,而其他TSS则与中表达(d5)或低表达(d6)的异色基因相关。

状态分析还捕获了常染色质和异染色质的ORC结合与TSS之间的相关性,以及常染色质区域的早期起源与开放染色质之间的相关性。然而,ORC绑定在很大程度上局限于TSS相关状态的子集(d1、d5、d6、d13、d17,而不是d3或d24),并且在TSS中没有发现一些为ORC绑定而富集的状态(d11、d14、d21)。早期起源主要与状态c3(活性内含子、增强子)和c4(开放染色质)有关,与ORC结合数据的近核苷酸分辨率相比,ORC结合通常根据其覆盖的广泛域显示出不同的状态富集。

我们的状态显示出与最近发表的来自DNA腺嘌呤甲基转移酶鉴定的染色质的五种“颜色”有一些相似之处,即在Kc细胞中定位的染色体蛋白(56),但即使是高度特定的状态有时也会分为多种颜色(图S8). 这表明了一个更复杂的画面,有许多高度特异的染色质状态和特定的功能富集。

高占有率TF结合位点的染色质和基序特性

多个TF的绑定配置文件中的广泛重叠揭示了高度占用的目标(HOT)区域或热点(19,57——61). 利用41个TF在早期胚胎发育中的结合谱,我们对38562个不同的TF结合位点中的每一个都分配了一个TF复杂性分数,对应于不同TF结合的数量(从1到~21),从而产生1962个TF复杂度为8或更大的热点,对应于~10个重叠因子结合(19)。我们将这些区域与我们和其他数据集进行关联,以深入了解HOT区域建立的可能机制,以及它们如何影响染色质属性或受其影响。

我们研究了32个转录因子的调控基序的富集,这些转录因子既有全基因组结合区,也有成熟的调控基序(图5A)。我们根据每个TF的平均复杂性[共同绑定的TF平均数量]对其进行排序(19)]KNI为10.8,FTZ-F1为1.3。我们研究了每个因子已知模体在结合区的相对富集度,发现八个因子(KNI、DLL、GT、PRD、KR、SNA、DA和TWI)的平均复杂度大于四,在不同复杂度水平上显示出模体富集的显著差异。在所有八种情况下,基序匹配优先出现在复杂性较低的区域,这表明存在非特异性结合。对于另外9个TF,结合区在已知的基序中富集,但没有发现对较低复杂度区域的偏见;对于另外10个因子,已知的基序在结合区中没有显示出显著的富集,这表明基序不正确,或者TF的比例大于先前预期的非序列特异性结合。

保存图片、插图等的外部文件。对象名为nihms302053f5.jpg

高频率TF结合区及其与基序、ORC和染色质的关系。(A类)由相应TF结合的区域的已知模体的丰富程度,按平均复杂度排序,表示同一区域中结合的不同TF的数量。对于八个TF,高复杂性区域的基序缺失(蓝色),表明非序列特异性招募。在八个案例中的七个案例中,已知的基序在结合区域中富集(Enrich),表明在较低复杂度区域中存在序列特异性招募。对于每个因子,重复之间的结合位点具有高度的重复性(Reprod)。(B类)ORC与TF复杂性。热点复杂性之间的关系(x个轴)和ORC结合富集(轴)。(C类)在高复杂度或低复杂度区域(方框范围)中发现的图案及其在高(红色)或低(蓝色)复杂度区域中的富集。M1至M5是HOT地区建立的候选“驱动因素”。

我们发现TF复杂度增加的热点和核小体密度降低之间有很强的相关性(图S9A)(19),核小体周转增加(图S9B)组蛋白变体H3.3,与核小体置换相关(图S9C),但之前注释的增强子数量惊人地减少(19),表明这些元素可能具有不同的作用。我们观察到与TSS相关的几个染色质状态和开放染色质区域(d1、d5、d6、d13、d14、d21)的HOT区域在广泛的复杂度值范围内富集,而一些状态(d3和d24)仅在较低的复杂度下富集(图S9D). 相反,在所有复杂度范围内,转录延伸(d7至d9)、基因间(d30)和异色状态(d26、d27、d29)都被强烈耗尽。我们还发现HOT区域和ORC结合位点之间的一致性(图5B),ORC结合的可能性随着TF结合区域的复杂性单调增加。再加上缺乏可检测的ORC结合特定序列果蝇属(39)这表明热点是通过高可达性区域中的非特异性结合以及染色质调节、TF结合和DNA复制之间广泛的相互作用实现ORC定位的另一种机制。鉴于胚胎和细胞系数据集之间的高度一致性,我们认为热点是稳定的基因组区域,通过招募特定染色质标记或重塑物保持开放,促进额外TF在其基序或非特定基序上的结合。

我们寻找可能被TF识别的潜在“驱动”基序,TF可能参与建立HOT区域(图5C). 应用我们的motif-discovery管道(19)在不同复杂度的边界区域内,产生了7个不同的图案,与不同复杂度热点相关。M2和M3基序与BEAF-32和Trl/GAF绝缘体基序相似,表明热点和绝缘体蛋白之间存在相互作用。基序M1与已知的Sna基序仅在一个位置上不同,并且在高复杂性区域高度富集(图5C)而Sna基序在复杂度较高的Sna结合区域中缺失(图5A)这表明单核苷酸差异可能对识别很重要。其他四个基序与任何已知的TF都不匹配,表明yet-uncharacterized潜在序列特异性调节因子可能参与热点的建立。

分配给候选功能的基因组片段

我们将候选函数分配给数据集覆盖的非竞争性基因组的部分,不包括大块重复和低复杂度序列(图6A). 蛋白质编码外显子覆盖21%的基因组,加上精氨酸相关的小调控RNA、UTR、其他ncRNAs、Pol II覆盖的碱基、TFs的结合位点和其他染色质相互作用因子,基因组总覆盖率达到73%。Pc和ORC结合位点以及衍生染色质状态的包含使总基因组覆盖率达到81.5%,转录内含子位置的增加使总覆盖率提高到89%以上(图6A). 与之前的注释相比[FlyBase(4)],我们增加了果蝇属假定相关功能的基因组增加了26.3%(47 Mb)。在各非重复部分的比较中,常染色区域的覆盖率远高于异色区域(90.6比69.5%)。

保存图片、插图等的外部文件。对象名为nihms302053f6.jpg

modENCODE数据集的基因组覆盖率。(A类)非竞争性(蓝线)和保守性(红线)基因组的唯一(条)和累积(线)覆盖。(B类)分组为转录元件(红色)、结合调节因子(蓝色)和染色质域(绿色)的数据集的多重覆盖(17). 在所有三类(黑人)中,10.8%的基因组被覆盖15次或更多,69.5%的基因组被至少覆盖两次。(C类)增加了Chr2R区域的覆盖范围,之前没有注释(左半部分),现在显示了多个重叠的数据集。不同轨道的覆盖高度聚集(图S11),一些地区的覆盖率很低,而其他地区则被多种类型的数据所覆盖。

接下来,我们确定了我们预测的功能元素和PhastCons进化保守元素之间的重叠果蝇属物种、蚊子、蜜蜂和甲虫(62). 这些元素覆盖了38%的D.黑腹果蝇在120万块基因组中,我们重复了之前的单个和累积计算。32%的限制性碱基仅由蛋白质编码外显子覆盖,转录和调控元件的累积总数增加到80%,在包含特定染色质状态后增加到91.8%(图6A). 几乎所有modENCODE定义的功能元素都比偶然出现的情况更有可能覆盖受约束的基,为预测的元素提供了额外的独立证据(图S10). 唯一的例外是一些不太活跃的染色质状态,如预期的那样,以及内含子、UTR和ncRNAs(63)为预测元素提供额外的独立证据。

不同类型元素生成的注释之间的重叠导致了密集的多重覆盖(图6B),即使是以前缺少任何注释的区域(图6C). 尽管基因组覆盖率平均为2.8个数据集,但有10.8%的基因组被15个或更多数据集覆盖,覆盖率峰值为103个数据集与3R染色体上的单个区域重叠。我们发现,结合调节因子和转录元素密度以及调节因子和染色质元素密度之间有很强的正相关性(图S11). 在染色质数据集的情况下,额外的染色质标记可以提高染色质状态恢复的准确性(图S12),我们预计类似的附加数据集会对其他类的函数元素产生影响。

TF目标和物理调控网络推断

我们研究了转录因子、miRNA及其靶基因之间的调控关系网络。在这些网络中,“节点”代表转录和转录后调节器和靶基因,“边缘”或“连接”代表它们的定向调节关系。我们推断了TF结合和miRNA靶向的物理调控网络,其中的连接表示调控因子与其靶基因基因组区域之间的物理接触。

物理调控网络的结构特性是从76个TF的实验导出的结合剖面推断出来的(表S5)以及105个miRNA的77个不同进化保守的miRNA种子基序的全基因组出现(17). 由此产生的网络结构显示出高度的连接性和调控信息的快速传播,平均只需要穿越任意两个基因之间的约两个调控连接,而任意一对基因之间的连接不超过五个。平均而言,目标基因受~12个TF调节,最多可有54个调节TF(17). 根据与其相关的不同功能过程和组织的数量,靶向性最强的基因与多效性增加有关(17)。

物理监管网络包括转录前和转录后监管机构,确定这两种监管之间的相互作用。我们将物理监管网络的TF分为五个级别(图7A图S13)基于每个TF的TF目标与TF监管机构的相对比例(64)我们用与每个水平相互作用最密切的miRNA调节器来增强这个网络。假设顶层的“主调节器”TF几乎针对网络中的所有其他TF,而只有8%的低层边缘指向高层,这支持了层级性质,并表明受调查TF中的主调节器几乎没有直接反馈控制。我们还观察到,尽管在较低层次的TF中,TF靶点的数量减少,但其miRNA靶点的数量增加(两个最高层次的每个TF有0.58个miRNA靶点,而两个最低层次的每个TF有1.55个miRNA靶点,富集倍数为2.66)。这表明,至少有一些从低水平反馈到主调节器的反馈可能通过miRNA调节器间接发生。

保存图片、插图等的外部文件。对象名为nihms302053f7.jpg

物理监管网络的属性(A类)基于ChIP的/miRNA混合物理调控网络的层次视图,该网络结合了来自ChIP实验的76个TF(绿色)的转录调控和52个miRNA(红色)的转录后调控。根据TF目标与TF监管机构的相对比例,TF被组织为五级层级。miRNAs分为两组:受TF调节的(左)和只调节TF的(右)。TF在每个水平的水平位置显示了它们是否调节miRNAs(左),是否对miRNA无调节(中),或不调节但被miRNAss靶向(右)。不同的绿色和红色阴影分别代表TF和miRNAs的靶基因总数(较深的节点表示更多的靶基因)。92%的TF监管连接是从较高级别到较低级别的下游连接(绿色),只有8%是上游连接(蓝色)。miRNA调节连接为红色(B类)混合物理调控网络中高度富集的网络基序,包括TF(绿色)、miRNAs(红色)和靶基因(黑色)。对于每个图案,显示了五个示例。已知激活剂,蓝色;已知阻遏物,红色;其他TF,黑色。

接下来,我们搜索了明显过度表达的网络连接模式,或“网络模式”(图7B),可能代表基因调控的基石(65). 我们在物理调控网络中发现了八个网络基序(66)其中五个对应于TF合作(基序1、2、4、7和8),证实了对协同结合和协同瞄准的观察(57——61). 在所有五个基序中,至少有两个TF相互结合启动子区域,表明存在广泛的正反馈和负反馈。另外两个基序对应于涉及TF和miRNAs合作的混合前馈环(基序3和6),这可能导致靶基因表达的不同延迟特性,具体取决于TF的激活或抑制作用。最后,一个基序(基序5)对应于下游TF通过miRNA靶向上游TF的反馈回路,这也是在层次网络布局中观察到的反馈手段(17)。

数据集集成预测功能性监管网络

我们将物理网络与监管机构和目标的协调活动模式相结合,以得出一个功能性的监管网络(图S14A). 虽然TF结合与真正的调控靶点密切相关,但仅结合一项就可能发生,而无需序列特异的TF-运动相互作用,并不总是导致基因表达的改变(60). 因此,功能调控网络应考虑结合及其功能后果,如与基因功能相关的表达或染色质的变化(图S15). 两个网络都不是另一个网络的严格子集,因为一些物理连接可能不会导致功能变化,并且功能连接可能是间接的,或者只是在物理监管图中缺失。

我们整合了多种证据,包括基因组中启动子区域104个TF的保守序列基序(表S5)、基于ChIP的76个因子的TF结合,以及染色质标记与调控因子及其靶基因的基因表达模式之间的相关性(图S16). 我们将这些证据与无监督机器学习相结合,推断出707种分类为TF的蛋白质之间每个调节边缘的可信度(17)至少有一条证据的14444个目标(17)。

我们比较了由此产生的功能网络与从TF绑定推断出的物理网络、由基序发生构建的预测物理网络和REDfly文学固化功能网络(17). 功能网络包括与结合和基序物理网络相似数量的靶基因(每个约10000个靶点),但总体上有更多的调节器(分别为576对104和76),每个靶点有更多的调控器(分别是24对7和13)(图S14B). 功能网络与作为输入证据的基序网络和结合网络具有相似性;功能网络的连接在两个网络中都显示出超过四倍的丰富性,尽管这两个网络彼此的连接只显示出1.6倍的丰富(图S14C). 与基序或结合网络相比,功能网络与REDfly网络的连接相似性最强,尽管它没有经过专门的训练来匹配已知的边。

与基序和结合网络相比,功能调控网络显示出更强的生物学相关性,包括功能相似性增加、表达相关性增加以及共同靶向基因的蛋白质相互作用增加(图S14D)(17). REDfly网络略优于功能网络,证实了指标的相关性。然而,与红蝇网络相比,功能网络包含的靶点数量多100倍(9436对88),连接数量多1000倍(231181对233),这表明它在基因组规模上预测基因功能和基因表达更具价值。

从功能调控网络预测基因功能

基于相似调控因子和表达相似的靶点可能共享相似功能,我们为缺乏基因本体(GO)术语的基因提供了候选功能注释。我们概率地将基因分配到34个表达簇(图S15)(17)并使用逐关联方法预测每个基因可能的功能GO项,该方法使用注释基因的GO项预测未注释基因的可能功能,允许对每个基因进行多重注释预测(17). 这导致了比单独使用表达或调节器更高的预测能力(图8). 当FDR<0.25时,我们预测了1286个先前未注释基因的GO项和1586个先前注释基因的附加项(图S17,表S6,数据集S15). 一般来说,新GO预测的组织特异性丰富程度与相同GO术语中已知基因的丰富程度相匹配(图S18),为我们的方法提供了独立的验证。

保存图片、插图等的外部文件。对象名为nihms302053f8.jpg

从共表达和共调控模式预测基因功能。GO项的接收算子特征曲线,带有预测的新成员和曲线下面积统计。每个GO项的假阴性是对先前注释为“不相容”GO项基因的预测,GO项定义为一对GO项,相对于其基因集的结合,共有基因少于10%。

预测基因表达的阶段特异性调节因子

我们根据发育过程中的转录变化预测了基因表达的阶段特异性调节因子。与Dynamic Regulatory Events Miner(DREM)合作(67),我们在一组6000多个基因中寻找分裂(先前共表达的基因开始分化为两个或三个不同的表达模式的点),这些基因在发育过程中的表达变化最大(图9A图S19). 我们挖掘了物理和功能调节网络,根据每个分裂的特定轨迹或“路径”上调节器目标的过度表示来预测特定阶段的调节器(17). 一些预测与文献支持一致。例如,TIN,一种已知的器官发育调节器(68),是基因的预测调节器,早期表达增加,丰富了器官发育(P(P)< 10−53)和E2F2,一种已知的细胞周期调节器(69),是基因的预测调节器,早期表达减少,细胞周期功能丰富(P(P)< 10−100)。

保存图片、插图等的外部文件。对象名为nihms302053f9.jpg

调节因子、区域和基因活性的预测模型。(A类)DREM生成的动态调控图预测与表达变化相关的阶段特异性调控因子(轴,相对于第一个时间点的对数空间)跨发展阶段(x个轴)(17). 每条路径(彩色线)表示一组基因的平均表达(实心圆圈)及其标准偏差(圆圈大小)。预测的分岔事件或分裂(开圈)编号为1到19。彩色插图显示了每个基因通过物理(黑色)或功能(蓝色)调控网络中与高(H)、低(L)或中(M)路径相关的分裂和分级调控器的表达水平。未着色插图显示阻遏物SU(HW)的表达,其表达减少与靶点(红色星号)的表达增加一致。(B类)根据S2(黄色)与BG3(绿色)中TF的相对表达以及S2与BG3中激活(左栏)或抑制标记(右栏)的相对基序富集(红色)或缺失(蓝色)之间的一致性,预测S2激活物(顶部组)或抑制物(底部组)。(C类)根据推断的激活物(红色)和阻遏物(绿色)的表达水平,目标基因的真(阴影区顶部)和预测(蓝色虚线)表达水平。仅显示了前五个阳性和阴性调节因子,并根据它们对表达预测的贡献进行了排名(线性回归模型的权重)。示例来自1487个可预测基因中的8个,根据预测质量分数(右上角的排名)进行排名,评估为整个时间过程中预测和真实表达水平之间的平均平方误差。扩展的示例集如所示图S23

为了为使用物理网络进行的调控器预测提供额外支持,我们检查了调控器的时间进程表达谱,这些调控器未直接用于预测方案。尽管一些警告可能会阻碍这一分析,但监管机构的时间进程表达通常与DREM的预测一致。例如,SU(HW)表达的急剧下降与其靶点表达的急剧增加相一致(图9A)符合压制角色(70). 我们通常观察到,在发育阶段,预测调控因子的阶段特异性表达变化与其靶基因的伴随表达变化之间存在显著的对应关系。预计与拆分相关的监管机构的平均绝对表达变化明显大于与拆分无关的监管机构(P(P)< 10−10)(图S19)(17)。

预测细胞类型-染色质活性的特定调节器

我们计算了S2和BG3细胞中22个染色质因子的细胞类型特异性注释中保守调控基序实例的丰度。我们定义了可能参与建立S2和BG3细胞染色质差异的细胞类型特异性激活物和阻遏物的特征(图9B)通过将这些丰富性与识别相同细胞类型中这些基序的TF的表达模式进行比较(17). 激活物被定义为其细胞类型特异性表达与其预测靶点的激活相一致的TF,阻遏物被定义为由其细胞类型特异性表达与其预测目标的抑制相关联的TF。这导致每个细胞有一到八个预测的调节因子,包括CREBA作为预测的S2激活物,H作为预测的BG3阻遏物,以及具有定型同源盒结合基序(HOX-like)作为预测BG3激活物的因子。

对于大多数调控基序,激活染色质标记的富集与抑制染色质标记缺失相结合。这种耦合导致了对激活物和抑制物的更有力的预测,也使得活性和抑制性染色质标记之间的高度区分与先前的研究和我们的染色质状态分析一致(图4)(18,19). 然而,对于少量的基序,染色质富集并没有显示出激活标记与抑制标记相反富集的一致画面。这些可能是假阳性,实际上与染色质调节无关,也可能在其他细胞类型中活跃,与S2和BG3染色质标记的区别无关。

从调控基因表达预测靶基因表达

发育调节程序由多个相互作用的调节器定义,这些调节器有助于观察到基因或区域活动的变化(71). 我们试图根据调控因子的表达水平预测目标基因在多个阶段和细胞系中的特定表达水平。通过RNA-seq在发育过程中获得的30种不同的表达水平测量(14),我们将每个目标基因的表达水平表示为其调节器的线性组合,如功能调节网络所定义(图9C). 我们将时间进程划分为10个区间,每个区间有三个样本,并在9个区间学习TF线性组合的稳定系数,以预测第十个区间的表达式(17)。

我们预测1991年基因的表达水平优于随机控制网络(23.6%的基因),富集度为2.5倍(控制网络对9.5%的基因表现更好)(图S20和S21). 相比之下,物理网络与随机网络相比几乎没有预测价值(表S7)这表明,当结合其他信息来推断功能性监管网络时,最好使用它们。

表达水平可以从其调节器的表达水平预测的基因(那些错误始终低于随机表达水平的基因)可能受到更精确的调控,因此与噪音较小的表达模式相关。事实上,用于表达式预测的30个时间点数据集之间的表达式相关性(14)以及以较长间隔采样的独立生成的12个时间点数据集(19)与不可预测基因相比,可预测基因显著更高(Kolmogorov-Smirnov检验P(P)值<1E–7)(图S22). 这些结果验证了我们的基因表达预测方法,并表明不可预测的基因可能是由于基因表达水平的内在变异所致。

我们还测试了利用全胚胎时间进程数据集获得的调控模型是否可以预测新条件下的基因表达:特别是Cl.8+、Kc167、BG3和S2-DRSC细胞系。对于每个“可预测”基因,根据时间进程实验中学习的权重,将其调节因子的表达水平组合起来,并用于预测目标基因的表达。932个可预测基因的表达也显示出比随机预测更好的结果(相比之下,296个基因用于结合网络,214个基因用于基序网络)。总的来说,62%的胚胎定义的可预测基因在细胞系中也是可预测的,而基于胚胎的不可预测基因只有10-15%,这进一步验证了我们的方法。

我们的结果表明,原始数据集与推断预测表达的功能调节关系高度相关(图9C图S20和S23)。然而,基因组规模的基因表达预测仍然是一个极为困难的问题,因为只有四分之一的基因是可预测的,我们预计随着越来越多基因组规模项目产生的额外数据集的增加,这一部分将得到改善。

讨论

mod-ENCODE项目的第一阶段为后生动物生物学的综合研究提供了基础,增强了现有的基因组注释;扩大小RNA基因和途径的数量和多样性;揭示染色质结构域和特征;以及阐明高占有率区域中复制、染色质和TF结合之间的相互作用。总之,我们得到的注释覆盖了82%的基因组,与之前注释的蛋白编码外显子相比增加了近四倍,并且对解释遗传连锁表型的分子基础具有重要意义。

我们的综合分析揭示了物理和功能调节网络中元素之间的联系,从而能够预测基因功能、组织和阶段特异性调节因子以及基因表达水平。虽然我们的初步结果很有希望,但只有四分之一的基因表现出可预测的表达,这表明需要继续绘制调控相互联系和功能数据集,以及新的预测模型。

通过对ENCODE和modENCODE项目的比较,这里阐述的一般监管原则将如何在动物界,特别是在人类中得到保护,还有待观察。为此,我们正在扩大对功能元件、细胞类型和发育阶段的探索,并优先考虑跨物种的同源分析和条件。考虑到苍蝇和脊椎动物之间生物分子和过程的广泛保护(72),这不仅将提高我们对苍蝇生物学的理解,也可以作为了解人类生物学和疾病的模板。

补充材料

补充材料;

单击此处查看。(11M,pdf)

附录

完整作者列表

Kellis(整合):苏什米塔·罗伊(Sushmita Roy)、杰森·恩斯特(Jason Ernst

Celniker(转录):Jane M.Landolin、Joseph W.Carlson、Benjamin Booth、Angela N.Brooks、Carrie A.Davis、Michael O.Duff、Philipp Kapranov、Anastasia A.Samsonova、Jeremy E.Sandler、Marijke J.van Baren、Kenneth H.Wan、Li Yang、Charles Yu、Justen Andrews、Steven E.Brenner、Michael R.Brent、Lucy Cherbas、Thomas R.Gingeras、Roger A.Hoskins、Thomas C.Kaufman,Norbert Perrimon、Peter Cherbas、Brenton R.Graveley、Susan E.Celniker、Charles L.G.Comstock、Alex Dobin、Jorg Drenkow、Sandrine Dudoit、Jacqueline Dumais、Delphine Fagegaltier、Srinka Ghosh、Kasper D.Hansen、Sonali Jha、Laura Langton、Wei Lin、David Miller、Aaron E.Tenney、Waien、Aarron T.Willingham、Chris Zaleski、Dayu Zhang

卡彭(染色质):Peter V.Kharchenko、Michael Y.Tolstorukov、Artyom A.Alekseynko、Andrey A.Gorchakov、Tingting Gu、Aki Minoda、Nicole C.Riddle、Yuri B.Schwartz、Sarah C.R.Elgin、Mitzi I.Kuroda、Vincenzo Pirrotta、Peter J.Park、Gary H.Karpen、David Acevedo、Eric P.Bishop、Saraw E.Gadel、Youngsook L.Jung、Cameron D.Kennedy、Ok-Kyung Lee、,Daniela Linder-Basso、Sarah E.Marchetti、Gregory Shanower

白色(转录因子):尼古拉·内格雷、马丽佳、克里斯托弗·布朗、丽贝卡·斯波科尼、罗伯特·格罗斯曼、詹姆斯·波萨科尼、任冰、史蒂文·罗素、凯文·怀特、理查德·奥本、雨果·贝伦、贾晨、马克·H·多马努斯、大卫·汉利、伊丽莎白·海因茨、李子荣、福克·迈耶、史蒂文·W·米勒、卡罗琳·莫里森、道格拉斯·谢夫特纳、莱昂内尔·森德罗维奇、,Parantu K.Shah、Sarah Suchy、Feng Tian、Koen J.T.Venken、Robert White、Jared Wilkening、Jennifer Zieba

MacAlpine(复制):Matthew L.Eaton、Heather K.MacAlpine、Jared T.Nordman、Sara K.Powell、Noa Sher、Terry L.Orr-Weaver、David M.MacAlpine、Leyna C.DeNapoli、Queying Ding、Thomas Eng、Helena Kashevsky、Sharon Li、Joseph A.Prinz

Lai(小RNA):尼古拉斯·罗宾(Nicolas Robine)、尤金·别列齐科夫(Eugene Berezikov)、齐代(Qi Dai)、冈村克寿(Katsutomo Okamura)、埃里克·赖(Eric C.Lai)、齐戴(Qi Dai)、格雷戈里·汉农(Gregory J.Hannon)、马丁·赫斯特(Martin Hirs

Henikoff(核小体):Jorja G.Henikoff、Akiko Sakai、Kami Ahmad、Steven Henikoff、Terri D.Bryson

Stein(数据协调中心):布拉德利·阿辛诺夫(Bradley I.Arshinoff)、妮科尔·华盛顿(Nicole L.Washington)、阿德里安·卡尔(Adrian Carr)、新风(Xin Feng)、马克·佩里(Marc D.Perry)、威廉·J·肯特(William J.Kent)、苏珊娜·刘易斯(Suzanna E.Lewis)、戈斯·米克伦(Gos Micklem)、林肯·D·斯坦(Lincoln D.Stein)、高尔特·巴伯(Galt Barber)、奥雷琳·查泰纳(Aurelien Chateigner)、海伦·克劳森(。卢瑟福、彼得·鲁扎诺夫、理查德·史密斯、E.O.斯蒂森、郑查

奥利弗(比较转录):卡洛·阿蒂埃里(Carlo G.Artieri)、李仁华(Renhua Li)、约翰·马龙(John H.Malone)、大卫·斯图吉尔(David Sturgill)、布莱恩·奥利弗(Brian Oliver)、蒋丽春(Lichun Jiang

RNA结构:塞巴斯蒂安·威尔(Sebastian Will)、邦妮·伯杰(Bonnie Berger)

项目管理:Elise A.Feingold、Peter J.Good、Mark S.Guyer、Rebecca F.Lowdon

脚注

支持性在线材料

www.sciencemag.org/cgi/content/full/science.1198374/DC1网站

材料和方法

SOM文本

图S1至S23

表S1至S7

数据集S1至S17(可从www.modencode.org/publications/integrative_fly_2010/)

参考文献和注释

2Celniker SE等人。自然。2009;459:927. [PMC免费文章][公共医学][谷歌学者]
三。Hoskins RA等人。科学。2007;316:1625. [PMC免费文章][公共医学][谷歌学者]
4与FlyBase 5.12版(2008年10月)相比,可在http://fb2008_09.flybase.org/
5Stapleton M等人。基因组生物学。2002;研究0080。[谷歌学者]
6Wan KH等人。《国家协议》。2006;1:624。[公共医学][谷歌学者]
7Drysdale R FlyBase财团。方法分子生物学。2008;420:45.[公共医学][谷歌学者]
8Dietzl G等人。自然。2007;448:151.[公共医学][谷歌学者]
9Mohr S、Bakal C、Perrimon N。年。生物化学评论。2010;79:37. [PMC免费文章][公共医学][谷歌学者]
10Bellen HJ等人。遗传学。2004;167:761. [PMC免费文章][公共医学][谷歌学者]
11果蝇属12基因组联盟。自然。2007;450:203.[公共医学][谷歌学者]
12Stark A等人。自然。2007;450:219. [PMC免费文章][公共医学][谷歌学者]
13Adams MD等人。科学。2000;287:2185.[公共医学][谷歌学者]
14格雷夫利B。自然 [谷歌学者]
15Cherbas L等人。基因组研究 [谷歌学者]
16Hoskins RA等人。基因组研究 [谷歌学者]
17补充文本、材料和方法可用作科学类在线。
18Kharchenko PV等人。自然 [谷歌学者]
19TF结合、热点、TF基序实例、启动子和增强子验证、12点表达和染色质时间进程可在网址:www.cistrack.org
20Lin MF等人。基因组研究。2007;17:1823. [PMC免费文章][公共医学][谷歌学者]
21Washietl S,伊利诺伊州霍帕克,Stadler PF。程序。国家。阿卡德。科学。美国。2005年;102:2454. [PMC免费文章][公共医学][谷歌学者]
22Kim VN、Han J、Siomi MC。自然修订版分子细胞生物学。2009;10:126.[公共医学][谷歌学者]
23Berezikov E等人。基因组研究 [谷歌学者]
24Chung W-J等人。基因组研究 [谷歌学者]
25Flynt AS、Greimann JC、Chung WJ、Lima CD、Lai EC。分子细胞。2010;38:900. [PMC免费文章][公共医学][谷歌学者]
26Chung WJ、Okamura K、Martin R、Lai EC。货币。生物。2008;18:795. [PMC免费文章][公共医学][谷歌学者]
27Kawamura Y等人。自然。2008;453:793.[公共医学][谷歌学者]
28捷克语B等。自然。2008;453:798. [PMC免费文章][公共医学][谷歌学者]
29Ghildiyal M等人。科学。2008;320:1077。 [PMC免费文章][公共医学][谷歌学者]
30Okamura K、Hagen JW、Duan H、Tyler DM、Lai EC。单元格。2007;130:89. [PMC免费文章][公共医学][谷歌学者]
31Okamura K等人。自然。2008;453:803. [PMC免费文章][公共医学][谷歌学者]
32Brennecke J等人。单元格。2007;128:1089.[公共医学][谷歌学者]
33Lau NC等人。基因组研究。2009;19:1776. [PMC免费文章][公共医学][谷歌学者]
34Robine N等人。货币。生物。2009;19:2066. [PMC免费文章][公共医学][谷歌学者]
35Saito K等人。自然。2009;461:1296.[公共医学][谷歌学者]
36Eissenberg JC,路透社G。内部收入单元。分子生物学。2009;273:1.[公共医学][谷歌学者]
37Riddle NC等人。基因组研究 [谷歌学者]
38伊顿ML等人。基因组研究 [谷歌学者]
39MacAlpine香港、Gordán R、Powell SK、Hartemink AJ、MacAlpineDM。基因组研究。2010;20:201. [PMC免费文章][公共医学][谷歌学者]
40Nordman J、Li S、Eng T、MacAlpine D、Orr-Weaver TL。基因组研究 [PMC免费文章][公共医学][谷歌学者]
41Hon GC,霍金斯路,Ren B。嗯,分子遗传学。2009;18:R195。 [PMC免费文章][公共医学][谷歌学者]
42库扎里德斯T。单元格。2007;128:693.[公共医学][谷歌学者]
43交易RB、Henikoff JG、Henikoff S。科学。2010;328:1161. [PMC免费文章][公共医学][谷歌学者]
44Henikoff S、Henikoff JG、Sakai A、Loeb GB、Ahmad K。基因组研究。2008;19:460. [PMC免费文章][公共医学][谷歌学者]
45Heintzman ND等人。自然遗传学。2007;39:311.[公共医学][谷歌学者]
46Vashee S等人。基因发育。2003;17:1894. [PMC免费文章][公共医学][谷歌学者]
47Remus D等人。单元格。2009;139:719. [PMC免费文章][公共医学][谷歌学者]
48Eaton ML、Galani K、Kang S、Bell SP、MacAlpine DM。基因发育。2010;24:748. [PMC免费文章][公共医学][谷歌学者]
49Berbenetz NM、Nislow C、Brown GW。公共科学图书馆-遗传学。2010;6e1001092。[PMC免费文章][公共医学][谷歌学者]
50Gillespie PJ,Hirano T。货币。生物。2004;14:1598.[公共医学][谷歌学者]
51高桥TS、Yiu P、Chou MF、Gygi S、Walter JC。自然细胞生物学。2004;6:991。[公共医学][谷歌学者]
52斯科特·KS,Geyer PK。EMBO J。1995;14:6258. [PMC免费文章][公共医学][谷歌学者]
53Nègre N等人。公共科学图书馆-遗传学。2010;6e1000814。[PMC免费文章][公共医学][谷歌学者]
54Jin C等人。自然遗传学。2009;41:941. [PMC免费文章][公共医学][谷歌学者]
55Ernst J,Kellis M。国家生物技术。2010;28:817. [PMC免费文章][公共医学][谷歌学者]
56Filion GJ等人。单元格。2010;143:212. [PMC免费文章][公共医学][谷歌学者]
57麦克阿瑟S等人。基因组生物学。2009;10:R80。 [PMC免费文章][公共医学][谷歌学者]
58Biggin医学博士Carr A。EMBO J。1999;18:1598. [PMC免费文章][公共医学][谷歌学者]
59Moorman C等人。程序。国家。阿卡德。科学。美国。2006;103:12027. [PMC免费文章][公共医学][谷歌学者]
60李晓阳等。《公共科学图书馆·生物》。2008;6:e27。 [PMC免费文章][公共医学][谷歌学者]
61Zinzen RP、Girardot C、Gagneur J、Braun M、Furlong EE。自然。2009;462:65.[公共医学][谷歌学者]
62Siepel A等人。基因组研究。2005年;15:1034. [PMC免费文章][公共医学][谷歌学者]
63米德·S、庞廷·CP、伦特·G。基因组研究。2010;20:1335. [PMC免费文章][公共医学][谷歌学者]
64Yu H、Gerstein M。程序。国家。阿卡德。科学。美国。2006;103:14724. [PMC免费文章][公共医学][谷歌学者]
65阿隆·U。Nat.Rev.基因。2007;8:450.[公共医学][谷歌学者]
66Wernicke S、Rasche F。生物信息学。2006;22:1152.[公共医学][谷歌学者]
67Ernst J、Vainas O、Harbison CT、Simon I、Bar-Joseph Z。摩尔系统。生物。2007;:74。 [PMC免费文章][公共医学][谷歌学者]
68Furlong EEM、Andersen EC、Null B、White KP、Scott MP。科学。2001年;293:1629.[公共医学][谷歌学者]
69Lee LA,Orr-Weaver TL公司。年。修订版Genet。2003;37:545.[公共医学][谷歌学者]
70Harrison DA、Gdula DA、Coyne RS、Corces VG。基因发育。1993;7:1966.[公共医学][谷歌学者]
71Davidson EH等人。科学。2002;295:1669.[公共医学][谷歌学者]
72喷洒交流电。遗传学。2006;174:1. [PMC免费文章][公共医学][谷歌学者]
73这项工作得到了美国国家人类基因组研究所(National Human Genome Research Institute)的支持,作为modENCODE项目的一部分,该项目隶属于RC2HG005639(M.K.)、U01HG004271(S.E.C。根据合同号DE-AC02-05CH11231,授予S.E.C.和G.H.K.的合同在LBNL执行。此外,国家科学基金会还为CIFellows项目(S.R.)向计算研究协会(Computing Research Association)拨款0937060,加拿大自然科学与工程研究委员会(NSERC)奖学金(B.a.)、T.Kahveci(F.a.)、日本科学促进会(K.O.)、,瑞典研究委员会(Q.D.)、NIH国家研究服务奖博士后奖学金(C.a.B.)、国防科学与工程研究生奖学金(R.S.)、奥地利Fonds zur Förderung der wissenschaftlichen Forschung(S.W.)的Erwin Schrödinger奖学金、白血病与淋巴瘤学会奖学金(S.W.:,礼来生命科学研究基金会奖学金(C.D.B.)、NSERC博士后奖学金(C.G.a.)、Affymetrix(T.G.R.)、瑞士国家科学基金会(D.M.)奖学金、德国研究基金会WI 3628/1-1(S.W.)赠款、HHMI Damon Runyon癌症研究奖学金(J.T.N.)、印第安纳基因组计划(T.C.K.)、H。史密斯和NIDDK基因组学核心实验室(B.O.)、NIH R01HG004037、NSF CAREER奖0644282和斯隆基金会(M.K.)。SOM中提供了作者贡献的完整列表。