×

使用Hi-C数据对拓扑域进行网络建模。 (英语) Zbl 1433.62318号

摘要:染色体构象捕获实验(如Hi-C)用于绘制基因组的三维空间组织。3D组织的一个特殊特征被称为拓扑关联域(TAD),它们是紧密相互作用的相邻染色质区域,在调节基因表达中发挥着重要作用。已经提出了几种检测TAD的算法。特别是,Hi-C数据的结构自然激发了社区检测方法的应用。然而,社区检测的缺点之一是,大多数方法都将网络中节点的可交换性视为理所当然;然而,在这种情况下,节点即染色体上的位置是不可交换的。我们提出了一个使用Hi-C数据检测TAD的网络模型,该模型考虑了这种非交换性。此外,我们的模型明确使用细胞类型特异性CTCF结合位点作为生物协变量,并可用于识别跨多种细胞类型的保守TAD。该模型产生了一个通过松弛可以有效优化的似然目标。我们还证明,当适当初始化时,该模型以较高的概率找到了潜在的TAD结构。通过使用模拟数据,我们展示了我们的方法的优点以及在该应用中流行的社区检测方法(如谱聚类)的注意事项。将我们的方法应用于真实的Hi-C数据,我们证明所识别的域具有理想的表观遗传特征,并在不同的细胞类型之间进行比较。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62M45型 神经网络及从随机过程推断的相关方法
62H30型 分类和区分;聚类分析(统计方面)
62R40型 拓扑数据分析
92D10型 遗传学和表观遗传学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bickel,P.J.和Chen,A.(2009年)。网络模型和Newman-Girvan及其他模块的非参数视图。程序。国家。阿卡德。科学。美国106 21068-21073·Zbl 1359.62411号 ·doi:10.1073/pnas.0907096106
[2] Cabreros,I.、Abbe,E.和Tsirigos,A.(2016年)。检测hi-c基因组数据中的群落结构。信息科学与系统(CISS),2016年年度会议,584-589。IEEE出版社,纽约。
[3] Dekker,J.(2008)。第三维度的基因调控。《科学》319 1793-1794。
[4] Dixon,J.R.等人(2012年)。通过染色质相互作用分析确定哺乳动物基因组中的拓扑结构域。自然485 376-380。
[5] ENCODE项目联盟(2012年)。人类基因组中DNA元素的综合百科全书。自然489 57-74。
[6] Filippova,D.、Patro,R.、Duggal,G.和Kingsford,C.(2014)。染色质中替代拓扑结构域的鉴定。算法分子生物学。9 14.
[7] Hou,C.、Li,L.、Qin,Z.S.和Corces,V.G.(2012)。基因密度、转录和绝缘体有助于将果蝇基因组划分为物理域。分子细胞48 471-484。
[8] Kellis,M.等人(2014)。定义人类基因组中的功能性dna元素。程序。国家。阿卡德。科学。美国111 6131-6138。
[9] Knight,P.A.和Ruiz,D.(2013年)。矩阵平衡的快速算法。IMA J.数字。分析。33 1029-1047. ·兹比尔1276.65025 ·doi:10.1093/imanum/drs019
[10] Le Dily,F.等人(2014年)。染色质拓扑结构域的不同结构转变与协调的激素诱导的基因调控相关。基因与发育28 2151-2162。
[11] Lévy-Leduc,C.、Delattre,M.、Mary-Huard,T.和Robin,S.(2014)。用于分析hi-c数据的二维分割。生物信息学30 i386-i392。
[12] Lieberman-Aiden,E.等人(2009年)。对长程相互作用的全面绘图揭示了人类基因组的折叠原理。《科学》326 289-293。
[13] Lupiáñez,D.G.等人(2015年)。拓扑染色质结构域的破坏导致基因增强子相互作用的致病性重接。手机161 1012-1025。
[14] Malik,L.I.和Patro,R.(2015)。从hi-c数据预测丰富的染色质结构。bioRxiv,第032953页。
[15] Meaburn,K.J.、Gudla,P.R.、Khan,S.、Lockett,S.J.和Misteli,T.(2009)。乳腺癌中疾病特异性基因的重新定位。《细胞生物学杂志》。187 801-812.
[16] Nora,E.P.等人(2012年)。x灭活中心调控景观的空间划分。自然485 381-385。
[17] Norton,H.K.、Emerson,D.J.、Huang,H.、Kim,J.、Titus,K.R.、Gu,S.、Bassett,D.S.和Phillips-Cremins,J.E.(2018)。利用网络模块性检测层次基因组折叠。自然方法15 119-122。
[18] Rao,S.S.等人(2014年)。以千基分辨率绘制的人类基因组三维图揭示了染色质循环的原理。手机159 1665-1680。
[19] Rohe,K.、Chatterjee,S.和Yu,B.(2011年)。谱聚类和高维随机块模型。安。统计师。39 1878-1915. ·Zbl 1227.62042号 ·doi:10.1214/11-AOS887
[20] Sanborn,A.L.、Rao,S.S.P.、Huang,S.-C.、Durand,N.C.、Huntley,M.H.、Jewett,A.I.、Bochkov,I.D.、Chinnappan,D.、Cutkosky,A.等人(2015)。染色质挤出解释了野生型和工程基因组中环和结构域形成的关键特征。程序。国家。阿卡德。科学。美国112 E6456-E6465。
[21] Sauria,M.E.、Phillips-Cremins,J.E.、Corces,V.G.和Taylor,J.(2014)。Hifive:一种用于更高分辨率hic和5c染色体构象数据分析的标准化方法。可在https://www.biorxiv.org/content/10.1101/009951v1.full。
[22] Sexton,T.等人(2012年)。果蝇基因组的三维折叠和功能组织原理。手机148 458-472。
[23] Smith,E.M.、Lajoie,B.R.、Jain,G.和Dekker,J.(2016)。恒定的TAD边界限制了启动子和CFTR位点周围远端元件之间的细胞类型特异性环相互作用。Am.J.Hum.遗传学。98 185-201.
[24] Wang,Y.X.R.、Sarkar,P.、Ursu,O.、Kundaje,A.和Bickel,P.J.(2019年)。补充“使用Hi-C数据的拓扑域网络建模”DOI:10.1214/19-AOAS1244SUPP·Zbl 1433.62318号
[25] Weinreb,C.和Raphael,B.J.(2016)。分级染色质结构域的鉴定。生物信息学32 1601-1609。
[26] Yan,K.-K.,Lou,S.和Gerstein,M.(2017年)。MrTADFinder:一种基于网络模块化的方法,用于识别多分辨率的拓扑关联域。公共科学图书馆计算。生物13 e1005647。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。