林志祥;扎马尼戈米,马赫迪;蒂莫西·戴利;马,闪亮;王永红(Wong,Wing Hung) 基于模型的方法,对染色质可及性和基因表达的单细胞数据进行联合分析。 (英语) Zbl 07292492号 统计科学。 35,第1期,第2-13期(2020年). 摘要:非监督方法,包括聚类方法,对于单细胞基因组数据的分析至关重要。基于模型的聚类方法在单细胞基因组学领域尚未得到充分研究,并且具有量化聚类结果不确定性的优点。在这里,我们开发了一种基于模型的方法,用于单细胞染色质可及性和基因表达数据的综合分析。我们表明,结合这两种类型的数据,可以更好地分离底层单元格类型。还开发了一种高效的马尔可夫链蒙特卡罗算法。 引用于1文件 MSC公司: 62至XX 统计 关键词:单细胞基因组学;耦合聚类;贝叶斯建模;多功能多媒体计算机 软件:混合工具;DESeq2公司;ZIFA公司;标签切换;SNN-Cliq公司;补充条款3;DIMM-SC接口模块;CIDR公司 PDF格式BibTeX公司 XML格式引用 \textit{Z.Lin}等人,《统计科学》。35,编号1,2--13(2020;Zbl 07292492) 全文: 内政部 欧几里得 参考文献: [1] Bacher,R.和Kendziorski,C.(2016)。单细胞RNA测序实验的设计和计算分析。基因组生物学。17 63. [2] Benaglia,T.、Chauveau,D.、Hunter,D.R.和Young,D.(2009年)。mixtools:用于分析有限混合模型的R包。J.统计软件。32 1-29。 [3] Buenrostro,J.D.、Giresi,P.G.、Zaba,L.C.、Chang,H.Y.和Greenleaf,W.J.(2013)。天然染色质的转位用于快速敏感的开放染色质、DNA结合蛋白和核小体位置的表观基因组分析。自然方法10 1213。 [4] Buenrostro,J.D.、Wu,B.、Chang,H.Y.和Greenleaf,W.J.(2015年a)。ATAC-seq:一种检测全基因组染色质可及性的方法。货币。协议。分子生物学。109 21-29. [5] Buenrostro,J.D.、Wu,B.、Litzenburger,U.M.、Ruff,D.、Gonzales,M.L.、Snyder,M.P.、Chang,H.Y.和Greenleaf,W.J.(2015b)。单细胞染色质可及性揭示了调节变异的原理。自然523 486-490。 [6] Corces,M.R.、Buenrostro,J.D.、Wu,B.、Greenside,P.G.、Chan,S.M.、Koenig,J.L.、Snyder,M.P.、Pritchard,J.K.、Kundaje,A.等人(2016年)。血统特异性和单细胞染色质可及性是人类造血和白血病进化的图表。自然遗传学。48 1193-1203. [7] Cusanovich,D.A.、Daza,R.、Adey,A.、Pliner,H.A.、Christiansen,L.、Gunderson,K.L.、Steemers,F.J.、Trannell,C.和Shendure,J.(2015)。通过组合细胞索引对染色质可及性进行多重单细胞分析。科学348 910-914。 [8] Diebolt,J.和Robert,C.P.(1994年)。通过贝叶斯抽样估计有限混合分布。J.罗伊。统计师。Soc.序列号。乙56 363-375·Zbl 0796.62028号 ·doi:10.1111/j.2517-6161.1994.tb01985.x [9] Dunham,I.、Kundaje,A.、Aldred,S.等人(2012年)。人类基因组中DNA元素的综合百科全书。自然489 57-74。 [10] Duren,Z.、Chen,X.、Jiang,R.、Wang,Y.和Wong,W.H.(2017)。根据成对表达和染色质可及性数据建立基因调控模型。程序。国家。阿卡德。科学。美国114 E4914-E4923。 [11] Duren,Z.、Chen,X.、Zamanighomi,M.、Zeng,W.、Satpathy,A.、Chang,H.、Wang,Y.和Wong,W.H.(2018年)。通过耦合非负矩阵分解对单细胞基因组数据进行综合分析。程序。国家。阿卡德。科学。美国115 7723-7728。 [12] Grün,D.,Muraro,M.J.,Boisset,J.-C.,Wiebrands,K.,Lyubimova,A.,Dharmadhikari,G.,van den Born,M.,van Es,J.,Jansen,E.等人(2016年)。利用单细胞转录组数据从头预测干细胞特性。细胞干细胞19 266-277。 [13] Hicks,S.C.、Townes,F.W.、Teng,M.和Irizarry,R.A.(2018年)。单细胞RNA测序实验中数据缺失和技术变异。生物统计学19 562-578。 [14] Kharchenko,P.V.、Silberstein,L.和Scadden,D.T.(2014)。单细胞差异表达分析的贝叶斯方法。自然方法11 740-742。 [15] Kiselev,V.Y.、Kirschner,K.、Schaub,M.T.、Andrews,T.、Yiu,A.、Chandra,T.、Natarajan,K.N.、Reik,W.、Barahona,M.等人(2017)。SC3:单细胞RNA-seq数据的一致聚类。自然方法14 483。 [16] Kundaje,A.、Meuleman,W.、Ernst,J.等人(2015)。111个参考人类表观基因组的综合分析。自然518 317-330。 [17] Lake,B.B.,Chen,S.,Sos,B.C.,Fan,J.,Kaeser,G.E.,Yung,Y.C.,Duong,T.E.,Gao,D.,Chun,J.等人(2018年)。成人大脑转录和表观遗传状态的综合单细胞分析。自然生物技术。36 70-80之间。 [18] Lin,P.、Troup,M.和Ho,J.W.(2017年)。CIDR:通过插补单细胞RNA-seq数据实现快速准确的聚类。基因组生物学。18 59. [19] Lin,Z.、Zamanighomi,M.、Daley,T.、Ma,S.和Wong,W.H.(2020年)。补充“基于模型的染色质可及性和基因表达单细胞数据联合分析方法”https://doi.org/10.1214/19-STS714SUPP。 [20] Liu,J.S.(1994)。贝叶斯计算中的坍塌吉布斯采样器及其在基因调控问题中的应用。J.Amer。统计师。协会89 958-966·Zbl 0804.62033号 ·doi:10.1080/01621459.1994.10476829 [21] Liu,J.S.、Wong,W.H.和Kong,A.(1994年)。吉布斯采样器的协方差结构及其在估计量和增强方案比较中的应用。生物特征81 27-40·Zbl 0811.62080号 ·doi:10.1093/biomet/81.11.27 [22] Love,M.I.、Huber,W.和Anders,S.(2014)。利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计。基因组生物学。15 550. [23] Olkin,I.和Rubin,H.(1964年)。多元贝塔分布和Wishart分布的独立性。安。数学。《美国联邦法律大全》第35卷第261-269页·Zbl 0128.14002号 ·doi:10.1214/aoms/1177703748 [24] Papastamoulis,P.(2016)。标签切换:用于处理MCMC输出中标签切换问题的R包。J.统计软件。69 1-24. https://doi.org/10.18637/jss.v069.c01。 [25] Papastamoulis,P.和Iliopoulos,G.(2010年)。混合分布贝叶斯分析中标签切换问题的基于人工分配的解决方案。J.计算。图表。统计师。19 313-331. [26] Pierson,E.和Yau,C.(2015)。ZIFA:零膨胀单细胞基因表达分析的降维。基因组生物学。16 241. [27] Pollen,A.A.、Nowakowski,T.J.、Shuga,J.、Wang,X.、Leyrat,A.B.等人(2014)。低水平单细胞mRNA测序揭示了发育中大脑皮层的细胞异质性和激活的信号通路。自然生物技术。32 1053-1058. [28] Richardson,S.和Green,P.J.(1997)。关于成分数目未知的混合物的贝叶斯分析。J.罗伊。统计师。Soc.序列号。B 59 731-792·Zbl 0891.62020号 ·数字标识代码:10.1111/1467-9868.00095 [29] Rodríguez,C.E.和Walker,S.G.(2014)。贝叶斯混合模型中的标签切换:确定性重标签策略。J.计算。图表。统计师。23 25-45. [30] Rotem,A.、Ram,O.、Shoresh,N.、Sperling,R.A.、Goren,A.、Weitz,D.A.和Bernstein,B.E.(2015)。单细胞ChIP-seq揭示了染色质状态定义的细胞亚群。自然生物技术。33 1165-1172. [31] Rozenblatt-Rosen,O.,Stubbington,M.J.,Regev,A.和Teichmann,S.A.(2017年)。人类细胞图谱:从视觉到现实。《国家新闻》550 451。 [32] Sloan,C.A.、Chan,E.T.、Davidson,J.M.、Malladi,V.S.、Stratan,J.S.,Hitz,B.C.和Cherry,J.M(2015)。ENCODE门户上的ENCODE数据。核酸研究44 D726-D732。 [33] Smallwood,S.A.、Lee,H.J.、Angermueller,C.、Krueger,F.、Saadeh,H.、Peat,J.、Andrews,S.R.、Stegle,O.、Reik,W.等人(2014)。单细胞全基因组亚硫酸氢盐测序用于评估表观遗传异质性。自然方法11 817。 [34] Stephens,M.(2000年)。处理混合模型中的标签切换。J.R.统计社会服务。B.统计方法。62 795-809. ·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265 [35] Sun,Z.,Wang,T.,Deng,K.,Wag,X.-F.,Lafyatis,R.,Ding,Y.,Hu,M.和Chen,W.(2017)。DIMM-SC:一种Dirichlet混合模型,用于聚类基于液滴的单细胞转录组数据。生物信息学34 139-146。 [36] Wang,B.、Zhu,J.、Pierson,E.、Ramazzotti,D.和Batzoglou,S.(2017)。通过基于核的相似性学习对单细胞RNA-seq数据进行可视化和分析。自然方法14 414-416。 [37] Xu,C.和Su,Z.(2015)。使用一种新的聚类方法从单细胞转录组中鉴定细胞类型。生物信息学31 1974-1980。 [38] Yang,Y.、Huh,R.、Culppeper,H.W.、Lin,Y.,Love,M.I.和Li,Y..(2018年)。SAFE-聚类:单细胞RNA-seq数据的单细胞聚集(来自集合)聚类。生物信息学。 [39] Yau,C.等人(2016年)。PcaReduce:单细胞转录谱的层次聚类。BMC生物信息。17 140. [40] Zamanighomi,M.、Lin,Z.、Daley,T.、Chen,X.、Duren,Z.、Schep,A.、Greenleaf,W.J.和Wong,W.H.(2018)。单细胞的无监督聚类和表观遗传分类。国家公社。9 2410. [41] Zang,C.、Wang,T.、Deng,K.、Li,B.、Q.、Xiao,T.,Zhang,S.、Meyer,C.A.、He,H.等人(2016)。使用MANCIE进行高维基因组数据偏差校正和数据整合。国家公社。7 11305. [42] Zhu,L.,Lei,J.,Devlin,B.和Roeder,K.(2018)。单细胞和体RNA测序数据的统一统计框架。附录申请。统计数字12 609-632·Zbl 1393.62120号 ·doi:10.1214/17-AOAS1110 [43] 朱,L·Zbl 1416.62631号 ·doi:10.1073/pnas.1817715116 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。