×

概率泊松主成分分析的变分推理。 (英语) Zbl 1412.62194号

摘要:生态学或基因组学等许多应用领域都必须处理多元非高斯观测。一个典型的例子是在一系列地点联合观察一组物种各自的丰度,目的是了解这些物种之间的协变。高斯设置提供了建模此类依赖关系的标准方法,但一般不适用。我们在这里考虑了多元指数族框架,为此我们引入了一个具有多元高斯潜在变量的通用模型。我们证明了近似最大似然推理可以通过一种易于应用梯度下降的变分算法来实现。我们表明,此设置使我们能够考虑协变量和偏移。然后,我们将重点放在群落生态学背景下的泊松对数正态模型案例上。我们在微生物生态学数据集上展示了我们的算法的效率。我们说明了解释协变量的影响对更好地理解物种间相互作用的重要性。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Acharya,A.、Ghosh,J.和Zhou,M.(2015)。动态计数矩阵的非参数贝叶斯因子分析。在AISTATS。
[2] Aitchison,J.和Ho,C.-H.(1989年)。多元泊松对数正态分布。生物特征76 643-653·Zbl 0679.62040号 ·doi:10.1093/biomet/76.4.643
[3] Anderson,T.W.(2003)。《多元统计分析导论》,第三版,新泽西州霍博肯Wiley-Interscience·Zbl 1039.62044号
[4] Biernacki,C.、Celeux,G.和Govaert,G.(2000)。用综合完全似然法评估用于聚类的混合模型。IEEE传输。模式分析。机器。智能22 719-25。
[5] 曹毅和谢毅(2015)。泊松矩阵完成。2015年IEEE信息理论国际研讨会(ISIT)1841-1845。IEEE,纽约。
[6] Chen,J.、King,E.、Deek,R.、Wei,Z.、Yu,Y.、Grill,D.和Ballman,K.(2018年)。微生物组测序数据差异分布分析的综合测试。生物信息学34 643-651。
[7] Collins,M.、Dasgupta,S.和Schapire,R.E.(2001)。将主成分分析推广到指数族。神经信息处理系统进展617-624。
[8] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.罗伊。统计师。Soc.序列号。B39 1-38·Zbl 0364.62022号
[9] Eckart,C.和Young,G.(1936年)。一个矩阵与另一个低阶矩阵的近似。心理测量学211-218·JFM 62.1075.02标准 ·doi:10.1007/BF02288367
[10] Gloor,G.B.、Macklaim,J.M.、Pawlowsky-Glahn,V.和Egozcue,J.J.(2017)。微生物组数据集是合成的:这不是可选的。前面。微生物。8 2224。
[11] Hall,P.、Ormerod,J.T.和Wand,M.P.(2011年)。泊松混合模型的高斯变分近似理论。统计师。Sinica21 369-389·Zbl 1206.62035号
[12] Izsák,R.(2008)。泊松对数正态分布的最大似然拟合。环境。经济。统计15 143-156。
[13] Jaakkola,T.S.和Jordan,M.I.(2000年)。基于变分方法的贝叶斯参数估计。统计计算10 25-37。
[14] Jakuschkin,B.、Fievet,V.、Schwaller,L.、Fort,T.、Robin,C.和Vacher,C.(2016)。病理生物群系的解读:病原体羊毒丹毒的王国内和王国间相互作用。微量。生态72 870-880。
[15] Johnson,S.G.(2011)。NLopt非线性优化包。可在http://ab-initio.mit.edu/nlopt。
[16] Johnson,N.L.、Kotz,S.和Balakrishnan,N.(1997年)。离散多元分布。纽约威利·Zbl 0868.62048号
[17] Karlis,D.(2005)。混合泊松分布和其他离散分布的EM算法。阿斯汀公牛35 3-24·Zbl 1100.62026号 ·网址:10.1017/S051503610014033
[18] Lafond,J.(2015)。具有指数族噪声的低秩矩阵完备。预印。可从arXiv:1502.06919获取。
[19] Lee,D.D.和Seung,H.S.(2001年)。非负矩阵分解算法。神经信息处理系统进展556-562。
[20] Li,J.和Tao,D.(2010)。简单指数族PCA。在AISTATS 453-460中。
[21] Little,R.J.A.和Rubin,D.B.(2014)。《缺失数据的统计分析》,新泽西州霍博肯Wiley-Interscience出版社·Zbl 0665.62004号
[22] Liu,L.T.、Dobriban,E.和Singer,A.(2016)\(e)主成分分析:高维指数族主成分分析。预印。可从arXiv:1611.05550获取·Zbl 1411.62376号
[23] Mach,N.、Berri,M.、Estellé,J.、Levenez,F.、Lemonnier,G.、Denis,C.、Leplat,J.-J.、Chevaleyre,C.、Billon,Y.、Doré,J、Rogel-Gaillard,C.和Lepage,P.(2015)。猪肠道微生物组的早期建立及其对宿主表型的影响。环境。微生物。代表7 554-569。
[24] Mardia,K.V.、Kent,J.T.和Bibby,J.M.(1979年)。多元分析。纽约学术出版社·Zbl 0432.62029号
[25] Minka,T.P.(2000)。PCA维度的自动选择。在NIPS13 598-604中。
[26] Mohamed,S.、Ghahramani,Z.和Heller,K.A.(2009年)。贝叶斯指数族PCA。神经信息处理系统进展1089-1096。
[27] Nelson,J.F.(1985年)。多元gamma-Poisson模型。J.艾默。统计师。协会80 828-834。
[28] Press,W.H.、Teukolsky,S.A.、Vetterling,W.T.和Flannery,B.P.(1989)。数字食谱:科学计算的艺术。Code CD-ROM v 2.06 with UNIX Single-Screen License,第三版,剑桥大学出版社,剑桥·Zbl 1038.65001号
[29] R开发核心团队(2008)。R: 统计计算语言和环境。奥地利维也纳R统计计算基金会。网址:http://www.R-project.org。
[30] Royle,J.A.和Wikle,C.K.(2005)。鸟类计数数据的有效统计制图。环境。经济。统计数字12 225-243。
[31] Salmon,J.、Harmany,Z.、Deledale,C.-A.和Willett,R.(2014)。基于非局部PCA的泊松噪声抑制。数学杂志。成像视野48 279-294·Zbl 1365.94050号 ·doi:10.1007/s10851-013-0435-6
[32] Schwarz,G.(1978年)。估算模型的维度。《统计年鉴》第6卷第461-464页·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[33] Smets,W.、Leff,J.W.、Bradford,M.A.、McCulley,R.L.、Lebeer,S.和Fierer,N.(2015)。一种通过16s rRNA基因测序同时测量土壤细菌丰度和群落组成的方法。PeerJ预打印3 e1318v1。
[34] Srivastava,S.和Chen,L.(2010)。改进RNA-seq数据分析的双参数广义泊松模型。核酸研究38 e170-e170。
[35] Svanberg,K.(2002)。一类基于保守凸可分离近似的全局收敛优化方法。SIAM J.Optim.12 555-573·Zbl 1035.90088号 ·doi:10.1137/S10526234993628282
[36] Tipping,M.E.和Bishop,C.M.(1999)。概率主成分分析。J.R.统计社会服务。B.统计方法61 611-622·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[37] Tsilimigras,M.C.B.和Fodor,A.A.(2016)。微生物组的组成数据分析:基础、工具和挑战。流行病学年鉴26 330-335。
[38] Vandeputte,D.、Kathagen,G.、D'hoe,K.、Vieira-Silva,S.、Valles-Colomer,M.、Sabino,J.、Wang,J.,Tito,R.Y.、De Commer,L.、Darzi,Y.等人(2017年)。定量微生物组分分析将肠道群落变化与微生物负荷联系起来。自然551 507-511。
[39] Wainwright,M.J.和Jordan,M.I.(2008)。图形模型、指数族和变分推理。已找到。趋势马赫数。学习。1 1-305·Zbl 1193.62107号 ·数字对象标识代码:10.1561/220000001
[40] Wickham,H.(2009)。Ggplot2:用于数据分析的优雅图形。纽约州施普林格市。网址:http://ggplot2.org。 ·Zbl 1170.62004号
[41] Witten,D.M.、Tibshirani,R.和Hastie,T.(2009年)。惩罚矩阵分解,应用于稀疏主成分和典型相关分析。生物统计10 515-534·Zbl 1437.62658号
[42] Ypma,J.(2017)。NLopt的R接口,v.1.0.4。可在https://github.com/jyypma/nloptr。
[43] 周明(2016)。非参数贝叶斯负二项因子分析。预打印。可从arXiv:1604.07464获取。
[44] Zhou,M.、Hannah,L.、Dunson,D.B.和Carin,L.(2012)。贝塔负二项过程和泊松因子分析。在AISTATS22 1462-1471中。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。