×

BNP密度:R中的贝叶斯非参数混合建模。 (英语) Zbl 1521.62001号

概要:在潜在的模型误判下,稳健的统计数据建模通常需要将参数世界留给非参数世界。在后者中,参数是无限维对象,例如函数、概率分布或无限向量。在贝叶斯非参数方法中,为这些参数设计了先验分布,这为管理实际中非参数模型的复杂性提供了一个处理方法。然而,大多数现代贝叶斯非参数模型似乎往往对从业者来说遥不可及,因为推理算法需要仔细设计才能处理无穷多的参数。这项工作的目的是通过为贝叶斯非参数推理提供计算工具来促进这一过程。本文描述了R包BNPdensity中可用的一组函数,以便使用无限混合模型进行密度估计,包括所有类型的删失数据。该软件包提供了一大类基于标准化随机度量的此类模型,这些模型代表了流行的Dirichlet过程混合物的推广。这种推广的一个显著优点是,它提供了比Dirichlet更可靠的集群数量先验信息。另一个关键的优点是在指定集群的规模和位置参数的先验方面具有完全的灵活性,因为不需要共轭。推断是使用一种理论上有根据的近似采样方法进行的,称为Ferguson和Klass算法。该软件包还提供了一些良好的现场诊断,如QQ图,包括交叉验证标准、条件预测坐标。该方法以一种称为物种敏感性分布问题的经典生态风险评估方法为例,展示了贝叶斯非参数框架的优点。

MSC公司:

62-04 统计相关问题的软件、源代码等
62G05型 非参数估计
2015年1月62日 贝叶斯推断
60G57型 随机测量
62H30型 分类和区分;聚类分析(统计方面)
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aldenberg,T.和Jaworska,J.S.(2000年)。正常物种敏感性分布影响的危险浓度和分数的不确定性。生态毒理学与环境安全46,1-18。
[2] Arbel,J.&Prünster,I.(2017年)。矩匹配Ferguson&Klass算法。统计与计算27,3-17·Zbl 1505.62034号
[3] Barrios,E.、Ligoi,A.、Nieto‐Barajas,L.E.和Prünster,I.(2013)。使用归一化随机测量混合模型建模。统计科学28,313-334·Zbl 1331.62120号
[4] Binder,D.A.(1978年)。贝叶斯聚类分析。生物特征65,31-38·Zbl 0376.62007号
[5] Brix,A.(1999)。广义伽马测量和散粒噪声Cox过程。应用概率的进展31929-953·Zbl 0957.60055号
[6] Burr,D.(2012)。bspmma:用于元分析的贝叶斯半参数模型的R包。统计软件杂志50,1-23。
[7] Bush,C.A.和MacEachern,S.N.(1996年)。随机块设计的半参数贝叶斯模型。生物特征83,275-285·Zbl 0864.62052号
[8] Canale,A.、Corradin,R.和Nipoti,B.(2019年)。BNPmix:通过Pitman-Yor混合进行贝叶斯非参数建模的R包。《统计软件杂志》即将出版。
[9] Chung,Y.、Gelman,A.G.、Rabe‐Hesketh,S.、Liu,J.和Dorie,V.(2015)。层次模型中协方差矩阵点估计的弱信息先验。《教育与行为统计杂志》40,136-157。
[10] Dahl,D.B.(2006)。通过Dirichlet过程混合模型对表达式数据进行基于模型的聚类。基因表达和蛋白质组学的贝叶斯推断4,201-218。
[11] De Blasi,P.、Favaro,S.、Likoi,A.、Mena,R.H.、Prünster,I.和Ruggiero,M.(2015)。Gibbs型先验是Dirichlet过程最自然的推广吗?IEEE模式分析和机器智能汇刊37212-229。
[12] Denwood,M.J.(2016)。runjags:一个R包,为JAGS中的MCMC模型提供接口实用程序、模型模板、并行计算方法和附加发行版。统计软件杂志71,1-25。
[13] Dowse,R.、Tang,D.、Palmer,C.G.和Kefford,B.J.(2013)。使用物种敏感性分布方法进行风险评估:数据质量与数据数量。环境毒理学和化学32,1360-1369。
[14] 埃斯科瓦尔医学博士和韦斯特医学博士(1995年)。使用混合物的贝叶斯密度估计和推断。《美国统计协会杂志》90,577-588·Zbl 0826.62021号
[15] Ferguson,T.S.和Klass,M.J.(1972年)。不含高斯分量的独立增量过程的表示。数学统计年鉴431634-1643·Zbl 0254.60050号
[16] 《福布斯》,V.E.&Calow,P.(2002)。物种敏感性分布回顾:批判性评估。人类和生态风险评估8473-492。
[17] Frühwirth‐Schnatter,S.、Celeux,G.和Robert,C.P.(2018年)。混合物分析手册。伦敦:查普曼和霍尔/CRC。
[18] Gelman,A.G.(2006)。层次模型中方差参数的先验分布(评论Browne和Draper的文章)。贝叶斯分析1,515-534·Zbl 1331.62139号
[19] Gelman,A.G.、Carlin,J.B.、Stern,H.S.和Rubin,D.B.(2014)。贝叶斯数据分析,第3版。佛罗里达州博卡拉顿:CRC出版社·Zbl 1279.62004号
[20] Gelman,A.G.&Rubin,D.B.(1992年)。使用多序列的迭代模拟推断。统计科学7,457-511·Zbl 1386.65060号
[21] Gilks,W.R.、Thomas,A.和Spiegelhalter,D.J.(1993)。一种用于复杂贝叶斯建模的语言和程序。英国皇家统计学会杂志。D辑(统计学家)43169-177。
[22] 何伟、秦N.、孔X.(2014)。使用贝叶斯matbugs计算器(BMC)对京津渤海地区典型有毒污染物进行生态风险评估和优先级设置。生态指标45,209-218。
[23] Helsel,D.R.(2005)。未检测和数据分析。审查环境数据统计。Wiley‐跨科学·兹比尔1058.62111
[24] Helsel,D.R.(2006年)。编造数据:用数值代替未检测值如何破坏结果,以及可以采取什么措施。《化学计量学》65,2434-2439。
[25] Hickey,G.L.、Craig,P.S.、Luttik,R.和De Zwart,D.(2012年)。应用于物种敏感性分布的生态毒性数据中测试间变异的量化。环境毒理学和化学311903-1910。
[26] Jagoe,R.H.和Newman,M.C.(1997年)。社区NOEC值的自举估计。生态毒理学6,293-306。
[27] James,L.F.,Likoi,A.&Prünster,I.(2009年)。具有独立增量的归一化随机测度的后验分析。斯堪的纳维亚统计杂志36,76-97·Zbl 1190.62052号
[28] Jara,A.(2007年)。使用DPpackage应用贝叶斯非参数和半参数推理。R News7,17-26。
[29] Jara,A.、Hanson,T.E.、Quintana,F.A.、Müller,P.&Rosner,G.L.(2011年)。DPpackage:R.统计软件杂志40,1中的贝叶斯非参数和半参数建模。
[30] 卡拉巴特索斯,G.(2017)。用于回归分析和密度估计的贝叶斯非参数(和参数)混合模型的菜单驱动软件包。行为研究方法49,335-362。1506.05435.
[31] Kingman,J.(1975年)。随机离散分布。英国皇家统计学会杂志。B37系列,1-15·Zbl 0331.62019号
[32] Kon Kam King,G.,Arbel,J.&Prünster,I.(2017年)。生态风险评估的贝叶斯非参数方法。《贝叶斯统计在行动:BAYSM 2016》,意大利佛罗伦萨,6月19-21日,R.Argiento(编辑)、E.Lanzarone(编辑),I.Antoniano Villalobos(编辑)和A.Mattei(编辑)编辑,第151-159页。查姆:斯普林格国际出版公司。
[33] Kon Kam King,G.、Veber,P.、Charles,S.和Delignette‐Muller,M.L.(2014)。MOSAIC_SSD:一种用于物种敏感性分布的新网络工具,其中包含按最大似然进行审查的数据。环境毒理学和化学33,2133-2139。
[34] Lau,J.W.和Green,P.J.(2007)。基于贝叶斯模型的聚类过程。《计算与图形统计学杂志》16,526-558。
[35] Ligoi,A.、Mena,R.H.和Prünster,I.(2005)。基于归一化逆高斯先验的分层混合建模。美国统计协会期刊100,1278-1291·Zbl 1117.62386号
[36] Ligoi,A.、Mena,R.H.和Prünster,I.(2007a)。发现新物种概率的贝叶斯非参数估计。生物特征94769-786·Zbl 1156.62374号
[37] Ligoi,A.、Mena,R.H.和Prünster,I.(2007b)。控制贝叶斯非参数混合模型中的强化。英国皇家统计学会杂志:B辑(统计方法)69715-740·Zbl 07555373号
[38] Likoi,A.,Prünster,I.&Walker,S.G.(2008年)。研究Gibbs结构的非参数先验。中国统计局,1653-1668·Zbl 1252.60048号
[39] Liverani,S.、Hastie,D.I.、Azizi,L.、Papathomas,M.和Richardson,S.(2015)。PReMiuM:使用Dirichlet过程的剖面回归混合模型的R包。统计软件杂志64,1-30。
[40] Lo,A.(1984)。关于一类贝叶斯非参数估计:I.密度估计。《统计年鉴》12,351-357·Zbl 0557.62036号
[41] MacEachern,S.N.&Müller,P.(1998年)。估计Dirichlet过程模型的混合。计算与图形统计杂志7,223-238。
[42] Meila,M.(2007)。比较聚类——基于信息的距离。多元分析杂志98873-895·Zbl 1298.91124号
[43] Neal,R.M.(2000)。Dirichlet过程混合模型的马尔可夫链抽样方法。计算与图形统计杂志9,249-265。
[44] Papaspiliopoulos,O.&Roberts,G.(2008)。Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法。生物特征95169·Zbl 1437.62576号
[45] 普卢默(2003)。JAGS:使用吉布斯抽样分析贝叶斯图形模型的程序。《第三届分布式统计计算国际研讨会论文集》(DSC 2003),3月20日至22日,奥地利维也纳,ISSN 1609‐395X,第124卷。第125页。
[46] 普卢默,M.(2019)。rjags:使用MCMC的贝叶斯图形模型。可从URL获得https://CRAN.R-project.org/package=rjags。R包版本4‐9。
[47] Posthuma,L.、SuterII、G.W.和Trass,P.T.(2002)。生态毒理学中的物种敏感性分布。博卡拉顿:CRC出版社。
[48] Rastelli,R.&Friel,N.(2018年)。潜在变量聚类模型的最优贝叶斯估计。统计与计算281169-1186·Zbl 1430.62140号
[49] R核心团队(2019年)。R: 统计计算语言和环境。可从URL获得网址:http://www.R-project.org/。
[50] Regazzini,E.,Likoi,A.&Prünster,I.(2003)。具有独立增量的归一化随机测度均值的分布结果。统计年鉴31,560-585·Zbl 1068.62034号
[51] Roberts,G.O.和Rosenthal,J.S.(2009年)。自适应MCMC示例。计算与图形统计杂志18,349-367。
[52] Sato,K.(1999)。Lévy过程和无限可分分布,《剑桥高等数学研究》,第68卷,剑桥:剑桥大学出版社·Zbl 0973.60001号
[53] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R期刊8205-233。
[54] Stan开发团队(2018年)。RStan:与Stan的R接口。可从URL获得http://mc-stan.org/。R软件包版本2.18.2。
[55] 斯坦开发团队和斯坦开发团队(2019年)。Stan:概率和抽样的C++库,2.19版。
[56] Sturtz,S.、Ligges,U.和Gelman,A.E.(2005)。R2WinBUGS:一个用于运行R.统计软件期刊12,1-16中的WinBUGS的软件包。
[57] Thomas,A.、O'Hara,B.、Ligges,U.和Sturtz,S.(2006)。打开BUGS。R新闻6,12-17。
[58] Todeschini,A.、Caron,F.和Fuentes,M.(2014)。Rbiips:与相互作用粒子系统的贝叶斯推理。arXiv公司
[59] 新墨西哥州范·斯特拉伦(2002)。物种敏感性分布阈值模型应用于锌的水生风险评估。环境毒理学和药理学11,167-172。
[60] Verdonck,F.A.M.、Jaworska,J.、Thas,O.和Vanrolleghem,P.A.(2001年)。使用自举、贝叶斯和最大似然技术确定环境标准:一项比较研究。《化学分析学报》446429-438。
[61] Wade,S.&Ghahramani,Z.(2018年)。贝叶斯聚类分析:点估计和可信球(讨论)。贝叶斯分析13,559-626·Zbl 1407.62241号
[62] Wagner,C.和Lokke,H.(1991)。根据NOEC毒性数据估算生态毒理学保护水平。水研究251237-1242。
[63] Wang,Y.、Wu,F.、Giesy,J.P.、Feng,C.、Liu,Y.,Qin,N.和Zhao,Y.(2015)。制定金属水质标准时物种敏感性分布的非参数核密度估计。环境科学与污染研究2213980-13989。
[64] Xing,L.、Liu,H.、Zhang,X.、Hecker,M.、Giesy,J.P.和Yu,H.(2014)。水生生物保护淡水质量标准的统计方法比较。环境科学与污染研究21159-167。
[65] Xu,F.L.,Li,Y.L.,Wang,Y.,(2015)。用于生态风险评估的物种敏感性分布(SSD)模型的开发和应用的关键问题。生态指标54、227-237。
[66] Zajdlik,B.A.,Dixon,D.G.和Stephenson,G.(2009年)。使用多模式物种敏感性分布评估环境污染物的水质指南:阿特拉津的案例研究。人类和生态风险评估15,554-564。
[67] Zhao,J.&Chen,B.(2016)。毒死蜱对水生生物的物种敏感性分布:模型选择和样本量。生态毒理学与环境安全125,161-9。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。