×

集中分区过程:集群的信息优先(带讨论)。 (英语) Zbl 1483.62109号

摘要:有大量文献提出了从分区上的先验概率分布开始的贝叶斯聚类方法。大多数方法都假设可交换性,从而得到可交换分区概率函数(EPPF)的简单表示。Gibbs型先验包含了一大类此类情况,包括Dirichlet和Pitman-Yor过程。尽管有一些建议放宽了可互换性假设,允许协变量依赖性和部分可互换性,但对如何包括关于分割的具体先验知识的考虑有限。例如,我们的动机是一个流行病学应用程序,在该应用程序中,我们希望将出生缺陷分组,并且我们事先了解专家提供的初始分组。作为包含此类先验知识的一般方法,我们提出了一个中心分区(CP)过程,该过程修改EPPF以支持接近初始分区的分区。描述了CP先验的一些性质,开发了一种通用的后验计算算法,并通过仿真实例说明了该方法,并将其应用于出生缺陷的激励流行病学研究。

理学硕士:

62H30型 分类和区分;聚类分析(统计方面)
2015年1月62日 贝叶斯推断
62G99型 非参数推理
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arratia,R.和DeSalvo,S.(2016)。概率分治:一种新的精确模拟方法,以整数分区为例组合数学、概率与计算, 25(3): 324-351. ·Zbl 1372.60006号 ·doi:10.1017/S096354848315000358
[2] Barrientos,A.F.、Jara,A.、Quintana,F.A.等人(2012年)。“支持MacEachern的依赖Dirichlet进程和扩展。”贝叶斯分析, 7(2): 277-310. ·Zbl 1330.60067号 ·doi:10.1214/12-BA709
[3] Barry,D.和Hartigan,J.A.(1992年)。“针对变更点问题的产品分区模型。”统计年鉴, 260-279. ·Zbl 0780.62071号 ·doi:10.1214/aos/1176348521
[4] Blei,D.M.和Frazier,P.I.(2011年)。“依赖距离的中国餐厅流程。”机器学习研究杂志,12(8月):2461-2488·Zbl 1280.68157号
[5] Botto,L.D.、Lin,A.E.、Riehle-Colarusso,T.、Malik,S.、Correa,A.和Study,N.B.D.P.(2007年)。“寻找病因:在病因学研究中对先天性炉缸缺陷进行分类和评估。”出生缺陷研究A部分:临床和分子致畸学, 79(10): 714-727.
[6] Caron,F.、Davy,M.、Doucet,A.、Duflos,E.和Vanheeghe,P.(2006)。“Dirichlet过程混合物动态模型的贝叶斯推断”信息融合国际会议意大利佛罗伦萨·Zbl 1391.62144号 ·doi:10.1109/TSP.2007.900167
[7] Casella,G.、Moreno,E.、Girón,F.J.等人(2014年)。“聚类分析、模型选择和模型的先验分布。”贝叶斯分析, 9(3): 613-658. ·Zbl 1327.62374号 ·doi:10.1214/14-BA869
[8] Correa,A.,Gilboa,S.M.,Besser,L.M.,Botto,L.D.,Moore,C.A.,Hobbs,C.A.,Cleves,M.A.,Riehle-Colarusso,T.J.,Waller,D.K.,Reece,E.A.等人(2008年)。“糖尿病和出生缺陷。”美国妇产科杂志,199(3):237.e1-237.e9。
[9] Dahl,D.B.,Day,R.和Tsai,J.W.(2017年)。“由成对信息索引的随机分区分布。”美国统计协会杂志, 112(518): 721-732. ·doi:10.1080/01621459.2016.1165103
[10] Davey,B.A.和Priestley,H.A.(2002年)。格与序简介剑桥大学出版社·Zbl 1002.06001号 ·doi:10.1017/CBO9780511809088
[11] De Blasi,P.、Favaro,S.、Likoi,A.、Mena,R.H.、Prünster,I.和Ruggiero,M.(2015)。“Gibbs型先验是Dirichlet过程最自然的推广吗?”IEEE模式分析和机器智能汇刊, 37(2): 212-229.
[12] De Iorio,M.、Müller,P.、Rosner,G.L.和MacEachern,S.N.(2004)。“相关随机测量的方差分析模型。”美国统计协会杂志, 99(465): 205-215. ·Zbl 1089.62513号 ·doi:10.1198/016214500000205
[13] DeSalvo,S.(2017)。“使用概率分治和递归方法改进精确的Boltzmann采样。”纯数学与应用, 26(1): 22-45. ·Zbl 1449.60002号 ·doi:10.1515/puma-2015-0020
[14] 多宾斯基(1877)。“Reihe摘要\[\textstyle\sum\frac{n^m}}{n!}\]für \[m=1,2,3,4,5,\dots\]”数学与物理档案, 61: 333-336.
[15] Dunson,D.B.和Park,J.-H.(2008)。“内核破解过程。”生物特征, 95(2): 307-323. ·Zbl 1437.62448号 ·doi:10.1093/biomet/asn012
[16] 医学博士Fall和埃利桑那州Barat。(2014). “Pitman-Yor混合模型的吉布斯采样方法”,工作文件或预印本。URLhttps://hal.archives-overtes.fr/hal-00740770
[17] Ferguson,T.S.(1973)。“一些非参数问题的贝叶斯分析。”统计年鉴, 1(2): 209-230. ·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[18] Gelfand,A.E.、Kottas,A.和MacEachern,S.N.(2005年)。“使用Dirichlet过程混合的贝叶斯非参数空间建模。”美国统计协会杂志, 100(471): 1021-1035. ·Zbl 1117.62342号 ·doi:10.1198/0162145000002078
[19] Gnedin,A.和Pitman,J.(2006年)。“可交换吉布斯分区和斯特林三角形。”数学科学杂志, 138(3): 5674-5685. ·兹比尔1293.60010 ·doi:10.1007/s10958-006-0335-z
[20] Griffin,J.E.和Steel,M.F.(2006)。“基于订单的依赖性Dirichlet流程。”美国统计协会杂志, 101(473): 179-194. ·Zbl 1118.62360号 ·doi:10.1198/01621450000000727
[21] Hartigan,J.(1990)。“分区模型。”统计学传播学-理论与方法, 19(8): 2745-2756. ·doi:10.1080/03610929008830345
[22] Jensen,S.T.和Liu,J.S.(2008)。“转录因子结合基序的贝叶斯聚类。”美国统计协会杂志, 103(481): 188-200. ·Zbl 1469.62370号 ·doi:10.1198/0162145000000365
[23] Knuth,D.E.(2005)。计算机编程的艺术。生成所有组合和分区艾迪森·韦斯利·Zbl 1127.68068号
[24] Koren,G.、Madjunkova,S.和Maltepe,C.(2014)。“妊娠恶心呕吐对不良胎儿结局的保护作用。一项系统综述。”生殖毒理学, 47: 77-80.
[25] Lin,A.E.、Herring,A.H.、Amstutz,K.S.、Westgate,M.-N.、Lacro,R.V.、Al Jufan,M.、Ryan,L.和Holmes,L.B.(1999年)。“心血管畸形:发病率和出生状态的变化,1972年至1990年。”美国医学遗传学杂志, 84(2): 102-110.
[26] MacEachern,S.N.(1999)。“相关非参数过程”。In贝叶斯部分的会议记录。, 50-55. 弗吉尼亚州亚历山大市:美国统计协会。
[27] MacEachern,S.N.(2000年)。“相关非参数过程”,俄亥俄州立大学统计系技术报告。
[28] MacLehose,R.F.和Dunson,D.B.(2010年)。“贝叶斯半参数多重收缩。”生物计量学, 66(2): 455-462. ·Zbl 1192.62085号 ·文件编号:10.1111/j.1541-0420.2009.01275.x
[29] 梅勒,M.(2007)。“比较聚类–基于信息的距离。”多元分析杂志, 98(5): 873-895. ·Zbl 1298.91124号 ·doi:10.1016/j.jmva.2006.11.013
[30] Möller,J.、Pettitt,A.N.、Reeves,R.和Berthelsen,K.K.(2006)。“一种有效的马尔可夫链蒙特卡罗方法,用于具有难以处理的归一化常数的分布。”生物特征, 93(2): 451-458. ·Zbl 1158.62020号 ·doi:10.1093/biomet/93.2.451
[31] Monjardet,B.(1981年)。“部分有序集上的度量-一项调查。”离散数学, 35(1): 173-184. 有序集上的特殊卷·Zbl 0463.46016号 ·doi:10.1016/0012-365X(81)90206-5
[32] Müller,P.、Quintana,F.和Rosner,G.L.(2011年)。“基于协变量回归的产品分割模型。”计算与图形统计杂志, 20(1): 260-278. ·doi:10.1198/jcgs.2011.09066
[33] Murray,I.、Ghahramani,Z.和MacKay,D.J.C.(2006年)。“双顽固分布的MCMC。”In第22届人工智能不确定性年会论文集(UAI-06), 359-366. AUAI出版社。
[34] Neal,R.M.(2000)。“Dirichlet过程混合模型的马尔可夫链抽样方法”计算与图形统计杂志, 9: 249-265. ·doi:10.2307/1390653
[35] Nijenhuis,A.和Wilf,H.S.(2014)。组合算法:用于计算机和计算器爱思唯尔·Zbl 0476.68047号
[36] Paganin,S.、Herring,A.H.、Olshan,A.F.、Dunson,D.B.和《国家出生缺陷预防研究》(2020年)。“居中分区过程:聚类的信息先验-补充材料。”贝叶斯分析. ·doi:10.1214/20-BA1197SUPP文件
[37] Park,J.-H.和Dunson,D.B.(2010年)。“贝叶斯泛化产品分区模型。”中国统计局, 20: 1203-1226. ·Zbl 1507.62242号
[38] Petrone,S.、Guindani,M.和Gelfand,A.E.(2009年)。“功能数据的混合Dirichlet混合模型。”英国皇家统计学会杂志:B辑(统计方法), 71(4): 755-782. ·Zbl 1248.62079号 ·文件编号:10.1111/j.1467-9868.2009.00708.x
[39] Pitman,J.(1995)。“可交换和部分可交换的随机分区。”概率论及其相关领域, 102(2): 145-158. ·Zbl 0821.60047号 ·doi:10.1007/BF01213386
[40] Pitman,J.(1997)。“集合分区的一些概率方面。”美国数学月刊, 104(3): 201-209. ·Zbl 0876.0505号 ·doi:10.1080/00029890.1997.11990624
[41] Pitman,J.和Yor,M.(1997)。“双参数泊松-狄里克莱分布源自稳定的子函数。”概率年鉴, 25(2): 855-900. ·Zbl 0880.60076号 ·doi:10.1214/aop/1024404422
[42] Polson,N.G.、Scott,J.G.和Windle,J.(2013)。“使用Pólya-Gamma潜在变量的逻辑模型贝叶斯推断。”美国统计协会杂志, 108(504): 1339-1349. ·Zbl 1283.62055号 ·doi:10.1080/01621459.2013.829001
[43] Rao,V.、Lin,L.和Dunson,D.B.(2016)。“基于拒绝抽样的模型数据增强。”生物特征, 103(2): 319-335. ·兹比尔1499.62411 ·doi:10.1093/biomet/asw005
[44] Rasmussen,S.A.、Olney,R.S.、Holmes,L.B.、Lin,A.E.、Keppler-Noreuil,K.M.和Moore,C.A.(2003)。“国家出生缺陷预防研究病例分类指南。”出生缺陷研究A部分:临床和分子致畸学, 67(3): 193-201.
[45] Reefhuis,J.、Devine,O.、Friedman,J.M.、Louik,C.和Honein,M.A.(2015)。“特定SSRI和出生缺陷:贝叶斯分析,在以前的报告中解释新数据。”英国医学杂志, 351.
[46] Rodriguez,A.和Dunson,D.B.(2011年)。“通过probit-stick-breaking过程的非参数贝叶斯模型。”贝叶斯分析, 6(1). ·Zbl 1330.62120号 ·doi:10.1214/11-BA605
[47] Rossi,G.(2015)。“分区之间的加权路径。”arXiv预印本.URLhttps://arxiv.org/abs/1509.01852
[48] Scarpa,B.和Dunson,D.B.(2009年)。“通过污染信息先验进行贝叶斯层次功能数据分析。”生物计量学, 65(3): 772-780. ·Zbl 1172.62059号 ·doi:10.1111/j.1541-0420.2008.01163.x
[49] Sethuraman,J.(1994)。“Dirichlet Priors的建设性定义。”中国统计局, 4(2): 639-650. ·Zbl 0823.62007号
[50] Smith,A.N.和Allenby,G.M.(2019年)。“具有随机分区的需求模型。”美国统计协会杂志. ·Zbl 1437.62688号 ·doi:10.1080/01621459.2019.1604360
[51] Stam,A.(1983年)。“通过urn模型生成有限集的随机分区。”组合理论杂志,A辑, 35(2): 231-240. ·Zbl 0513.05007号 ·doi:10.1016/0097-3165(83)90009-2
[52] Stanley,R.P.(1997)。枚举组合学。第1卷剑桥大学出版社·Zbl 0889.05001号 ·doi:10.1017/CBO9780511805967
[53] Vinh,N.X.、Epps,J.和Bailey,J.(2010年)。“聚类比较的信息论度量:变量、属性、归一化和机会修正。”机器学习研究杂志,11(10月):2837-2854·Zbl 1242.62062号
[54] Vitelli,V.、Øystein Sörensen、Crispino,M.、Frigessi,A.和Arjas,E.(2018)。“马尔洛等级模型的概率偏好学习。”机器学习研究杂志, 18(158): 1-49. ·Zbl 1471.62268号
[55] Wade,S.和Ghahramani,Z.(2018年)。“贝叶斯聚类分析:点估计和可信球(带讨论)。”贝叶斯分析, 13(2): 559-626. ·Zbl 1407.62241号 ·doi:10.1214/17-BA1073
[56] Waller,D.K.、Shaw,G.M.、Rasmussen,S.A.、Hobbs,C.A.、Canfield,M.A.、Siega-Riz,A.-M.、Gallaway,M.S.和Correa,A.(2007年)。“孕前肥胖是结构性出生缺陷的危险因素。”儿科和青少年医学档案, 161(8): 745-750.
[57] Wilson,R.和Watkins,J.J.(2013)。组合数学:古代与现代.OUP牛津大学·Zbl 1269.01001号 ·doi:10.1093/acprof:oso/9780199656592.0001
[58] Yoon,P.W.、Rasmussen,S.A.、Lynberg,M.C.、Moore,C.A.、Anderka,M.、Carmichael,S.L.、Costa,P.、Druschel,C.、Hobbs,C.A.、Romitti,P.A.、Langlois,P.H.和Edmonds,L.D.(2001年)。“国家出生缺陷预防研究”公共卫生报告, 116: 32-40
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。