×

在线集群的准贝叶斯观点。 (英语) Zbl 1404.62068号

本文的主题是分析高频数据流的聚类算法。提出了一种新的基于准贝叶斯方法的自适应在线聚类算法,该算法可以动态估计未知和变化的聚类数。生成的簇与时间有关。证明了该方法具有极大极小遗憾界。基于类似于导致创建可逆跳跃MCMC算法的推理(参见。P.J.格林【生物统计学82,第4期,711-732(1995年;Zbl 0861.62023号)],Q.F.格罗瑙,H.辛格曼E.工资制造者[“桥接采样:估计归一化常数的R包”,https://doi.org/10.31222/osf.io/v94h6(2017)]并参阅RJMCMC软件https://swmath.org/software/21805)实现(称为PACBO–概率近似正确贝叶斯在线聚类,参见[D.麦卡利斯特T.阿金比伊,in:经验推断。庆祝弗拉基米尔·瓦普尼克。柏林:斯普林格。95–103 (2013;Zbl 1325.62100号)])它的收敛性是一个保证。数值实验说明了该方法的潜力。
软件:PACBO(请参阅https://cran.r-project.org/web/packages/PACBO/index.html;https://swmath.org/software/15756),RJMCMC(参见https://swmath.org/software/21805).

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
2015年1月62日 贝叶斯推断
65二氧化碳 蒙特卡罗方法
62C20个 统计决策理论中的Minimax过程
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] P.Alquier。,回归和密度估计的传递式和归纳式自适应推断。巴黎大学博士论文,2006年6月。
[2] P.Alquier和G.Biau。稀疏单指标模型。,《机器学习研究杂志》,14:243–2802013年·Zbl 1320.62177号
[3] P.Alquier和B.Guedj。拟贝叶斯非负矩阵分解的Oracle不等式。,《统计数学方法》,2017年·Zbl 1381.62222号 ·doi:10.3103/S1066530717010045
[4] P.Alquier和K.Lounici。指数权重稀疏回归估计的PAC-Baysian定理。,《电子统计杂志》,5:127-1452011年·Zbl 1274.62463号 ·doi:10.1214/11-EJS601
[5] J.-Y.奥迪伯特。,未批准PAC-bayésienne de la theorie statistique de l’apprentissage。巴黎大学博士论文,2004年6月。
[6] J.-Y.奥迪伯特。通过聚合进行统计推断的快速学习率。,《统计年鉴》,37(4):1591–16462009·兹比尔1360.62167 ·doi:10.1214/08-AOS623
[7] K.S.Azoury和M.K.Warmuth。指数分布族在线密度估计的相对损失界。,机器学习,43(3):211–2462001·兹伯利0988.68173 ·doi:10.1023/A:1010896012157
[8] W.Barbakh和C.Fyfe。在线聚类算法。,国际神经系统杂志,18(3):185-1942008。
[9] P.L.Bartlett、T.Linder和G.Lugosi。经验量化器设计中的最小最大失真冗余。,IEEE信息理论汇刊,44(5):1802-18131998·Zbl 0964.94015号 ·doi:10.1109/18.705560
[10] J.-P.Baudry、C.Maugis和B.Michel。斜坡启发式:概述和实现。,统计与计算,22(2):455–4702012·Zbl 1322.62007年 ·doi:10.1007/s11222-011-9236-1
[11] R.B.Calinski和J.Harabasz。聚类分析的枝晶方法。,《统计传播》,3:1-271974年·Zbl 0273.62010
[12] O.Catoni。,统计学习理论与随机优化。2001年圣弗洛尔概率研究。施普林格,2004年·Zbl 1076.93002号
[13] O.Catoni。,PAC-Baysian监督分类:统计学习的热力学,讲座笔记-专题系列第56卷。数学统计研究所,2007年·Zbl 1277.62015年
[14] N.塞萨·比安奇。分析了两种基于梯度的在线回归算法。,计算机与系统科学杂志,59(3):392-4111999·Zbl 0961.68148号 ·doi:10.1006/jcss.1999.1635
[15] N.Cesa Bianchi和G.Lugosi。,预测、学习和游戏。剑桥大学出版社,纽约,2006年·Zbl 1114.91001号
[16] N.Cesa Bianchi、P.M.Long和M.K.Warmuth。使用线性函数和梯度下降进行预测的最坏情况二次损失界。,IEEE神经网络汇刊,7(3):604-6191996。
[17] N.Cesa Bianchi、D.Helmbold、N.Freund、Y.Haussler和M.K.Warmuth。如何使用专家建议。,美国医学会杂志,44(3):427–4851997·Zbl 0890.68066号 ·doi:10.1145/258128.258179
[18] N.Cesa Bianchi、Y.Mansour和G.Stoltz。通过专家建议改进预测的二阶界限。,机器学习,66(2):321–3522007。ISSN 1573-0565。统一资源定位地址https://doi.org/10.1007/s10994-006-5001-7。 ·Zbl 1137.68525号
[19] A.Choromanska和C.Monteleoni。与专家在线聚集。2012年,第15届国际人工智能与统计会议(AISTATS),第227-235页。
[20] I.Csiszár。概率分布的I-散度几何与极小化问题。,《概率年鉴》,3:146–1581975年·Zbl 0318.60013号
[21] A.S.Dalalyan和A.B.Tsybakov。通过指数加权和尖锐的预言不等式进行聚合。在,学习理论(COLT 2007),计算机科学课堂讲稿,第97-111页,2007·Zbl 1203.62063号
[22] A.S.Dalalyan和A.B.Tsybakov。通过指数加权、尖锐的PAC-Baysian边界和稀疏性进行聚合。,机器学习,72:39–612008·Zbl 1470.62054号
[23] A.S.Dalalyan和A.B.Tsybakov。具有稀疏性先验的镜像平均。,伯努利,18(3):914–9442012a·Zbl 1243.62008年 ·doi:10.3150/11-BEJ361
[24] A.S.Dalalyan和A.B.Tsybakov。通过聚合和Langevin Monte-Carlo进行稀疏回归学习。,《计算机与系统科学杂志》,78(5):1423–14432012b·Zbl 1244.62054号 ·doi:10.1016/j.jcss.2011.12.023
[25] P.Dellaportas、J.J.Forster和I.Ntzoufras。在贝叶斯模型和使用MCMC的变量选择方面。,统计与计算,12(1):27-362002·Zbl 1247.62086号 ·doi:10.1023/A:1013164120801
[26] A.菲舍尔。关于聚类中的组数,《统计学与概率快报》,81:1771–17811911·Zbl 1225.62083号 ·doi:10.1016/j.spl.2011.07.005
[27] S.Gerchinovitz。,个人套房和干部统计经典的描述:quelques liens autour de laégression parcimonieuse et des techniques d'agrégation。巴黎南大学博士论文,2011年。
[28] A.D.Gordon。,《统计学和应用概率专著》第82卷分类。查普曼·霍尔/CRC,博卡拉顿,1999年·Zbl 0929.62068号
[29] P.J.格林。可逆跳马尔可夫链蒙特卡罗计算与贝叶斯模型确定。,《生物统计学》,82(4):711-7321995年·Zbl 0861.62023号 ·doi:10.1093/生物技术/82.4711
[30] B.Guedj和P.Alquier。稀疏可加模型中的PAC-Baysian估计和预测。,《电子统计杂志》,2013年7月264-291日·Zbl 1337.62075号 ·doi:10.1214/13-EJS771
[31] B.Guedj和S.Robbiano。PAC-Baysian高维二分排名。,《统计规划与推断杂志》,2017年·Zbl 1432.62183号 ·doi:10.1016/j.jspi.2017.10.010
[32] S.Guha、A.Meyerson、N.Mishra、R.Motwani和L.O'Callaghan。聚类数据流:理论与实践。,IEEE知识与数据工程汇刊,15(3):511-5282003。
[33] J.A.Hartigan。,聚类算法。概率与数理统计中的威利级数。约翰·威利父子公司,纽约,1975年·Zbl 0372.62040号
[34] L.Kaufman和P.Rousseeuw。,在数据中查找组:聚类分析导论。概率与数理统计中的威利级数。Wiley-Interscience,霍博肯,1990年·Zbl 1345.62009号
[35] J.Kivinen和M.K.Warmuth。线性预测因子的指数梯度与梯度下降。,信息与计算,132(1):1–631997·兹伯利0872.68158 ·doi:10.1006/inco.1996.2612
[36] J.Kivinen和M.K.Warmuth。平均专家预测。年,《计算学习理论:第四届欧洲会议》(EuroCOLT’99),第153-167页。斯普林格,1999年。
[37] A.N.Kolmogorov和V.M.Tikhomirov\函数空间中集合的(ϵ)-熵和(\1013;\)-容量。,美国数学学会翻译,17:277-3641961年·Zbl 0133.06703号
[38] Samuel Kotz和Saralees Nadarajah。,多元T分布及其应用。剑桥大学出版社,2004年·Zbl 1100.62059号
[39] W.J.Krzanowski和Y.T.Lai。确定数据集中簇数的标准。,生物统计学,44:23–341988年·Zbl 0707.62122号 ·doi:10.2307/2531893
[40] L.Li.,PACBO:PAC-Baysian在线集群,2016年。统一资源定位地址https://CRAN.R-project.org/package=PACBO。R包版本0.1.0。
[41] E.Liberty、R.Sriharsha和M.Svilidenko。在线(k)均值聚类算法。《第十八届算法工程与实验研讨会论文集》(ALENEX),第81-89页。SIAM,2016年·Zbl 1430.68455号
[42] N.Littestone和M.K.Warmuth。加权多数算法。,信息与计算,108(2):212–2161994·Zbl 0804.68121号 ·doi:10.1006/inco.1994.1009
[43] D.A.麦卡利斯特。一些PAC-Baysian定理。,机器学习,37(3):355–3631999a·Zbl 0945.68157号 ·doi:10.1023/A:1007618624809
[44] D.A.McAllester博士。PAC贝叶斯模型平均。年,《计算学习理论第12届年会论文集》,第164-170页。美国医学会,1999年b。
[45] G.W.Milligan和M.C.Cooper。对确定数据集中簇数的过程的检查。,心理测量学,50:159–1791985。
[46] A.Petralias和P.Dellaportas。回归问题的MCMC模型搜索算法。,《统计计算与模拟杂志》,83(9):1722–17402013年·Zbl 1453.62177号
[47] C.P.Robert和G.Casella。,蒙特卡洛统计方法。施普林格,纽约,2004年·Zbl 1096.62003年
[48] G.O.Roberts和J.S.Rosenthal。具有Gibbs和超维Markov链的大都市的Harris回归。,应用概率年鉴,16(4):2123–21392006·Zbl 1121.60076号 ·doi:10.1214/105051606000000510
[49] M.西格。高斯过程的PAC-Baysian推广界。,机器学习研究杂志,3:233-2692002·Zbl 1088.68745号 ·数字对象标识代码:10.1162/153244303765208377
[50] M.Seeger。,贝叶斯-高斯过程模型:PAC-贝叶斯推广误差界和稀疏近似。爱丁堡大学博士论文,2003年·Zbl 1088.68745号 ·数字对象标识代码:10.1162/153244303765208377
[51] J.Shawe-Taylor和R.C.Williamson。贝叶斯估计的PAC分析。年,《计算学习理论第十届年会论文集》,第2-9页。ACM,1997年。
[52] R.Tibshirani、G.Walther和T.Hastie。通过间隙统计估计数据集中的聚类数量。,《皇家统计学会杂志》,63:411-4232001·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[53] V.沃夫克。竞争性在线统计。,《国际统计评论》,69(2):213-248,2001年·Zbl 1211.62200号 ·doi:10.1111/j.1751-5823.001。tb00457.x
[54] O.Wintenberger。Bernstein在线聚合优化学习。,机器学习,106(1):119–1412017·Zbl 1412.68196号 ·doi:10.1007/s10994-016-5592-6
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。