×

贝叶斯最近邻的一种有效算法。 (英语) 兹比尔1437.62235

摘要:最近邻(KNN)是一种流行的分类和回归算法,但其主要局限性之一是难以选择邻域的数量。我们提出了一种贝叶斯算法来计算给定目标点在数据集中的后验概率分布,该算法高效且无需使用马尔可夫链蒙特卡罗(MCMC)方法或模拟,并给出了指数族内分布的精确解。中心思想是,我们的目标周围的数据点是由相同的概率分布生成的,这些概率分布向外延伸到适当的,尽管未知的邻居数量上。一旦数据投影到选择的距离度量上,我们就可以将选择(k)转化为一个变化点检测问题,对于这个问题有一个有效的解决方案:当我们向目标移动时,我们递归地计算最后一个变化点通过的概率,因此事实上的计算(k)上的后验概率分布。将此方法应用于分类和回归UCI数据集,我们进行了有利的比较,最重要的是,通过消除模拟的需要,我们能够准确快速地计算(k)的后验概率。例如,与使用MCMC方法时的几个小时相比,Ripley数据集的计算时间为几毫秒。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
62-08 统计学相关问题的计算方法
60G25型 预测理论(随机过程方面)

软件:

LMNN公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Cucala L,Marin J-M,Robert C,Titterington M(2008)最近邻分类ArXiv电子指纹的贝叶斯重新评估·Zbl 1388.62183号
[2] Fink D(1997)共轭先验的简编
[3] Ghosh AK(2006)关于最近邻分类中k的最佳选择。计算统计数据分析50(11):3113-3123·Zbl 1445.62144号 ·doi:10.1016/j.csda.2005.06.007
[4] Green PJ(1995)可逆跳马尔可夫链蒙特卡罗计算和贝叶斯模型确定。生物特征82(4):711·Zbl 0861.62023号 ·doi:10.1093/biomet/82.4.711
[5] Guo R,Chakraborty S(2010)贝叶斯自适应最近邻。统计分析数据最小值3(2):92-105·Zbl 07260235号
[6] Holmes CC,Adams NM(2002)统计模式识别的概率最近邻方法。皇家统计学会期刊B(Stat Methodol)64(2):295-306·Zbl 1059.62065号 ·doi:10.1111/1467-9868.00338
[7] Ji WY,Friel N(2013)概率K最近邻分类中邻域数的有效估计。CoRR,arXiv公司:1305.1002
[8] Kaya H,Tüfekci P,Gürgen FS(2012)预测燃气轮机和蒸汽轮机联合功率的本地和全球学习方法。参加:计算机和电子工程新兴趋势国际会议(ICETCEE 2012),迪拜
[9] Manocha S,Girolma MA(2007)概率k最近邻分类器的实证分析。图案编号Lett 28(13):1818-1824·doi:10.1016/j.patrec.2007.05.018
[10] 普雷斯科特·亚当斯R,麦凯DJC(2007),贝叶斯在线变化点检测。ArXiv电子打印
[11] Smith AFM(1975)一种贝叶斯方法,用于推断随机变量序列中的变化点。生物特征62(2):407-416·Zbl 0321.62041号 ·doi:10.1093/biomet/62.2.407
[12] Stephens DA(1994)贝叶斯回顾性多变点识别。英国皇家统计学会C系列(应用统计)43(1):159-178·Zbl 0825.62412号
[13] Tomasev N,RadovanovićM,MladenićD,Ivanović)M(2011)《近邻分类的概率方法:朴素朴素贝叶斯知识》。摘自:第20届ACM信息与知识管理国际会议论文集,CIKM’11。ACM,纽约,第2173-2176页
[14] Weinberger KQ,Saul LK(2009)大幅度最近邻分类的距离度量学习。J Mach学习研究10:207-244·Zbl 1235.68204号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。