×

使用分类器链在线估计离散、连续和有条件的联合密度。 (英语) 兹比尔1416.62337

摘要:我们解决了在线估计离散、连续和条件节理密度的问题,即该算法仅提供了当前示例及其当前估计以进行更新。提出的在线密度估计器家族,即在线密度估计(EDO),使用分类器链来建模特征之间的依赖关系,其中链中的每个分类器估计一个特定特征的概率。由于单个链可能无法提供可靠的估计,因此我们还考虑分类器链的集合和加权分类器链的集成。对于所有密度估计量,我们提供一致性证明,并提出执行某些推理任务的算法。估计器的经验评估是在几个实验和多达数百万实例的数据集上进行的。在离散情况下,我们将我们的估计值与贝叶斯结构学习器计算的密度估计值进行比较。在连续的情况下,我们将它们与-art在线密度估计器。我们的实验表明,尽管EDO设计用于在线工作,但与其他密度估计器(离散数据集上的批量贝叶斯结构学习器和连续数据集上最先进的在线密度估计器)相比,EDO提供了具有竞争力的准确度估计器。除了在这些情况下取得类似的性能外,EDO还能够使用混合类型的变量(即离散和连续随机变量)估计密度。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62G07年 密度估算
62甲12 多元分析中的估计

软件:

农业部;学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Bauer E,Kohavi R(1999)投票分类算法的经验比较:打包、增强和变体。马赫数学习36(1-2):105-139·doi:10.1023/A:1007515423169
[2] Bifet A、Holmes G、Pfahringer B、Kranen P、Kremer H、Jansen T、Seidl T(2010)MOA:大规模在线分析,流分类和聚类框架。J Mach Learn Res Proc Track 11:44-50
[3] Blum A(1996)机器学习中的在线算法。摘自:在线算法研讨会论文集,Dagstuhl。施普林格,第306-325页
[4] Buchwald F、Girschick T、Frank E、Kramer S(2010)定量结构-活性关系的快速条件密度估计。摘自:第二十四届AAAI人工智能会议记录,第1268-1273页
[5] Cesa-Bianchi N,Lugosi G(2006)预测、学习和游戏。剑桥大学出版社·Zbl 1114.91001号 ·doi:10.1017/CBO9780511546921
[6] Chakraborty S(2008)diracδ函数在多个随机变量统计中的一些应用。应用应用数学国际J(AAM)3(1):4254·Zbl 1241.62087号
[7] Cheng MY,Gasser T,Hall P(1999)单峰和单调约束下的非参数密度估计。J计算图统计8(1):1-21
[8] Cover TM,Thomas JA(2006)信息理论要素,第2版。威利,纽约·兹比尔1140.94001
[9] Davies S,Moore AW(2002)插值条件密度树。摘自:《人工智能中的不确定性》,第119-127页
[10] Dembczynski K,Cheng W,Hüllermier E(2010)基于概率分类器链的贝叶斯最优多标签分类。In:机器学习国际会议,第279-286页
[11] Dembczynski K,Waegeman W,Hüllermier E(2012)多标签分类中的链接分析。摘自:第20届欧洲人工智能会议记录(ECAI 2012),第294-299页·Zbl 1327.68189号
[12] Dembczynski K,Kotlowski W,Waegeman W,Busa-Fekete R,Hüllermier E(2016)概率分类器树的一致性。摘自:2016年欧洲数据库机器学习和知识发现会议记录(ECML PKDD 2016),第511-526页
[13] Domingos P,Hulten G(2000)挖掘高速数据流。内容:知识发现和数据挖掘,第71-80页
[14] Elgammal A,Duraiswami R,Davis LS(2003)使用快速高斯变换进行有效的核密度估计,并应用于颜色建模和跟踪。IEEE Trans-Pattern Ana Mach Intell公司25:1499-1504·doi:10.1109/TPAMI.2003.1240123
[15] Frank E,Bouckaert RR(2009),带类别概率估计的条件密度估计。摘自:第一届亚洲机器学习会议记录,第65-81页
[16] Frank E,Kramer S(2004)多类问题的嵌套二分法集合。摘自:第21届国际机器学习会议记录,第305-312页
[17] Friedman N,Goldszmidt M(1996)学习具有局部结构的贝叶斯网络。摘自:第十二届人工智能不确定性年会论文集(UAI’96),第252-262页·Zbl 0910.68176号
[18] Gama J,Pinto C(2006),数据流离散化:直方图和数据挖掘的应用。收录:SAC,第662-667页
[19] Geilke M、Karwath A、Frank E、Kramer S(2013)《离散密度的在线估计》。摘自:第13届IEEE数据挖掘国际会议记录,第191-200页·Zbl 1416.62337号
[20] Geilke M,Karwath A,Kramer S(2014)流挖掘数据的概率浓缩表示。摘自:2014年数据科学和高级分析国际会议记录(DSAA 2014),IEEE,第297-303页
[21] Geilke M,Karwath A,Kramer S(2015)使用可能世界对溪流中的循环分布进行建模。摘自:2015年数据科学和高级分析国际会议记录(DSAA 2015),第1-9页
[22] Goldberger J,Roweis ST(2004)混合模型的层次聚类。高级神经信息处理系统17:505-512
[23] Hall P,Presnell B(1999),约束条件下的密度估计。J计算图形统计8(2):259-277
[24] Holmes MP、Gray AG、Isbell CL Jr(2012)快速非参数条件密度估计。二氧化碳回收率arXiv:abs/1206.5278
[25] Hulten G,Spencer L,Domingos P(2001)挖掘时变数据流。在:知识发现和数据挖掘,第97-106页
[26] Hwang JN,Lay SR,Lippman A(1994)非参数多元密度估计:一项比较研究。IEEE传输信号处理42(10):2795-2810·数字对象标识代码:10.1109/78.324744
[27] Kim J,Scott CD(2012)稳健核密度估计。J Mach学习研究13:2529-2565·Zbl 1436.62119号
[28] Kristan M,Leonardis A(2010)在线鉴别核密度估计。In:模式识别国际会议,第581-584页
[29] Kristan M,Leonardis A,Skocaj D(2011)使用高斯核进行多元在线核密度估计。图案识别44(10-11):2630-2642·Zbl 1218.68127号 ·doi:10.1016/j.patcog.2011.03.019
[30] Kumar A、Vembu S、Menon AK、Elkan C(2013)多标签学习的波束搜索算法。马赫学习92(1):65-89·Zbl 1273.68301号 ·doi:10.1007/s10994-013-5371-6
[31] Lambert CG,Harrington SE,Harvey CR,Glodjo A(1999)高效在线非参数核密度估计。算法25(1):37-57·Zbl 0933.68158号 ·doi:10.1007/PL00009282
[32] Littlestone N(1987)当不相关的属性大量存在时快速学习:一种新的线性阈值算法。马赫数学习2(4):285-318
[33] Liu H,Lafferty JD,Wasserman LA(2007)《利用竞技表演进行高维稀疏非参数密度估计》。摘自:第十一届国际人工智能与统计会议记录,第283-290页
[34] Mann TP(2006)数值稳定隐马尔可夫模型实现。HMM Scaling Tutor,第1-8页。
[35] Melançon G,Philippe F(2004)随机一致生成连通无环有向图。Inf过程Lett 90(4):209-213·Zbl 1177.68155号 ·doi:10.1016/j.ipl.2003.06.002
[36] Motwani R,Raghavan P(1995)随机算法。剑桥大学出版社,纽约·Zbl 0849.68039号 ·doi:10.1017/CBO9780511814075
[37] Peherstorfer B,Pflüger D,Bungartz H(2014)大数据集自适应稀疏网格密度估计。摘自:2014年SIAM数据挖掘国际会议记录,第443-451页
[38] Ram P,Gray AG(2011)《密度估算树》。在:知识发现和数据挖掘,第627-635页
[39] Rau MM,Seitz S,Brimioulle F,Frank E,Friedrich O,Gruen D,Hoyle B(2015)精确光度红移概率密度估计方法的比较与应用。每月通知R Astron Soc 452(4):3710-3725·doi:10.1093/mnras/stv1567
[40] Raykar VC,Duraiswami R(2006)核密度估计的快速最佳带宽选择。摘自:第六届SIAM数据挖掘国际会议记录,第524-528页
[41] 阅读J,Pfahringer B,Holmes G,Frank E(2011)多标签分类的分类器链。马赫学习85(3):333-359·doi:10.1007/s10994-011-5256-5
[42] Scott DW,Sain SR(2004)多维密度估计。阿姆斯特丹爱思维尔,第229-263页
[43] Scutari M(2010)使用bnlearn R包学习贝叶斯网络。J Stat Softw统计软件35(3):1-22·doi:10.18637/jss.v035.i03
[44] Sheather SJ,Jones MC(1991)一种用于核密度估计的可靠的基于数据的带宽选择方法。J R Stat Soc Ser B(Methodol)杂志53(3):683-690·Zbl 0800.62219
[45] Su J,Zhang H(2006)全贝叶斯网络分类器。摘自:第二十三届机器学习国际会议论文集,第897-904页
[46] Valiant LG(1984)可学习理论。通信ACM 27(11):1134-1142·Zbl 0587.68077号 ·数字对象标识代码:10.1145/1968.1972
[47] Vapnik V,Mukherjee S(1999)多元密度估计的支持向量法。In:神经信息处理系统,第659-665页
[48] Wan R,Wang L(2010)基于混合属性的演化数据流聚类。计算机信息系统杂志6:1555-1562
[49] Wang X,Wang Y(2015)使用混合物的非参数多元密度估计。统计计算25(2):349-364·Zbl 1331.62279号 ·doi:10.1007/s11222-013-9436-y
[50] Wied D,Weißbach R(2012)核密度估计器的一致性:一项调查。统计论文53(1):1-21·Zbl 1241.62049号 ·doi:10.1007/s00362-010-0338-1
[51] Wu K,Zhang K,Fan W,Edwards A,Yu PS(2014)《RS-forest:流异常检测的快速密度估计器》。摘自:第14届数据挖掘国际会议记录,第600-609页
[52] 周A,蔡Z,魏L,钱W(2003)M核合并:面向数据流密度估计。在:第八届高级应用数据库系统国际会议论文集,IEEE计算机学会,第285-292页
[53] Zliobaite I,Bifet A,Read J,Pfahringer B,Holmes G(2015)具有时间依赖性的流数据分类的评估方法和决策理论。马赫学习98(3):455-482·Zbl 1311.62094号 ·doi:10.1007/s10994-014-5441-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。