×

使用B样条插值从数据中学习多维概率密度多项式的混合。 (英语) Zbl 1390.68544号

摘要:非参数密度估计是概率建模和不确定性推理中的一项重要技术。我们提出了一种从数据中学习一维和多维概率密度的多项式混合(MoP)近似的方法。该方法基于基样条插值,其中密度近似为基样条的线性组合。我们计算线性组合混合系数的最大似然估计。使用贝叶斯信息准则作为得分函数,选择多项式的阶数和MoP的条数。该方法通过两种方式进行评估。首先,我们测试近似拟合。我们从已知的一维和多维密度中抽取人工数据集,并从数据集中学习MoP近似值。根据不同的准则分析了逼近的质量,并将新方案与拉格朗日插值和截尾基函数混合学习的MoP进行了比较。其次,将该方法用作贝叶斯分类器中的非参数密度估计技术。实现并比较了两种最广泛研究的贝叶斯分类器,即朴素贝叶斯和树增强朴素贝叶分类器。实际数据集的结果表明,使用MoP的非参数贝叶斯分类器与基于核密度的贝叶斯分类器具有可比性。我们提供了一个免费的R包来实现所提出的方法。

MSC公司:

68T05年 人工智能中的学习和自适应系统
62甲12 多元分析中的估计
62H30型 分类和区分;聚类分析(统计方面)
65D05型 数值插值
65D07年 使用样条曲线进行数值计算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 西格尔,S。;Castellan,N.J.,《行为科学的非参数统计》(1988),McGraw-Hill
[2] Gibbons,J.D。;Chakraborti,S.,《非参数统计推断》(2010),查普曼和霍尔出版社
[3] Fryer,M.J.,《一些非参数密度估计方法的综述》,IMA J.Appl。数学。,20, 335-354 (1977) ·Zbl 0375.62037号
[4] Yang,Y。;韦伯,G.I。;Wu,X.,离散化方法,(Maimon,O.;Rokach,L.,《数据挖掘和知识发现手册》(2010),施普林格出版社),101-116·Zbl 1213.68237号
[5] 南卡罗来纳州加西亚。;Luengo,J。;Sáez,J.A。;洛佩兹,V。;Herrera,F.,离散化技术综述:监督学习中的分类和实证分析,IEEE Trans。知识。数据工程,25734-750(2013)
[6] Chiu,S.-T.,核密度估计中带宽选择的比较评述,统计正弦。,6, 129-146 (1996) ·Zbl 0850.62359号
[7] 琼斯,M.C。;Marron,J.S.(马伦,J.S.)。;Sheather,S.J.,《密度估算中带宽选择的简要调查》,美国统计协会,91,401-407(1996)·Zbl 0873.62040号
[8] 道德,S。;Rumí,R。;Salmerón,A.,混合贝叶斯网络中截断指数的混合,(Benferhat,S.;Besnard,P.,《第六届欧洲不确定性推理符号和定量方法会议论文集》(ECSQARU2001)。第六届欧洲不确定性推理的符号和定量方法会议记录(ECSQARU2001),《计算机科学讲义》,第2143卷(2001),施普林格出版社,145-167·Zbl 1001.68544号
[9] Shenoy,P.P。;West,J.C.,《使用多项式混合物的混合贝叶斯网络推断》,《国际期刊近似推理》。,52, 641-657 (2011) ·Zbl 1214.68404号
[10] Langseth,H。;尼尔森,T.D。;Rumí,R。;Salmerón,A.,截断基函数的混合,国际期刊近似原因。,53, 212-227 (2012) ·Zbl 1242.68333号
[11] Shenoy,P.P。;Shafer,G.,概率和信念函数传播公理,(Shachter,R.D.;Levitt,T.S.;Kanal,L.N.;Lemmer,J.F.,《第四届人工智能不确定性年会论文集》(UAI1988)(1990),北韩),169-198
[12] 科布,B。;Shenoy,P.P。;Rumí,R.,用截尾指数的混合物逼近概率密度函数,统计计算。,16, 193-308 (2006)
[13] Rumí,R。;Salmerón,A。;Moral,S.,估计混合贝叶斯网络中截断指数的混合,Test,15397-421(2006)·Zbl 1110.62038号
[14] 罗梅罗,V。;Rumí,R。;Salmerón,A.,《使用截断指数的混合物学习混合贝叶斯网络》,《国际期刊近似推理》。,42, 54-68 (2006) ·Zbl 1096.68707号
[15] Langseth,H.等人。;尼尔森,T.D。;Rumí,R。;Salmerón,A.,截断指数混合物的参数估计和模型选择,国际期刊近似原因。,51, 485-498 (2010)
[16] Shenoy,P.P.,在混合贝叶斯网络中使用多项式混合物进行推理的两个问题,Int.J.Approximate Reason。,53, 847-866 (2012) ·Zbl 1446.62065号
[17] Langseth,H。;尼尔森,T.D。;Rumí,R。;Salmerón,A.,从数据中学习截断基函数的混合,(Cano,A.;Gómez-Olmedo,M.;Nielsen,T.D.,第六届概率图形模型欧洲研讨会论文集(PGM2012)(2012)),163-170
[18] Langseth,H。;尼尔森,T.D。;Rumí,R。;Salmerón,A.,混合贝叶斯网络中截断基函数的推理,(Cano,A.;Gómez-Olmedo,M.;Nielsen,T.D.,第六届概率图形模型欧洲研讨会论文集(PGM2012)(2012)),171-178
[19] Langseth,H。;尼尔森,T.D。;Rumí,R。;Salmerón,A.,条件MTE分布的最大似然学习,(Sossai,C.;Chemello,G.,《第十届欧洲不确定性推理符号和定量方法会议论文集》(ECSQARU2009)。第十届欧洲不确定性推理的符号和定量方法会议记录(ECSQARU2009),《计算机科学讲义》,第5590卷(2009),施普林格出版社,240-251·兹比尔1245.62017
[20] Epanechnikov,V.A.,多元概率密度的非参数估计,理论概率。申请。,14, 153-158 (1969)
[21] 黄,J.-N。;铺设,S.-R。;Lippman,A.,《非参数多元密度估计:比较研究》,IEEE Trans。信号处理。,42, 2795-2810 (1994)
[22] Chacón,J.E。;Duong,T。;Wand,M.,一般多元核密度导数估计的渐近性,Stat.Sin。,21, 807-840 (2011) ·Zbl 1214.62039号
[23] Panaretos,V.M。;Konis,K.,《多元核的非参数构造》,美国统计协会,107,1085-1095(2012)·Zbl 1443.62084号
[24] 吉鲁舍克,R。;Shenoy,P.P.,《基于评估的系统中的成分模型》,国际期刊近似推理。(2013),出版中·兹比尔1316.68180
[25] Shenoy,P.P.,《专家系统的基于评估的语言》,国际期刊近似推理。,3, 383-411 (1989)
[26] 宗,Z。;Lam,K.,使用B样条函数估计复杂分布,结构。安全。,20, 341-355 (1998)
[27] Zong,Z.,《估算复杂概率分布的信息论方法》(2006),Elsevier·Zbl 1136.62010年
[28] Schoenberg,I.J.,通过分析函数对等距数据近似问题的贡献。第一部分:关于分度的平滑问题。第一类解析近似公式,Q.Appl。数学。,4, 45-99 (1946) ·Zbl 0061.28804号
[29] 杜达,R.O。;哈特,体育。;斯托克·D·G,《模式分类》(2001),约翰·威利父子公司·Zbl 0968.68140号
[30] 弗里德曼,N。;盖革,D。;Goldszmidt,M.,贝叶斯网络分类器,马赫。学习。,29, 131-163 (1997) ·Zbl 0892.68077号
[31] Lauritzen,S.L。;Wermuth,N.,变量之间关联的图形模型,其中一些是定性的,一些是定量的,Ann.Stat.,17,31-57(1989)·Zbl 0669.62045号
[32] 佩雷斯,A。;拉腊尼亚加,P。;Inza,I.,《条件高斯网络监督分类:从朴素贝叶斯增加结构复杂性》,《国际期刊近似推理》。,43, 1-25 (2006) ·Zbl 1097.62057号
[33] Dougherty,J。;Kohavi,R。;Sahami,M.,连续特征的监督和非监督离散化,(Prieditis,A.;Russell,S.J.,《第十二届机器学习国际会议论文集》(ICML1995)(1995),Morgan Kaufmann),194-202
[34] 徐,C.-N。;黄,H.-J。;Wong,T.-T.,Dirichlet假设对朴素贝叶斯分类器中连续变量离散化的影响,马赫。学习。,53, 235-263 (2003) ·Zbl 1089.68096号
[35] Yang,Y。;Webb,G.I.,《关于离散化为什么对天真的贝叶斯分类器有效》,(Gedeon,T.D.;Fung,L.C.C.,《第16届澳大利亚人工智能会议论文集》,第16届澳洲人工智能会议会议论文集,计算机科学讲义,第2903卷(2003),斯普林格),440-452·兹比尔1205.68330
[36] 约翰·G·H。;Langley,P.,估计贝叶斯分类器中的连续分布,(Besnard,P.;Hanks,S.,《第十一届人工智能不确定性年会论文集》(UAI1995)(1995),Morgan Kaufmann),338-345
[37] 佩雷斯,A。;拉腊尼亚加,P。;Inza,I.,基于核密度估计的贝叶斯分类器:灵活分类器,Int.J.近似原因。,50, 341-362 (2009) ·Zbl 1191.68600号
[38] 弗洛雷斯,M.J。;Gámez,J.A。;马丁内斯,A.M。;Salmerón,A.,监督分类中截断指数的混合:朴素贝叶斯和平均单依赖估计分类器的案例研究,(Ventura,S.;Abraham,A.;Cios,K.J.;Romero,C.;Marcelloni,F.;Benítez,J.M.;Galindo,E。L.G.,《第十一届智能系统设计与应用国际会议论文集》(ISDA2011)(2011),IEEE,593-598
[39] 弗莱希,I。;费尔南德斯,A。;Salmerón,A.,《MTE分布的增量监督分类:初步研究》,(Rojas,I.;Pomares,H.,《第二届智能计算模拟会议论文集》(SICO2007)。《第二届Simposio de Inteligencia计算会议录》(SICO2007),汤姆森(2007),217-224
[40] Minsky,M.,走向人工智能的步骤,Proc。无线电工程学院,49,8-30(1961)
[41] Faux,I。;Pratt,M.,《设计与制造的计算几何》(1979),威利·兹伯利039.51001
[42] de Boor,C.,《样条实用指南》(1978),Springer-Verlag·Zbl 0406.41003号
[43] Prautzsch,H。;Boehm,W。;Paluszny,M.,Bézier和B样条技术(2002),Springer-Verlag·Zbl 1033.65008号
[44] Stone,M.H.,广义Weierstrass逼近定理,数学。Mag.,21,237-254(1948)
[45] Schwarz,G.,《估算模型的维数》,《Ann.Stat.》,第6期,第461-464页(1978年)·Zbl 0379.62005年
[46] Kullback,S。;Leibler,R.A.,《信息与充分性》,《数学年鉴》。《统计》,22,79-86(1951)·Zbl 0042.38403号
[47] R核心团队,R:统计计算的语言和环境(2012年),R统计计算基金会:R统计计算基础,奥地利维也纳
[48] 约翰逊,S.G。;Narasimhan,B.,《Cubature:超立方体上的自适应多元集成》(2011),R包版本1.1-1
[49] Duong,T.,ks:内核平滑(2012),R包版本1.8.11
[50] 很高兴,我很好。;Hjort,N.L。;Ushakov,N.G.,《非密度密度估算值的修正》,Scand。《J Stat.》,第30期,第415-427页(2003年)·Zbl 1051.60037号
[51] 加斯卡,M。;Sauer,T.,多变量多项式插值,高级计算。数学。,12, 377-410 (2000) ·Zbl 0943.41001号
[52] Bos,L。;De Marchi,S。;维亚内洛,M。;Xu,Y.,Padua点的二元拉格朗日插值:理想理论方法,Numer。数学。,108, 47-57 (2007) ·Zbl 1126.41002号
[53] Harris,L.A.,切比雪夫节点的双变量拉格朗日插值,Proc。美国数学。Soc.,138,4447-4453(2010年)·Zbl 1209.65013
[54] 卡利亚里,M。;De Marchi,S。;Vianello,M.,立方体中的超插值,计算。数学。申请。,55, 2490-2497 (2008) ·Zbl 1142.65312号
[56] Alcalá-Fdez,J。;费尔南德斯,A。;Luengo,J。;德拉克,J。;南卡罗来纳州加西亚。;桑切斯,L。;Herrera,F.,KEEL数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,J.Mult-有价值的日志。软计算。,17, 255-287 (2011)
[57] 多明戈斯,P。;Pazzani,M.,关于零损失下简单贝叶斯分类器的最佳性,马赫。学习。,29, 103-130 (1997) ·Zbl 0892.68076号
[58] Wand,M。;Ripley,B.,KernSmooth:Wand&Jones内核平滑功能,“内核平滑”(1995),2012年,R包版本2.23-8
[59] 法耶兹,U.M。;Irani,K.B.,用于分类学习的连续值属性的多区间离散化,(Bajcsy,R.,《第十三届国际人工智能联合会议论文集》(IJCAI1993)(1993),摩根·考夫曼),1022-1027
[60] Wolpert博士。;Macready,W.G.,《优化无免费午餐定理》,IEEE Trans。进化。计算。,1, 67-82 (1997)
[61] Friedman,M.,《使用秩来避免方差分析中隐含的正态假设》,《美国统计协会期刊》,32,675-701(1937)
[62] 伊曼·R·L。;Davenport,J.M.,弗里德曼统计临界区域的近似,Commun。统计,理论方法,9571-595(1980)·Zbl 0451.62061号
[63] 南卡罗来纳州加西亚。;Herrera,F.,所有成对比较的“多数据集分类器的统计比较”扩展,J.Mach。学习。第9号决议,第2677-2694页(2008年)·Zbl 1225.68178号
[64] 弗洛雷斯,M.J。;Gámez,J.A。;马丁内斯,A.M。;Puerta,J.M.,《比较贝叶斯网络分类器时处理数字属性:离散化方法重要吗?》?,申请。智力。,34, 372-385 (2011)
[65] A.克兰普顿。;Forbes,A.B.,《使用节点密度函数的样条逼近》(Iske,A.;Levesley,J.,《逼近算法》(2007),Springer),249-258·Zbl 1117.65024号
[66] Leitenstorfer,F。;Tutz,G.,通过助推技术选择结,计算机。统计数据分析。,51, 4605-4621 (2007) ·Zbl 1162.62337号
[67] 斯通,C.J。;汉森,M.H。;科珀伯格,C。;Truong,Y.K.,《扩展线性建模中的多项式样条及其张量积》,《Ann.Stat.》,第25期,第1371-1470页(1997年)·Zbl 0924.62036号
[68] 奥斯本,M.R。;Presnell,B。;Turlach,B.A.,《通过LASSO进行回归样条曲线的节点选择》,(Weisberg,S.,《降维、计算复杂性和信息》,降维、计算机复杂性和信息,计算科学与统计,第30卷(1998年),北美界面基金会),44-49
[69] Denison,D.G.T。;马利克,B.K。;Smith,A.F.M.,《自动贝叶斯曲线拟合》,J.R.Stat.Soc.,Ser。B、 《美国统计年鉴》。,60, 333-350 (1998) ·Zbl 0907.62031号
[70] 迪马特奥,I。;Genovese,C.R。;Kass,R.E.,《自由节点样条曲线的贝叶斯曲线拟合》,《生物统计学》,88,1055-1071(2001)·Zbl 0986.62026号
[71] 格雷纳,R。;苏,X。;沈,B。;周伟,逻辑回归的结构扩展:信念网络分类器的判别参数学习,马赫。学习。,59, 297-322 (2005) ·Zbl 1101.68759号
[72] 卡瓦略,A.M。;Roos,T。;Oliveira,A.L。;Myllymäki,P.,通过因子化条件对数似然对贝叶斯网络进行判别学习,J.Mach。学习。决议,12181-2210(2011)·Zbl 1280.68158号
[73] Gámez,J.A。;Rumí,R。;Salmerón,A.,无监督朴素贝叶斯(Unsupervised naive Bayes for data clusting with mixes of截断指数),(Studenó,M.;Vomlel,J.,《概率图形模型第三届欧洲研讨会论文集》(PGM2006)(2006)),123-130
[74] 费尔南德斯,A。;Gámez,J.A。;Rumí,R。;Salmerón,A.,混合贝叶斯网络中使用隐藏变量的数据聚类,(欧洲信息学和数学研究联合会第四届国际会议论文集,计算与统计工作组(ERCIM2011)(2011))
[75] 费尔南德斯,A。;尼尔森,J.D。;Salmerón,A.,《从不完整数据库中学习贝叶斯网络进行回归》,《国际不确定性杂志》。模糊知识-基于系统。,18, 69-86 (2010)
[76] 费尔南德斯,A。;莫拉莱斯,M。;Salmerón,A.,《使用截断指数混合进行回归的树增强朴素贝叶斯:在高等教育管理中的应用》,(Berthold,M.R.;Shawe-Taylor,J.;Lavrac,n.,《智能数据分析进展VII》,第七届智能数据分析国际研讨会论文集(IDA2007)。智能数据分析进展VII,第七届智能数据分析国际研讨会论文集(IDA2007),计算机科学讲稿,第4723卷(2007),施普林格出版社,59-69·Zbl 1143.68306号
[77] 莫拉莱斯,M。;罗德里格斯,C。;Salmerón,A.,《使用截断指数的混合物进行回归的选择性朴素贝叶斯》,《国际不确定性杂志》。模糊知识-基于系统。,15, 697-716 (2007) ·Zbl 1147.68647号
[78] 洛佩斯·克鲁兹。;比尔扎,C。;Larrañaga,P.,使用B样条插值从数据中学习多项式的混合,(Cano,A.;Gómez-Olmedo,M.;Nielsen,T.D.,第六届概率图形模型欧洲研讨会论文集(PGM2012)(2012)),211-218
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。