×

离散贝叶斯网络分析中(k)in(k)fold交叉验证的最佳值是多少? (英语) Zbl 1505.62273号

摘要:使用随机数据子集的交叉验证——称为\(k\)-折叠交叉验证——是测试用于分类的模型成功率的有力手段。然而,很少有研究探讨了(k)值(子集数量)如何影响使用已知统计特性数据测试的模型的验证结果。在这里,我们探讨了影响离散贝叶斯网络(BNs)验证结果的样本大小、模型结构和变量相关性的条件。我们创建了具有已知方差和共线性质的BN模型的6个变体,以及\(n=50\)、500和5000个样本的数据集,然后用七个折叠级别(\(k=2\)、5、10、20、\(n-5\)、\(n-2\)和\(n-1)\)测试分类成功率并评估CPU计算时间。分类误差随着(n)的增加而下降,特别是在具有高多元相关性的BN模型中,并且随着(k)的增加下降,通常稳定在(k=10),尽管(k=5)对于大样本来说已经足够了(n=5000)。我们的工作支持文献中常用的(k=10),尽管在某些情况下(k=5)可以满足具有自变量结构的BN模型。

MSC公司:

62-08 统计问题的计算方法
2015年1月62日 贝叶斯推断
第68页第35页 人工智能语言和软件系统理论(基于知识的系统、专家系统等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿德林,AA;Zhang,L.,多元变异系数的新定义,Biomet J,52,5,667-675(2010)·Zbl 1201.62061号 ·doi:10.1002/bimj.201000030
[2] 宾夕法尼亚州阿奎莱拉;费尔南德斯,A。;Reche,F。;Rumi,R.,《混合贝叶斯网络分类器:在物种分布模型中的应用》,Environ Mod Softw,251630-1639(2010)·doi:10.1016/j.envsoft.2010.04.016
[3] Anguita D、Ghelardoni L、Ghio A、Oneto L、Ridella S(2012)K折交叉验证中的“K”。摘自:《欧洲人工神经网络、计算智能和机器学习研讨会论文集》(ESANN 2012)。布鲁日(比利时),2012年4月25日至27日,i6doc.com publ。http://www.i6doc.com/en/livre/?GCOI=28001100967420
[4] Arlot,S。;Celisse,A.,《模型选择交叉验证程序调查》,Stat Surv,4,40-79(2010)·Zbl 1190.62080号 ·doi:10.1214/09-SS054
[5] 吊杆,TL;Huettmann,F。;Schempf,PF,基于预测GIS模型的阿拉斯加Gyrfalcon巢穴分布,Polar Biol,33,347-358(2010)·doi:10.1007/s00300-009-0711-5
[6] TJ布雷迪;弗吉尼亚州蒙利昂;Gray,AN,校准维管植物丰度以检测美国俄勒冈州和华盛顿州未来的气候变化,Ecol Ind,10657-667(2010)·doi:10.1016/j.ecolind.2009.11.004
[7] Breiman L,Spector P(1992),回归中的子模型选择和评估:X随机情况。国际统计修订版291-319
[8] 乔治亚州考利;Talbot,NLC,通过超参数的贝叶斯正则化防止模型选择过程中的过度拟合,J Mach Learn Res,8,841-861(2007)·兹比尔1222.68160
[9] Constantinuo,AC;芬顿,N。;西马什。;Radlinski,L.,《从复杂的调查问卷和访谈数据到医疗决策支持的智能贝叶斯网络模型》,Artif Intell Med,67,75-93(2016)·doi:10.1016/j.artmed.2016.01.002
[10] Cooke RM、Kurowicka D、Hanea AM、Morales O、Ababei DA、Ale B、Roelen A(2007),使用UNICORN和UNINET的连续/离散非参数贝叶斯信念网。In:可靠性MMR数学方法会议记录,2007年7月1-4日,英国格拉斯哥
[11] Dempster,A。;莱尔德,N。;Rubin,D.,通过EM算法从不完整数据中获得最大似然,J R Stat Soc,39,B系列,1-38(1977)·Zbl 0364.62022号
[12] Do,CB;Batzoglou,S.,什么是期望最大化算法?,国家生物技术,26897-899(2008)·doi:10.1038/nbt1406
[13] 马萨诸塞州福里奥;兰杜特,D。;Bennetsen,E。;洛克,K。;Nguyen,THT;明尼苏达州Ambarita;穆松格,PLS;Boets,P。;埃弗阿尔特,G。;Dominguez-Granda,L。;Goethals,PLM,分析和预测河流生态水质的贝叶斯信念网络模型,生态模型,31222-238(2015)·doi:10.1016/j.ecolmodel.2015.05.025
[14] 弗里德曼,N。;盖革,D。;Goldszmidt,M.,贝叶斯网络分类器,《马赫学习》,29,131-163(1997)·Zbl 0892.68077号 ·doi:10.1023/A:1007465528199
[15] Geisser,S.,《预测样本重复使用方法及其应用》,美国统计协会杂志,70,320-328(1975)·Zbl 0321.62077号 ·doi:10.1080/01621459.1975.10479865
[16] 盖恩,I。;Saffari,A。;Dror,G。;Cawley,G.,《模型选择:超越贝叶斯频率划分》,J Mach Learn Res,11,61-87(2010)·兹比尔1242.62008
[17] TR哈蒙德;Ellis,JR,基于饮食数据和贝叶斯网络的弹性鳃类元评估,Ecol Ind,1197-211(2002)·doi:10.1016/S1470-160X(02)00005-5
[18] 哈尼亚,AM;Nane,GF,随机相关矩阵行列式的渐近分布,Stat Neerl,72,14-33(2018)·兹伯利07778319 ·doi:10.1111/坦桑尼亚12113
[19] Hartemink AJ(2001)验证和发现基因调控网络的原理计算方法。马萨诸塞州剑桥麻省理工学院博士论文
[20] 哈斯蒂,T。;Tibshirani,R。;Wainwright,M.,《稀疏的统计学习:拉索和推广》。统计学和应用概率专著143(2015),查普曼:CRC出版社,查普门·Zbl 1319.68003号 ·doi:10.1201/b18401
[21] 霍布斯,NT;Hooten,MB,《贝叶斯模型:生态学家的统计入门》(2015),普林斯顿:普林斯顿大学出版社,普林斯顿·doi:10.1515/9781400866557
[22] 詹森,FV;尼尔森,TD,贝叶斯网络和决策图(2007),纽约:施普林格,纽约·Zbl 1277.62007年 ·doi:10.1007/978-0-387-68282-2
[23] Koski,T。;Noble,J.,《贝叶斯网络:简介》(2011),伦敦:威利出版社,伦敦·Zbl 1277.62022号
[24] 拉迪奥,SL;韩,BA;罗斯·马歇尔,EJ;Weathers,KC,生态系统科学大数据的下一个十年,生态系统,20274-283(2017)·doi:10.1007/s10021-016-0075-y
[25] Last M(2006)交叉验证的不确定性原则。摘自:2006年IEEE粒度计算国际会议,2006年5月10日至12日,第275-208页
[26] Lillegard,M。;Engen,S。;Saether,BE,估计波动人口空间同步性的Bootstrap方法,Oikos,109,342-350(2005)·数字对象标识代码:10.1111/j.0030-1299.2005.13816.x
[27] 马科特,BG;Naim,P。;Wuillemin,P-H;Leray,P。;Porret,O。;Becker,A.,Étude de cas n°5:自然资源管理和风险分析(自然资源评估和风险管理),Réseaux Bayésiens(贝叶斯网络;法语),293-315(2007),巴黎:埃罗尔斯,巴黎
[28] Marco,BG,《贝叶斯网络模型性能和不确定性评估指标》,《生态模型》,230,50-62(2012)·doi:10.1016/j.ecolmodel.2012.01.013
[29] 马科特,BG;TD Penman,《贝叶斯网络建模的进展:建模技术的集成》,环境模型软件,111,386-393(2019)·doi:10.1016/j.envsoft.2018.09.016
[30] Murphy,KP,《机器学习:概率观点》(2012),剑桥:麻省理工学院出版社,剑桥·Zbl 1295.68003号
[31] Pawson,SM;马科特,BG;Woodberry,O.,《预测森林昆虫飞行活动:贝叶斯网络方法》,《公共科学图书馆·综合》,12,e0183464(2017)·doi:10.1371/journal.pone.0183464
[32] Porret,O。;纳伊姆,P。;Marco,BG,《贝叶斯信念网络:应用实用指南》(2008),西苏塞克斯:威利·Zbl 1275.62010号
[33] Scutari,M.,《使用bnlearn R包学习贝叶斯网络》,J Stat Softw,35,3,1-22(2010)·doi:10.18637/jss.v035.i03
[34] Shcheglovitova,M。;Anderson,RP,《估算生态位模型的最佳复杂性:小样本物种的折刀法》,Ecol Mod,269,9-17(2013)·doi:10.1016/j.ecolmodel.2013.08.011
[35] 加利福尼亚州斯托;肯塔基州韦伯斯特;Wagner,T。;Lottig,N。;宾夕法尼亚州索拉诺;Cha,Y.,《大数据中的小价值:对适当元数据的持续需求》,Eco-Inform,45,26-30(2018)·doi:10.1016/j.ecoinf.2018.03.002
[36] Van Valen,L。;Hallgrímsson,B。;Hall,BK,The statistics of variation,variation,29-47(2005),阿姆斯特丹:Elsevier,Amsterdam·doi:10.1016/B978-012088777-4/50005-3
[37] Zhao,Y。;Hasan,YA,《用于预测香港中环路边细颗粒物浓度水平的机器学习算法》,Compute Ecol Softw,361-73(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。