×

准确性估计交叉验证的无监督分层。 (英语) Zbl 0939.68744号

总结:新学习算法的快速发展增加了对改进精度估计方法的需求。此外,允许比较几种不同学习算法的方法对于新算法的性能评估非常重要。本文提出了一种新的精度估计方法,它是k折交叉验证方法的扩展。所提出的方法不是使用随机抽样方法,而是确定性地构造交叉验证折叠。通过利用实例空间中实例的分布,使用无监督分层执行褶皱的确定性构造。我们的方法要么基于单中心方法,要么基于聚类过程。这些方法试图构造更具代表性的褶皱,从而减少了结果估计值的偏差。同时,由于不存在随机性,我们的方法允许在不同实验中直接比较学习算法的性能。报告了一个测试所提出方法性能的模拟实验,描述了它们在各种情况下的行为。新方法主要减少了估计量的偏差。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿哈·D·。;Kibler,D。;Albert,M.,基于实例的学习算法,机器学习,6,37-66(1991)
[2] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984),沃兹沃斯:加利福尼亚州沃兹沃思贝尔蒙特·Zbl 0541.62042号
[3] 布雷曼,L。;Spector,P.,回归中的子模型选择和评估。X随机案例,国际。统计师。修订版,60,291-319(1992)
[4] Cheesman,P。;Stutz,J.,《贝叶斯分类(AutoClass):理论和结果》,(Fayyad,U.M.;Piatesky-Shapiro,G.;Smyth,P.;Uthurusamy,R.,《知识发现和数据挖掘的进展》(1996),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥),153-180
[5] 克拉克·P。;Boswell,R.,《CN2规则归纳:最近的一些改进》,(第五届欧洲学习工作会议记录(1991年),施普林格:柏林施普林格出版社),151-163
[6] 切割,D.R。;Pedersen,J.O。;Karger,D.R。;Tukey,J.W.,《分散/聚集:浏览大型文档集的基于聚类的方法》,(第15届国际ACM/SIGIR年会(1992年),第318-329页
[7] Efron,B.,《估算预测规则的错误率:交叉验证的改进》,J.Amer。统计师。协会,78,316-330(1983)·Zbl 0543.62079号
[8] 埃夫隆,B。;Tibshirani,R.,《Bootstrap简介》(1993),查普曼和霍尔:查普曼与霍尔伦敦·Zbl 0835.62038号
[9] 埃夫隆,B。;Tibshirani,R.,《交叉验证和引导:估算预测规则的错误率》,《技术报告477》(1995年),斯坦福大学,网址:http://utstat.toronto.edu/tibs/research.html
[10] Everitt,B.S.,《聚类分析》(1980),霍尔斯特德出版社:伦敦霍尔斯特出版社·Zbl 0406.62042号
[11] Furnkranz,J.,《集成窗口》,J.人工智能研究,8129-164(1998)·Zbl 0891.68078号
[12] Hardy,A.,关于簇的数量,Comput。统计师。数据分析。,23, 83-96 (1996) ·Zbl 0900.92186号
[13] Kohavi,R.,《性能增强和不经意决策图的包装器》,斯坦福大学计算机科学系博士论文(1995),网址:http://robotics.stanford.edu/ronnyk/
[14] Kohavi,R。;Sommerfield,D。;Dougherty,J.,使用MLC++进行数据挖掘:C++中的机器学习库,(人工智能工具(1996),IEEE计算机社会出版社),234-245
[15] Kohavi,R。;Wolpret,D.,零损失函数的偏差加方差分解,(第13届机器学习国际会议,意大利巴里(1996),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),274-283
[16] E.B.孔。;Dietterich,T.G.,《纠错输出编码纠正偏差和方差》,(第12届机器学习国际会议,加利福尼亚州塔霍市(1995),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),313-321
[17] 刘易斯,D.D。;Catlett,J.,《监督学习的异质不确定性抽样》,(第11届机器学习国际会议,新泽西州新不伦瑞克(1994),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),148-156
[18] Merz,C.J。;Murphy,P.M.,UCI机器学习数据库库,http://www.ics.uci.edu/MLRepository.html(1998),加利福尼亚大学信息与计算机科学系:加利福尼亚大学信息和计算机科学系,加利福尼亚州欧文
[19] Mitchell,T.,《学习泛化中对偏见的需要》(Shavlik,J.;Dietterich,T.G.,《机器学习中的阅读》(1990),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),184-192年
[20] Mojena,R.,《分层分组方法和停止规则:评估》,《计算机杂志》,20359-363(1977)·Zbl 0364.62065号
[21] Quinlan,J.R.,C4.5:机器学习课程(1993),Morgan Kaufmann:Morgan Koufmann San Mateo,CA
[22] Rohatgi,V.,《统计推断》(1984),威利:威利纽约·Zbl 0537.62001号
[23] Schaffer,C.,通过交叉验证选择分类方法,机器学习,13,135-143(1993)
[24] Schaffer,C.,泛化性能的守恒定律,(第11届机器学习国际会议,新泽西州新不伦瑞克(1994),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),259-267
[25] SPSS手册,专业统计6.1,SPSS公司(1994)
[26] Stone,M.,统计预测的交叉验证选择和评估,J.Roy。统计师。《社会学杂志》,36,111-147(1974)·Zbl 0308.62063号
[27] 韦斯,S。;Kulikowski,C.,《学习的计算机系统》(1991),Morgan Kaufmann:Morgan Koufmann San Mateo,CA
[28] Yang,Y.,文本分类中的抽样策略和学习效率,(AAAI信息访问中机器学习春季研讨会(1996),AAAI出版社),88-95
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。