×

装袋中最佳样本量的银行外估计。 (英语) Zbl 1191.68592号

小结:从采样率(m/n)的角度,分析了带替代和不带替代的(m/n)袋装的性能。标准打包使用重采样和替换来生成与原始训练集相同大小的引导样本。无重放置方法通常使用半个样本(m_{wr}=n/2\)。这些采样大小的选择是任意的,就集合的分类性能而言,不需要是最优的。我们建议使用泛化精度的带外估计来为采样率选择一个接近最佳的值。在独立样本上训练的分类器集合,其大小使集合的带外误差尽可能低,通常可以提高标准装袋的性能,并且可以有效地构建。

MSC公司:

68吨10 模式识别、语音识别

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[2] J.R.Quinlan,Bagging,boosting,and C4.5,摘自:《第13届全国人工智能会议论文集》,马萨诸塞州剑桥市,1996年,第725-730页。;J.R.Quinlan,Bagging,boosting和C4.5,摘自:《第13届全国人工智能会议论文集》,马萨诸塞州剑桥市,1996年,第725-730页。
[3] 奥皮茨,D。;Maclin,R.,《流行集成方法:实证研究》,《人工智能研究杂志》,11,169-198(1999)·Zbl 0924.68159号
[4] 鲍尔,E。;Kohavi,R.,《投票分类算法、增强和变体的实证比较:打包,机器学习》,36,1-2,105-139(1999)
[5] Dietterich,T.G.,构建决策树集合、增强和随机化三种方法的实验比较:装袋,机器学习,40,2,139-157(2000)
[6] Webb,G.I.,《多重助推:助推和摆动相结合的技术》,机器学习,40,2,159-196(2000)
[7] R.Caruana,A.Niculescu-Mizil,《监督学习算法的实证比较》,载于:ICML'06:第23届国际机器学习会议论文集,美国纽约州纽约市ACM出版社,2006年,第161-168页。doi(操作界面):http://doi.acm.org/10.1145/1143844.1143865; R.Caruana,A.Niculescu-Mizil,《监督学习算法的实证比较》,载于:ICML'06:第23届国际机器学习会议论文集,美国纽约州纽约市ACM出版社,2006年,第161-168页。doi(操作界面):http://doi.acm.org/10.1145/1143844.1143865
[8] 埃夫隆,B。;Tibshirani,R.J.,《Bootstrap简介》(1994),查普曼和霍尔出版社,CRC:查普曼&霍尔出版社,纽约CRC出版社,佛罗里达州博卡拉顿
[9] Bühlmann,P。;Yu,B.,分析袋装,《统计年鉴》,30927-961(2002)·Zbl 1029.62037号
[10] Buja,A。;Stuetzle,W.,《袋装观察》,中国统计局,16,323-351(2006)·Zbl 1096.62034号
[11] 弗里德曼,J.H。;Hall,P.,《关于装袋和非线性估计》,《统计规划与推断杂志》,137,3,669-683(2007)·Zbl 1104.62047号
[12] Hartigan,J.,《使用子样本值作为典型值》,《美国统计学会杂志》,641303-1317(1969)
[13] L.Breiman,《银行外估算》,技术报告,加利福尼亚大学统计系,1996年。;L.Breiman,《银行外估算》,技术报告,加利福尼亚大学统计系,1996年。
[14] Swanepoel,J.W.H.,关于证明(修改的)自举法有效的注释,《统计学中的通信——理论和方法》,第15期,第3193-3203页(1986年)·Zbl 0623.62041号
[15] Bickel,P.J。;Gtze,F。;van Zwet,W.R.,《重新抽样较少的观测值、损失和损失补救:收益》,《中国统计》,第7期,第1-31页(1997年)·Zbl 0927.62043号
[16] 钟,K.-H。;Lee,S.M.S.,百分位置信区间构建中的最佳自举样本量,斯堪的纳维亚统计杂志,28225-239(2001)·兹比尔0965.62026
[17] Politis博士。;罗曼诺,J.P。;Wolf,M.,子抽样,统计中的Springer系列(1999),Springer:Springer Berlin·Zbl 0931.62035号
[18] 戴维森,A.C。;Hinkley,D.V。;Young,G.A.,自举方法的最新发展,《统计科学》,第18期,第141-157页(2003年)·Zbl 1331.62179号
[19] Breiman,L.,在大型数据库和在线中粘贴分类的小票,机器学习,36,1-2,85-103(1999)
[20] Bühlmann,P.,Bagging subagging and bragging for improvement some prediction algorithm,(Akritas,M.G.;Politis,D.N.,《非参数统计的最新进展和趋势》(2003),Elsevier:Elsevier New York),19-34
[21] M.Terabe,T.Washio,H.Motoda,《子采样率对子标记性能的影响》,载于《ECML2001/PKDD2001主动学习、数据库采样和实验设计研讨会论文集:实例选择观点》,2001年,第48-55页。;M.Terabe,T.Washio,H.Motoda,《子采样率对子标记性能的影响》,载于《ECML2001/PKDD2001主动学习、数据库采样和实验设计研讨会论文集:实例选择观点》,2001年,第48-55页·Zbl 1029.68907号
[22] 霍尔,P。;Samworth,R.J.,袋装最近邻分类器的属性,皇家统计学会期刊B辑,67,3,363-379(2005)·Zbl 1069.62051号
[23] P.J.McCarthy,《复制:复杂调查数据分析方法》,《生命健康统计》,公共卫生服务出版物14(1979)。;P.J.McCarthy,《复制:复杂调查数据分析方法》,《生命健康统计》,公共卫生服务出版物14(1979年)。
[24] B.Efron,The jackknife,The bootstrap,and other resampling plans,Society of Industrial and Applied Mathematics CBMS-NSF Monographs 38(1982)。;B.Efron,The jackknife,The bootstrap,and other resampling plans,工业与应用数学学会CBMS-NSF Monographs 38(1982)·Zbl 0496.62036号
[25] A.Asuncion,D.Newman,UCI机器学习库,2007 URL\(\langle;\)网址:http://www.ics.uci.edu/∼;mlearn/MLRepository.html \(\rangle;\);A.Asuncion,D.Newman,UCI机器学习库,2007 URL\(\langle;\)网址:http://www.ics.uci.edu/∼;mlearn/MLRepository.html \(\rangle;\)
[26] 布雷曼,L。;弗里德曼,J.H。;Olshen,R.A。;Stone,C.J.,《分类和回归树》(1984),查普曼和霍尔出版社:纽约查普曼与霍尔出版社·Zbl 0541.62042号
[27] Breiman,L.,Arcing分类器,统计年鉴,26,3,801-849(1998)·兹比尔0934.62064
[28] Demšar,J.,分类器在多个数据集上的统计比较,机器学习研究杂志,7,1-30(2006)·Zbl 1222.68184号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。