×

次抽样偏差和最佳差异系统交叉验证。 (英语) Zbl 1465.62079号

总结:统计机器学习模型在投入使用之前应该进行评估和验证。传统的(k)折叠蒙特卡罗交叉验证(MCCV)程序使用伪随机序列将实例划分为(k)子集,这通常会导致子采样偏差,夸大了泛化误差,并危及交叉验证的可靠性和有效性。基于统计学中的有序系统抽样理论和数论中的低偏差序列理论,我们提出了一种新的k倍交叉验证方法,用最佳偏差序列替换伪随机序列,从而确保低次抽样偏差,并导致更精确的预期预判误差(EPE)估计。使用156个基准数据集和三个分类器(逻辑回归、决策树和朴素贝叶斯)进行的实验表明,通常,我们的交叉验证程序可以通过将EPE降低约7.18%和方差降低约26.73%来突出MCCV中的子样本偏差。相比之下,分层MCCV可将EPE和MCCV方差分别降低1.58%和11.85%左右。离开(LOO)可以将EPE降低约2.50%,但其方差远高于任何其他交叉验证(CV)程序。交叉验证程序的计算时间仅为MCCV的8.64%,分层MCCV和LOO的8.67%。实验还表明,我们的方法对具有较小尺寸和较大纵横比的数据集更有利。这使得我们的方法在解决生物科学分类问题时特别适用。我们提出的系统子采样技术可以推广到其他涉及随机子采样机制的机器学习算法。

MSC公司:

62G09号 非参数统计重采样方法
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Baker,A.,关于一些涉及指数函数的丢番图不等式,Canad J Math,17,616-626(1965)·Zbl 0147.30901号
[2] Bergstra,J。;Bardenet,R。;Bengio,Y.,超参数优化算法,Adv Neural Inf Process Syst,12546-2554(2011)
[3] Bergstra,J。;Bengio,Y.,超参数优化的随机搜索,J Mach Learn Res,13,281-305(2012)·Zbl 1283.68282号
[4] 波义耳,P。;布罗迪,M。;Glasserman,P.,《证券定价的蒙特卡罗方法》,《经济动态控制杂志》,第21期,第1267-1321页(1997年)·Zbl 0901.90007号
[5] 布拉加-内托,U.M。;Dougherty,E.R.,交叉验证对小样本微阵列分类有效吗?,生物信息学,20374-380(2004)
[6] 布拉加·内托,美国。;Zollanvari,A。;Dougherty,G.,《独立抽样下的交叉验证:强偏差及其纠正方法》,生物信息学,303349-3355(2014)
[7] Branicky,M。;南卡罗来纳州拉瓦莱。;Olson,K.,准随机路径规划,IEEE机器人与自动化国际会议,第2卷,1481-1487(2001),皮斯卡塔韦:IEEE,皮斯卡塔韦
[8] Cheng,J.,贝叶斯网络模拟算法中低差异序列的计算研究,《第十六届人工智能不确定性会议论文集》,第1卷,72-81(2000),旧金山:Morgan Kaufmann出版社,旧金山
[9] Chung,K.,关于Kolmogoroff极限分布的估计,Trans-Amer Math Soc,67,36-50(1949)·Zbl 0034.22602号
[10] 坎宁安,J。;Ghahramani,Z.,《线性降维:调查、洞察和概括》,J Mach Learn Res,16,2859-2900(2015)·Zbl 1351.62123号
[11] 戴,H。;Wang,W.,低偏差抽样方法在结构可靠性分析中的应用,结构安全,31155-164(2009)
[12] 迪亚斯·乌里亚特,R。;DeAndrés,s.,使用随机森林的基因选择和微阵列数据分类,BMC生物信息学,7,1-13(2006)
[13] Dick,J。;Kuo,F。;Sloan,I.,《高维积分:准蒙特卡罗方法》,《数值学报》,第22期,第133-288页(2013年)·Zbl 1296.65004号
[14] Dick,J。;Pillichshammer,F.,《Korobov集的加权星差异》,Proc-Amer Math Soc,143,5043-5057(2015)·Zbl 1329.11078号
[15] 傅伟(Fu,W.)。;卡罗尔·R。;Wang,S.,通过bootstrap交叉验证估计小样本误分类错误,生物信息学,211979-1986(2005)
[16] Gentle,J.,《统计与计算随机数生成与蒙特卡罗方法》(2003),纽约:斯普林格出版社,纽约·Zbl 1028.65004号
[17] 乔治亚娃(Georgieva,A.)。;Jordanov,I.,《使用低差异点序列进行全局优化的混合元神经网络》,《计算操作研究》,37,456-469(2010)·Zbl 1189.90123号
[18] Groot,医学博士。;Postma,G。;Melssen,W.,《利用遥感近红外遥感技术对拆除废物进行分类的代表性培训集的选择》,《Ana Chimica Acta》,392,67-75(1999)
[19] Halton,J.H.,《247算法:径向逆拟随机点序列》,美国通信协会,第7期,第701-702页(1964年)
[20] Hua,L.K。;王毅,数论在近似分析中的应用(1978),北京:科学出版社,北京
[21] Kalagnanam,J。;Diwekar,U.,《离线质量控制的有效采样技术》,《技术计量学》,39,308-319(1997)·Zbl 0896.62106号
[22] Keller,A.,《使用低差异序列快速计算形状因子》,《第12届计算机制图春季会议论文集》,第1卷,195-204(1996),布拉迪斯拉发:夸美纽斯大学出版社,布拉迪斯拉发
[23] Kohavi,R.,《精度估计和模型选择的交叉验证和引导研究》,《国际人工智能联合会议论文集》,第14卷,1137-1143(1995),旧金山:Morgan Kaufmann出版社,旧金山
[24] 科利格,T。;Keller,A.,高效多维抽样,计算图论坛,21555-563(2002)·Zbl 1005.65002号
[25] 库切伦科,S。;Sytsko,Y.,确定性和低差异序列在全局优化中的应用,计算优化应用,30297-318(2005)·Zbl 1078.90052号
[26] Kuipers,L。;Niederreiter,H.,《序列的均匀分布》(1974),纽约:John Wiley&Sons出版社,纽约·Zbl 0281.10001号
[27] 李,X。;Wang,W。;Martin,R.,使用低偏差序列和crofton公式计算几何模型的表面积,计算机辅助设计,35,771-782(2003)·Zbl 1206.65054号
[28] 林德曼,R。;史蒂文,S。;LaValle,M.,运动规划的增量低偏差网格方法,IEEE机器人与自动化国际会议论文集,第1卷,2920-2927(2003),皮斯卡塔韦:IEEE,皮斯卡塔韦
[29] Lohr,S.,《抽样:设计与分析》(2009),波士顿:布鲁克斯/科尔,波士顿·兹比尔1273.62010
[30] Mahler,K.,a.Baker关于e的有理幂近似的论文,Acta Arith,27,61-87(1975)·Zbl 0305.10030号
[31] 莫里纳罗,A。;西蒙,R。;Pfeiffer,R.,预测误差估计:重采样方法的比较,生物信息学,21307-330(2005)
[32] Niederreiter,H.,随机数生成和准蒙特卡罗方法(1992),费城:SIAM,费城·Zbl 0761.65002号
[33] 奥尔森·R。;西拉卡瓦。;Orzechowski,P.,PMLB:机器学习评估和比较的大型基准套件,生物数据挖掘,10,36(2017)
[34] 裤子,M。;Thangaraj,R。;Grosan,C.,《改进的低差异序列粒子群优化》,IEEE进化计算大会论文集,第2卷,3011-3018(2008),皮斯卡塔韦:IEEE,皮斯卡塔韦
[35] 帕斯科夫,S。;Traub,J.,《金融衍生品的快速估值》,《投资组合管理杂志》,第22期,第113-123页(1995年)
[36] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A.,Scikit learn:python中的机器学习,J Mach learn Res,122825-2830(2011)·Zbl 1280.68189号
[37] J.奎因。;Langbein,F。;Martin,R.,《用于渲染的网格低分辨率采样》,《欧洲图形交响乐团基于点的图形》,第119-28页(2007年)
[38] 施密特,W.,《分布的不规则性》,第七卷,《阿里斯学报》,第21期,第45-50页(1972年)·Zbl 0244.10035号
[39] Singhee,A。;Rutenbar,R.,《从金融到触发器:从计算金融到统计电路分析的快速准蒙特卡罗方法研究》,《第八届质量电子设计国际研讨会论文集》,第1卷,685-692(2007),华盛顿:IEEE,华盛顿
[40] Stone,M.,统计预测的交叉验证选择和评估,J R Stat Soc Ser B Stat Methodol,36,111-147(1974)·Zbl 0308.62063号
[41] Struckmeier,J.,低差异序列的快速生成,《计算机应用数学杂志》,61,29-41(1995)·Zbl 0840.65006号
[42] Tan,K。;Boyle,P.,随机低差异序列在复杂证券估值中的应用,经济动态控制杂志,2411747-1782(2000)·Zbl 0967.91059号
[43] Uy,N。;北卡罗来纳州霍伊。;McKay,R.,用随机低差异序列初始化PSO:比较结果,IEEE进化计算大会论文集,第1卷,1985-1992(2007),皮斯卡塔韦:IEEE,皮斯卡塔韦
[44] van der Corput,J.G.,Verteilungsfunktionen(Erste Mitteilung),《Koninklijke Akademie van Wetenschappen te Amsterdam会议记录》,第38卷,813-821(1935),阿姆斯特丹:Elsevier,Amsterdan·JFM 61.0202.08号文件
[45] Wenzel L,Dair D,Vazquez N.使用低差异序列改进模板图像采样的模式匹配系统和方法。华盛顿:美国专利号62299212001
[46] 徐志强。;Zhou,T.,关于稀疏插值和确定性插值点的设计,SIAM科学计算杂志,36,1752-1769(2014)·Zbl 1304.65098号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。