×

LowCon:在指定错误的线性模型中基于设计的子采样方法。 (英语) Zbl 07499911号

摘要:我们考虑了一个测量约束的监督学习问题,即(i)给出了预测因子的全样本;(ii)响应观测值不可用且测量成本高昂。因此,理想的做法是选择预测器观测值的子样本,测量相应的响应,然后在预测器和响应的子样本上拟合监督学习模型。然而,模型拟合是一个反复试验的过程,数据的假设模型可能会被错误指定。我们的实证研究表明,当模型指定错误时,大多数现有的子抽样方法的性能都不令人满意。在本文中,我们开发了一种新的子采样方法,称为“LowCon”,当工作线性模型指定错误时,该方法优于竞争方法。我们的方法使用正交拉丁超立方体设计来实现稳健估计。我们证明了所提出的基于设计的估计器对许多可能的误指定项近似地最小化了所谓的最坏情况偏差。仿真和实际数据分析均表明,该估计器比通过最先进的子抽样方法获得的几个子抽样最小二乘估计器具有更强的鲁棒性。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾,M。;Wang,F。;Yu,J。;Zhang,H.,“大尺度分位数回归的最优子抽样,复杂性杂志,101512(2020)·兹比尔1460.62049 ·doi:10.1016/j.jco.2020.1015年12月
[2] 艾,M。;Yu,J。;张,H。;Wang,H.,“大数据回归的最优子抽样算法”,《中国统计》,出版社(2019年)·Zbl 1469.62422号 ·doi:10.5705/ss.202018.0439
[3] Alaoui,A。;Mahoney,M.W.,具有统计保证的快速随机核岭回归,神经信息处理系统进展,775-783(2015)
[4] Andersen,R.,稳健回归的现代方法,152(2008),千橡,加利福尼亚州:Sage,千橡树,加利福尼亚州
[5] 盒子,通用电气。;Draper,N.R.,“选择响应面设计的依据”,《美国统计协会杂志》,54,622-654(1959)·Zbl 0116.36804号 ·doi:10.1080/01621459.1959.10501525
[6] Casella,G.,“条件数和Minimax岭回归估计,美国统计协会杂志,80,753-758(1985)·Zbl 0575.65148号 ·doi:10.1080/01621459.1985.10478180
[7] 乔帕,T.M。;Lucas,T.W.,“高效近正交和填充空间拉丁超立方体,技术计量学,49,45-55(2007)·doi:10.1198/00401700600000453
[8] Cochran,W.G.,《取样技术》(2007),纽约:威利,纽约·Zbl 0051.10707号
[9] Derezinski,M。;Warmuth,M.K。;Hsu,D.J.,“线性回归的杠杆体积采样,神经信息处理系统的进展,2510-2519(2018)
[10] 德里尼亚斯,P。;Magdon-Ismail,M。;马奥尼,M.W。;Woodruff,D.P.,“矩阵一致性和统计杠杆的快速近似”,《机器学习研究杂志》,133475-3506(2012)·Zbl 1437.65030号
[11] 方,K.-T。;李,R。;Sudjianto,A.,《计算机实验的设计和建模》(2005),纽约:查普曼和霍尔/CRC,纽约
[12] 方,K.-T。;马,C.-X。;Winker,P.,“随机抽样和拉丁超立方体设计的中心L2差异,均匀设计的构造,计算数学,71,275-296(2002)·Zbl 0977.68091号 ·doi:10.1090/S0025-5718-00-01281-3
[13] Farr,T.G。;罗森,P.A。;Caro,E。;Crippen,R。;杜伦,R。;汉斯莱,S。;科布里克,M。;Paller,M。;罗德里格斯,E。;Roth,L.,“航天飞机雷达地形测量任务,地球物理学评论,45,2(2007)·doi:10.1029/2005RG000183
[14] Filzmoser,P。;Höppner,S。;奥尔特纳,I。;Serneels,S。;Verdonck,T.,“细胞稳健m回归,计算统计与数据分析,106944(2020)·Zbl 1510.62036号 ·doi:10.1016/j.csda.2020.106944
[15] Gu,C.,平滑样条方差分析模型(2013),纽约:Springer Science&Business Media,纽约·Zbl 1269.62040号
[16] Hengl,T。;尤夫林,G.B。;肯彭,B。;Leenaars,J.G。;沃尔什,M.G。;Shepherd,K.D。;Sila,A。;麦克米兰,R.A。;de Jesus,J.M。;Tamene,L.,“以250米分辨率绘制非洲土壤特性图:随机森林显著改善了当前预测,PLoS ONE,10,6,e0125814(2015)·doi:10.1371/journal.pone.0125814
[17] 霍恩,R.A。;Johnson,C.R.,矩阵分析(1990),剑桥:剑桥大学出版社,剑桥·Zbl 0704.15002号
[18] Joseph,V.R.,“计算机实验的填充设计:综述,质量工程,28,28-35(2016)·doi:10.1080/08982112.2015.1100447
[19] 约瑟夫·V·R。;Hung,Y.,“正交最大拉丁超立方体设计,统计,171-186(2008)·Zbl 1137.62050号
[20] Kiefer,J.,“优化设计:标准变化下结构和性能的变化”,《生物统计学》,62277-288(1975)·Zbl 0321.62086号 ·doi:10.1093/biomet/62.2.277
[21] Kleijnen,J.P.,模拟实验的设计与分析,230(2015),纽约:Springer,纽约·Zbl 1321.62006年
[22] 马,P。;马奥尼,M.W。;Yu,B.,“算法利用的统计视角”,《机器学习研究杂志》,16,861-911(2015)·Zbl 1337.62164号
[23] 马,P。;Sun,X.,“利用大数据回归,威利跨学科评论:计算统计,7,70-76(2015)·doi:10.1002/wics.1324
[24] 马,P。;张,X。;Xing,X。;马,J。;Mahoney,M.W.,“随机数值线性代数算法抽样估计的渐近分析”,第23届国际人工智能与统计会议(2020年)
[25] Mahoney,M.W.,矩阵和数据的随机算法,“机器学习中的基础和趋势,文本注册],3123-224(2011)·兹比尔1232.68173
[26] 医学博士麦凯。;贝克曼,R.J。;Conover,W.J.,“计算机代码输出分析中选择输入变量值的三种方法的比较,技术计量学,42,55-61(2000)·网址:10.1080/00401706.2000.10485979
[27] 米尔,P。;Mintz博士。;罗森菲尔德,A。;Kim,D.Y.,“计算机视觉的稳健回归方法:综述”,《国际计算机视觉杂志》,第659-70页(1991年)·doi:10.1007/BF00127126
[28] 孟,C。;Wang,Y。;张,X。;曼达尔,A。;马,P。;Zhong,W.,《应用控制论和系统科学研究手册》,280,《大数据分析的有效统计方法》,280-299(2017),IGI Global
[29] 孟,C。;张,X。;张杰。;钟伟。;Ma,P.,“通过填充基选择更有效地逼近平滑样条,生物统计学,107,723-735(2020)·Zbl 1451.62039号 ·doi:10.1093/biomet/asaa019
[30] 米纳斯尼,B。;McBratney,A.B.,“辅助信息、计算机和地球科学存在下的条件拉丁超立方体采样方法,32,1378-1388(2006)·doi:10.1016/j.cageo.2005.12.009
[31] Park,J.-S.,“计算机实验的最佳拉丁超立方体设计”,《统计规划与推断杂志》,39,95-111(1994)·Zbl 0803.62067号 ·doi:10.1016/0378-3758(94)90115-5
[32] 佩纳,D。;Yohai,V.,“大型回归问题中异常诊断的快速程序”,《美国统计协会杂志》,94434-445(1999)·Zbl 1072.62618号 ·doi:10.2307/2670164
[33] Pukelsheim,F.,《实验的优化设计》(2006),宾夕法尼亚州费城:工业和应用数学学会,宾夕法尼亚州,费城·Zbl 1101.62063号
[34] Sacks,J。;Ylvisaker,D.,“近似线性模型的线性估计,统计年鉴,1122-1137(1978)·Zbl 0384.62058号 ·doi:10.1214/aos/1176344315
[35] Settles,B.,“主动学习,人工智能和机器学习综合讲座,6,1,1-114(2012)·Zbl 1270.68006号 ·doi:10.2200/S00429ED1V01Y201207AIM018
[36] Shepherd,K.D。;Walsh,M.G.,“土壤特性表征反射光谱库的开发”,美国土壤科学学会杂志,66,3,988-998(2002)·doi:10.2136/sssaj2002.0988
[37] Stein,M.,“使用拉丁超立方体采样的模拟大样本特性,技术计量学,29143-151(1987)·Zbl 0627.62010号 ·doi:10.1080/00401706.1987.10488205
[38] 斯坦伯格,D.M。;Lin,D.K.,“正交拉丁超立方体设计的构造方法,生物统计学,279-288(2006)·Zbl 1153.62349号 ·doi:10.1093/biomet/93.2.279
[39] Sun,X.,Zhong,W.和Ma,P.(2020),“用于在大样本中平滑样条方差分析模型的非对称平滑参数选择方法”,arXiv预印本arXiv:2004.10271。
[40] Tang,B.,“基于正交数组的拉丁超立方体,美国统计协会杂志,88,1392-1397(1993)·Zbl 0792.62066号 ·doi:10.1080/01621459.1993.10476423
[41] 汤普森,S.K.,《抽样,简单随机抽样》,9-37(2012)
[42] Trefethen,L.N。;Bau,D.,《数值线性代数》(1997),费城:SIAM,费城·Zbl 0874.65013号
[43] 曹,M。;Ling,X.,“回归模型稳健估计的子抽样方法,开放统计杂志,2281(2012)·doi:10.4236/ojs.2012.23034
[44] Wahba,G.,观测数据的样条模型(1990),费城:SIAM,费城·Zbl 0813.62001号
[45] Wang,H.和Ma,Y.(2020),“大数据分位数回归的最优子抽样”,arXiv预印本arXiv:20011.1068·Zbl 1462.62248号
[46] Wang,H.,Xiao,Q.,and Mandal,A.(2020a),“Lhd:灵活尺寸高效拉丁超立方体设计的R包”,arXiv预印本arXiv:2010.09154。
[47] Wang,H.、Xiao,Q.和Mandal,A.(2020b),“Lhd:拉丁超立方体设计(Lhd)算法”,R软件包1.1.0版。
[48] Wang,H。;杨,M。;Stufken,J.,“基于信息的大数据线性回归最优子数据选择,美国统计协会杂志,113,1-13(2018)·Zbl 1478.62196号 ·doi:10.1080/01621459.2017.1408468
[49] Wang,H。;朱,R。;Ma,P.,“大样本Logistic回归的最优子抽样,美国统计协会杂志,113829-844(2018)·Zbl 1398.62196号 ·doi:10.1080/01621459.2017.1292914
[50] Wang,Y。;Yu,A.W。;Singh,A.,“关于测量约束回归模型中实验的可计算选择”,《机器学习研究杂志》,18,5238-5278(2017)·Zbl 1444.62093号
[51] 吴长凤。;Hamada,M.S.,《实验:规划、分析和优化》(2011),纽约:威利
[52] 谢瑞。;王,Z。;Bai,S。;马,P。;Zhong,W.,“流式多维时间序列的在线分散杠杆得分抽样,第22届国际人工智能与统计会议,2301-2311(2019)
[53] Ye,K.Q.,“正交列拉丁超立方体及其在计算机实验中的应用”,《美国统计协会杂志》,93,1430-1439(1998)·Zbl 1064.62553号 ·doi:10.1080/01621459.1998.10473803
[54] Yu,J。;Wang,H。;艾,M。;Zhang,H.,“海量数据下最大拟似然估计的最优分布子抽样,美国统计协会杂志,1-29(2020)·Zbl 1506.62235号 ·doi:10.1080/01621459.2020.1773832
[55] 张杰。;Jin,H。;Wang,Y。;太阳,X。;马,P。;Zhong,W.,“平滑样条方差分析模型及其在复杂和海量数据集中的应用,样条与应用专题,63(2018)
[56] 张,X。;谢瑞。;Ma,P.,《大数据分析手册》,“大数据中的统计杠杆方法”,51-74(2018),纽约:Springer,纽约
[57] 朱,X。;拉弗蒂,J。;Rosenfeld,R.(2005),卡内基梅隆大学:卡内基梅隆大学,语言技术学院,计算机科学学院
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。