×

空间自举微观计量学:预测大数据中的样本外地理分布。 (英语) Zbl 07748390号

摘要:基于大地理位置点数据估计的空间经济计量模型至少存在两个问题:计算能力有限和对新的样本外地理位置点的预测效率低下。这是因为空间权重矩阵(W)仅为样本内观测值定义,且计算复杂。当使用克里金进行预测时,机器学习模型也会受到同样的影响;因此,这个问题仍然没有解决。本文提出了一种基于大数据的空间模型估计和新位置预测的新方法。该方法使用引导和细分来校准模型和空间。利用PAM(围绕Medoids划分)算法,通过以非依赖方式对回归系数进行联合分类,选择最佳的引导模型。最佳模型中使用的地理点的Voronoi多边形允许进行具有代表性的空间划分。新的样本外点被指定给细分块,并链接到空间权重矩阵,作为原始点的替代,从而可以将校准的空间模型用作新位置的预测工具。在这种方法中,预测质量和计算效率之间没有权衡。一个实证例子说明了业务地点和公司盈利能力的模型。
{©2023作者。斯堪的纳维亚统计杂志由John Wiley&Sons Ltd代表斯堪的纳维亚统计杂志基金会董事会出版。}

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbruzzo,A.、Ferrante,M.和De Cantis,S.(2021)。GPS跟踪数据的预处理和网络分析。空间经济分析,16(2),217-240。
[2] Ahuja,N.(1982年)。使用Voronoi邻里进行点模式处理。IEEE模式分析和机器智能汇刊,336-343。
[3] Arbia,G.(2014)。空间计量经济学入门:在R.Springer中的应用。
[4] Arbia,G.、Espa,G.和Giuliani,D.(2021)。空间微观计量学。劳特利奇·Zbl 1486.91001号
[5] Arbia,G.、Ghiringhelli,C.和Mira,A.(2019年)。大数据集的空间经济计量线性模型估计:空间大数据可以有多大?区域科学与城市经济学,76,67-73。
[6] 巴赫·F·R(2008)。Bolasso:通过bootstrap进行模型一致套索估计。第25届机器学习国际会议论文集(第33-40页)。计算机协会(ACM)。
[7] Barbian,M.H.和Assunçáo,R.M.(2017年)。大型地质统计数据的空间子码估计器。空间统计,22,68-88。
[8] Carlstein,E.(1986)。使用子序列方法从平稳时间序列估计一般统计的方差。《统计年鉴》,第14期,1171-1179页·Zbl 0602.62029号
[9] Castillo‐Páez,S.、Fernández‐Casal,R.和García‐Soidán,P.(2020年)。异方差下无条件风险映射的非参数bootstrap方法。空间统计学,40100389。
[10] Chernick,M.R.和LaBudde,R.A.(2014)。介绍引导方法及其在R.John Wiley&Sons中的应用。
[11] Chun,Y.和Griffith,D.A.(2013年)。空间统计和地质统计学:地理信息科学和技术的理论和应用。圣人。
[12] Cressie,N.A.C.(1993年)。空间数据统计。威利。
[13] Dalposso,G.H.、Uribe‐Opazo,M.A.、Johann,J.A.、Bastiani,F.D.和Galea,M.(2019年)。利用空间bootstrap对大豆产量和土壤化学属性进行地理统计建模。Engenharia Agrícola,39,350-357岁。
[14] Davison,A.C.和Hinkley,D.V.(1997)。引导方法及其应用。剑桥大学出版社·Zbl 0886.62001号
[15] Davison,A.C.、Hinkley,D.V.和Young,G.A.(2003)。引导方法的最新发展。统计科学,18(2),141-157·Zbl 1331.62179号
[16] DiCiccio,T.J.和Efron,B.(1996)。引导置信区间。统计科学,11(3),189-212。https://doi.org/10.1214/ss/1032280214 ·Zbl 0955.62574号 ·doi:10.1214/ss/1032280214
[17] Du,Q.、Faber,V.和Gunzburger,M.(1999)。中心Voronoi细分:应用和算法。SIAM评论,41(4),637-676·Zbl 0983.65021号
[18] Efron,B.和Tibshirani,R.(1997年)。交叉验证的改进:632+引导方法。《美国统计协会杂志》,92(438),548-560·Zbl 0887.62044号
[19] Escanciano,J.C.和Jacho‐Chávez,D.T.(2012)。
非参数回归模型中的一致一致密度估计。计量经济学杂志,167(2),305-316·Zbl 1441.62676号
[20] Fox,J.(2015)。应用回归分析和广义线性模型。Sage出版物第21章:自举回归模型。
[21] Franco‐Villoria,M.和Ignacolo,R.(2017)。基于Bootstrap的函数克里金预测不确定带。空间统计学,21130-148。
[22] Freedman,D.A.(1981年)。引导回归模型。《统计年鉴》,9(6),1218-1228·Zbl 0449.62046号
[23] Gandomi,A.和Haider,M.(2015)。除了炒作:大数据概念、方法和分析。《国际信息管理杂志》,35(2),137-144。
[24] García‐Soidán,P.、Menezes,R.和Rubiños,O。(2014). 空间数据的引导方法。随机环境研究与风险评估,28(5),1207-1219。
[25] Goulard,M.、Laurent,T.和Thomas‐Agnan,C.(2017年)。关于空间自回归模型中的预测:最优和几乎最优策略。空间经济分析,12(2-3),304-325。
[26] Griffith,D.A.(2005)。存在空间自相关的有效地理样本大小。《美国地理学家协会年鉴》,95(4),740-760。
[27] Griffith,D.A.(2008)。城市土壤污染地图的地理采样:样本数量和来源。环境地球化学与健康,30(6),495-509。
[28] Griffith,D.A.和Zhang,(1999)。在GIS中高效实施空间统计技术所需的计算简化。地理信息科学,5(2),97-105。
[29] 霍尔,P.(1985)。重新采样覆盖过程。随机过程及其应用,20,231-246·Zbl 0587.62081号
[30] Hall,P.(2013)。引导和Edgeworth扩展。施普林格科技与商业媒体。
[31] Hall,P.、Horowitz,J.L.和Jing,B.Y.(1995)。关于具有依赖数据的引导程序的阻塞规则。《生物特征》,82(3),561-574·Zbl 0830.62082号
[32] Harris,P.、Brunsdon,C.、Lu,B.、Nakaya,T.和Charlton,M.(2017年)。引入bootstrap方法来研究空间回归模型中的系数非平稳性。空间统计,21,241-261。
[33] 希顿·M.J.、达塔·A.、芬利·A.O.、福勒·R.、吉尼斯·J.、古哈尼约吉·R.,格伯·F.、格拉米·R.B.、哈默林·D.、卡茨福斯·M.、林格伦·F.,尼希卡·D.W.、孙·F.和扎米特·曼吉恩·A.(2019)。一个案例研究大型空间数据分析方法之间的竞争。《农业、生物和环境统计杂志》,24(3),398-425·Zbl 1426.62345号
[34] Hesterberg,T.C.(2015)。教师应该了解的引导:本科统计课程中的重新抽样。《美国统计学家》,69(4),371-386·Zbl 07671755号
[35] Hinde,A.L.和Miles,R.E.(1980年)。关于泊松过程的Voronoi细分随机多边形分布的Monte Carlo估计。统计计算与模拟杂志,10(3-4),205-223·Zbl 0432.62014号
[36] Hong,Z.、Wang,J.和Wang,H.(2022)。引入bootstrap测试技术来识别地理和时间加权回归模型中的空间异质性。空间统计,51,100683。
[37] Ibrahim,A.M.和Bennett,B.(2014年)。用于预测冲积层分布的机器学习模型性能评估。《Procedia Computer Science》,第36期,第637-642页。
[38] 江政(2018)。空间预测方法综述。IEEE知识与数据工程汇刊,31(9),1645-1664。
[39] Jin,F.和Lee,L.F.(2015)。在莫兰的自我引导测试中,我测试了空间依赖性。《计量经济学杂志》,184(2),295-314·Zbl 1331.62473号
[40] Kopczewska,K.(2021年)。熵作为聚集的度量。在A.Reggiani(编辑)、L.A.Schintler(编辑)和D.Czamanski(编辑。爱德华·埃尔加出版社。
[41] Kopczewska,K.(2022年)。空间机器学习:区域科学的新机遇。《区域科学年鉴》,68(3),713-755。
[42] Kraamwinkel,C.、Fabris‐Rotelli,I.和Stein,A.(2018年)。空间点模式中不规则窗口的一阶平稳性自举测试。空间统计,28194-215。
[43] Krainski,E.、Gómez‐Rubio,V.、Bakka,H.、Lenzi,A.、Castro‐Camilo,D.、Simpson,D.、Lindgren,F.和Rue,H.(2018)。使用R和INLA的随机偏微分方程高级空间建模。查普曼和霍尔/CRC。
[44] Kubara,M.和Kopczewska,K.(2023年)。选择空间权重矩阵最佳knn的Akaike信息准则。空间经济分析。https://doi.org/10.1080/17421772.2023.2176539 ·doi:10.1080/17421772.2023.2176539
[45] Kuhn,M.和Johnson,K.(2013年)。应用预测建模。斯普林格·Zbl 1306.62014年
[46] Kunsch,H.R.(1989)。一般静态观测的折刀和引导。《统计年鉴》,第17卷,第1217-1241页·兹比尔0684.62035
[47] Lahiri,S.(2003)。相关数据的重新采样方法。Springer‐Verlag公司·Zbl 1028.6202号
[48] Lenth,R.V.(2001)。有效样本量测定的一些实用指南。《美国统计学家》,第55卷第3期,187-193年。
[49] LeSage,J.P.和Pace,R.K.(2007年)。矩阵使空间规格指数化。《计量经济学杂志》,140,1·Zbl 1418.62295号
[50] Lindgren,F.、Bolin,D.和Rue,H.(2022)。高斯和非高斯场的SPDE方法:10年,仍在运行。空间统计,50100599。https://doi.org/10.1016/j.spasta.2022.100599 ·doi:10.1016/j.spasta.2022.100599
[51] Loh,J.M.(2008)。相关函数的有效快速空间引导。《天体物理学杂志》,681(1),726。
[52] Manly,B.F.(2006)。生物学中的随机、自举和蒙特卡罗方法(第70卷)。CRC出版社。
[53] Meyer,H.和Pebesma,E.(2021年)。预测未知空间?估算空间预测模型的适用范围。生态学与进化方法,12(9),1620-1633。
[54] Molinaro,A.M.、Simon,R.和Pfeiffer,R.M.(2005年)。预测误差估计:重采样方法的比较。生物信息学,21(15),3301-3307。
[55] Moulton,L.H.和Zeger,S.L.(1991)。引导广义线性模型。计算统计与数据分析,11,53-63·Zbl 0850.62565号
[56] Nordman,D.J.、Lahiri,S.N.和Fridley,B.L.(2007年)。空间块bootstrap方法方差估计的最佳块大小。桑赫拉:《印度统计杂志》,69(3),468-493·Zbl 1193.62074号
[57] Perdikaris,P.、Venturi,D.、Royset,J.O.和Karniadakis,G.E.(2015)。通过递归协克里金和Gaussian-Markov随机场进行多保真建模。《皇家学会学报A:数学、物理和工程科学》,471(2179),20150018。
[58] Piacentino,D.、Aronica,M.、Cracolici,M.F.、Giuliani,D.和Mazzitelli,A.(2021)。集聚经济和地理对西西里岛住宿企业生存的影响。空间经济分析,16(2),176-193。https://doi.org/10.1080/17421772.2020.1836389 ·doi:10.1080/17421772.20200.1836389
[59] Radovanov,B.和Marcikić,A.(2014年)。四种不同块引导方法的比较。克罗地亚运筹学评论,5(2),189-202。
[60] Roberts,D.R.、Bahn,V.、Ciuti,S.、Boyce,M.S.、Elith,J.、Guillera‐Arroita,G.、Hauenstein,S.,Lahoz‐Monfort,J.J.、Schröder,B.、Thuiller,W.、Warton,D.I.、Wintle,B.A.、Hartig,F.和Dormann,C.F.(2017年)。具有时间、空间、层次或系统发育结构的数据的交叉验证策略。《生态地理学》,40(8),913-929。
[61] Rosipal,R.、Girolma,M.、Trejo,L.J.和Cichocki,A.(2001)。核PCA用于非线性回归中的特征提取和去噪。神经计算与应用,10(3),231-243·Zbl 0989.68112号
[62] Ruß,G.和Brenning,A.(2010年)。精确农业产量预测的空间变量重要性评估。在智能数据分析国际研讨会上(第184-195页)。斯普林格。
[63] Santi,F.、Dickson,M.M.、Espa,G.、Taufer,E.和Mazzitelli,A.(2021年)。处理未知单元位置下的空间相关性。空间经济分析,16(2),194-216。
[64] Schratz,P.、Muenchow,J.、Iturritxa,E.、Richter,J.和Brenning,A.(2019年)。使用空间数据的统计和机器学习算法的超参数调整和性能评估。生态建模,406109-120。
[65] Secchi,P.、Vantini,S.和Vitelli,V.(2013)。打包Voronoi分类器,用于聚类空间功能数据。国际应用地球观测和地理信息杂志,22,53-64。
[66] Sibson,R.(1980)。Dirichlet细分有助于数据分析。斯堪的纳维亚统计杂志,7(1),14-20·Zbl 0435.62060号
[67] Steyerberg,E.W.、Bleeker,S.W.、Moll,H.A.、Grobbee,D.E.和Moons,K.G.(2003年)。预测模型的内部和外部验证:小样本中偏差和精度的模拟研究。临床流行病学杂志,56,441-447。
[68] Steyerberg,E.W.、Harrell,F.E.、Borsboom,G.J.J.M.、Eijkemans,M.J.C.、Vergouwe,Y.和Habbema,J.D.F.(2001)。预测模型的内部验证:逻辑回归分析某些程序的效率。临床流行病学杂志,54774-781。
[69] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑:方法论,58(1),267-288·Zbl 0850.62538号
[70] Tran,P.和Tran,L.(2016)。用bootstrap重采样验证负二项Lyme病回归模型。环境建模与软件,82,121-127。
[71] Uboldi,F.、Sulis,A.N.、Lussana,C.、Cislaghi,M.和Russo,M.(2014)。降雨量年最大值分布参数估计的空间自举技术。水文与地球系统科学,18(3),981-995。
[72] vanStein,B.、Wang,H.、Kowalczyk,W.、Bäck,T.和Emmerich,M.(2015)。大数据回归的最优加权聚类克里格法。在智能数据分析国际研讨会上(第310-321页)。斯普林格。
[73] Ward,J.S.和Barker,A.(2013年)。未由数据定义:大数据定义调查。arXiv预打印arXiv:1309.5821。
[74] Wu,C.F.J.(1986)。回归分析中的折刀法、自举法和其他重采样方法。统计年鉴,14(4),1261-1295·Zbl 0618.62072号
[75] Ye,Z.和Weiss,R.E.(2003)。使用引导程序选择一种新的降维方法。《美国统计协会杂志》,98(464),968-979·Zbl 1045.62034号
[76] 朱亚欣、鲁广、刘杰、秦长中、周长中(2018)。基于地理学第三定律的空间预测。GIS年鉴,24(4),225-240。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。