文件Zbl 07748390-zbMATH Open

空间自举微观计量学：预测大数据中的样本外地理分布。（英语） Zbl 07748390号

扫描。J.统计。 50，第3期，1391-1419（2023）.

摘要：基于大地理位置点数据估计的空间经济计量模型至少存在两个问题：计算能力有限和对新的样本外地理位置点的预测效率低下。这是因为空间权重矩阵（W）仅为样本内观测值定义，且计算复杂。当使用克里金进行预测时，机器学习模型也会受到同样的影响；因此，这个问题仍然没有解决。本文提出了一种基于大数据的空间模型估计和新位置预测的新方法。该方法使用引导和细分来校准模型和空间。利用PAM（围绕Medoids划分）算法，通过以非依赖方式对回归系数进行联合分类，选择最佳的引导模型。最佳模型中使用的地理点的Voronoi多边形允许进行具有代表性的空间划分。新的样本外点被指定给细分块，并链接到空间权重矩阵，作为原始点的替代，从而可以将校准的空间模型用作新位置的预测工具。在这种方法中，预测质量和计算效率之间没有权衡。一个实证例子说明了业务地点和公司盈利能力的模型。
{©2023作者。斯堪的纳维亚统计杂志由John Wiley&Sons Ltd代表斯堪的纳维亚统计杂志基金会董事会出版。}

MSC公司：

62至XX

统计

关键词：

引导;样本外预测;空间大数据;空间点打印;空间权重矩阵;细分;冯罗诺多边形

软件：

应用的预测建模;博拉索;引导程序

PDF格式 BibTeX公司 XML格式引用

全文：内政部

OA许可证

参考文献：

[1]	Abbruzzo，A.、Ferrante，M.和De Cantis，S.（2021）。GPS跟踪数据的预处理和网络分析。空间经济分析，16（2），217-240。
[2]	Ahuja，N.（1982年）。使用Voronoi邻里进行点模式处理。IEEE模式分析和机器智能汇刊，336-343。
[3]	Arbia，G.（2014）。空间计量经济学入门：在R.Springer中的应用。
[4]	Arbia，G.、Espa，G.和Giuliani，D.（2021）。空间微观计量学。劳特利奇·Zbl 1486.91001号
[5]	Arbia，G.、Ghiringhelli，C.和Mira，A.（2019年）。大数据集的空间经济计量线性模型估计：空间大数据可以有多大？区域科学与城市经济学，76，67-73。
[6]	巴赫·F·R（2008）。Bolasso：通过bootstrap进行模型一致套索估计。第25届机器学习国际会议论文集（第33-40页）。计算机协会（ACM）。
[7]	Barbian，M.H.和Assunçáo，R.M.（2017年）。大型地质统计数据的空间子码估计器。空间统计，22，68-88。
[8]	Carlstein，E.（1986）。使用子序列方法从平稳时间序列估计一般统计的方差。《统计年鉴》，第14期，1171-1179页·Zbl 0602.62029号
[9]	Castillo‐Páez，S.、Fernández‐Casal，R.和García‐Soidán，P.（2020年）。异方差下无条件风险映射的非参数bootstrap方法。空间统计学，40100389。
[10]	Chernick，M.R.和LaBudde，R.A.（2014）。介绍引导方法及其在R.John Wiley&Sons中的应用。
[11]	Chun，Y.和Griffith，D.A.（2013年）。空间统计和地质统计学：地理信息科学和技术的理论和应用。圣人。
[12]	Cressie，N.A.C.（1993年）。空间数据统计。威利。
[13]	Dalposso，G.H.、Uribe‐Opazo，M.A.、Johann，J.A.、Bastiani，F.D.和Galea，M.（2019年）。利用空间bootstrap对大豆产量和土壤化学属性进行地理统计建模。Engenharia Agrícola，39，350-357岁。
[14]	Davison，A.C.和Hinkley，D.V.（1997）。引导方法及其应用。剑桥大学出版社·Zbl 0886.62001号
[15]	Davison，A.C.、Hinkley，D.V.和Young，G.A.（2003）。引导方法的最新发展。统计科学，18（2），141-157·Zbl 1331.62179号
[16]	DiCiccio，T.J.和Efron，B.（1996）。引导置信区间。统计科学，11（3），189-212。https://doi.org/10.1214/ss/1032280214 ·Zbl 0955.62574号 ·doi:10.1214/ss/1032280214
[17]	Du，Q.、Faber，V.和Gunzburger，M.（1999）。中心Voronoi细分：应用和算法。SIAM评论，41（4），637-676·Zbl 0983.65021号
[18]	Efron，B.和Tibshirani，R.（1997年）。交叉验证的改进：632+引导方法。《美国统计协会杂志》，92（438），548-560·Zbl 0887.62044号
[19]	Escanciano，J.C.和Jacho‐Chávez，D.T.（2012）。非参数回归模型中的一致一致密度估计。计量经济学杂志，167（2），305-316·Zbl 1441.62676号
[20]	Fox，J.（2015）。应用回归分析和广义线性模型。Sage出版物第21章：自举回归模型。
[21]	Franco‐Villoria，M.和Ignacolo，R.（2017）。基于Bootstrap的函数克里金预测不确定带。空间统计学，21130-148。
[22]	Freedman，D.A.（1981年）。引导回归模型。《统计年鉴》，9（6），1218-1228·Zbl 0449.62046号
[23]	Gandomi，A.和Haider，M.（2015）。除了炒作：大数据概念、方法和分析。《国际信息管理杂志》，35（2），137-144。
[24]	García‐Soidán，P.、Menezes，R.和Rubiños，O。(2014). 空间数据的引导方法。随机环境研究与风险评估，28（5），1207-1219。
[25]	Goulard，M.、Laurent，T.和Thomas‐Agnan，C.（2017年）。关于空间自回归模型中的预测：最优和几乎最优策略。空间经济分析，12（2-3），304-325。
[26]	Griffith，D.A.（2005）。存在空间自相关的有效地理样本大小。《美国地理学家协会年鉴》，95（4），740-760。
[27]	Griffith，D.A.（2008）。城市土壤污染地图的地理采样：样本数量和来源。环境地球化学与健康，30（6），495-509。
[28]	Griffith，D.A.和Zhang，（1999）。在GIS中高效实施空间统计技术所需的计算简化。地理信息科学，5（2），97-105。
[29]	霍尔，P.（1985）。重新采样覆盖过程。随机过程及其应用，20，231-246·Zbl 0587.62081号
[30]	Hall，P.（2013）。引导和Edgeworth扩展。施普林格科技与商业媒体。
[31]	Hall，P.、Horowitz，J.L.和Jing，B.Y.（1995）。关于具有依赖数据的引导程序的阻塞规则。《生物特征》，82（3），561-574·Zbl 0830.62082号
[32]	Harris，P.、Brunsdon，C.、Lu，B.、Nakaya，T.和Charlton，M.（2017年）。引入bootstrap方法来研究空间回归模型中的系数非平稳性。空间统计，21，241-261。
[33]	希顿·M.J.、达塔·A.、芬利·A.O.、福勒·R.、吉尼斯·J.、古哈尼约吉·R.，格伯·F.、格拉米·R.B.、哈默林·D.、卡茨福斯·M.、林格伦·F.，尼希卡·D.W.、孙·F.和扎米特·曼吉恩·A.（2019）。一个案例研究大型空间数据分析方法之间的竞争。《农业、生物和环境统计杂志》，24（3），398-425·Zbl 1426.62345号
[34]	Hesterberg，T.C.（2015）。教师应该了解的引导：本科统计课程中的重新抽样。《美国统计学家》，69（4），371-386·Zbl 07671755号
[35]	Hinde，A.L.和Miles，R.E.（1980年）。关于泊松过程的Voronoi细分随机多边形分布的Monte Carlo估计。统计计算与模拟杂志，10（3-4），205-223·Zbl 0432.62014号
[36]	Hong，Z.、Wang，J.和Wang，H.（2022）。引入bootstrap测试技术来识别地理和时间加权回归模型中的空间异质性。空间统计，51，100683。
[37]	Ibrahim，A.M.和Bennett，B.（2014年）。用于预测冲积层分布的机器学习模型性能评估。《Procedia Computer Science》，第36期，第637-642页。
[38]	江政（2018）。空间预测方法综述。IEEE知识与数据工程汇刊，31（9），1645-1664。
[39]	Jin，F.和Lee，L.F.（2015）。在莫兰的自我引导测试中，我测试了空间依赖性。《计量经济学杂志》，184（2），295-314·Zbl 1331.62473号
[40]	Kopczewska，K.（2021年）。熵作为聚集的度量。在A.Reggiani（编辑）、L.A.Schintler（编辑）和D.Czamanski（编辑。爱德华·埃尔加出版社。
[41]	Kopczewska，K.（2022年）。空间机器学习：区域科学的新机遇。《区域科学年鉴》，68（3），713-755。
[42]	Kraamwinkel，C.、Fabris‐Rotelli，I.和Stein，A.（2018年）。空间点模式中不规则窗口的一阶平稳性自举测试。空间统计，28194-215。
[43]	Krainski，E.、Gómez‐Rubio，V.、Bakka，H.、Lenzi，A.、Castro‐Camilo，D.、Simpson，D.、Lindgren，F.和Rue，H.（2018）。使用R和INLA的随机偏微分方程高级空间建模。查普曼和霍尔/CRC。
[44]	Kubara，M.和Kopczewska，K.（2023年）。选择空间权重矩阵最佳knn的Akaike信息准则。空间经济分析。https://doi.org/10.1080/17421772.2023.2176539 ·doi:10.1080/17421772.2023.2176539
[45]	Kuhn，M.和Johnson，K.（2013年）。应用预测建模。斯普林格·Zbl 1306.62014年
[46]	Kunsch，H.R.（1989）。一般静态观测的折刀和引导。《统计年鉴》，第17卷，第1217-1241页·兹比尔0684.62035
[47]	Lahiri，S.（2003）。相关数据的重新采样方法。Springer‐Verlag公司·Zbl 1028.6202号
[48]	Lenth，R.V.（2001）。有效样本量测定的一些实用指南。《美国统计学家》，第55卷第3期，187-193年。
[49]	LeSage，J.P.和Pace，R.K.（2007年）。矩阵使空间规格指数化。《计量经济学杂志》，140，1·Zbl 1418.62295号
[50]	Lindgren，F.、Bolin，D.和Rue，H.（2022）。高斯和非高斯场的SPDE方法：10年，仍在运行。空间统计，50100599。https://doi.org/10.1016/j.spasta.2022.100599 ·doi:10.1016/j.spasta.2022.100599
[51]	Loh，J.M.（2008）。相关函数的有效快速空间引导。《天体物理学杂志》，681（1），726。
[52]	Manly，B.F.（2006）。生物学中的随机、自举和蒙特卡罗方法（第70卷）。CRC出版社。
[53]	Meyer，H.和Pebesma，E.（2021年）。预测未知空间？估算空间预测模型的适用范围。生态学与进化方法，12（9），1620-1633。
[54]	Molinaro，A.M.、Simon，R.和Pfeiffer，R.M.（2005年）。预测误差估计：重采样方法的比较。生物信息学，21（15），3301-3307。
[55]	Moulton，L.H.和Zeger，S.L.（1991）。引导广义线性模型。计算统计与数据分析，11，53-63·Zbl 0850.62565号
[56]	Nordman，D.J.、Lahiri，S.N.和Fridley，B.L.（2007年）。空间块bootstrap方法方差估计的最佳块大小。桑赫拉：《印度统计杂志》，69（3），468-493·Zbl 1193.62074号
[57]	Perdikaris，P.、Venturi，D.、Royset，J.O.和Karniadakis，G.E.（2015）。通过递归协克里金和Gaussian-Markov随机场进行多保真建模。《皇家学会学报A：数学、物理和工程科学》，471（2179），20150018。
[58]	Piacentino，D.、Aronica，M.、Cracolici，M.F.、Giuliani，D.和Mazzitelli，A.（2021）。集聚经济和地理对西西里岛住宿企业生存的影响。空间经济分析，16（2），176-193。https://doi.org/10.1080/17421772.2020.1836389 ·doi:10.1080/17421772.20200.1836389
[59]	Radovanov，B.和Marcikić，A.（2014年）。四种不同块引导方法的比较。克罗地亚运筹学评论，5（2），189-202。
[60]	Roberts，D.R.、Bahn，V.、Ciuti，S.、Boyce，M.S.、Elith，J.、Guillera‐Arroita，G.、Hauenstein，S.，Lahoz‐Monfort，J.J.、Schröder，B.、Thuiller，W.、Warton，D.I.、Wintle，B.A.、Hartig，F.和Dormann，C.F.（2017年）。具有时间、空间、层次或系统发育结构的数据的交叉验证策略。《生态地理学》，40（8），913-929。
[61]	Rosipal，R.、Girolma，M.、Trejo，L.J.和Cichocki，A.（2001）。核PCA用于非线性回归中的特征提取和去噪。神经计算与应用，10（3），231-243·Zbl 0989.68112号
[62]	Ruß，G.和Brenning，A.（2010年）。精确农业产量预测的空间变量重要性评估。在智能数据分析国际研讨会上（第184-195页）。斯普林格。
[63]	Santi，F.、Dickson，M.M.、Espa，G.、Taufer，E.和Mazzitelli，A.（2021年）。处理未知单元位置下的空间相关性。空间经济分析，16（2），194-216。
[64]	Schratz，P.、Muenchow，J.、Iturritxa，E.、Richter，J.和Brenning，A.（2019年）。使用空间数据的统计和机器学习算法的超参数调整和性能评估。生态建模，406109-120。
[65]	Secchi，P.、Vantini，S.和Vitelli，V.（2013）。打包Voronoi分类器，用于聚类空间功能数据。国际应用地球观测和地理信息杂志，22，53-64。
[66]	Sibson，R.（1980）。Dirichlet细分有助于数据分析。斯堪的纳维亚统计杂志，7（1），14-20·Zbl 0435.62060号
[67]	Steyerberg，E.W.、Bleeker，S.W.、Moll，H.A.、Grobbee，D.E.和Moons，K.G.（2003年）。预测模型的内部和外部验证：小样本中偏差和精度的模拟研究。临床流行病学杂志，56，441-447。
[68]	Steyerberg，E.W.、Harrell，F.E.、Borsboom，G.J.J.M.、Eijkemans，M.J.C.、Vergouwe，Y.和Habbema，J.D.F.（2001）。预测模型的内部验证：逻辑回归分析某些程序的效率。临床流行病学杂志，54774-781。
[69]	Tibshirani，R.（1996）。通过套索回归收缩和选择。英国皇家统计学会杂志：B辑：方法论，58（1），267-288·Zbl 0850.62538号
[70]	Tran，P.和Tran，L.（2016）。用bootstrap重采样验证负二项Lyme病回归模型。环境建模与软件，82，121-127。
[71]	Uboldi，F.、Sulis，A.N.、Lussana，C.、Cislaghi，M.和Russo，M.（2014）。降雨量年最大值分布参数估计的空间自举技术。水文与地球系统科学，18（3），981-995。
[72]	vanStein，B.、Wang，H.、Kowalczyk，W.、Bäck，T.和Emmerich，M.（2015）。大数据回归的最优加权聚类克里格法。在智能数据分析国际研讨会上（第310-321页）。斯普林格。
[73]	Ward，J.S.和Barker，A.（2013年）。未由数据定义：大数据定义调查。arXiv预打印arXiv:1309.5821。
[74]	Wu，C.F.J.（1986）。回归分析中的折刀法、自举法和其他重采样方法。统计年鉴，14（4），1261-1295·Zbl 0618.62072号
[75]	Ye，Z.和Weiss，R.E.（2003）。使用引导程序选择一种新的降维方法。《美国统计协会杂志》，98（464），968-979·Zbl 1045.62034号
[76]	朱亚欣、鲁广、刘杰、秦长中、周长中（2018）。基于地理学第三定律的空间预测。GIS年鉴，24（4），225-240。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

空间自举微观计量学：预测大数据中的样本外地理分布。（英语） Zbl 07748390号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

空间自举微观计量学：预测大数据中的样本外地理分布。 （英语） Zbl 07748390号

MSC公司：

关键词：

软件：

参考文献：

空间自举微观计量学：预测大数据中的样本外地理分布。（英语） Zbl 07748390号