×

使用Wasserstein度量对实线上分布数据的预测统计方法。 (英语) Zbl 07625190号

摘要:我们提出了一类新的投影方法,用2-Wasserstein度量对实数上的概率分布数据集进行统计分析。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影算子来约束Wasserstein空间中的结果,利用了与其弱黎曼结构密切相关的Wassersstein空间的表示。通过仔细选择切点,我们能够利用约束B样条逼近导出快速的经验方法。作为我们方法的一个副产品,我们还能够为以前的分发PCA工作导出更快的例程。通过模拟研究,我们将我们的方法与之前提出的方法进行了比较,表明我们的预测主成分分析在计算成本的一小部分上具有类似的性能,并且即使在错误指定的情况下,预测回归也是非常灵活的。研究了模型的几个理论性质,并证明了其渐近一致性。讨论了在美国和风速预测中对新型冠状病毒(Covid-19)死亡率的两个实际应用。

MSC公司:

68T05型 人工智能中的学习和自适应系统

软件:

伊波特
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Luigi Ambrosio、Nicola Gigli和Giuseppe Savar´e。梯度流:在度量空间和概率测度空间中。施普林格科学与商业媒体,2008年·Zbl 1145.35001号
[2] Dragi Anevski和Philippe Soulier。单音谱密度估计。《统计年鉴》,39(1):418-4382011·Zbl 1209.62206号
[3] Dragi Anevski,Ola H¨ossjer,et al.序约束下推理的一般渐近格式。《统计年鉴》,34(4):1874-19302006·Zbl 1246.62019年
[4] Jean-Pierre Aubin和H´el'ene Frankowska。集值分析。Springer科学与商业媒体,2009年·Zbl 1168.49014号
[5] 米里亚姆·艾尔、H.D.布伦克、G.M.尤因、W.T.里德和爱德华·西尔弗曼。不完全信息抽样的经验分布函数。《数理统计年鉴》,26(4):641-6471995.ISSN 00034851.URLhttp://www.jstor.org/stable/2236377·Zbl 0066.38502号
[6] Monami Banerjee、Rudrasis Chakraborty、Edward Ofori、David Vaillancourt和Baba C Vemuri。黎曼流形上的非线性回归及其在神经图像分析中的应用。在国际医学图像计算和计算机辅助干预会议上,第719-727页。斯普林格,2015年。
[7] 费德里科·巴塞蒂(Federico Bassetti)、安东尼拉·博迪尼(Antonella Bodini)和尤金尼奥·雷加齐尼(Eugenio Regazzini)。关于最小kantorovich距离估计。统计与概率信件,76(12):1298-13022006·1090.62030兹罗提
[8] 谢尔盖·贝雷津和阿扎特·米夫塔霍夫。关于概率测量的重心。arXiv预印本arXiv:1911.076802019·Zbl 1459.28013号
[9] Espen Bernton、Pierre E Jacob、Mathieu Gerber和Christian P Robert。关于用wasserstein距离进行参数估计。信息和推断:IMA杂志,8(4):657-6762019a·Zbl 1471.62269号
[10] Espen Bernton,Pierre E Jacob,Mathieu Gerber,Christian P Robert,et al.用wasserstein距离进行近似贝叶斯计算。英国皇家统计学会期刊B辑,81(2):235-2692019b·Zbl 1420.62022号
[11] Michael J Best和Nilotpal Chakravarti。保序回归的活动集算法;统一框架。数学规划,47(1-3):425-4391990·Zbl 0715.90085号
[12] Rabindra N Bhattacharya、L Ellingson、X Liu、V Patrangnaru和M Crane。流形上的外特性分析比内特性分析计算速度快,可应用于机器视觉的质量控制。《商业和工业中的应用随机模型》,28(3):222-2352012年。
[13] J´er´emie Bigot,Ra´ul Gouet,Thierry Klein,Alfredo L´opez,et al.Wasserstein空间中基于凸PCA的测地PCA。《亨利·庞加尔研究所年鉴》,概率与统计,第53卷,第1-26页。亨利·彭加尔研究所,2017年·Zbl 1362.62065号
[14] 蔡东尼和彼得·霍尔。函数线性回归中的预测。《统计年鉴》,34:2159-21792006年·Zbl 1106.62036号
[15] 曹介章、莫郎源、张一凡、贾奎、沈春华和谭明奎。多边形Wasserstein GAN。《神经信息处理系统进展》,第1776-1786页,2019年。
[16] 玛塔·卡塔拉诺、安东尼奥·利科伊和伊戈尔·普伦斯特。测量贝叶斯非参数模型的Wasserstein距离相关性。《统计年鉴》,49(5):2916-29472021。doi:10.1214/21-AOS2065。统一资源定位地址https://doi.org/10.1214/21-AOS2065。 ·Zbl 1486.62081号
[17] Elsa Cazelles、Vivien Seguy、J´er´emie Bigot、Marco Cuturi和Nicolas Papadakis。Wasserstein空间直方图的测地PCA与log-PCA。SIAM科学计算杂志,40(2):B429-B4562018·Zbl 1387.62077号
[18] 陈亚青(Yaqing Chen)、林振华(Zhenhua Lin)和汉斯·格奥尔格·穆勒(Hans-Georg M¨uller)。Wasserstein回归*。美国统计协会期刊,0(ja):1-4042021。doi:10.1080/01621459.2021.1956937。统一资源定位地址https://doi.org/10.1080/01621459.2021.1956937。 ·Zbl 07707208号
[19] 马可·库图里(Marco Cuturi),《凹坑距离:最佳传输的光速计算》(Sinkhorn Distances:Lightspeed Computation of Optimal Transport)。《神经信息处理系统进展》,第2292-2300页,2013年。
[20] 马可·库图里和阿诺德·多塞特。Wasserstein重心的快速计算。在2014年国际机器学习会议上,第685-693页。
[21] 马可·库图里(Marco Cuturi)、奥利维尔·特布尔(Olivier Teboul)和Jean-Philippe Vert。使用最优传输的差异排序。《神经信息处理系统进展》,第6861-68712019页。
[22] Priyam Das和Subhashis Ghosal。使用随机B样条序列先验的贝叶斯分位数回归。计算统计与数据分析,109:121-1432017年·Zbl 1466.62052号
[23] J.Dauxois、A.Pousse和Y.Romain。向量随机函数主成分分析的渐近理论:统计推断的一些应用。多元分析杂志,12:136-1541982·Zbl 0539.62064号
[24] 卡尔·德布尔(Carl De Boor)和詹姆斯·丹尼尔(James W Daniel)。具有非负B样条曲线系数的样条曲线。计算数学,28(126):565-5681974·Zbl 0278.41014号
[25] 佩德罗·德里卡多。数据为密度函数时的降维。计算统计与数据分析,55:401-422011年1月·Zbl 1247.62148号
[26] 弗兰克·多伊奇(Frank Deutsch)。内积空间中的最佳逼近。施普林格科学与商业媒体,2012年·Zbl 0980.41025号
[27] 理查德·戴克斯特拉(Richard Dykstra)、蒂姆·罗伯逊(Tim Robertson)和法罗·特赖特(Farrol T Wright)。顺序限制统计推断的进展:1985年9月11日至13日在爱荷华州爱荷华市举行的顺序限制统计推理研讨会论文集,第37卷。施普林格科学与商业媒体,2012年·Zbl 0598.00013号
[28] 胡安·乔斯·埃戈斯科(Juan Josée Egozcue)、乔斯·路易斯·德巴雷罗(Jos´e Luis D´az-Barrero)和维拉·保洛斯基-格拉恩(Vera Pawlowsky-Glahn)。基于Aitchison几何的概率密度函数的Hilbert空间。《数学学报》,22(4):1175-11822006·兹比尔1113.46016
[29] 托马斯·弗格森。混合正态分布的贝叶斯密度估计。《统计的最新进展》,第287-302页。爱思唯尔,1983年·Zbl 0557.62030号
[30] P.弗莱彻。黎曼流形上的测地回归和最小二乘理论。国际计算机视觉杂志,1052013年11月·Zbl 1304.62092号
[31] P Thomas Fletcher、Conglin Lu、Stephen M Pizer和Sarang Joshi。用于形状非线性统计研究的主测地线分析。IEEE医学影像交易,23(8):995-10052004。
[32] Laya Ghodrati和Victor M Panaretos。通过最优运输图进行分布对n分布回归。arXiv预印本arXiv:2104.094182021·Zbl 07638095号
[33] K Hron、Alessandra Menafoglio、Matthias Templ、Kl´ara Hr˚uzov´a和P Filzmoser。Bayes空间中密度函数的简单主成分分析。计算统计与数据分析,94:330-3502014年7月·Zbl 1468.62082号
[34] 斯蒂芬·哈克曼(Stephan Huckemann)、托马斯·霍赞德(Thomas Hotzand)和阿克塞尔·蒙克(Axel Munk)。内禀形状分析:黎曼流形模等距李群作用的测地PCA。中国统计局,20:1-582010·兹比尔1180.62087
[35] 斯蒂芬·赫克曼和本杰明·埃尔茨纳。反向嵌套描述符的渐近性与干细胞分化的推断。《统计年鉴》,46(5):1994-2019,2018·Zbl 1405.62070号
[36] 郑成奎、伊恩·德莱顿和詹姆斯·斯蒂芬·马龙。分析主要嵌套球体。Biometrika,99(3):551-5682012·Zbl 1437.62507号
[37] Alois Kneip和Klaus J.Utikal。使用函数主成分分析推断密度族。美国统计协会杂志,96(454):519-5422001·Zbl 1019.62060号
[38] J.Le-Rademacher和L.Billard。直方图值数据的主成分分析。数据分析和分类进展,11(2):327-3512017·Zbl 1414.62213号
[39] Apoorva Mandavilli。为什么冠状病毒对男性的打击更大?一条新线索。08 2020. 统一资源定位地址https://www.nytimes.com/2020/08/26/health/conarovirus-men-immune.html。
[40] 亚历山德拉·梅纳福格里奥(Alessandra Menafoglio)、阿尔贝托·瓜达尼尼(Alberto Guadagnini)和皮尔塞萨尔·塞奇(Piercesare Secchi)。基于Aitchison几何学的克里金方法,用于表征非均质含水层中的粒度曲线。随机环境研究和风险评估,28(7):1835-18512014·Zbl 1397.86005号
[41] 加斯帕德·蒙奇。埃布雷斯和伦布雷斯河畔的穆埃梅尔(M´emoire sur la eorie des d´eblais et des remblais)。巴黎皇家科学史,1781年。
[42] P.Nagabhushan和R.Pradeep Kumar。直方图PCA。刘德荣、费淑敏、侯增光、张华光和孙长银主编,《神经网络进展-ISNN 2007》,第1012-1021页,柏林,海德堡,2007年。施普林格-柏林-海德堡·Zbl 1145.68308号
[43] 维克托·帕纳雷托斯(Victor M Panaretos)和尤夫·泽梅尔(Yoav Zemel)。Wasserstein空间统计邀请函。《施普林格自然》,2020年·Zbl 1433.62010年
[44] 维克·帕兰格纳鲁和莱夫·埃林森。流形上的非参数统计及其在对象数据分析中的应用。CRC出版社,2015年·兹比尔1331.62007
[45] 泽维尔·佩内克。黎曼流形的内禀统计:几何测量的基本工具。数学成像与视觉杂志,25:127-1542006年7月·Zbl 1478.94072号
[46] 泽维尔·彭内克。流形上的统计计算:从黎曼几何到计算解剖学。InLIX视觉计算新兴趋势秋季学术讨论会,第347-386页。施普林格,2008年。
[47] 泽维尔·佩内克。流形上的重心子空间分析。《统计年鉴》,46(6A):2711-27462018·Zbl 1410.60018号
[48] Gabriel Peyr´e、Marco Cuturi等,《计算最优传输:数据科学应用》。机器学习的基础和趋势,11(5-6):355-6072019。
[49] Florian A Potra和Stephen J Wright。内部点方法。计算与应用数学杂志,124(1-2):281-3022000·Zbl 0967.65078号
[50] 西蒙·波特(Simon Potter)、马尔科·德尔·内格罗(Marco Del Negro)、乔治·托帕(Giorgio Topa)和威尔伯特·范德克劳(Wilbert Van der Klaauw)。概率调查问题的优势。《经济分析评论》,9(1):1-322017年。
[51] 卢布的普查尔和帕斯卡尔·萨达。具有函数响应的函数线性回归的样条估计。2007年技术报告。
[52] 娜塔莉亚·皮亚和西蒙·恩·伍德。形状约束的附加模型。统计与计算,25(3):543-5592015·Zbl 1331.62367号
[53] 辛琪和赵红玉。Silverman平滑函数主成分分析方法的一些理论性质。多元分析杂志,102:741-7672011年·Zbl 1327.62223号
[54] 詹姆斯·奥拉姆齐(James O Ramsay)。功能数据分析。《统计科学百科全书》,2004年4月。
[55] R.Tyrrell Rockafellar和Roger J.-B.Wets。变异分析。Springer Verlag,海德堡,柏林,纽约,1998年·Zbl 0888.49001号
[56] Oldemar Rodr´ñguez、Edwin Diday和Suzanne Winsberg。直方图数据主成分分析的推广。2000年第12-16页。
[57] Kazuyuki Sekitani和Yoshitsugu Yamamoto。求多面体中最小范数点和两个多面体上一对最近点的递归算法。数学规划,61:233-2491993·Zbl 0791.90046号
[58] Bernard W Silverman等人通过选择范数进行平滑的函数主成分分析。《统计年鉴》,24(1):1-241996·Zbl 0853.62044号
[59] Sanvesh Srivastava、Volkan Cevher、Quoc Dinh和David Dunson。黄蜂:通过子集后验的重心可缩放贝叶斯。《人工智能与统计》,第912-920页,2015年。
[60] 肖恩·泰勒和本杰明·莱瑟姆。大规模预测。《美国统计学家》,72(1):37-452018·Zbl 07663916号
[61] 罗莎娜·维德、安东尼奥·伊尔皮诺和安东尼奥·巴尔扎内拉。分布式符号数据的降维技术。IEEE控制论交易,2015年1月46日·Zbl 1414.62017年
[62] 塞德里克·维拉尼。最佳交通:新旧,容量338。施普林格科学与商业媒体,2008年。
[63] A Waechter和LT Biegler。关于大规模非线性规划的原对偶内点滤波线搜索算法的实现。数学规划,106:25-562006·兹比尔1134.90542
[64] Chao Zhang、Piotr Kokoszka和Alexander Petersen。密度时间序列的Wasserstein自回归模型。arXiv预印本arXiv:2006.1264020·Zbl 1493.62182号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。