×

数字符号变量的线性回归:基于Wasserstein距离的最小二乘法。 (英语) Zbl 1414.62306号

摘要:在本文中,我们提出了一种新的分布符号变量的线性回归技术,即其实现可以是直方图、经验分布或参数分布的经验估计的变量。这些数据称为数值模态数据根据符号数据分析定义。为了测量观测分布和预测分布之间的误差,提出了(ell_2)Wasserstein距离。利用这种度量的一些特性,将模态响应变量预测为解释模态变量的线性组合。基于度量,该模型使用与数据相关的分位数函数,因此受到估计参数的正约束。我们建议从平方距离的特定分解开始解决线性回归问题。因此,我们根据两个单独的模型估计模型参数,一个用于数据的平均值,另一个用于中心分布,使用约束最小二乘算法。还提出并讨论了拟合优度的度量方法。该方法通过两个应用程序进行了验证,一个在模拟数据上,另一个在两个真实数据集上。

MSC公司:

62J05型 线性回归;混合模型
62G30型 订单统计;经验分布函数
2010财年46 具有分布和广义函数的运算
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arroyo J,MatéC(2009)用k近邻法预测直方图时间序列。国际J预测25(1):192-207·doi:10.1016/j.ijforecast.2008.07.003
[2] Bertrand,P。;Goupil,F。;Bock,HH(编辑);Diday,E.(编辑),符号数据的描述性统计,103-124(2000),柏林·Zbl 0978.62005号
[3] Bickel P,Freedman D(1981)关于引导的一些渐近理论。安统计9:1196-1217·Zbl 0449.62034号 ·doi:10.1214操作系统/11763456637
[4] Billard L,Diday E(2000)区间值数据的回归分析。In:数据分析、分类和相关方法:IFCS第七届会议记录,柏林斯普林格,第369-374页·Zbl 1026.62073号
[5] Billard L,Diday E(2006)《符号数据分析:概念统计和数据挖掘》。纽约威利·Zbl 1117.62002号 ·doi:10.1002/9780470090183
[6] Bock H,Diday E(2000)符号数据分析:从复杂数据中提取统计信息的探索性方法。柏林施普林格·Zbl 1039.62501号 ·doi:10.1007/978-3-642-57155-8
[7] Dall’Aglio G(1956)《Sugli estremi dei momenti delle funzioni di ripartizione doppia》。Ann Sci Norm超级Di Pisa Cl Sci 3(1):3374·Zbl 0073.14002号
[8] DiasS,Brito P(2011)直方图值变量的新线性回归模型。爱尔兰都柏林第58届ISI世界统计大会。http://isi2011.gressplanner.eu/pdfs/950662
[9] Diday E,Noirhomme Fraiture M(2008)符号数据分析和SODAS软件。纽约威利·Zbl 1275.62029号
[10] Dueñas C、Fernández MC、Cañete S、Carretro J、Liger E(2002)《地中海沿岸城市地区臭氧变化和气象影响评估》。科学总环境299(1-3):97-113
[11] Efron B,Tibshirani RJ(1993)《引导程序简介》。查普曼和霍尔,纽约·Zbl 0835.62038号 ·doi:10.1007/978-1-4899-4541-9
[12] Gilchrist WG(2000)分位数函数统计建模。查普曼和霍尔/CRC,纽约·doi:10.1201/9781420035919
[13] 基尼C(1914)Di una misura della disomiglianza tra due gruppi Di quantit e delle sue applicazioni allo studio delle relazioni stratistiche。Atti del Reale Istituto Veneto di Scientize,Lettered Arti,Tomo LXIV parte seconda(1914年)
[14] Giordani P(2011)基于套索技术的区间值数据的线性回归分析。罗马萨皮恩扎大学统计科学文凭技术报告6
[15] Irpino A,Romano E(2007)大数据集的最佳直方图表示:fisher与分段线性近似。In:Noirhomme-Frature M、Venturini G(eds)EGC、Cépaduès-Editions、Revue des Nouvelles Technologies de l’Information,第RNTI-E-9卷,第99-110页
[16] Irpino A,Verde R,Lechevallier Y(2006)使用Wasserstein度量对直方图进行动态聚类。收录:COMPSTAT,第869-876页
[17] Irpino A,Verde R(2006)基于Wasserstein的直方图符号数据层次聚类新距离。收录:Batagelj V、Bock HH、Ferligoj A、Zhi iberna A(编辑)数据科学与分类、分类研究、数据分析和知识组织,柏林斯普林格,20,第185-192页
[18] Irpino A,Verde R(2008)使用基于Wasserstein的距离对区间数据进行动态聚类。图案识别器Lett 29(11):1648-1658·doi:10.1016/j.patrec.2008.04.008
[19] Kantorovich L(1940)关于解决某些极值问题的一种有效方法。多克·阿卡德·诺克28:212-215
[20] 劳森CL,汉森RJ(1974)解决最小二乘问题。埃奇沃思悬崖普伦蒂斯·霍尔·兹伯利0860.65028
[21] Mallows CL(1972)关于渐近联合正规性的注记。数学年鉴43(2):508-515·Zbl 0238.60017号 ·doi:10.1214/aoms/1177692631
[22] Neto EAL、de Carvalho FAT、Tenorio CP(2004)预测区间值特征的单变量和多变量线性回归方法。摘自:澳大利亚人工智能会议,第526-537页
[23] Neto EAL,de Carvalho FAT(2008),将线性回归模型拟合到符号区间数据的中心和范围方法。计算统计数据分析52(3):1500-1515·Zbl 1452.62493号 ·doi:10.1016/j.csda.2007.04.014
[24] Neto EAL,de Carvalho FAT(2010)符号区间值变量的约束线性回归模型。计算统计数据分析54(2):333-347·Zbl 1464.62055号 ·doi:10.1016/j.csda.2009.08.010
[25] Noirhomme-Frature M,Brito P(2011)《远远超越经典数据模型:符号数据分析》。统计分析数据最小值4(2):157-170。doi:10.1002/sam.10112·Zbl 07260275号 ·doi:10.1002/sam.10112
[26] Salvemini T(1943)Sul calcolo degli indici di concordanza tra due caratteri quantitativi.萨尔维米尼(1943年)。收录:Atti della VI Riunione della Soc Ital di Statistica,罗马(1943年)
[27] Tibshirani R(1996)通过套索回归收缩和选择。J R Stat Soc Ser B期刊58:267-288·Zbl 0850.62538号
[28] Verde R,Irpino A(2008)使用马氏距离比较直方图数据。In:Brito P(ed)COMPSTAT 2008,Physica,海德堡,7,77-89·Zbl 1147.62054号
[29] Verde R,Irpino A(2007)直方图数据的动态聚类:使用正确的度量。收录:Brito P、Cucumel G、Bertrand P、Carvalho F(eds)数据分析和分类、分类研究、数据分析和知识组织方面的部分贡献,柏林施普林格,12,123-134(2007)·Zbl 1151.62335号
[30] Verde R,Irpino A(2010)基于Wasserstein距离的直方图数据的普通最小二乘法。收录于:Lechevallier Y,Saporta G(eds)In:Proceedings of COMPSTAT’2010,第60卷,第581-588页。《物理》,海德堡(2010)·Zbl 1436.62334号
[31] Wasserstein L(1969)描述大型自动机系统的空间的可数乘积上的马尔可夫过程。探针Inf Trans 5:47-52·Zbl 0273.60054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。