×

符号数据分析的新模型。 (英语) Zbl 07739770号

摘要:符号数据分析(SDA)是一个新兴的统计领域,涉及理解和建模分布式数据(即。符号),例如随机列表、间隔和直方图。它是在这样的前提下开发的:感兴趣的统计单位是符号,并且需要在这个层次上进行推理。在这里,我们考虑了一个不同的视角,这为SDA领域开辟了一个新的研究方向。我们假设,与标准统计分析一样,需要在个人层面的数据层面进行推断。然而,在分析之前,未观察到个体级数据,并将其聚合为观察到的符号——基于群体的分布值摘要。我们介绍了一种新的通用方法,用于在只观察分布摘要的情况下,基于底层测量级数据的期望概率模型来构造符号数据的似然函数。除了开发SDA作为一种可行的工具来支持和改进经典数据分析之外,这种方法还为新类别的符号设计和构造打开了大门,特别是对于非常大和复杂的数据集。我们通过几个真实和模拟数据分析来说明SDA研究的这一新方向,包括对新型多元符号构造技术的研究。

MSC公司:

62小时86 多元分析与模糊性
62兰特 大数据和数据科学的统计方面

软件:

贝叶斯DA
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andrieu,C。;Roberts,GO,《有效蒙特卡罗计算的伪边缘方法》,《Ann Stat》,第37期,第697-725页(2009年)·Zbl 1185.60083号 ·doi:10.1214/07-AOS574
[2] Bardenet R,Doucet A,Holmes C(2014)《迈向马尔可夫链蒙特卡罗:自适应子采样方法》。摘自:第31届机器学习国际会议记录(ICML-14),第405-413页
[3] Billard,L.,《符号数据和分析问题简要概述》,《统计分析数据最小值》,第4149-156页(2011年)·Zbl 07260274号 ·doi:10.1002/sam.10115
[4] Billard,L。;Diday,E.,《从数据统计到知识统计:符号数据分析》,美国统计协会杂志,98,470-487(2003)·doi:10.1198/016214503000242
[5] Billard,L。;Diday,E.,符号数据分析。计算统计学中的威利级数(2006),奇切斯特:威利·兹比尔1117.62002
[6] Bland,M.,《估算样本量的平均值和标准偏差,三个四分位数,最小值和最大值》,《国际统计医学研究杂志》,457-64(2015)·doi:10.6000/1929-6029.2015.04.01.6
[7] 博克,HH;Diday,E.,《符号数据分析》(2000),柏林:施普林格出版社,柏林·Zbl 0978.6202号
[8] 布里托,P。;Duarte Silva,AP,用正态和偏态分布建模区间数据,《应用统计杂志》,39,3-20(2012)·Zbl 1514.62081号 ·doi:10.1080/02664763.2011.575125
[9] Cariou V,Billard L(2015)操作关系数据库时的泛化方法。收录:Brito P,Venturini G(编辑)符号数据分析与可视化,RNTI-E-29,第59-88页
[10] Dias,S。;Brito,P.,带直方图值变量的线性回归模型,统计分析数据最小值,875-113(2015)·Zbl 07260426号 ·doi:10.1002/sam.11260
[11] Dias,S。;Brito,P.,《另类:区间数据的新线性模型》,Eur J Oper Res,258,3118-1130(2017)·Zbl 1395.62199号 ·doi:10.1016/j.ejor.2016.09.006
[12] Diday E(1988)聚类中的符号方法和相关数据分析方法:基本选择。摘自:Brock HH(ed)分类和相关数据分析方法,IFCS87会议记录,第673-684页
[13] 杜阿尔特·席尔瓦(Duarte Silva),美联社;Brito,P.,区间数据的判别分析:基于参数和距离的方法评估,J Classif,32,516-541(2015)·Zbl 1331.62305号 ·doi:10.1007/s00357-015-9189-8
[14] 费希尔,R。;奥利里,RA;Low-Choy,S。;Mengersen,K。;诺尔顿,N。;布雷纳德,RE;Caley,MJ,《珊瑚礁物种丰富度与全球趋同估算》,Curr Biol,25500-505(2015)·doi:10.1016/j.cub.2014年12月22日
[15] Gelman,A。;卡林,JB;斯特恩,HS;邓森,DB;Vehtari,A。;鲁宾,DB,贝叶斯数据分析(2013),博卡拉顿:查普曼和霍尔,博卡拉顿·Zbl 1279.62004号 ·doi:10.1201/b16018
[16] Guha,S。;哈芬,R。;Rounds,J。;夏,J。;李,J。;Xi,B。;克利夫兰,WS,《大型复杂数据:与RHIPE的除法和重组(D&R)》,Stat,153-67(2012)·doi:10.1002/sta4.7
[17] DF Heitjan;罗宾,DB,《可忽略性和粗略数据》,《Ann Stat》,192244-2253(1991)·兹比尔0745.62004 ·doi:10.1214/aos/1176348396
[18] Hozo,SP;朱尔贝戈维奇,B。;Hozo,I.,从样本的中位数、范围和大小估计平均值和方差,BMC医学研究方法,5,13(2005)·doi:10.1186/1471-2288-5-13
[19] Hron,K。;布里托,P。;Filzmoser,P.,区间成分数据的探索性数据分析,高级数据分析类,11223-241(2017)·Zbl 1414.62211号 ·doi:10.1007/s11634-016-0245-y
[20] Ichino,M.,符号主成分分析的分位数方法,Stat Anal Data Min,4184-198(2011)·Zbl 07260277号 ·doi:10.1002/sam.10111
[21] Ioanidis Y(2003)直方图的历史(节略)。收录:Freytag JC、Lockemann P、Abiteboul S、Carey M、Selinger P、Heuer A(编辑)VLDB会议记录。Morgan Kaufmann,第19-30页
[22] 埃尔皮诺,A。;Verde,R.,《数字符号变量的线性回归:基于Wasserstein距离的最小二乘法》,Adv Data Ana Classif,9,81-106(2015)·Zbl 1414.62306号 ·doi:10.1007/s11634-015-0197-7
[23] 密歇根州约旦;Lee,JD;Yang,Y.,《通信效率分布式统计推断》,美国统计协会,114668-681(2019)·Zbl 1420.62097号 ·doi:10.1080/01621459.2018.1429274
[24] Kosmelj,K。;勒拉德马赫,J。;Billard,L.,区间值变量的符号协方差矩阵及其在主成分分析中的应用:案例研究,Metod Zvezki,11,1-20(2014)
[25] Le-Rademacher,J。;Billard,L.,符号数据的似然函数和一些最大似然估计,J Stat Plan Inference,1411593-1602(2011)·Zbl 1204.62026号 ·doi:10.1016/j.jspi.2010.11.016
[26] Le-Rademacher J,Billard L(2013),直方图值数据的主成分分析。数据分析和分类进展,第1-25页
[27] Lin,H。;卡利,MJ;Sisson,SA,使用符号数据元分析估算全球物种丰富度,生态,2022,e05617(2022)·doi:10.1111/ecog.05617
[28] Lin,W。;González-Rivera,G.,区间值时间序列模型:基于订单统计探索农业营销服务数据的估计,计算统计数据分析,100694-711(2016)·Zbl 1466.62139号 ·doi:10.1016/j.csda.2015.07.008
[29] 罗,D。;万,X。;刘,J。;Tong,T.,《根据样本量、中位数、中位数和/或中位数估计样本平均值》,《统计方法医学研究》,271785-1805(2018)·doi:10.1177/0962280216669183
[30] GJ麦克拉克伦;Jones,PN,通过EM算法将混合模型拟合到分组和截断数据,生物计量学,44571-578(1988)·Zbl 0707.62214号 ·doi:10.2307/2531869
[31] Mousavi H,Zaniolo C(2011)快速准确地计算数据流上的等深度直方图。附:第14届扩展数据库技术国际会议论文集,第69-80页
[32] 内托,EAL;Corderio,GM;de Carvalho,FAT,区间值变量的双变量符号回归模型,J Stat Comput Simul,811727-1744(2011)·Zbl 1431.62328号 ·doi:10.1080/00949655.2010.500470
[33] Noirhomme-服装,M。;Brito,P.,《远远超越经典数据模型:符号数据分析》,《统计分析数据最小值》,4157-170(2011)·Zbl 07260275号 ·doi:10.1002/sam.10112
[34] 基罗兹,M。;Tran,明尼苏达州;维拉尼,M。;Kohn,R.,《通过延迟验收和数据二次采样加速MCMC》,《计算机图形统计杂志》,27,12-22(2018)·Zbl 07498963号 ·doi:10.1080/10618600.2017.1307117
[35] 基罗兹,M。;科恩,R。;维拉尼,M。;Tran,MN,通过有效的数据子采样加速mcmc,美国国家统计协会,114526,831-843(2019)·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[36] 拉赫曼,P。;贝朗格,B。;Sisson,S。;Roughan,M.,基于似然法的推论,用于从稀疏流摘要中建模数据包传输,IEEE Trans Signal Inf Process Netw,8,571-583(2022)·doi:10.1109/TSIPN.2022.3188457
[37] 伦德尔,LJ;约翰森,AM;A.李。;怀特利,N.,《全球共识蒙特卡洛》,《计算图表统计杂志》,30,1-29(2020)·Zbl 07499857号
[38] 罗德里格斯,GS;诺特,DJ;Sisson,SA,高斯过程密度估计的函数回归近似贝叶斯计算,计算统计数据分析,103,229-241(2016)·Zbl 1466.62185号 ·doi:10.1016/j.csda.2016.05.009
[39] Rubin,DB,平行随机实验中的估计,《教育统计杂志》,6377-401(1981)·数字对象标识代码:10.3102/10769986006004377
[40] Schweizer B(1984)分布是未来的数字。摘自:《模糊系统数学学报》,第137-149页
[41] Shi J,Luo D,Weng H,Zeng XT,Lin L,Tong T(2018)如何从五位数汇总中估计样本平均值和标准偏差?arXiv:1801.01267号
[42] Sisson,SA;范,Y。;马萨诸塞州博蒙特,《近似贝叶斯计算手册》(2018),博卡拉顿:查普曼和霍尔,博卡拉顿
[43] Vardeman,SB;Lee,CS,基于量化数据的似然统计估计,IEEE Trans Instrum Meas,54,409-414(2005)·doi:10.1109/TIM.2004.838912
[44] 沃诺,M。;北多比根。;Chainais,P.,《分裂和增强吉布斯采样器在大规模推理问题中的应用》,IEEE Trans-Signal Process,67,6,1648-1661(2019)·Zbl 1415.94375号 ·doi:10.1109/TSP.2019.2894825
[45] 万,X。;Wang,W。;刘,J。;Tong,T.,《从样本量、中位数、范围和/或四分位范围估算样本平均值和标准偏差》,BMC Med Res Methodol,14,135(2014)·doi:10.1186/1471-2288-14-135
[46] 惠特克,T。;贝朗格,B。;Sisson,SA,直方图值随机变量的复合似然方法,统计计算,301459-1477(2020)·Zbl 1452.62337号 ·doi:10.1007/s11222-020-09955-5
[47] 惠特克,T。;贝朗格,B。;Sisson,SA,聚合数据的Logistic回归模型,计算机图统计杂志,301049-1067(2021)·Zbl 07499936号 ·doi:10.1080/10618600.2021.1895816
[48] 张,X。;贝朗格,B。;Sisson,SA,构建区间值随机变量的似然函数,Scand J Stat,47,1,1-35(2020)·Zbl 1444.62139号 ·doi:10.1111/sjos.12395
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。