文件Zbl 07739770-zbMATH Open

符号数据分析的新模型。（英语） Zbl 07739770号

高级数据分析。分类。，ADAC公司 17，第3号，659-699（2023）.

摘要：符号数据分析（SDA）是一个新兴的统计领域，涉及理解和建模分布式数据（即。符号)，例如随机列表、间隔和直方图。它是在这样的前提下开发的：感兴趣的统计单位是符号，并且需要在这个层次上进行推理。在这里，我们考虑了一个不同的视角，这为SDA领域开辟了一个新的研究方向。我们假设，与标准统计分析一样，需要在个人层面的数据层面进行推断。然而，在分析之前，未观察到个体级数据，并将其聚合为观察到的符号——基于群体的分布值摘要。我们介绍了一种新的通用方法，用于在只观察分布摘要的情况下，基于底层测量级数据的期望概率模型来构造符号数据的似然函数。除了开发SDA作为一种可行的工具来支持和改进经典数据分析之外，这种方法还为新类别的符号设计和构造打开了大门，特别是对于非常大和复杂的数据集。我们通过几个真实和模拟数据分析来说明SDA研究的这一新方向，包括对新型多元符号构造技术的研究。

引用于1文件

MSC公司：

62小时86	多元分析与模糊性
62兰特	大数据和数据科学的统计方面

关键词：

分级数据;间隔数据;可能性;摘要统计信息;符号设计

软件：

贝叶斯DA

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Andrieu，C。；Roberts，GO，《有效蒙特卡罗计算的伪边缘方法》，《Ann Stat》，第37期，第697-725页（2009年）·Zbl 1185.60083号 ·doi:10.1214/07-AOS574
[2]	Bardenet R，Doucet A，Holmes C（2014）《迈向马尔可夫链蒙特卡罗：自适应子采样方法》。摘自：第31届机器学习国际会议记录（ICML-14），第405-413页
[3]	Billard，L.，《符号数据和分析问题简要概述》，《统计分析数据最小值》，第4149-156页（2011年）·Zbl 07260274号 ·doi:10.1002/sam.10115
[4]	Billard，L。；Diday，E.，《从数据统计到知识统计：符号数据分析》，美国统计协会杂志，98，470-487（2003）·doi:10.1198/016214503000242
[5]	Billard，L。；Diday，E.，符号数据分析。计算统计学中的威利级数（2006），奇切斯特：威利·兹比尔1117.62002
[6]	Bland，M.，《估算样本量的平均值和标准偏差，三个四分位数，最小值和最大值》，《国际统计医学研究杂志》，457-64（2015）·doi:10.6000/1929-6029.2015.04.01.6
[7]	博克，HH；Diday，E.，《符号数据分析》（2000），柏林：施普林格出版社，柏林·Zbl 0978.6202号
[8]	布里托，P。；Duarte Silva，AP，用正态和偏态分布建模区间数据，《应用统计杂志》，39，3-20（2012）·Zbl 1514.62081号 ·doi:10.1080/02664763.2011.575125
[9]	Cariou V，Billard L（2015）操作关系数据库时的泛化方法。收录：Brito P，Venturini G（编辑）符号数据分析与可视化，RNTI-E-29，第59-88页
[10]	Dias，S。；Brito，P.，带直方图值变量的线性回归模型，统计分析数据最小值，875-113（2015）·Zbl 07260426号 ·doi:10.1002/sam.11260
[11]	Dias，S。；Brito，P.，《另类：区间数据的新线性模型》，Eur J Oper Res，258，3118-1130（2017）·Zbl 1395.62199号 ·doi:10.1016/j.ejor.2016.09.006
[12]	Diday E（1988）聚类中的符号方法和相关数据分析方法：基本选择。摘自：Brock HH（ed）分类和相关数据分析方法，IFCS87会议记录，第673-684页
[13]	杜阿尔特·席尔瓦（Duarte Silva），美联社；Brito，P.，区间数据的判别分析：基于参数和距离的方法评估，J Classif，32，516-541（2015）·Zbl 1331.62305号 ·doi:10.1007/s00357-015-9189-8
[14]	费希尔，R。；奥利里，RA；Low-Choy，S。；Mengersen，K。；诺尔顿，N。；布雷纳德，RE；Caley，MJ，《珊瑚礁物种丰富度与全球趋同估算》，Curr Biol，25500-505（2015）·doi:10.1016/j.cub.2014年12月22日
[15]	Gelman，A。；卡林，JB；斯特恩，HS；邓森，DB；Vehtari，A。；鲁宾，DB，贝叶斯数据分析（2013），博卡拉顿：查普曼和霍尔，博卡拉顿·Zbl 1279.62004号 ·doi:10.1201/b16018
[16]	Guha，S。；哈芬，R。；Rounds，J。；夏，J。；李，J。；Xi，B。；克利夫兰，WS，《大型复杂数据：与RHIPE的除法和重组（D&R）》，Stat，153-67（2012）·doi:10.1002/sta4.7
[17]	DF Heitjan；罗宾，DB，《可忽略性和粗略数据》，《Ann Stat》，192244-2253（1991）·兹比尔0745.62004 ·doi:10.1214/aos/1176348396
[18]	Hozo，SP；朱尔贝戈维奇，B。；Hozo，I.，从样本的中位数、范围和大小估计平均值和方差，BMC医学研究方法，5，13（2005）·doi:10.1186/1471-2288-5-13
[19]	Hron，K。；布里托，P。；Filzmoser，P.，区间成分数据的探索性数据分析，高级数据分析类，11223-241（2017）·Zbl 1414.62211号 ·doi:10.1007/s11634-016-0245-y
[20]	Ichino，M.，符号主成分分析的分位数方法，Stat Anal Data Min，4184-198（2011）·Zbl 07260277号 ·doi:10.1002/sam.10111
[21]	Ioanidis Y（2003）直方图的历史（节略）。收录：Freytag JC、Lockemann P、Abiteboul S、Carey M、Selinger P、Heuer A（编辑）VLDB会议记录。Morgan Kaufmann，第19-30页
[22]	埃尔皮诺，A。；Verde，R.，《数字符号变量的线性回归：基于Wasserstein距离的最小二乘法》，Adv Data Ana Classif，9，81-106（2015）·Zbl 1414.62306号 ·doi:10.1007/s11634-015-0197-7
[23]	密歇根州约旦；Lee，JD；Yang，Y.，《通信效率分布式统计推断》，美国统计协会，114668-681（2019）·Zbl 1420.62097号 ·doi:10.1080/01621459.2018.1429274
[24]	Kosmelj，K。；勒拉德马赫，J。；Billard，L.，区间值变量的符号协方差矩阵及其在主成分分析中的应用：案例研究，Metod Zvezki，11，1-20（2014）
[25]	Le-Rademacher，J。；Billard，L.，符号数据的似然函数和一些最大似然估计，J Stat Plan Inference，1411593-1602（2011）·Zbl 1204.62026号 ·doi:10.1016/j.jspi.2010.11.016
[26]	Le-Rademacher J，Billard L（2013），直方图值数据的主成分分析。数据分析和分类进展，第1-25页
[27]	Lin，H。；卡利，MJ；Sisson，SA，使用符号数据元分析估算全球物种丰富度，生态，2022，e05617（2022）·doi:10.1111/ecog.05617
[28]	Lin，W。；González-Rivera，G.，区间值时间序列模型：基于订单统计探索农业营销服务数据的估计，计算统计数据分析，100694-711（2016）·Zbl 1466.62139号 ·doi:10.1016/j.csda.2015.07.008
[29]	罗，D。；万，X。；刘，J。；Tong，T.，《根据样本量、中位数、中位数和/或中位数估计样本平均值》，《统计方法医学研究》，271785-1805（2018）·doi:10.1177/0962280216669183
[30]	GJ麦克拉克伦；Jones，PN，通过EM算法将混合模型拟合到分组和截断数据，生物计量学，44571-578（1988）·Zbl 0707.62214号 ·doi:10.2307/2531869
[31]	Mousavi H，Zaniolo C（2011）快速准确地计算数据流上的等深度直方图。附：第14届扩展数据库技术国际会议论文集，第69-80页
[32]	内托，EAL；Corderio，GM；de Carvalho，FAT，区间值变量的双变量符号回归模型，J Stat Comput Simul，811727-1744（2011）·Zbl 1431.62328号 ·doi:10.1080/00949655.2010.500470
[33]	Noirhomme-服装，M。；Brito，P.，《远远超越经典数据模型：符号数据分析》，《统计分析数据最小值》，4157-170（2011）·Zbl 07260275号 ·doi:10.1002/sam.10112
[34]	基罗兹，M。；Tran，明尼苏达州；维拉尼，M。；Kohn，R.，《通过延迟验收和数据二次采样加速MCMC》，《计算机图形统计杂志》，27，12-22（2018）·Zbl 07498963号 ·doi:10.1080/10618600.2017.1307117
[35]	基罗兹，M。；科恩，R。；维拉尼，M。；Tran，MN，通过有效的数据子采样加速mcmc，美国国家统计协会，114526，831-843（2019）·Zbl 1420.62121号 ·doi:10.1080/01621459.2018.1448827
[36]	拉赫曼，P。；贝朗格，B。；Sisson，S。；Roughan，M.，基于似然法的推论，用于从稀疏流摘要中建模数据包传输，IEEE Trans Signal Inf Process Netw，8，571-583（2022）·doi:10.1109/TSIPN.2022.3188457
[37]	伦德尔，LJ；约翰森，AM；A.李。；怀特利，N.，《全球共识蒙特卡洛》，《计算图表统计杂志》，30，1-29（2020）·Zbl 07499857号
[38]	罗德里格斯，GS；诺特，DJ；Sisson，SA，高斯过程密度估计的函数回归近似贝叶斯计算，计算统计数据分析，103，229-241（2016）·Zbl 1466.62185号 ·doi:10.1016/j.csda.2016.05.009
[39]	Rubin，DB，平行随机实验中的估计，《教育统计杂志》，6377-401（1981）·数字对象标识代码：10.3102/10769986006004377
[40]	Schweizer B（1984）分布是未来的数字。摘自：《模糊系统数学学报》，第137-149页
[41]	Shi J，Luo D，Weng H，Zeng XT，Lin L，Tong T（2018）如何从五位数汇总中估计样本平均值和标准偏差？arXiv:1801.01267号
[42]	Sisson，SA；范，Y。；马萨诸塞州博蒙特，《近似贝叶斯计算手册》（2018），博卡拉顿：查普曼和霍尔，博卡拉顿
[43]	Vardeman，SB；Lee，CS，基于量化数据的似然统计估计，IEEE Trans Instrum Meas，54，409-414（2005）·doi:10.1109/TIM.2004.838912
[44]	沃诺，M。；北多比根。；Chainais，P.，《分裂和增强吉布斯采样器在大规模推理问题中的应用》，IEEE Trans-Signal Process，67，6，1648-1661（2019）·Zbl 1415.94375号 ·doi:10.1109/TSP.2019.2894825
[45]	万，X。；Wang，W。；刘，J。；Tong，T.，《从样本量、中位数、范围和/或四分位范围估算样本平均值和标准偏差》，BMC Med Res Methodol，14，135（2014）·doi:10.1186/1471-2288-14-135
[46]	惠特克，T。；贝朗格，B。；Sisson，SA，直方图值随机变量的复合似然方法，统计计算，301459-1477（2020）·Zbl 1452.62337号 ·doi:10.1007/s11222-020-09955-5
[47]	惠特克，T。；贝朗格，B。；Sisson，SA，聚合数据的Logistic回归模型，计算机图统计杂志，301049-1067（2021）·Zbl 07499936号 ·doi:10.1080/10618600.2021.1895816
[48]	张，X。；贝朗格，B。；Sisson，SA，构建区间值随机变量的似然函数，Scand J Stat，47，1，1-35（2020）·Zbl 1444.62139号 ·doi:10.1111/sjos.12395

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

符号数据分析的新模型。（英语） Zbl 07739770号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

符号数据分析的新模型。 （英语） Zbl 07739770号

MSC公司：

关键词：

软件：

参考文献：

符号数据分析的新模型。（英语） Zbl 07739770号