×

区间变量的关联度量。 (英语) Zbl 07630550号

摘要:符号数据分析(SDA)是一个相对较新的统计领域,它通过考虑固有的数据可变性和结构扩展了传统的数据分析。与传统数据分析不同,在SDA中,表征数据的特征可以是多值的,例如区间或直方图。SDA主要是从抽样的角度来处理的。在这项工作中,我们提出了一个将区间值符号变量的微观数据和宏观数据联系起来的模型,该模型采用了人口视角。使用该模型,我们推导了文献中提出的符号协方差矩阵的各种定义背后的微观数据假设,并表明这些假设可能过于严格,从而引发了适用性问题。我们使用工作示例和四个数据集分析各种定义。我们的结果表明,符号协方差矩阵的定义可能无法正确反映宏观数据中相关性的存在/缺失,并且在实际数据中,这些定义之间可能存在很大差异。因此,为了选择最合适的定义,必须了解微数据结构。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62H30型 分类和区分;聚类分析(统计方面)
60E05型 概率分布:一般理论
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 田纳西州安德森;Lovric,M.,Anderson-Darling tests of goodness of fit,国际统计科学百科全书,52-54(2011),柏林:施普林格出版社,柏林·doi:10.1007/978-3642-04898-2-118
[2] Beranger B、Lin H、Sisson SA(2020)符号数据分析的新模型。arXiv:1809.03659
[3] Bertrand,P。;Goupil,F。;博克,HH;Diday,E.,符号数据的描述性统计,符号数据分析,分类研究,数据分析和知识组织,106-124(2000),柏林:施普林格出版社,柏林·Zbl 0978.62005号
[4] Billard L(2008)复杂定量数据的样本协方差函数。摘自:《国际会计准则委员会世界会议记录》,日本横滨,第157-163页
[5] Billard,L。;Diday,E.,《从数据统计到知识统计:符号数据分析》,美国统计协会杂志,98,470-487(2003)·doi:10.1198/016214503000242
[6] Billard,L。;Diday,E.,符号数据分析:概念统计学和数据挖掘(2006),霍博肯:威利,霍博肯·Zbl 1117.62002号 ·doi:10.1002/9780470090183
[7] 博克,HH;Diday,E.,《符号数据分析:从复杂数据中提取统计信息的探索性方法》(2000),纽约:Springer,纽约·Zbl 1039.62501号 ·doi:10.1007/978-3-642-57155-8
[8] Brito,P.,《符号数据分析:数据挖掘与统计学相互作用的另一视角》,Wiley Interdiscip Rev data Min Knoll Discov,4,4,281-295(2014)·doi:10.1002/widm.1133
[9] 布里托,P。;Duarte Silva,AP,用正态和偏态分布建模区间数据,《应用统计杂志》,39,1,3-20(2012)·Zbl 1514.62081号 ·doi:10.1080/02664763.2011.575125
[10] Cazes,P。;Chouakria,A。;Diday,E。;Schektman,Y.,《成分分析原则的扩展》,《应用统计评论》,45,3,5-24(1997)
[11] Cheira P、Brito P、Duarte Silva AP(2017)区间数据的因子分析。arXiv公司:1709.04851
[12] Chouakria A(1998)《类型间隔因子分析方法的扩展》。巴黎多芬大学博士论文
[13] de Carvalho,FAT;Lechevallier,Y.,基于单个自适应距离的符号区间数据的分区聚类算法,Pattern Recogn,42,7,1223-1236(2009)·兹比尔1183.68527 ·doi:10.1016/j.patcog.2008.11.016
[14] de Carvalho,FAT;布里托,P。;Bock,HH,基于L2距离的区间数据动态聚类,计算统计,21,2,231-250(2006)·Zbl 1114.62070号 ·doi:10.1007/s00180-006-0261-z
[15] Dias,S。;Brito,P.,《偏离常规:区间数据的新线性模型》,《Eur J Oper Res》,258,3,1118-1130(2017)·Zbl 1395.62199号 ·doi:10.1016/j.ejor.2016.09.006
[16] Diday E(1987)聚类中的符号方法和相关数据分析方法。收录:Bock H(ed)IFCS第一届会议记录,德国亚琛。出版社
[17] 杜阿尔特·席尔瓦(Duarte Silva),美联社;Brito,P.,区间数据的判别分析:对参数和基于距离的方法的评估,J Classif,32,3511-541(2015)·Zbl 1331.62305号 ·doi:10.1007/s00357-015-9189-8
[18] 杜阿尔特·席尔瓦(Duarte Silva),美联社;Filzmoser,P。;Brito,P.,区间数据中的离群点检测,J Adv data Ana Classif,12,3,785-822(2018)·Zbl 1416.62390号 ·doi:10.1007/s11634-017-0305-y
[19] Filzmoser P、Brito P、Duarte Silva AP(2014),区间数据中的异常检测。收件人:Gilli M、Gonzalez-Rodriguez G、Nieto-Reyes A(编辑)《2014年COMPSTAT会议录》,第11页·Zbl 1416.62390号
[20] 福克斯,J。;Weisberg,S.,《应用回归的R伴侣》(2011),《千橡树:鼠尾草》
[21] 约翰逊,RA;Wichern,DW,应用多元统计分析(2007),《上鞍河:Prentice-Hall Inc》,上鞍河·Zbl 1269.62044号
[22] Le-Rademacher J(2008)区间值和直方图值数据的主成分分析和似然函数以及符号数据的一些最大似然估计。佐治亚州雅典乔治亚大学博士论文
[23] Le-Rademacher,J。;Billard,L.,符号数据的似然函数和一些最大似然估计,J Stat Plan Inference,141,4,1593-1602(2011)·Zbl 1204.62026号 ·doi:10.1016/j.jspi.2010.11.016
[24] Le-Rademacher,J。;Billard,L.,区间值数据的符号协方差主成分分析和可视化,Comput Graph Stat,21,21413-432(2012)·doi:10.1080/10618600.2012.679895
[25] 利马内托,EA;Cordeiro,总经理;de Carvalho,FA,区间值变量的双变量符号回归模型,J Stat Comput Simul,81,11,1727-1744(2011)·Zbl 1431.62328号 ·doi:10.1080/00949655.2010.500470
[26] 迈亚,ALS;de Carvalho,FAT;Ludermir,TB,区间值时间序列预测模型,神经计算,71,16-18,3344-3352(2008)·doi:10.1016/j.neucom.2008.02.022
[27] Noirhomme-服装,M。;Brito,P.,《远远超越经典数据模型:符号数据分析》,《Stat Anal data Min ASA data Sci J》,4,2,157-170(2011)·Zbl 07260275号 ·doi:10.1002/sam.10112
[28] 奥利维拉,MR;维莱拉,M。;帕切科,A。;瓦拉达斯,R。;Salvador,P.,使用符号主成分分析从区间数据中提取信息,Aust J Stat,46,79-87(2017)·doi:10.17713/ajs.v46i3-4.673
[29] 奎罗斯,DCF;de Souza,风险管理委员会;Cysneiros,FJA;Araüjo,MC,区间数据基于核内积的判别分析,Pattern Ana Appl,21,3,731-740(2018)·doi:10.1007/s10044-017-0601-3
[30] R核心团队:R(2015)统计计算语言和环境。奥地利维也纳R统计计算基金会
[31] Rahman PA、Beranger B、Roughan M、Sisson SA(2020)基于似然法的推论,用于从稀疏流汇总中建模数据包传输。arXiv:2008.13424
[32] Salvador P,Nogueira A(2014)互联网规模流量重定向的客户侧检测。In:第16届国际电信网络战略与规划研讨会(Networks 2014),第1-5页
[33] Sato-Ilic,M.,《带区间值数据的符号聚类》,《Procedia Comput Sci》,第6358-363页(2011年)·doi:10.1016/j.procs.2011.08.066
[34] Subtil A(2020)生物医学诊断测试和互联网流量异常检测评估中的潜在类模型。葡萄牙里斯本大学高等教育学院博士论文
[35] Teles,P。;Brito,P.,用时空过程建模区间时间序列,公共统计理论方法,44,17,3599-3627(2015)·兹比尔1342.37076 ·doi:10.1080/03610926.2013.782200
[36] Vilela M(2015)区间数据的经典稳健符号主成分分析。葡萄牙里斯本大学高等技术学院硕士论文
[37] Wang,H。;关,R。;Wu,J.,CIPCA:基于信息的区间值数据主成分分析,神经计算,86,158-169(2012)·doi:10.1016/j.neucom.2012.01.018
[38] 张,X。;Sisson,SA,构建区间值随机变量的似然函数,Scand J Stat,47,1-35(2020)·Zbl 1444.62139号 ·doi:10.1111/sjos.12395
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。