×

计算距离相关性的快速算法。 (英语) 兹比尔1507.62026

总结:经典的相关性度量,如皮尔逊相关性、斯皮尔曼相关性和肯德尔相关性只能检测到单调或线性相关性。为了克服这些局限性,Székely等人提出了距离协方差及其导出的相关性。距离协方差是联合特征函数与边际分布乘积之间的加权(L_2)距离;当且仅当两个随机向量\(X\)和\(Y\)是独立的。当样本量足够大时,该测量可以检测到相关性结构的存在。他们进一步表明,样本距离协方差可以简单地从修改的欧几里德距离计算出来,这通常需要(mathcal{O}(n^2))成本,其中(n)是样本大小。二次计算时间大大限制了距离协方差在大数据中的使用。为了计算两个单变量随机变量之间的样本距离协方差,开发了一种简单、精确的(mathcal{O}(n\log(n))算法。该算法本质上由两个排序步骤组成,因此易于实现。实验结果表明,该算法明显快于现有方法。该算法的速度将使研究人员能够探索大型数据集中的复杂依赖结构。

MSC公司:

62-08 统计问题的计算方法
62H20个 关联度量(相关性、典型相关性等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 科尔曼,T.H。;雷瑟森,C.E。;Rivest,R.L。;Stein,C.,算法导论(2001),麻省理工学院出版社·Zbl 1047.68161号
[2] Corporation,I.,Intel 64和IA-32体系结构优化参考手册(2009)
[3] Fog,A.,Intel、AMD和VIA CPU的指令延迟、吞吐量和微操作故障列表,丹麦技术大学(2018)
[4] Ginat,D.,CS高年级学生会利用递归吗?,SIGCSE公牛。,36、3、82-86(2004),网址http://doi.acm.org/10.1145/1026487.1008020
[5] 格雷顿,A。;O.布斯克。;Smola,A。;Schölkopf,B.,用hilbert-schmidt规范测量统计相关性,算法学习理论国际会议,63-77(2005),Springer·Zbl 1168.62354号
[6] 格雷顿,A。;Fukumizu,K。;Teo,C.H。;宋,L。;Schölkopf,B。;Smola,A.J.,独立性的核统计检验,神经信息处理系统进展,585-592(2008)
[7] 郭,X。;Zhang,Y。;胡,W。;Tan,H。;Wang,X.,基于距离相关性从基因表达数据推断非线性基因调控网络,《公共科学图书馆·综合》,9,2,文章e87446 pp.(2014)
[8] Huang,C.,Huo,X.,2017年。基于随机投影和距离协方差的统计和数值有效独立性检验,arXiv预印本arXiv:1701.06054;Huang,C.,Huo,X.,2017年。基于随机投影和距离协方差的统计和数值有效的独立性测试,arXiv预印本arXiv:1701.06054
[9] 霍,X。;Székely,G.J.,距离协方差的快速计算,技术计量学,58,4,435-447(2016)
[10] 拉马卡,A。;Ladner,R.E.,《缓存对排序性能的影响》,J.Algorithms,31,1,66-104(1999)·Zbl 0928.68035号
[11] Li,R。;钟伟。;Zhu,L.,通过距离相关学习进行特征筛选,J.Amer。统计师。协会,107,499,1129-1139(2012)·Zbl 1443.62184号
[12] 普菲斯特,N。;Bühlmann,P。;Schölkopf,B。;Peters,J.,基于内核的联合独立性测试,J.R.Stat.Soc.Ser。《美国统计年鉴》。,80, 1, 5-31 (2018) ·Zbl 1381.62105号
[13] Sejdinovic,D。;Sriperumbudur,B。;格雷顿,A。;Fukumizu,K.,假设检验中基于距离和基于rkhs的统计的等效性,《统计年鉴》。,2263-2291 (2013) ·Zbl 1281.62117号
[14] 斯费拉,G。;弗拉蒂尼,F。;Ponzi,M。;Pizzi,E.,Phylo_dcor:距离相关性作为系统发育分析的新指标,BMC生物信息。,18, 1, 396 (2017)
[15] 谢凯利,G.J。;Rizzo,M.L.,布朗距离协方差,Ann.Appl。《法律总汇》,1236-1265(2009)·Zbl 1196.62077号
[16] 谢凯利,G.J。;Rizzo,M.L。;Bakirov,N.K.,《通过距离相关性测量和测试相关性》,Ann.Statist。,35, 6, 2769-2794 (2007) ·Zbl 1129.62059号
[17] 张,Q。;菲利皮,S。;格雷顿,A。;Sejdinovic,D.,独立性测试的大尺度内核方法,统计计算。,28, 1, 113-130 (2018) ·Zbl 1384.62154号
[18] Zhou,Z.,测量时间序列中的非线性相关性,一种距离相关方法,J.时间序列分析。,33, 3, 438-457 (2012) ·Zbl 1301.62095号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。