莱西亚·查里斯特;Jean-François普兰特 使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。 (英语) 兹比尔1453.62528 J.统计计算。模拟 84,第10号,2214-2232(2014). 摘要:平衡迭代约简和聚类层次结构(BIRCH)算法通过只读取一次数据文件,在读取数据时对数据进行聚类,并且只保留一些聚类特征来总结到目前为止读取的数据,从而处理大量数据集。使用BIRCH可以分析太大而无法放入计算机主内存的数据集。我们提出了根据BIRCH输出计算的Spearman’s(rho)和Kendall’s(tau)的估计值,并通过蒙特卡罗研究评估了它们的性能。数值结果表明,基于BIRCH的估计可以达到与通常的(rho)和(tau)估计相同的效率,而只使用了所需内存的一小部分。 MSC公司: 62H20个 关联度量(相关性、典型相关性等) 62G05型 非参数估计 关键词:相关性;等级统计;海量数据集;肯德尔的\(\陶\);矛兵的\(\rho\);桦木 软件:UCI-毫升;TwoCop公司;连接线;桦木;连接线 PDF格式BibTeX公司 XML格式引用 \textit{L.Charest}和\textit{J.-F.Plante},《统计计算杂志》。模拟84,第10期,2214--2232(2014;Zbl 1453.62528) 全文: 内政部 参考文献: [1] Zhang T,Ramakrishnan R,Livny M.BIRCH:一种适用于超大数据库的高效数据聚类方法。1996年SIGMOD记录;25:103-114. doi:10.1145/235968.233324[交叉引用],[谷歌学者] [2] Harrington J,Salibián-Barrera M.使用BIRCH寻找具有超大数据集的组合问题的近似解。计算统计数据分析。2010;54:655-667. doi:10.1016/j.csda.2008.08.001[Crossref],[Web of Science®],[Google学者]·Zbl 1464.62086号 [3] Charest L、Harrington J、Salibian-Barrera M.Birch:使用Birch处理超大数据集。R包版本1.2-3;2012年【引用自2012年5月4日】。可从以下位置获得:http://cran.r-project.org/web/packages/birch/index.html[谷歌学者] [4] Embrachts P、McNeil A、Straumann D。风险管理中的相关性和依赖性:属性和陷阱。收件人:Dempster MAH,编辑。风险管理:风险价值及其他价值。剑桥:剑桥大学出版社;2002年,第176-223页。[Crossref],[Google学者] [5] CapéraáP,Cutsem B.Méthodes et modèles en statistique non-paramétrique:exposéfondamental。魁北克:拉瓦尔大学出版社;1988.[谷歌学者]·Zbl 0637.62034号 [6] 斯皮尔曼C。两个事物之间联系的证明和测量。《美国心理学杂志》。1904年;15:72-101。doi:10.2307/1412159[Crosref],[Web of Science®],[谷歌学者] [7] Kendall MG。一种新的等级相关性度量。生物特征。1938;30:81-93. doi:10.1093/biomet/30.1-2.81[Crossref],[Web of Science®],[Google学者]·Zbl 0019.13001号 [8] Kendall MG。排名问题中的关系处理。生物特征。1945;33:239-251. doi:10.1093/biomet/33.3.239[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 0063.03216号 [9] Woodbury Max A.变量相等时的等级相关性。安数学统计1940;11:358-362. doi:10.1214/aoms/1177731875[交叉引用],[谷歌学者]·Zbl 0023.34301号 [10] 学生。斯皮尔曼博士相关系数可能误差的实验测定。生物特征。1921;13:263-282. doi:10.1093/biomet/13.2-3.263[交叉引用],[谷歌学者] [11] Stuart A.列联表中关联强度的估计和比较。生物特征。1953;40: 105-110. doi:10.2307/2333101[Crossref],[Web of Science®],[Google学者]·Zbl 0050.36405号 [12] Genest C,Nes˘lehováJ.copulas上用于计数数据的引物。阿斯汀公牛。2007;37:475-515. doi:10.2143/AST.37.2.2024077[Crossref],[Web of Science®],[Google学者]·Zbl 1274.62398号 [13] Genest C、Ghoudi K、Rivest LP。多元分布族中相依参数的半参数估计过程。生物特征。1995;82:543-552. doi:10.1093/biomet/82.3.543[Crossref],[Web of Science®],[Google学者]·Zbl 0831.62030号 [14] Schweizer B,Wolff EF。关于随机变量相关性的非参数度量。Ann Stat.1981;9:879-885. doi:10.1214/aos/1176345528[Crossref],[Web of Science®],[Google学者]·兹伯利0468.62012 [15] Genest C,Favre AC。关于交配模型,你一直想知道但又不敢问的一切。《水利工程杂志》,2007年;12:347-368。doi:10.1061/(ASCE)1084-0699(2007)12:4(347)[Crossref],[Web of Science®],[Google学者] [16] Nelsen R.连接词简介。统计学中的斯普林格系列。纽约:Springer;2006.[谷歌学者]·Zbl 1152.62030 [17] Kojadinovic I,Yan J.使用copula R包对具有连续边际的多元分布进行建模。J统计软件。2010;34:1-20. [谷歌学者] [18] 费希尔RA。在分类问题中使用多重测量。年度优生学。1936;7:179-188. doi:10.1111/j.1469-1809.1936.tb02137.x[交叉引用],[谷歌学者] [19] Frank A,Asuncion A.UCI机器学习库。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院;2010.[谷歌学者] [20] Rémillard B,Scaillet O。两个连接函数之间相等性的测试。《多元分析杂志》。2009;100:377-386. doi:10.1016/j.jmva.2008.05.004[Crossref],[Web of Science®],[Google学者]·Zbl 1157.62401号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。