×

使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。 (英语) 兹比尔1453.62528

摘要:平衡迭代约简和聚类层次结构(BIRCH)算法通过只读取一次数据文件,在读取数据时对数据进行聚类,并且只保留一些聚类特征来总结到目前为止读取的数据,从而处理大量数据集。使用BIRCH可以分析太大而无法放入计算机主内存的数据集。我们提出了根据BIRCH输出计算的Spearman’s(rho)和Kendall’s(tau)的估计值,并通过蒙特卡罗研究评估了它们的性能。数值结果表明,基于BIRCH的估计可以达到与通常的(rho)和(tau)估计相同的效率,而只使用了所需内存的一小部分。

MSC公司:

62H20个 关联度量(相关性、典型相关性等)
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Zhang T,Ramakrishnan R,Livny M.BIRCH:一种适用于超大数据库的高效数据聚类方法。1996年SIGMOD记录;25:103-114. doi:10.1145/235968.233324[交叉引用],[谷歌学者]
[2] Harrington J,Salibián-Barrera M.使用BIRCH寻找具有超大数据集的组合问题的近似解。计算统计数据分析。2010;54:655-667. doi:10.1016/j.csda.2008.08.001[Crossref],[Web of Science®],[Google学者]·Zbl 1464.62086号
[3] Charest L、Harrington J、Salibian-Barrera M.Birch:使用Birch处理超大数据集。R包版本1.2-3;2012年【引用自2012年5月4日】。可从以下位置获得:http://cran.r-project.org/web/packages/birch/index.html[谷歌学者]
[4] Embrachts P、McNeil A、Straumann D。风险管理中的相关性和依赖性:属性和陷阱。收件人:Dempster MAH,编辑。风险管理:风险价值及其他价值。剑桥:剑桥大学出版社;2002年,第176-223页。[Crossref],[Google学者]
[5] CapéraáP,Cutsem B.Méthodes et modèles en statistique non-paramétrique:exposéfondamental。魁北克:拉瓦尔大学出版社;1988.[谷歌学者]·Zbl 0637.62034号
[6] 斯皮尔曼C。两个事物之间联系的证明和测量。《美国心理学杂志》。1904年;15:72-101。doi:10.2307/1412159[Crosref],[Web of Science®],[谷歌学者]
[7] Kendall MG。一种新的等级相关性度量。生物特征。1938;30:81-93. doi:10.1093/biomet/30.1-2.81[Crossref],[Web of Science®],[Google学者]·Zbl 0019.13001号
[8] Kendall MG。排名问题中的关系处理。生物特征。1945;33:239-251. doi:10.1093/biomet/33.3.239[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 0063.03216号
[9] Woodbury Max A.变量相等时的等级相关性。安数学统计1940;11:358-362. doi:10.1214/aoms/1177731875[交叉引用],[谷歌学者]·Zbl 0023.34301号
[10] 学生。斯皮尔曼博士相关系数可能误差的实验测定。生物特征。1921;13:263-282. doi:10.1093/biomet/13.2-3.263[交叉引用],[谷歌学者]
[11] Stuart A.列联表中关联强度的估计和比较。生物特征。1953;40: 105-110. doi:10.2307/2333101[Crossref],[Web of Science®],[Google学者]·Zbl 0050.36405号
[12] Genest C,Nes˘lehováJ.copulas上用于计数数据的引物。阿斯汀公牛。2007;37:475-515. doi:10.2143/AST.37.2.2024077[Crossref],[Web of Science®],[Google学者]·Zbl 1274.62398号
[13] Genest C、Ghoudi K、Rivest LP。多元分布族中相依参数的半参数估计过程。生物特征。1995;82:543-552. doi:10.1093/biomet/82.3.543[Crossref],[Web of Science®],[Google学者]·Zbl 0831.62030号
[14] Schweizer B,Wolff EF。关于随机变量相关性的非参数度量。Ann Stat.1981;9:879-885. doi:10.1214/aos/1176345528[Crossref],[Web of Science®],[Google学者]·兹伯利0468.62012
[15] Genest C,Favre AC。关于交配模型,你一直想知道但又不敢问的一切。《水利工程杂志》,2007年;12:347-368。doi:10.1061/(ASCE)1084-0699(2007)12:4(347)[Crossref],[Web of Science®],[Google学者]
[16] Nelsen R.连接词简介。统计学中的斯普林格系列。纽约:Springer;2006.[谷歌学者]·Zbl 1152.62030
[17] Kojadinovic I,Yan J.使用copula R包对具有连续边际的多元分布进行建模。J统计软件。2010;34:1-20. [谷歌学者]
[18] 费希尔RA。在分类问题中使用多重测量。年度优生学。1936;7:179-188. doi:10.1111/j.1469-1809.1936.tb02137.x[交叉引用],[谷歌学者]
[19] Frank A,Asuncion A.UCI机器学习库。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院;2010.[谷歌学者]
[20] Rémillard B,Scaillet O。两个连接函数之间相等性的测试。《多元分析杂志》。2009;100:377-386. doi:10.1016/j.jmva.2008.05.004[Crossref],[Web of Science®],[Google学者]·Zbl 1157.62401号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。