文件Zbl 1453.62528-zbMATH打开

使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。（英语）兹比尔1453.62528

J.统计计算。模拟 84，第10号，2214-2232（2014）.

摘要：平衡迭代约简和聚类层次结构（BIRCH）算法通过只读取一次数据文件，在读取数据时对数据进行聚类，并且只保留一些聚类特征来总结到目前为止读取的数据，从而处理大量数据集。使用BIRCH可以分析太大而无法放入计算机主内存的数据集。我们提出了根据BIRCH输出计算的Spearman’s（rho）和Kendall’s（tau）的估计值，并通过蒙特卡罗研究评估了它们的性能。数值结果表明，基于BIRCH的估计可以达到与通常的（rho）和（tau）估计相同的效率，而只使用了所需内存的一小部分。

MSC公司：

62H20个	关联度量（相关性、典型相关性等）
62G05型	非参数估计

关键词：

软件：

UCI-毫升；TwoCop公司；连接线；桦木；连接线

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Zhang T，Ramakrishnan R，Livny M.BIRCH：一种适用于超大数据库的高效数据聚类方法。1996年SIGMOD记录；25:103-114. doi:10.1145/235968.233324[交叉引用]，[谷歌学者]
[2]	Harrington J，Salibián-Barrera M.使用BIRCH寻找具有超大数据集的组合问题的近似解。计算统计数据分析。2010;54:655-667. doi:10.1016/j.csda.2008.08.001[Crossref]，[Web of Science®]，[Google学者]·Zbl 1464.62086号
[3]	Charest L、Harrington J、Salibian-Barrera M.Birch：使用Birch处理超大数据集。R包版本1.2-3；2012年【引用自2012年5月4日】。可从以下位置获得：http://cran.r-project.org/web/packages/birch/index.html[谷歌学者]
[4]	Embrachts P、McNeil A、Straumann D。风险管理中的相关性和依赖性：属性和陷阱。收件人：Dempster MAH，编辑。风险管理：风险价值及其他价值。剑桥：剑桥大学出版社；2002年，第176-223页。[Crossref]，[Google学者]
[5]	CapéraáP，Cutsem B.Méthodes et modèles en statistique non-paramétrique:exposéfondamental。魁北克：拉瓦尔大学出版社；1988.[谷歌学者]·Zbl 0637.62034号
[6]	斯皮尔曼C。两个事物之间联系的证明和测量。《美国心理学杂志》。1904年；15:72-101。doi:10.2307/1412159[Crosref]，[Web of Science®]，[谷歌学者]
[7]	Kendall MG。一种新的等级相关性度量。生物特征。1938;30:81-93. doi:10.1093/biomet/30.1-2.81[Crossref]，[Web of Science®]，[Google学者]·Zbl 0019.13001号
[8]	Kendall MG。排名问题中的关系处理。生物特征。1945;33:239-251. doi:10.1093/biomet/33.3.239[Crossref]，[PubMed]，[Web of Science®]，[Google学者]·Zbl 0063.03216号
[9]	Woodbury Max A.变量相等时的等级相关性。安数学统计1940；11:358-362. doi:10.1214/aoms/1177731875[交叉引用]，[谷歌学者]·Zbl 0023.34301号
[10]	学生。斯皮尔曼博士相关系数可能误差的实验测定。生物特征。1921;13:263-282. doi:10.1093/biomet/13.2-3.263[交叉引用]，[谷歌学者]
[11]	Stuart A.列联表中关联强度的估计和比较。生物特征。1953;40: 105-110. doi:10.2307/2333101[Crossref]，[Web of Science®]，[Google学者]·Zbl 0050.36405号
[12]	Genest C，Nes˘lehováJ.copulas上用于计数数据的引物。阿斯汀公牛。2007;37:475-515. doi:10.2143/AST.37.2.2024077[Crossref]，[Web of Science®]，[Google学者]·Zbl 1274.62398号
[13]	Genest C、Ghoudi K、Rivest LP。多元分布族中相依参数的半参数估计过程。生物特征。1995;82:543-552. doi:10.1093/biomet/82.3.543[Crossref]，[Web of Science®]，[Google学者]·Zbl 0831.62030号
[14]	Schweizer B，Wolff EF。关于随机变量相关性的非参数度量。Ann Stat.1981；9:879-885. doi:10.1214/aos/1176345528[Crossref]，[Web of Science®]，[Google学者]·兹伯利0468.62012
[15]	Genest C，Favre AC。关于交配模型，你一直想知道但又不敢问的一切。《水利工程杂志》，2007年；12:347-368。doi:10.1061/（ASCE）1084-0699（2007）12:4（347）[Crossref]，[Web of Science®]，[Google学者]
[16]	Nelsen R.连接词简介。统计学中的斯普林格系列。纽约：Springer；2006.[谷歌学者]·Zbl 1152.62030
[17]	Kojadinovic I，Yan J.使用copula R包对具有连续边际的多元分布进行建模。J统计软件。2010;34:1-20. [谷歌学者]
[18]	费希尔RA。在分类问题中使用多重测量。年度优生学。1936;7:179-188. doi:10.1111/j.1469-1809.1936.tb02137.x[交叉引用]，[谷歌学者]
[19]	Frank A，Asuncion A.UCI机器学习库。加利福尼亚州欧文：加利福尼亚大学信息与计算机科学学院；2010.[谷歌学者]
[20]	Rémillard B，Scaillet O。两个连接函数之间相等性的测试。《多元分析杂志》。2009;100:377-386. doi:10.1016/j.jmva.2008.05.004[Crossref]，[Web of Science®]，[Google学者]·Zbl 1157.62401号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。（英语）兹比尔1453.62528

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。 （英语） 兹比尔1453.62528

MSC公司：

关键词：

软件：

参考文献：

使用平衡迭代约简和聚类层次来计算海量数据集的近似秩统计。（英语）兹比尔1453.62528