×

迭代去噪。 (英语) Zbl 1221.62095号

迭代去噪是一种用于分析大型异构数据集(例如文本文档集)的数据挖掘技术。它的结果是一个层次划分聚类树,每个节点都有可视化表示。该技术的具体特点是,聚类的特征分别从层次结构中每个节点的数据中提取。此提取是通过对与当前节点对应的数据集的差异结构进行多维缩放来完成的。采用k-means聚类方法进行节点划分,并应用于科学新闻网站1047篇文本的分析。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-07 数据分析(统计)(MSC2010)
62页99 统计学的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alpert C和Kahng A(1995年)。网表分区的最新方向:总结。集成VLSI J 19(1):1–81·Zbl 0876.94063号 ·doi:10.1016/0167-9260(95)00008-4
[2] Arnoldi W(1951)。矩阵特征值问题求解中的最小迭代原理。Q J应用数学9:17–29·Zbl 0042.12801号
[3] Arya S、Mount D、Netanyahu N、Silverman R和Wu A(1998年)。一种固定维近似最近邻搜索的优化算法。J ACM 45(6):891–923·兹比尔1065.68650 ·数字对象标识代码:10.1145/293347.293348
[4] Banerjee S,Pedersen T(2003)ngram统计数据包的设计、实现和使用。摘自:第四届智能文本处理和计算语言学国际会议论文集。墨西哥墨西哥城·Zbl 1026.68679号
[5] Belkin M和Niyogi P(2003)。用于降维和数据表示的拉普拉斯特征映射。神经计算15(6):1373–1396·Zbl 1085.68119号 ·doi:10.11162/0899760360321780317
[6] 伯克R(2006)。介绍数据分析的集成方法。社会方法研究34(3):263-295·doi:10.1177/0049124105283119
[7] 克拉克森·K(1999)。度量空间中的最近邻查询。离散计算几何22(1):63–69·Zbl 0994.54501号 ·doi:10.1007/PL00009449
[8] 科马克R(1971)。分类回顾(讨论)。J R Stat Soc Ser A(通用)134(3):321–367
[9] 克里奇利F(1988)。关于内积矩阵和平方距离矩阵之间的某些线性映射。线性代数应用105:91–107·Zbl 0644.15003号 ·doi:10.1016/0024-3795(88)90006-7
[10] de Leeuw J(1988)。多维尺度优化方法的收敛性。J类5:163–180·Zbl 0692.62056号 ·doi:10.1007/BF01897162
[11] Donoho D和Grimes C(2003年)。黑森特征映射:高维数据的局部线性嵌入技术。国家科学院学报100(10):5591–5596·Zbl 1130.62337号 ·doi:10.1073/pnas.1031596100
[12] 埃弗里特B(1993)。聚类分析,第三版。霍尔斯特德出版社,纽约·兹比尔0507.62060
[13] Faloutsos C,Lin K(1995)FastMap:一种用于索引、数据挖掘和传统和多媒体数据集可视化的快速算法。摘自:1995年ACM SIGMOD国际数据管理会议记录,第163-174页
[14] 菲德勒M(1973)。图的代数连通性。捷克数学J 23(98):298–305·Zbl 0265.05119号
[15] Garey M,Johnson D,Stockmeyer L(1974)一些简化的NP-完全问题。摘自:第六届ACM计算理论年会论文集,第47-63页·Zbl 0338.05120号
[16] Giles K(2006)。计算机网络数据中的知识发现:一个安全视角。博士论文。巴尔的摩约翰霍普金斯大学
[17] Gionis A,Indyk P,Motwani R(1999)通过散列进行高维相似性搜索。附:第25届VLDB会议记录,第518-529页
[18] Gordon A(1999)《分类》,第二版。查普曼&霍尔/CRC,博卡拉顿
[19] Gower J(1966)。多元分析中潜在根和向量方法的一些距离性质。生物特征53:325–338·Zbl 0192.26003号
[20] Grosjean J、Plaisant C、Bederson B(2002)空间树:支持大节点链接树的探索、设计进化和经验评估。摘自:IEEE信息可视化研讨会论文集,第57-64页
[21] Hendrickson B,Leland R(1995)划分图的多级算法。收录:《1995年超级计算:1995年ACM/IEEE超级计算会议论文集》,ACM出版社·Zbl 0816.68093号
[22] Houle M(2003)Sash:相似性搜索的空间近似样本层次,技术报告RT-0517,IBM东京研究实验室
[23] Houle M,Sakuma J(2005)超高维数据集中的快速近似相似性搜索。摘自:第21届国际数据工程会议,第619-630页
[24] Indyk P,Motwani R(1998)《近似最近邻:消除维度诅咒》。摘自:第30届ACM计算理论研讨会论文集,第604-613页·Zbl 1029.68541号
[25] Kanungo T、Mount D、Netanyahu N、Piatko C、Silverman R和Wu A(2004年)。k均值聚类的局部搜索近似算法。计算几何理论应用28:89–112·Zbl 1077.68109号 ·doi:10.1016/j.comgeo.2004.03.003
[26] Karypis G和Kumar V(1998年)。一种用于划分不规则图的快速高质量多级方案。SIAM科学计算杂志20(1):359–392·Zbl 0915.68129号 ·doi:10.137/S1064827595287997
[27] Kernighan B和Lin S(1970)。划分图的有效启发式过程。贝尔系统技术J 49(2):291–307·兹比尔0333.05001 ·文件编号:10.1002/j.1538-7305.1970.tb01770.x
[28] Kushilevitz E,Ostrovsky R,Rabani Y(1998)近似最接近点查询的算法。摘自:第30届ACM计算理论研讨会论文集,第614-623页·Zbl 1029.68542号
[29] Lanczos C(1950)。求解线性微分和积分算子特征值问题的迭代方法。J Res Natl Bur标准45(4):255–282·doi:10.6028/jres.045.026
[30] Lehoucq R和Yang C(1998)。ARPACK用户指南:使用隐式重新启动的Arnoldi方法解决大规模特征值问题。费城SIAM·Zbl 0901.65021号
[31] Lin D,Pantel P(2002),从文本中发现概念。摘自:计算语言学会议论文集,第577-583页
[32] Mirkin B(2005)《数据挖掘聚类:数据恢复方法》。查普曼&霍尔/CRC,博卡拉顿·Zbl 1083.68099号
[33] 波特M(1980)。后缀剥离算法。程序14(3):130–137·doi:10.1108/eb046814
[34] Priebe C、Marchette D和Healy D(2004年a)。集成传感和处理决策树。IEEE Trans-Pattern Ana Mach Intell 26(6):699–708·Zbl 1103.68780号 ·doi:10.1109/TPAMI.2004.12
[35] Priebe C、Marchette D、Park Y、Wegman E、Solka J、Socolinsky A、Karakos D、Church K、Guglielmi R、Coifman R、Lin D、Healy D、Jacobs M、Tsao A(2004b)跨语料库发现的迭代去噪。摘自:Antoch J(ed),COMPSTAT:计算统计学论文集,第16届研讨会。Physica Verlag,施普林格,第381–392页·Zbl 1170.62419号
[36] Roweis S和Saul L(2000年)。局部线性嵌入的非线性降维。科学290(5500):2323–2326·doi:10.1126/science.290.5500.2323
[37] Saerens M,Fouss F,Yen L,Dupont P(2004)图的主成分分析及其与谱聚类的关系。收录:第15届欧洲机器学习会议论文集。人工智能课堂讲稿,第371-383页·兹比尔1132.68589
[38] 沙尔科夫R(1991)。模式识别:统计结构和神经方法。威利,纽约
[39] Tenenbaum J、DeSilva V和Langford J(2000)。非线性降维的全局几何框架。科学290(5500):2319–2322·doi:10.1126/science.290.5500.2319
[40] 托格森·W(1952)。多维缩放:理论和方法。《心理测量学》17:401–419·Zbl 0049.37603号 ·doi:10.1007/BF02288916
[41] Trosset M,Groenen P(2005),大型数据集的多维缩放算法。计算科学统计
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。