岩石 swMATH编号: 37720 软件作者: Guha,S。;Rastogi,R。;垫片,K。 描述: ROCK:一种稳健的类别属性聚类算法。在数据挖掘中,聚类有助于发现基础数据中的分布模式。聚类算法通常使用基于距离度量(例如欧几里德)的相似性度量来划分数据库,以便同一分区中的数据点比不同分区中的点更相似。本文研究了具有布尔属性和类别属性的数据的聚类算法。我们表明,使用点之间距离进行聚类的传统聚类算法不适用于布尔属性和类别属性。相反,我们提出了一个新的链接概念来衡量一对数据点之间的相似性/接近性。我们开发了一种鲁棒的层次聚类算法ROCK,在合并簇时使用链接而不是距离。我们的方法自然扩展到与领域专家/相似表是唯一知识来源的情况相关的非度量相似性度量。除了给出ROCK的详细复杂性结果外,我们还利用真实数据集和合成数据集进行了实验研究,以证明我们的技术的有效性。对于具有类别属性的数据,我们的研究结果表明,ROCK不仅可以生成比传统算法更好的质量聚类,而且还具有良好的可扩展性。 主页: http://theory.stanford.edu/~sudipto/mypapers/categical.pdf 相关软件: UCI-毫升;群集查找;COOLCAT公司;ElemStatLearn(电子状态学习);开放式基金;作为136;COSA公司;剪影;奥卡;自动分类;4.5条;FGKA公司;麦克卢斯特;CloseGraph(关闭图形);前缀跨度;gSpan(量程);A群集;ap集群;HPStream公司;蛛网/3 引用于: 43文件 全部的 前5名127位作者引用 三 曹福源 三 梁继业 2 Dang,创银 2 赵兴旺 1 海伦娜·艾多斯 1 萨伊德·阿米里 1 白,梁 1 托萨蓬·布恩根 1 马克·伯里 1 曹良良 1 甘纳·E·卡尔森。 1 陈,辛 1 陈金一 1 程东东 1 郑遵平 1 赵成雄 1 汤米·W·S·周。 1 朱廷金 1 Bertrand S.克拉克。 1 克拉克、詹妮弗·林恩 1 高聪 1 戴、韩波 1 戴天如 1 de A.T.de Carvalho,弗朗西斯科 1 菲利普·德梅洛(Filipe M.De Melo)。 1 邓胜春 1 阿方索·艾奥迪斯·德恩扎 1 维罗尼克·德斯兰德斯 1 吉安卡洛·戴安娜 1 皮耶保罗·德乌尔索 1 阿兰·杜索奇(Alain E.Dussauchoy)。 1 海瑟姆·埃尔加泽尔 1 叶海亚·法提 1 弗雷德,安娜·L·N。 1 文卡特什·甘蒂 1 加夫瓦,苏里亚·特贾 1 Gehrke,Johannes E。 1 米歇尔·金蒂利 1 马可·佐丹 1 维韦卡南·戈帕尔克里希南 1 韩嘉伟 1 何增友 1 安东尼奥·赫拉斯。 1 黄金龙 1 韦尔塔·穆尼奥斯,戴安娜·L。 1 我在,纳塔坎 1 穆罕默德·伊斯梅尔。 1 金、文 1 金、卓 1 穆罕默德·卡梅尔。 1 Kang,Pilsung(皮尔逊·康) 1 谢赫扎德·哈立德 1 哈马马切·卡杜奇 1 金、京戈 1 金、桑昆 1 吉尔卡尼 1 伊夫·莱切瓦利埃 1 李德玉 1 李金凤 1 李,齐 1 李庆华 1 梁玉奇 1 廖海勇 1 林毅鹏 1 卢,魏寅 1 马伯元 1 马,伊登·W·M。 1 里卡多·马萨里 1 安德烈·梅耶斯 1 梅莫利、法孔多 1 欧内斯特·蒙加 1 Murty,M.Narasimha先生 1 伊凡·纳吉 1 吴国宝(Michael Kwok-Po) 1 奥姆,哈里 1 弗朗西斯科·帕伦博 1 HweeHwa庞 1 沙拉特·普纳 1 钱海雷 1 钱伟宁 1 拉胡·拉马克里希南 1 沙希德·拉扎克 1 里奥斯·梅尔卡多,罗杰·Z。 1 鲁宾·鲁伊斯 1 S.、Karthik C。 1 拉维·桑卡·桑加姆 1 桑托斯·曼古多,卡洛斯 1 克里斯·施维格尔斯霍恩 1 圣地亚哥塞加拉 1 史百乐 1 开尔文·西姆 1 索拉,玛拉 1 Subramanian,D.K。 1 涂静 1 埃夫·埃维尼·乌利基奇 1 文森特·维格纳龙 1 维贾亚,P.A。 1 多米尼克·弗契科娃 1 王,贝贝 1 王康良 …还有27位作者 全部的 前5名27篇连载文章中引用 9 模式识别 三 信息科学 三 计算机科学与技术杂志 三 数据挖掘与知识发现 2 机器学习 2 欧洲运筹学杂志 1 应用数学与计算 1 计算机与系统科学杂志 1 Metron公司 1 保险数学与经济学 1 分类杂志 1 算法 1 信息与计算 1 运筹学年鉴 1 计算统计学 1 统计传播。理论与方法 1 帕阿。模式分析与应用 1 武汉大学自然科学学报 1 CEJOR公司。中欧运筹学杂志 1 萨达纳 1 JMMA公司。数学建模与算法杂志 1 智能与模糊系统杂志 1 统计分析与数据挖掘 1 计算与图形统计杂志 1 模糊信息与工程 1 计算机科学评论 1 SIAM应用代数和几何杂志 全部的 前5名在7个字段中引用 24 计算机科学(68至XX) 23 统计学(62-XX) 三 运筹学、数学规划(90-XX) 2 信息与通信理论、电路(94-XX) 1 组合数学(05-XX) 1 数值分析(65-XX) 1 博弈论、经济学、金融学以及其他社会和行为科学(91-XX) 按年份列出的引文