第条

BoostCluster：通过成对约束促进聚类

作者信息和声明

KDD’07：第13届ACM SIGKDD知识发现和数据挖掘国际会议记录2007年8月第450–459页https://doi.org/10.1145/1281192.1281242

出版：2007年8月12日出版历史

KDD'07：第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集

第450–459页

摘要

数据聚类是许多学科中的一项重要任务。大量研究试图通过使用通常编码为成对约束的边信息来改进聚类。然而，这些研究侧重于设计能够有效利用成对约束的特殊聚类算法。我们提出了一个用于数据集群的增强框架，称为Boost群集，能够迭代地提高任何利用成对约束给出了聚类算法。设计数据聚类增强框架的关键挑战是如何利用附带信息影响任意聚类算法，因为根据定义，聚类算法是无监督的。提出的框架通过在每次迭代时动态生成新的数据表示来解决这个问题，这些数据表示一方面适用于给定算法在以前迭代时的聚类结果，另一方面与给定的边信息一致。我们的实证研究表明，所提出的boosting框架有效地提高了许多流行的聚类算法（K-means、partitional SingleLink、spectrum clustering）的性能，其性能可与最先进的带副信息数据聚类算法相媲美。

工具书类

M.R.Anderberg，《应用的聚类分析》。学术出版社，纽约，纽约，1973年。谷歌学者
S.巴苏。半监督聚类：概率模型、算法和实验。德克萨斯大学奥斯汀分校博士论文，2005年。谷歌学者数字图书馆
S.Basu、A.Banerjee和R.J.Mooney。成对约束聚类的主动半监督。2004年ICDM。谷歌学者交叉引用
S.Basu、M.Bilenko和R.J.Mooney。半监督聚类的概率框架。SIGKDD’04，2004。谷歌学者数字图书馆
R.Bekkerman和M.Sahami。使用组合MRF的半监督聚类。2006年ICML-06结构化输出空间学习研讨会。谷歌学者
K.Bennett、P.Bradley和A.Demiriz。约束k-means聚类。技术报告2000-65，Microsoft Research，2000年5月。谷歌学者
I.戴维森和S.拉维。约束下的聚类：可行性结果和k-means算法。在2005年SIAM数据挖掘会议上。谷歌学者
I.戴维森和S.拉维。带约束的层次聚类：理论与实践。2005年第9届欧洲KDD原则与实践（PKDD）。谷歌学者数字图书馆
C.B.D.J.Newman、S.Hettich和C.Merz。UCI机器学习数据库库，1998年。谷歌学者
Y.Freund和R.E.Schapire。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志，55（1）：119--1391997。谷歌学者数字图书馆
J.Goldberger、S.T.Roweis、G.E.Hinton和R.Salakhutdinov。邻里成分分析。在2004年的NIPS’04中。谷歌学者
M.Halkidi、D.Gunopulos、N.Kumar、M.Vazirgiannis和C.Domeniconi。基于主观和客观聚类标准的半监督学习框架。2005年ICDM。谷歌学者数字图书馆
T.Hertz、A.Bar-Hillel和D.Weinshall。提升基于边缘的距离函数用于聚类。2004年ICML。谷歌学者数字图书馆
T.Hertz、A.B.Hillel和D.Weinshall。用小样本训练学习核函数进行分类。在2006年6月的ICML中。谷歌学者数字图书馆
S.C.H.Hoi、W.Liu、M.R.Lyu和W.-Y.Ma。图像检索中带上下文约束的学习距离度量。2006年6月CVPR。谷歌学者数字图书馆
A.K.Jain、M.N.Murty和P.J.Flynn。数据聚类：综述。ACM计算。调查。，31（3）：264--3231999年9月。谷歌学者数字图书馆
S.D.Kamvar、D.Klein和C.D.Manning。光谱学习。2003年3月，IJCAI。谷歌学者数字图书馆
D.Klein、S.D.Kamvar和C.D.Manning。从实例级约束到空间级约束：充分利用数据聚类中的先验知识。谷歌学者数字图书馆
B.Kulis、S.Basu、I.Dhillon和R.Mooney。半监督图聚类：一种核方法。2005年ICML’05。谷歌学者数字图书馆
J.T.Kwok和I.W.Tsang。用理想的内核学习。2003年3月ICML。谷歌学者
T.Lange、M.H.C.Law、A.K.Jain和J.M.Buhmann。使用约束数据和未标记数据进行学习。在CVPR'052005中。谷歌学者数字图书馆
M.H.C.Law、A.P.Topchy和A.K.Jain。具有概率约束的基于模型的聚类。2005年5月SDM。谷歌学者交叉引用
Z.Lu和T.Leen。半监督学习与惩罚概率聚类。NIPS’05，2005。谷歌学者
A.Y.Ng、M.I.Jordan和Y.Weiss。关于谱聚类：分析和算法。2001年NIPS’01。谷歌学者
M.Schultz和T.Joachims。从相对比较中学习距离度量。2003年NIPS’03。谷歌学者
N.Shental、A.Bar-Hillel、T.Hertz和D.Weinshall。利用边信息计算EM的高斯混合模型。程序中。机器学习和数据挖掘中从标记数据到未标记数据的连续性研讨会，2003年。谷歌学者
K.Wagstaff、C.Cardie、S.Rogers和S.Schroedl。带背景知识的约束k-means聚类。2001年1月ICML。谷歌学者数字图书馆
K.Weinberger、J.Blitzer和L.Saul。大幅度最近邻分类的距离度量学习。2006年NIPS’06。谷歌学者
E.P.Xing、A.Y.Ng、M.I.Jordan和S.Russell。远程度量学习，应用于带有副信息的集群。2003年NIPS’03。谷歌学者数字图书馆
L.Yang、R.Jin、R.Sukthankar和Y.Liu。一种有效的局部距离度量学习算法。2006年AAAI'06。谷歌学者数字图书馆
Y.Yang和X.Liu。重新审视文本分类方法。1999年SIGIR’99。谷歌学者数字图书馆
Z.Zhang、J.Kwok和D.Yeung。带标签信息的参数化距离度量学习。2003年3月，IJCAI。谷歌学者数字图书馆

索引术语

BoostCluster：通过成对约束促进聚类
1. 计算方法
  1. 机器学习
    1. 学习范式
      1. 无监督学习
        聚类分析
2. 信息系统
  1. 信息检索
    1. 检索任务和目标
      1. 聚类和分类
  2. 信息系统应用
    1. 数据挖掘
      1. 群集

建议

一种基于大小不敏感积分的模糊c-均值数据聚类方法

模糊c均值（FCM）是数据聚类中最流行的技术之一。由于FCM倾向于平衡每个簇中的数据点数量，较小簇的中心被迫漂移到较大的相邻簇。对于具有…的数据集。。。
阅读更多信息
基于成对约束的半监督减法聚类新方法
ICEICE’12:2012年第二届国际电气信息与控制工程会议记录第2卷

本文提出了一种基于成对约束的半监督减法聚类方法。由于传统的减法聚类方法不能获得更好的聚类精度，因此一些成对约束被视为是最优的。。。
阅读更多信息
集成初始化k-Means聚类
ICMLC’19：2019年第11届机器学习和计算国际会议记录

作为最经典的聚类技术之一，k-means聚类在过去的几十年里被广泛应用于各个领域。尽管它取得了巨大的成功，但在k-均值聚类研究中仍然存在一些具有挑战性的问题。。。
阅读更多信息

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

发布于
KDD’07：第13届ACM SIGKDD知识发现和数据挖掘国际会议记录
2007年8月
1080页
国际标准图书编号：9781595936097
内政部：10.1145/1281192
总主席：
帕维尔·伯克欣
雅虎！，美国
,
课程主席：
里奇·卡鲁阿纳
美国康奈尔大学
,
吴新东
美国佛蒙特大学
版权所有©2007 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或收取费用。向请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2007年8月12日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
增压
数据聚类
成对约束
半监督学习
限定符
- 第条
会议

接受率
07年KDD纸张接受率111属于573提交文件，19%总体验收率1,133属于8,635提交文件，13%
更多
即将召开的会议
KDD'24款

赞助商：

sigkdd公司

sigkdd公司

KDD’24：第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙
资金来源
其他指标
查看文章指标

文章指标
- 40
  引文总数
  查看引文
- 1,129
  总下载次数
- 下载次数（过去12个月）23
- 下载量（最近6周）0
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

BoostCluster：通过成对约束促进聚类

KDD'07：第13届ACM SIGKDD知识发现和数据挖掘国际会议论文集

摘要

工具书类

引用人

索引术语

建议

一种基于大小不敏感积分的模糊c-均值数据聚类方法

基于成对约束的半监督减法聚类新方法

集成初始化k-Means聚类

评论