×

模糊聚类是指基于主题概念子空间的文本聚类。 (英语) Zbl 1142.68472号

摘要:为了提高文本聚类的准确性,引入了基于主题概念子空间的模糊均值聚类(TCS2FCM)对文本进行分类。将五个评估函数组合在一起以提取关键短语。概念短语以及最终簇的描述使用WorldNet(^\circledR)来源于关键短语来表示。初始中心和隶属度矩阵是影响聚类性能的最重要因素。正交概念主题子空间是由代表文本主题的主题概念短语、中心初始化和隶属度矩阵依赖于子空间中的概念向量构成的。结果表明,与传统模糊均值聚类的随机初始化不同,与文本内容贡献相关的初始化可以提高聚类精度。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
68单位15 文本处理的计算方法;数学排版
PDF格式BibTeX公司 XML格式引用