计算机工程与应用››2021,第57卷››问题(4): 61-67.内政部:10.3778/j.issn.1002-8331.2002-0268

• 理论与研发 • 上一篇   下一篇

用于文本聚类的新型差分进化粒子群算法

胡晓敏,王明丰,张首荣,李敏  

  1. 1广东工业大学 计算机学院,广州 510006
    2广东工业大学 信息工程学院,广州 510006
  • 出版日期:2021-02-15 发布日期:2021-02-06

基于粒子群优化算法的差分进化算法在文本聚类中的应用

胡晓敏、王明峰、张守荣、李敏  

  1. 1.广东工业大学计算机学院,中国广州510006
    2.广东工业大学信息工程学院,广州510006
  • 在线:2021-02-15 出版:2021-02-06

摘要:

针对粒子群优化(粒子群优化,PSO)算法在维度高、特征稀疏的文本聚类过程中,随着算法迭代次数增加在后期陷入局部最优的问题,提出采用多样性更好的差分进化(差分进化,DE)策略更新种群,尝试找到更好的全局最优解。考虑到种群个体间包含的聚类中心向量排列顺序的随机性对个体间的学习与更新的影响,提出一种自适应调整聚类中心向量排列顺序的方法,将个体间相似度最大的聚类中心向量尽可能排列在同一维度。通过在文本数据集上进行测试,验证了所提出的聚类中心排列调整差分进化粒子群(索引自适应DEPSO,IDEPSO)算法在内部、外部指标上相对于其他现有算法的优势,证明了该算法的有效性和可行性。

关键词: 文本聚类, 高维度, 粒子群优化(PSO), 差分进化(德国), [K] -均

摘要:

在具有高维稀疏特征的文本聚类过程中,随着算法迭代次数的增加,粒子群算法在后期容易陷入局部优化。增加了具有更好多样性的差分进化(DE)策略来更新种群并尝试找到更好的全局最优解。同时,考虑到个体间质心顺序的随机性对学习和更新个体的影响,提出了一种质心顺序的自适应调整方法,将个体间相似度最大的质心尽可能列在同一聚类索引中。最后,通过对文本数据集的测试,验证了所提出的聚类索引自适应DEPSO(IDEPSO)算法的优势,并与其他现有算法在内外部指标上进行了比较,证明了该算法的有效性和可行性。

关键词: 文本聚类, 高维, 粒子群优化(PSO), 差异演化(DE), [K] -表示