Improved Training of Deep Text Clustering

Zonghao Yang; Wenpeng Hu; Yushan Tan; Zhunchen Luo

doi:10.18653/v1/2023.findings-emnlp.163

改进的深度文本聚类训练

摘要

经典的深度聚类优化方法基本上是利用聚类中心、互信息和距离度量等信息构造隐式广义标签来建立信息反馈（弱监督），从而优化深度模型。然而，由于聚类精度的限制，得到的广义标签在整个聚类过程中有不同程度的错误，这严重干扰了聚类过程。为此，本文从经验风险最小化的角度，利用样本之间的相关性，提出了一种通用的深度聚类优化方法。对两种经典深度聚类方法的实验证明了该方法的必要性和有效性。代码位于https://github.com/yangzonghao1024/DCGLU。

选集ID：: 2023.结果-emnlp.163
音量：: 计算语言学协会的发现：EMNLP 2023
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司，胡安·皮诺，卡利卡-巴厘岛
地点：: 调查结果
SIG公司：
发布者：: 计算语言学协会
注：
页：: 2490–2499
语言：
网址：: https://aclantology.org/2023.findings-emnlp.163
内政部：: 10.18653/v1/2023.查找-emnlp.163
比比键：
引用（ACL）：: 杨宗浩、胡文鹏、谭玉山和罗准钦。2023改进的深度文本聚类训练.英寸计算语言学协会的发现：EMNLP 2023，第2490–2499页，新加坡。计算语言学协会。
引用（非正式）：: 改进的深度文本聚类训练（Yang等人，发现2023）
复制引文：
PDF格式：: https://aclantology.org/2023.findings-emnlp.163.pdf

PDF格式引用搜索