改进的深度文本聚类训练

杨宗浩胡文鹏玉山滩准钦罗


摘要
经典的深度聚类优化方法基本上是利用聚类中心、互信息和距离度量等信息构造隐式广义标签来建立信息反馈(弱监督),从而优化深度模型。然而,由于聚类精度的限制,得到的广义标签在整个聚类过程中有不同程度的错误,这严重干扰了聚类过程。为此,本文从经验风险最小化的角度,利用样本之间的相关性,提出了一种通用的深度聚类优化方法。对两种经典深度聚类方法的实验证明了该方法的必要性和有效性。代码位于https://github.com/yangzonghao1024/DCGLU。
选集ID:
2023.结果-emnlp.163
音量:
计算语言学协会的发现:EMNLP 2023
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司胡安·皮诺卡利卡-巴厘岛
地点:
调查结果
SIG公司:
发布者:
计算语言学协会
注:
页:
2490–2499
语言:
网址:
https://aclantology.org/2023.findings-emnlp.163
内政部:
10.18653/v1/2023.查找-emnlp.163
比比键:
引用(ACL):
杨宗浩、胡文鹏、谭玉山和罗准钦。2023改进的深度文本聚类训练.英寸计算语言学协会的发现:EMNLP 2023,第2490–2499页,新加坡。计算语言学协会。
引用(非正式):
改进的深度文本聚类训练(Yang等人,发现2023)
复制引文:
PDF格式:
https://aclantology.org/2023.findings-emnlp.163.pdf