×

CLDA公司

swMATH ID: 25053
软件作者: 邱丽蓉;于,贾
描述: CLDA:大数据背景下挖掘用户兴趣偏好的有效主题模型。在当前大数据背景下,如何有效挖掘有用信息是大数据面临的问题。本研究的目的是构建一种在当今大数据背景下挖掘特定领域用户兴趣偏好的更有效方法。我们主要使用微博上的大量用户文本数据进行研究。LDA是一种有效的文本挖掘方法,但在将LDA直接应用于微博中的大量短文本时,它不会发挥很好的作用。在今天更有效的主题建模项目中,需要将短文本聚合为长文本,以避免数据稀疏。然而,聚合的短文本混合了大量噪声,降低了挖掘用户兴趣偏好的准确性。本文提出了一种新的主题模型——组合潜在Dirichlet分配(CLDA),它可以同时学习微博短文本和长文本的潜在主题。通过聚合长文本来帮助学习短文本,可以避免短文本的数据稀疏性。短文本过滤长文本被重用以提高挖掘准确性,使长文本和短文本有效结合。在真实微博数据集中的实验结果表明,CLDA在挖掘用户兴趣方面优于许多高级模型,并且我们也证实了CLDA在推荐系统中也具有良好的性能。
主页: https://www.hindawi.com/journals/complexity/2018/2503816/
关键词: 大数据背景;数据挖掘;组合潜在Dirichlet分配(CLDA)
引用于: 0个文档