计算机科学››2022,第49卷››问题(3): 99-104.数字对象标识:10.11896/jsjkx.210200170

数据库&大数据&数据科学 • 上一篇   下一篇

基于评论和物品描述的深度学习推荐算法

王美玲, 刘晓楠, 尹美娟, 乔猛, 荆丽娜  

  1. 数学工程与先进计算国家重点实验室(信息工程大学) 郑州450002
  • 收稿日期:2021-02-26 修回日期:2021-08-22 出版日期:2022-03-15 发布日期:2022-03-15
  • 通讯作者:刘晓楠(prof.liu.xn@foxmail.com)
  • 作者简介:(751882186@qq.com)

基于评论和项目描述的深度学习推荐算法

王美玲、刘晓南、尹美娟、乔蒙、景丽娜  

  1. 数学工程与高级计算国家重点实验室(信息工程大学),郑州450002
  • 收到:2021-02-26 修订过的:2021-08-22 在线:2022-03-15 出版:2022-03-15
  • 关于作者:王美玲,1995年出生,研究生学历。她的主要研究兴趣包括深度学习和推荐算法。
    刘晓南,1977年生,博士,副教授,硕士生导师,中国计算机联合会会员。他的主要研究兴趣包括量子算法和高性能并行计算。

摘要:评论文本中蕴含着丰富的用户和物品信息,将其应用于推荐算法有助于缓解数据稀疏问题,提高推荐准确度。然而,现有的基于评论的推荐模型对评论文本的挖掘不够充分和有效,并且大多忽视了用户兴趣随时间的迁移和蕴含物品属性的物品描述文档,使得推荐结果不够准确。基于此,文中提出了一种基于深度语义挖掘的推荐模型(基于深度语义挖掘的推荐,DSMR),通过深度挖掘评论文本和物品描述文档的语义信息,更精确地提取用户特征和物品属性特征,从而实现更准确地推荐。首先,所提模型利用BERT(误码率)预训练模型来处理评论文本和物品描述文档,深度挖掘用户特征和物品属性,有效缓解了数据稀疏和物品冷启动问题;然后,利用前向LSTM公司来关注用户偏好随时间产生的变化,得到了更精确的推荐;最后,在模型训练阶段,将实验数据按1~5分1∶1∶1∶1∶1等量随机抽取,保证每个分值的数据量相等,使结果更加准确,模型鲁棒性更强。在4个常用的亚马逊公开数据集上进行实验,结果表明,以均方根误差为评价指标,DSMR公司推荐结果的误差比2个仅基于评分数据的经典推荐模型至少平均降低了11.95%,同时优于基于评论文本的个最新推荐模型,且比其中最优的模型平均降低了5.1%。

关键词: 冷启动, 评论文本, 深度学习, 数据稀疏性, 推荐算法, 物品描述

摘要:评论包含丰富的用户和项目信息,这有助于缓解数据稀疏的问题。然而,现有的基于评论的推荐模型不足以挖掘评论文本,而且大多数模型忽略了用户兴趣随时间的迁移以及包含项目属性的项目描述文档,这使得推荐结果不够准确。本文提出了一种基于深度语义挖掘的推荐模型(DSMR)。通过深入挖掘评论文本和项目描述文档的语义信息,可以更准确地提取用户特征和项目属性,从而实现更准确的推荐。首先,使用BERT预训练模型对评论文本和项目描述文档进行处理,深入挖掘用户特征和项目属性,有效缓解了数据稀疏和项目冷启动的问题。然后,使用前向LSTM关注用户偏好随时间的变化,从而获得更准确的建议。最后,在模型训练阶段,从1到5个点以1∶1∶1比1∶1的比例随机选取实验数据,以确保每个分值的数据量相等,从而使结果更准确,模型更稳健。在四个常用的Amazon开放数据集上的实验表明,DSMR的均方根误差(RMSE)比仅基于评级数据的两个经典推荐模型至少低11.95%,并且优于仅基于评论文本的三个新推荐模型,比最优模型低5.1%。

关键词: 冷启动, 数据稀疏性, 深度学习, 项目描述, 推荐算法, 审查

中图分类号: 

  • TP391型
[1] KIM D,PARK C,OH J,等.文档上下文软件推荐的卷积矩阵分解[C]//第十届ACM推荐系统会议论文集。ACM,2016:233-240。
[2] WANG C,BLEI D M.第17届ACM SIGKDD国际知识发现和数据挖掘会议论文集《科学论文推荐的协作主题建模》[C]//。美国医学会,2011:21-24。
[3] MCAULEY J,LESKOVEC J。隐藏因素和隐藏主题:通过审查文本了解评级维度[C]//ACM推荐系统会议的流程。美国医学会,2013:165-172。
[4] 鲍毅,方和,张J.Topicmf:同时利用评级和评论来获得建议[C]//第二十八届AAAI人工智能会议记录。AAAI出版社,2014:2-8。
[5] TAN Y,ZHANG M,LIU Y,et al.评分提升的潜在话题:通过评分和评论了解用户和项目[C]//第二十五届国际人工智能联合会议论文集。2016:2640-2646。
[6] 凌G,LYU M R,KING I.评级满足审查,一种推荐[C]//ACM推荐系统(RecSys)会议记录的综合方法。ACM,2014:105-112。
[7] CATHERINE R,COHEN W.Transnets:学习转换建议[C]//第11届ACM推荐系统会议记录。ACM,2017:288-296。
[8] BLEI D M,NG A,JORDAN M I.潜在dirichlet分配[J]。机器学习研究杂志,2003.3(4/5):993-1022。
[9] LEE D D,SEUNG H S。非负矩阵分解算法[C]//神经信息处理系统国际会议。麻省理工学院出版社,2000:556-562。
[10] ZHENG L,NOROOZI V,YU P S.使用推荐评论对用户和项目进行联合深度建模[C]//第十届ACM网络搜索和数据挖掘国际会议论文集。ACM,2017:425-434。
[11] KIM D,PARK C,OH J,等.文档上下文软件推荐的卷积矩阵分解[C]//ACM会议。ACM,2016:233-240。
[12] SEO S,HUANG J,YANG H,等.具有局部和全局双重关注的可解释卷积神经网络在评估评级预测中的应用[C]//第十一届ACM大会。ACM,2017:297-305。
[13] WU L,QUAN C,LI C,等.一种面向项目推荐的上下文软件用户-项目表示学习[J]。ACM信息系统交易(TOIS),2019,37(2):1-29。
[14] 戴安明,乐清V.半监督序列学习[J]。麻省理工学院出版社,2015年。
[15] 陈C,张明,刘毅,等.神经注意评定回归与综述级解释[C]//2018年万维网会议论文集.2018:1583-1592。
[16] TAY Y,LUU A T,HUI S C.多点联合注意力网络推荐工作[C]//第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集。2018:2309-2318。
[17] 陈曦,张毅,QIN Z.基于神经注意模型的动态可解释推荐[J]。AAAI人工智能会议记录,2019,33:53-60。
[18] 戴夫林J,张敏伟,李凯,等.BERT:语言理解的深层双向变形金刚预训练[J].arXiv:1810.048052018。
[19] 曹S,杨恩,刘忠。基于堆叠式自动编码器的网络新闻推荐系统[C]//ACIS第十六届国际计算机与信息科学会议(ICIS)。IEEE,2017:721-726。
[20] 王华,王恩,杨德勇.推荐系统的协同深度学习[C]//KDD 2015.ACM,2015:1235-1244。
[21]BAHDANAU D,CHO K,BENGIO Y.联合学习对齐和翻译的神经机器翻译[J].arXiv:1409.04732014。
[22]GEHRING J,AULI M,GRANGIER D,等.卷积序列到序列学习[J].arXiv:1705.031222017。
[23]BAHDANAU D,CHO K,BENGIO Y.联合学习对齐和翻译的神经机器翻译[J]。Computer Ence,2014年。
[24]HERMANN K M,KOCISKY T,GREFENSTETTE E,等。阅读和理解教学机器[C]//神经信息处理系统的进展。麻省理工学院出版社,2015:1693-1701。
[25]SEO M,KEMBHAVI A,FARHADI A,等.机器理解的双向注意流[J].arXiv:1611.016032018。
[26]AMODEI D,ANANTHANARAYANAN S,ANUBHAI R,等.深度语音2:英语和普通话中的端到端语音识别[C]//ICML.2015。
[27]鲁毅,董锐,SMYTH B.共同进化推荐模型:评级与评论之间的相互学习[C]//2018年万维网大会论文集.2018:773-782。
[28]陈J,张华,何X,等.关注协同过滤:项目级和组件级关注的多媒体推荐[C]//国际ACM-Sigir会议。ACM,2017:335-344。
[29]VASWANI A,SHAZEER N,PARMAR N,et al.AttentioniskCM0l All You Need[J].arXiv:1706.037622017。
[30]PETERS M,NEUMANN M,IYYER M,et al.深层语境化词语表征[C]//计算语言学协会北美分会2018年会议论文集:人类语言技术,第1卷(长篇论文),2018。
[31]RADFORD A,NARASIMHAN K,SALIMANS T,et al.通过无监督学习提高语言理解[R]。技术报告,OpenAI,2018年。
[32]KINGMA D,BA J.Adam:一种随机优化方法[J].arXiv:1412.69802014。
[33]科伦Y,贝尔R,沃林斯基C.推荐系统的矩阵分解技术[J]。计算机,2009,42(8):30-37。
[34]SALAKHUTDINOV R,MNIH A.概率矩阵分解[C]//第20届神经信息处理系统国际会议论文集.2007:1257-1264。
[1] 饶志双, 贾真, 张凡, 李天瑞.
基于键值关联记忆网络的知识图谱问答方法
用于知识图问题回答的键值关系存储网络
计算机科学, 2022, 49(9): 202-207.https://doi.org/10.11896/jsjkx.220300277
[2] 汤凌韬, 王迪, 张鲁飞, 刘盛云.
基于安全多方计算和差分隐私的联邦学习方案
基于安全多方计算和差异隐私的联合学习方案
计算机科学, 2022, 49(9): 297-305.https://doi.org/10.11896/jsjkx.210800108
[3] 张佳, 董守斌.
基于评论方面级用户偏好迁移的跨领域推荐算法
基于审查方面级用户偏好转移的跨域推荐
计算机科学, 2022, 49(9): 41-47.https://doi.org/10.11896/jsjkx.220200131
[4] 徐涌鑫, 赵俊峰, 王亚沙, 谢冰, 杨恺.
时序知识图谱表示学习
时间知识图表示学习
计算机科学, 2022, 49(9): 162-171.https://doi.org/10.11896/jsjkx.220500204
[5] 王剑, 彭雨琦, 赵宇斐, 杨健.
基于深度学习的社交网络舆情信息抽取方法综述
基于深度学习的社会网络舆情信息提取研究综述
计算机科学, 2022, 49(8): 279-293.https://doi.org/10.11896/jsjkx.220300099
[6] 郝志荣, 陈龙, 黄嘉成.
面向文本分类的类别区分式通用对抗攻击方法
文本分类中的类鉴别通用对抗攻击
计算机科学, 2022, 49(8): 323-329.https://doi.org/10.11896/jsjkx.220200077
[7] 姜梦函, 李邵梅, 郑洪浩, 张建朋.
基于改进位置编码的谣言检测模型
基于改进位置嵌入的谣言检测模型
计算机科学, 2022, 49(8): 330-335.https://doi.org/10.11896/jsjkx.210600046
[8] 方义秋, 张震坤, 葛君伟.
基于自注意力机制和迁移学习的跨领域推荐算法
基于自我注意机制和转移学习的跨域推荐算法
计算机科学, 2022, 49(8): 70-77.https://doi.org/10.11896/jsjkx.210600011
[9] 孙奇, 吉根林, 张杰.
基于非局部注意力生成对抗网络的视频异常事件检测方法
基于非局部注意的视频异常事件检测生成对抗网络
计算机科学, 2022, 49(8): 172-177.https://doi.org/10.11896/jsjkx.210600061
[10] 侯钰涛, 阿布都克力木·阿布力孜, 哈里旦木·阿布都克里木.
中文预训练模型研究进展
中国预训练模型研究进展
计算机科学, 2022, 49(7): 148-163.https://doi.org/10.11896/jsjkx.211200018
[11] 周慧, 施皓晨, 屠要峰, 黄圣君.
基于主动采样的深度鲁棒神经网络学习
基于主动采样的鲁棒深度神经网络学习
计算机科学, 2022, 49(7): 164-169.https://doi.org/10.11896/jsjkx.210600044
[12] 苏丹宁, 曹桂涛, 王燕楠, 王宏, 任赫.
小样本雷达辐射源识别的深度学习方法综述
基于小样本的雷达辐射源识别深度学习研究综述
计算机科学, 2022, 49(7): 226-235.https://doi.org/10.11896/jsjkx.210600138
[13] 胡艳羽, 赵龙, 董祥军.
一种用于癌症分类的两阶段深度特征选择提取算法
用于癌症分类的两阶段深度特征选择提取算法
计算机科学, 2022, 49(7): 73-78.https://doi.org/10.11896/jsjkx.210500092
[14] 程成, 降爱莲.
基于多路径特征提取的实时语义分割方法
基于多通道特征提取的实时语义分割方法
计算机科学, 2022, 49(7): 120-126.https://doi.org/10.11896/jsjkx.210500157
[15] 王君锋, 刘凡, 杨赛, 吕坦悦, 陈峙宇, 许峰.
基于多源迁移学习的大坝裂缝检测
基于多源传递学习的大坝裂缝检测
计算机科学, 2022年,49(6A):319-324。https://doi.org/10.11896/jsjkx.210500124
已查看
全文


摘要

引用

  共享   
  讨论   
找不到建议阅读的文章!