跳到主要内容
研究论文

把你的声音放在舞台上:新闻文章的个性化标题生成

出版:2023年12月9日 出版历史

摘要

在本文中,我们研究个性化新闻标题的生成问题,其目的不仅是为新闻文章生成简明且事实一致的标题,还通过结合读者的偏好将这些标题装饰成个性化的不可抗拒的阅读邀请。我们提出一种方法,命名为巴布亚新几内亚 (P(P)个人化的N个新闻标题G公司generator)通过对读者过去的点击行为进行远程监控来解决。首先,通过知识软件用户编码器学习用户偏好表示,该编码器全面捕获用户在历史点击新闻中反映的真实、连续和闪光兴趣。然后,设计一个用户扰动指针生成器网络来完成标题生成,其中学习到的用户表示隐含地影响单词预测。该模型由强化学习求解器进行优化,生成标题的事实、个性化和语言方面的指标被视为奖励。在真实世界数据集PENS上进行了广泛的实验,该数据集是从Microsoft News收集的大规模基准。定量和定性结果都验证了我们方法的有效性。

工具书类

[1]
Enrique Alfonseca、Daniele Pighin和Guillermo Garrido。2013.Heady:通过事件模式聚类提取新闻标题。InACL程序. 1243–1253.
[2]
安明孝、吴方钊、吴楚汉、张坤、刘郑和谢兴。2019.具有长期和短期用户表示的神经新闻推荐。ACL程序. 336–345.
[3]
向敖、王喜亭、凌罗、应巧、清河和谢兴。2021.PENS:个性化新闻标题生成的数据集和通用框架。ACL-IJCNLP会议录(第1卷:长篇论文). 82–92.
[4]
菲利普·巴赫曼和多伊娜·普雷库普。2015年,数据生成作为顺序决策。NIPS会议记录. 3249–3257.
[5]
米歇尔·班科(Michele Banko)、维布·奥·米塔尔(Vibhu O.Mittal)和迈克尔·维特布罗克(Michael J.Witbrock)。2000.基于统计翻译的标题生成。ACL程序. 318–325.
[6]
Antoine Bordes、Nicolas Usunier、Alberto Garcia-Duran、Jason Weston和Oksana Yakhnenko。2013.转换用于建模多关系数据的嵌入。NIPS会议记录. 2787–2795.
[7]
陈忠霞、王西婷、谢兴、吴彤、布国庆、王以宁和陈恩红。2019.共同关注多任务学习,提供可解释的建议。IJCAI会议记录. 2137–2143.
[8]
魏楚和Seung-Taek公园,2009年。使用预测双线性模型对动态内容进行个性化推荐。WWW会议记录. 691–700.
[9]
Mark Claypool、Anuja Gokhale、Tim Miranda、Paul Murnikov、Dmitry Netes和Matthew Sartin。1999.将基于内容的过滤器和协作过滤器结合在一份在线报纸上。SIGIR推荐系统研讨会会议记录.
[10]
Meredyth Daneman和Patricia A.Carpenter。1980年。工作记忆和阅读的个体差异。记忆与语言杂志19, 4 (1980), 450.
[11]
Abhinandan S.Das、Mayur Datar、Ashutosh Garg和Shyam Rajaram。2007.谷歌新闻个性化:可扩展的在线协作过滤WWW会议记录. 271–280.
[12]
Bonnie Dorr、David Zajic和Richard Schwartz。2003.对冲修剪器:对标题生成的解析和修剪方法。HLT-NAACL文本摘要研讨会会议记录.
[13]
傅振新、谭晓叶、彭南云、赵东艳和严瑞燕。2018年,文本风格转换:探索与评估。AAAI会议记录. 663–670.
[14]
丹尼尔·加夫里洛夫(Daniel Gavrilov)、帕维尔·卡莱丁(Pavel Kalaidin)和瓦伦丁·马利赫(Valentin Malykh)。2019.标题生成的自我关注模式。ECIR会议记录.
[15]
顾家涛、陆正东、李杭和李伟强,2016。将复制机制纳入序列到序列学习。ACL程序. 1631–1640.
[16]
顾晓涛、毛云宁、韩嘉伟、刘佳璐、余洪坤、吴游、余聪、丹尼尔·芬妮、翟嘉琪和尼古拉斯·祖科斯基。2020年,为新闻故事制作具有代表性的标题。WWW会议记录.
[17]
纪国良、何世柱、徐立恒、刘康、赵军。2015.通过动态映射矩阵嵌入知识图ACL程序. 687–696.
[18]
Diederik P.Kingma和Jimmy Ba.2014年。亚当:一种随机优化方法。arXiv预打印arXiv:1412.6980(2014).
[19]
约瑟夫·康斯坦(Joseph A.Konstan)、布拉德利·米勒(Bradley N.Miller)、大卫·马尔茨(David Maltz)、乔纳森·赫洛克(Jonathan L.Herlocker)、李·戈登(Lee R.Gordon)和约翰·里德尔(John。1997年,GroupLens:对Usenet新闻应用协作过滤。ACM通信40, 3 (1997), 77–87.
[20]
Wojciech Kryscinski、Bryan McCann、Caiming Xiong和Richard Socher。2020年。评估抽象文本摘要的事实一致性。EMNLP会议记录. 9332–9346.
[21]
保罗·拉罗克。2003你赢得的标题:更好的标题和标题写作简易指南马里恩街出版社。
[22]
迈克·刘易斯(Mike Lewis)、刘银汉(Yinhan Liu)、纳曼·戈亚尔(Naman Goyal)、马詹·加兹维尼尼亚德(Marjan Ghazvininejad)、阿卜杜勒拉赫曼·穆罕默德(Abdelrahman Mohamed)、奥马尔·利维(Omer Levy)、韦。2020年。BART:对自然语言生成、翻译和理解进行逐序列去噪预培训。ACL程序.
[23]
李磊、王定鼎、李涛、丹尼尔·诺克斯和巴拉吉·帕德马纳班。2011年SCENE:一个可扩展的两阶段个性化新闻推荐系统。SIGIR会议记录. 125–134.
[24]
Lian Jianxun、Zhang Fuzheng、Xing Xie和Sun Guangzhong。2018.为个性化新闻推荐实现更好的表现学习:多渠道深度融合方法。IJCAI会议记录. 3805–3811.
[25]
Chin-Yew Lin.2004年。ROUGE:用于自动评估摘要的软件包。文本摘要分支计算语言学协会,74-81。
[26]
林彦凯、刘志远、孙茂松、刘洋和朱璇。2015.学习实体和关系嵌入以完成知识图。AAAI会议记录. 2181–2187.
[27]
刘佳慧、彼得·多兰和埃林·伦比·佩德森。2010年。基于点击行为的个性化新闻推荐。IUI程序. 31–40.
[28]
康斯坦丁·洛佩列夫。2015年,使用递归神经网络生成新闻标题。arXiv预打印arXiv:1512.01712(2015).
[29]
陆一超、董瑞海和巴里·史密斯。2018年。我喜欢它的原因:多任务学习,用于推荐和解释。RecSys程序. 4–12.
[30]
陆中奇、窦志成、连建勋、谢兴、杨强。2015.基于内容的新闻主题推荐协同过滤。AAAI会议记录. 217–223.
[31]
凌罗、项敖、严松、潘飞扬、杨敏和清河。2019.像她一样阅读:受人类阅读启发的摘要。EMNLP-IJCNLP会议记录. 3024–3034.
[32]
David Milne和Ian H.Witten。2008年。学习与维基百科链接。CIKM会议记录. 509–518.
[33]
村上和郎、小林敬彦、小林茂彦、太极文冢、Masuyama、Higurashi和Yoshimune Tabuchi。2019.神经标题生成用于编辑支持的案例研究。NAACL会议记录. 73–82.
[34]
大村俊培、田本裕纪弘、小野信吾和田岛明。2017.为数百万用户提供基于嵌入式的新闻推荐。KDD会议记录. 1933–1942.
[35]
Jeffrey Pennington、Richard Socher和Christopher D.Manning。2014.GlobVe:单词表示的全球向量。EMNLP会议记录.
[36]
Shrimai Prabhumoye、Yulia Tsvetkov、Ruslan Salakhutdinov和Alan W.Black。2018.通过回译进行风格转换。ACL程序. 866–876.
[37]
亚历山大·拉什(Alexander M.Rush)、苏米特·乔普拉(Sumit Chopra)和杰森·韦斯顿(Jason Weston)。2015.句子总结的神经注意模型。EMNLP会议记录. 379–389.
[38]
Abigail See、Peter J.Liu和Christopher D.Manning。2017.直截了当:用指针生成器网络进行总结。ACL程序. 1073–1083.
[39]
阿亚娜、沈世琪、林彦凯、屠存超、于昭、刘志远和孙茂松。2017年,神经标题生成的最新进展。计算机科学与技术杂志32, 4 (2017), 768–784.
[40]
沈天晓、陶磊、里贾娜·巴兹雷和托米·贾科拉。2017年。通过交叉对齐从非平行文本中转移风格。NIPS会议记录. 6830–6841.
[41]
Kai Shu、Suhang Wang、Thai Le、Dongwon Lee和Huan Liu。2018.点击诱饵检测深度标题生成。ICDM会议记录. 467–476.
[42]
阿维鲁普·西尔和亚历山大·耶茨。2013年,为联合命名实体识别和链接重新建立银行。CIKM会议记录. 2369–2374.
[43]
孙锐、张岳、张眉山、季东红。2015年,事件驱动的标题生成。ACL程序. 462–472.
[44]
理查德·萨顿(Richard S.Sutton)、大卫·麦克阿莱斯特(David A.McAllester)、萨廷德·辛格(Satinder P.Singh)和伊莎·曼苏尔(Yishay Mansour)。2000.函数逼近强化学习的策略梯度方法。NIPS会议记录. 1057–1063.
[45]
Sho Takase、Jun Suzuki、Naoaki Okazaki、Tsutomu Hirao和Masaaki Nagata。2016年,基于抽象意义表征的神经标题生成。EMNLP会议记录. 1054–1059.
[46]
谭继伟、万晓军、肖建国。2017.从神经句子摘要到标题生成:一种从粗到细的方法。IJCAI会议记录. 4109–4115.
[47]
唐嘉熙、弗朗索瓦·贝莱蒂、萨加·贾恩、陈敏敏、亚历克斯·贝特尔、徐灿和Ed H.Chi。2019.针对长距离依赖用户序列的神经混合物推荐。WWW会议记录. 1782–1793.
[48]
阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、尤卡斯·凯泽(ukasz Kais。2017年。你所需要的就是关注。神经信息处理系统研究进展. 5998–6008.
[49]
Michael W.Wagner和Mike Gruszczynski。2016年,框架问题:党派和新闻框架如何影响个人观点和党派认同。新闻与传播专著18, 1 (2016), 5–48.
[50]
王宏伟、张福正、谢兴和郭敏毅。2018年,DKN:深度知识软件网络,用于新闻推荐。WWW会议记录. 1835–1844.
[51]
王西婷、顾新伟、曹洁、赵紫华、闫玉兰、布凡·米德哈和谢兴。2021.加强预处理模型,以生成有吸引力的文本广告。KDD会议记录.
[52]
王震、张建文、冯建林和陈征。2014.通过在超平面上平移嵌入知识图。AAAI会议记录. 1112–1119.
[53]
王忠清和张岳。2017.使用神经模型的意见建议。EMNLP会议记录. 1626–1637.
[54]
吴楚汉、吴方钊、安明孝、黄建强、黄永丰和谢兴。2019.神经新闻推荐,多视角学习。IJCAI会议记录. 3863–3869.
[55]
吴楚汉、吴方钊、安明孝、黄建强、黄永丰和谢兴。2019.NPA:个性化关注的神经新闻推荐。KDD会议记录. 2576–2584.
[56]
吴楚汉、吴芳照、葛素玉、陶琪、黄永峰和谢兴。2019.多人自我关注的神经新闻推荐。EMNLP-IJCNLP会议记录. 6390–6395.
[57]
徐洪燕、刘洪涛、焦鹏飞、王文军。2021.用于个性化审查总结的变压器推理网络。SIGIR会议记录.
[58]
徐鹏、吴建胜、安德烈亚·马多托和冯帕斯卡尔,2019年。点击诱饵?通过自动调整强化学习生成感性标题。EMNLP-IJCNLP会议记录. 3056–3066.
[59]
山田康介、裕田裕美、田本秀美、佐野良彦、冈崎直树、英瑞肯塔罗和武田光一。2021.基于变换器的词汇约束标题生成。EMNLP会议记录.
[60]
杨子超、杨迪毅、克里斯·戴尔、何晓东、亚历克斯·斯莫拉和爱德华·霍维。2016年,文件分类的分级关注网络。NAACL会议记录. 1480–1489.
[61]
余兰涛、张卫南、王军和余勇。2017.SeqGAN:具有政策梯度的序列生成对抗网。AAAI会议记录.
[62]
张汝清、郭嘉峰、范一兴、蓝燕燕、徐军、曹欢欢和程雪琪。2018年,新闻文章的问答标题生成。CIKM会议记录. 617–626.
[63]
张正彦、徐寒、刘志远、新疆、孙茂松和刘群。2019.ERNIE:使用信息实体增强语言表示。ACL程序.
[64]
郑志成、李方涛、黄敏烈和朱晓燕。2010.学习将实体与知识库联系起来。NAACL-HLT会议记录. 483–491.
[65]
钟明、刘鹏飞、王丹青、邱喜鹏和黄宣景。2019.寻找有效的神经提取总结:什么有效,下一步是什么。ACL程序. 1049–1058.

索引术语

  1. 把你的声音放在舞台上:新闻文章的个性化标题生成

      建议

      评论

      信息和贡献者

      问询处

      发布于

      从数据中发现知识的封面图像ACM事务
      ACM数据知识发现事务 第18卷第3期
      2024年4月
      663页
      EISSN公司:1556-472倍
      内政部:10.1145/3613567
      期刊目录

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      出版:2023年12月9日
      在线AM:2023年11月3日
      认可的:2023年9月26日
      修订过的:2023年1月12日
      收到:2022年7月6日
      在TKDD中发布体积18,问题

      权限

      请求对此文章的权限。

      检查更新

      作者标记

      1. 新闻标题生成
      2. 用户建模
      3. 个性化

      限定符

      • 研究文章

      资金来源

      • 国家自然科学基金
      • 中国科学院青年创新促进会北京新星计划项目
      • MSRA青年访问研究员计划

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 0
        引文总数
      • 310
        总下载次数
      • 下载量(最近12个月)310
      • 下载次数(最近6周)23
      反映截至2024年9月22日的下载量

      其他指标

      引文

      视图选项

      获取访问权限

      登录选项

      完全访问权限

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      全文

      以全文形式查看本文。

      全文

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享