研究论文

学习如何联系会话搜索中的先前转折点

作者：
冯润墨

蒙特利尔大学，蒙特利尔，加拿大魁北克省

蒙特利尔大学，蒙特利尔，PQ，加拿大

0000-0002-0838-6994
查看个人资料

,
聂建云

蒙特利尔大学，蒙特利尔，PQ，加拿大

蒙特利尔大学，蒙特利尔，PQ，加拿大

0000-0003-1556-3335
查看个人资料

,
黄凯玉

清华大学，中国北京

清华大学，中国北京

0000-0001-6779-1810
查看个人资料

,
科隆毛

中国人民大学，中国北京

中国人民大学，中国北京

0000-0002-5648-568倍
查看个人资料

,
朱玉涛

蒙特利尔大学，蒙特利尔，PQ，加拿大

蒙特利尔大学，蒙特利尔，PQ，加拿大

0000-0002-9432-3251
查看个人资料

,
彭丽

清华大学，中国北京

清华大学，中国北京

0000-0003-1374-5979
查看个人资料

,
杨柳

清华大学，中国北京

清华大学，中国北京

0000-0002-3087-242X
查看个人资料

作者信息和声明

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录2023年8月第1722-1732页https://doi.org/10.1145/3580305.3599411

出版：2023年8月4日出版历史

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录

第1722-1732页

摘要

对话式搜索允许用户多次与搜索系统交互。查询在很大程度上依赖于会话上下文。提高检索效率的一种有效方法是使用历史查询扩展当前查询。但是，并不是所有前面的查询都与当前查询相关，并且对于扩展当前查询很有用。在本文中，我们提出了一种新的方法来选择对当前查询有用的相关历史查询。为了解决缺少标记训练数据的问题，我们使用伪标记方法根据有用的历史查询对检索结果的影响对其进行注释。伪标签数据用于训练选择模型。我们进一步提出了一个多任务学习框架，在微调过程中联合训练选择器和检索器，使我们能够减轻伪标签和更改后的检索器之间可能存在的不一致。在四个会话搜索数据集上进行的大量实验表明，与几个强大的基线相比，该方法的有效性和广泛适用性。

补充材料

rtfp1162-2min-promo.mp4型

英里4

2.3 MB

下载

kdd2023.mp4码

英里4

2.3 MB

下载

参考文献

瓦比哈夫·阿德拉卡（Vaibhav Adlakha）、谢赫扎德·杜利亚瓦拉（Shehzaad Dhuliawala）、卡海尔·苏勒曼（Kaheer Suleman）、哈姆·德·弗里斯（Harm de Vries）和西瓦·雷迪（Siva Reddy）。2022.TopiOCQA：开放域对话式问题回答与主题转换。计算语言学协会学报，第10卷（2022年），468-483。谷歌学者交叉引用
Raviteja Anantha、Svitlana Vakulenko、Zhucheng Tu、Shayne Longpre、Stephen Purman和Srinivas Chappidi。2021.开放域问题回答通过问题改写实现对话。计算语言学协会北美分会2021年会议记录：人类语言技术。520--534.谷歌学者交叉引用
曹桂红（Guihong Cao）、聂建云（Jian Yun Nie）、高剑锋（Jianfeng Gao）和史蒂芬·罗伯逊（Stephen Robertson）。2008.为伪相关反馈选择良好的扩展术语。第31届ACM SIGIR信息检索研究与开发国际年会论文集。243--250.谷歌学者数字图书馆
杰弗里·道尔顿（Jeffrey Dalton）、索菲·菲舍尔（Sophie Fischer）、保罗·奥沃伊科（Paul Owoicho）、菲利普·拉德林斯基（Filip Radlinski）、费德里科·罗塞托（Federico Rossetto）、约翰·特里帕斯（Johanne R Tripp。2022.会话信息寻求：理论与应用。第45届国际ACM SIGIR信息检索研究与开发会议论文集。3455--3458.谷歌学者数字图书馆
杰弗里·道尔顿（Jeffrey Dalton）、熊晨燕（Chenyan Xiong）和杰米·卡兰（Jamie Callan）。2020年。TREC CAsT 2019年：对话协助轨道概述。arXiv预印arXiv:2003.13624（2020）。谷歌学者
杰弗里·道尔顿、熊晨燕和杰米·卡兰。2021.CAsT 2020：对话援助轨道概述。技术报告。谷歌学者
雅各布·德夫林（Jacob Devlin）、张明伟（Ming Wei Chang）、肯顿·李（Kenton Lee）和克里斯蒂娜·图塔诺娃（Kristina Toutanova）。2019.BERT：深度双向变形金刚语言理解预培训。计算语言学协会北美分会2019年会议记录：人类语言技术，第1卷（长篇和短篇论文）。4171--4186.谷歌学者
Efthimis北Efthimiadis。1996.查询扩展。《信息科学与技术年鉴》（ARIST），第31卷（1996年），第121-87页。谷歌学者
高剑锋（Jianfeng Gao）、熊晨燕（Chenyan Xiong）、保罗·贝内特（Paul Bennett）和尼克·克拉斯韦尔（Nick Crashwell）。2022.会话信息检索的神经方法。arXiv预打印arXiv:2201.05176（2022）。谷歌学者
Ben He和Ladh Ounis。2009.寻找良好的反馈文件。《第18届ACM信息与知识管理会议记录》（中国香港）（CIKM'09）。2011--2014.谷歌学者数字图书馆
Jeff Johnson、Matthijs Douze和HervéJégou。2019.使用gpu进行数十亿规模的相似性搜索。IEEE大数据汇刊，第7卷，第3卷（2019年），535-547。谷歌学者交叉引用
Hideaki Joko、Faegheh Hasibi、Krisztian Balog和Arjen P de Vries。2021.对话实体链接：问题定义和数据集。第44届国际ACM SIGIR信息检索研究与开发会议论文集。2390--2397.谷歌学者数字图书馆
弗拉基米尔·卡普金（Vladimir Karpukhin）、Barlas Oguz、Sewon Min、Patrick Lewis、Ledell Wu、Sergey Edunov、Danqi Chen和Wen-tou Yih。2020年。开放域问题解答的密集通道检索。《2020年自然语言处理经验方法会议论文集》（EMNLP）。6769--6781.谷歌学者交叉引用
Omar Khattab和Matei Zaharia，2020年。科尔伯特：通过上下文化的后期交互对伯特进行高效的文章搜索。第43届国际ACM SIGIR信息检索研究与开发会议论文集。39--48.谷歌学者数字图书馆
Sungdong Kim和Gangwoo Kim。2022.从会话搜索中的快捷方式依赖中保存密集检索器。《2022年自然语言处理实证方法会议论文集》。计算语言学协会，10278--10287。谷歌学者交叉引用
安东尼奥斯·米纳斯·克拉萨基斯（Antonios Minas Krasakis）、安德鲁·耶茨（Andrew Yates）和埃文格洛斯·卡努拉斯（Evangelos Kanoulas）。2022.对话搜索的零快照查询上下文化。arXiv预打印arXiv:2204.10613（2022）。谷歌学者
Vaibhav Kumar和Jamie Callan。2020年，让信息搜索更容易：改进对话搜索管道。在自然语言处理的经验方法中。谷歌学者
李慧涵（Huihan Li）、高天宇（Tianyu Gao）、马南·戈卡（Manan Goenka）和陈丹琪（Danqi Chen）。2022a年。抛弃金标准：重新评估对话式问题的回答。摘自计算语言学协会第60届年会会议记录（第1卷：长篇论文）。8074--8085.谷歌学者交叉引用
李永奇、李文杰和聂利强。2022b年。对话式开放域问题回答的动态图形推理。ACM信息系统事务（TOIS），第40卷，第4期（2022年），1-24。谷歌学者数字图书馆
Sheng-Chieh Lin、Jheng-Hong Yang和Jimmy Lin.2021年。会话搜索的上下文化查询嵌入。《2021年自然语言处理实证方法会议论文集》。1004--1015.谷歌学者交叉引用
刘银汉（音）、米勒·奥特（Myle Ott）、纳曼·戈亚尔（Naman Goyal）、杜敬飞（Jingfei Du）、曼达尔·乔希（Mandar Joshi）、陈丹奇（Danqi Chen）、奥马尔·利维（Omer Levy）、迈克·刘易斯（Mike Lewis）、卢克·泽特莫。2019.罗伯塔：一种稳健优化的伯特预训练方法。arXiv预印本arXiv:1907.11692（2019）。谷歌学者
Angrosh Mandya、James O'Neill、Danushka Bollegala和Frans Coenen。2020年。不要让历史困扰你：减少会话问题回答中的复合错误。第十二届语言资源与评估会议论文集。2017--2025.谷歌学者
毛克龙、窦志成、陈浩南、莫凤然、钱洪进。2023年a.大型语言模型了解你的上下文搜索意图：对话搜索的提示框架。arXiv预印arXiv:2303.06573（2023）。谷歌学者
毛克龙、窦志成、钱洪进。2022a年。少镜头对话密集检索的课程对比上下文去噪。第45届国际ACM SIGIR信息检索研究与开发会议论文集。176--186.谷歌学者数字图书馆
毛克龙、窦志成、钱洪进、莫凤然、程晓华、赵操。2022b年。ConvTrans：转换Web搜索会话以实现对话密集检索。《2022年自然语言处理实证方法会议论文集》。2935--2946.谷歌学者交叉引用
毛克龙、钱洪进、莫凤然、窦志成、刘邦、程晓华、赵操。2023年b.学习对话搜索的去噪和可解释会话表示法。《2023年ACM网络会议记录》。3193--3202.谷歌学者数字图书馆
莫凤然、毛克龙、朱玉涛、吴一红、黄凯玉、聂建云。ConvGQR：对话搜索的生成性查询改革。arXiv预印arXiv:2305.15645（2023）。谷歌学者
Tri Nguyen、Mir Rosenberg、Xia Song、Jianfeng Gao、Saurabh Tiwary、Rangan Majumder和Li Deng。2016年，MS MARCO：人工生成的机器阅读理解数据集。在CoCo@NIP中。谷歌学者
乔一凡、熊晨燕、刘正浩、刘志远。2019.了解BERT在排名中的行为。arXiv预印本arXiv:1904.07531（2019）。谷歌学者
陈曲、刘洋、岑晨、邱明慧、W Bruce Croft和Mohit Iyyer。2020年，开放检索对话式问答。第43届ACM SIGIR国际信息检索研究与开发会议论文集。539--548.谷歌学者数字图书馆
Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever等人，2019。语言模型是无监督的多任务学习者。OpenAI博客，第1卷，第8卷（2019年），第9页。谷歌学者
菲利普·拉德林斯基和尼克·克拉斯韦尔。2017.会话搜索的理论框架。2017年会议人类信息交互和检索会议记录。117到126之间。谷歌学者数字图书馆
斯蒂芬·罗伯逊（Stephen Robertson）、雨果·萨拉戈萨（Hugo Zaragoza）等人，2009年。概率相关性框架：BM25及以上。信息检索基础与趋势®，第3卷，第4卷（2009年），333--389。谷歌学者数字图书馆
Wissam Siblini、Baris Sayil和Yacine Kessaci。2021.对会话式问答进行更有力的评估。《计算语言学协会第59届年会和第11届国际自然语言处理联合会议论文集》（第2卷：短文）。1028--1034.谷歌学者交叉引用
亚历山德罗·索多尼、约舒亚·本吉奥、侯赛因·瓦哈比、克里斯蒂娜·利奥马、雅各布·格鲁·西蒙森和聂建云。2015.用于生成上下文软件查询建议的分层递归编码器-解码器。第24届ACM国际信息和知识管理会议记录。553--562.谷歌学者数字图书馆
斯维特拉娜·瓦库连科、马尔滕·德·里杰克、迈克尔·科切斯、瓦迪姆·萨文科夫和阿克塞尔·波利斯。2018.测量对话的语义连贯性。在2018年第17届国际语义网络会议上。斯普林格·弗拉格，634--651。谷歌学者数字图书馆
Svitlana Vakulenko、Shayne Longpre、Zhucheng Tu和Raviteja Anantha。2021.对话式问答的问题重写。第14届ACM网络搜索和数据挖掘国际会议论文集。355--363.谷歌学者数字图书馆
克里斯托夫·范·吉塞尔和马尔滕·德·里杰克。2018.Pytrec_eval：一个到trec_eval的极快Python接口。在SIGIR中。ACM公司。谷歌学者
阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、尤卡斯·凯泽（ukasz Kaiser。2017年。你所需要的就是关注。神经信息处理系统进展，第30卷（2017年）。谷歌学者
Nikos Voskarides、Dan Li、Pengjie Ren、Evangelos Kanoulas和Maarten de Rijke。2020.在有限监督下进行会话搜索的查询解决方案。第43届国际ACM SIGIR信息检索研究与开发会议论文集。921--930.谷歌学者数字图书馆
吴泽秋、易銮、汉娜·拉什金、大卫·雷特和高拉夫·辛格·托马尔。2021.CONQRR：使用强化学习进行检索的会话查询改写。arXiv预打印arXiv:2112.08558（2021）。谷歌学者
李雄、熊晨燕、叶莉、郭富堂、刘佳林、保罗·贝内特、朱奈德·艾哈迈德和阿诺德·奥弗维克。2020年。密集文本检索的近似最近邻负对比学习。arXiv预印arXiv:2007.00808（2020）。谷歌学者
石宇、刘家华、杨静琴、熊晨艳、Paul Bennett、高建峰和刘志远。2020年，很少有生成性会话查询重写。第43届国际ACM SIGIR信息检索研究与开发会议论文集。1933--1936.谷歌学者数字图书馆
史宇、刘正浩、熊晨燕、陶峰和刘志远。2021.少量对话密集检索。在第44届国际ACM SIGIR信息检索研究与发展会议论文集。829--838. 国际奥委会谷歌学者数字图书馆

索引术语

学习如何联系会话搜索中的先前转折点
1. 信息系统
  1. 信息检索
    1. 信息检索查询处理
      1. 查询重新制定

建议

会话搜索中去噪和可解释会话表示的学习
WWW’23:2023年ACM网络会议记录

对话式搜索支持多轮用户-系统交互，以解决复杂的信息需求。与传统的单轮自组织搜索相比，会话搜索面临着更为复杂的搜索意图理解问题，因为会话搜索需要更多的信息。。。
阅读更多信息
在没有监督的情况下，将对话查询置于上下文中并加以扩展
大多数会话段落检索系统都试图通过使用中间查询解析步骤来解决会话依赖。为此，他们合成对话数据或假设大规模问题重写数据集的可用性。。。
阅读更多信息
会话搜索的零炮查询重构
ICTIR’23：2023年ACM SIGIR信息检索理论国际会议记录

随着语音助手的不断普及，会话搜索在信息检索中得到了越来越多的关注。然而，会话搜索中的数据稀疏性问题严重阻碍了监督搜索的进展。。。
阅读更多信息

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

发布于
KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录
2023年8月
5996页
国际标准图书编号：9798400701030
内政部：2014年10月14日/3580305
总主席：
安布杰·辛格
美国加州大学圣巴巴拉分校
,
孙益洲
美国加州大学洛杉矶分校
,
课程主席：
莱曼·阿科格鲁
美国卡内基梅隆大学
,
迪米特里奥斯·古诺普洛斯
希腊雅典大学
,
西凤燕
美国加州大学圣巴巴拉分校
,
拉维库玛
谷歌，美国
,
法蒂玛·奥兹坎
谷歌，美国
,
叶阶平
阿里巴巴DAMO学院
版权所有©2023 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2023年8月4日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
对话式搜索
查询扩展
相关性判断
限定符
- 研究论文
会议

接受率
总体验收率1,133属于8,635提交文件，13%
即将召开的会议
KDD'24款

赞助商：

sigkdd公司

西格克德

第30届ACM SIGKDD知识发现和数据挖掘会议

2024年8月25日至29日

巴塞罗那，西班牙
资金来源
其他指标
查看文章指标

文章指标
- 1
  引文总数
  查看引文
- 214
  总下载次数
- 下载次数（过去12个月）214
- 下载量（最近6周）28
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

学习如何联系会话搜索中的先前转折点

KDD’23：第29届ACM SIGKDD知识发现和数据挖掘会议记录

摘要

补充材料

参考文献

引用人

索引术语

建议

会话搜索中去噪和可解释会话表示的学习

在没有监督的情况下，将对话查询置于上下文中并加以扩展

会话搜索的零炮查询重构

评论