神经信息检索专题

高级讲座,6 ECTS学分,2019年夏季学期

基本信息

  • 类型:高级讲座
  • 讲师:Andrew Yates博士
  • 信用:6 ECTS学分
  • 时间:星期二(和几个星期四),14-16:00,029 E1.5室
  • 邮件列表供讨论和发布
  • 拜托登记如果你想参加这门课的话,请查看邮件列表!

概述

总结

在本课程中,我们将研究信息检索的高级主题,重点是神经网络方法以及它们与先前工作的对比。在课堂上,我们将努力理解IR中的重要问题,以及它们是如何通过神经方法和传统方法解决的,以及这些方法与IR理论的关系。与神经模型难以理解的常见说法相比,我们将探讨神经IR架构的设计通常是如何直接从理论出发的。作业需要通过阅读科学报告来深入理解几种相关方法,并通过写一篇分析这些方法的文章来证明这种理解。虽然有益,但我们不会假设您有深度学习的背景;我们将从IR和DL的概述开始,然后转向更高级的主题,例如用于评估文档与给定查询相关性的最新检索模型,基于新颖性(相对于彼此)使搜索结果多样化,训练监管薄弱的神经模型,以及神经IR在其他任务中的应用。

目标

课程结束时,学生将能够描述和对比最先进的传统和神经IR方法,检查和批判这些方法所做的假设,并批判性阅读和分析相关科学文献。

前提条件

学生应具备机器学习的基本知识。事先了解信息检索和神经网络将有所帮助,但不是必需的。

地铁列车时刻表

 日期主题分配阅读
 4月9日介绍  
 4月16日不上课  
 4月23日公理化思维:模型应该如何表现?#分配了1个

背景:[1]第8.1-8.6节+第11.4.3节

必填项:[2]

 4月30日关键词:单词和袋子 

背景:[3]第4章+第6.1节

必需:[4]

可选:[5]

 5月7日不上课  
 5月21日不上课  
 5月23日(星期四)短语:生存还是毁灭?#1个到期

必需:[6]

可选:[12],[13],[7]Ch 3(在[6]上扩展)

 5月28日不上课  
 6月4日短语:(待续) 

背景:[3]第6.2节

必填项:[8],[9]

可选:[10],[11]

 6月6日(星期四)通道#分配了2个

背景:[14],[3]第6.2.2节

必填项:[15]

可选:[16],[17]

 6月11日不上课  
 6月18日语义匹配 

背景:[19]

要求:[21],[22]

可选:[20]

 6月25日语义匹配#2个到期,#3分配

背景:[23],[24],[25]

必填项:[26],[27]

可选:[28],[29]

 6月27日(星期四)语义匹配和查询扩展 

背景:[1]第9章

必填项:[30],[31]

可选:[32],[33],[34]

 7月2日实体 

必填项:[37],[39]

可选:[35],[36],[38]

 7月9日多元化 

要求:[40]第3、4、5.2、[41]节

可选:[42]

 7月11日(星期四)监管不力 

必填项:[44],[46]

可选:[43]、[45]、[47]

 7月16日总结#3到期必填项:[48]、[49]
 7月30日和31日口试  
 9月24日重新选举  

每节课都有几个相关的阅读材料。建议你在上课前阅读所需的阅读材料,并根据需要补充背景阅读材料。虽然学生们会在课堂作业中阅读其中的许多选读材料,但在上课前不必阅读这些选读材料。 

工具书类

[1] Christopher D.Manning、Manning Raghavan和Manning Schütze。2008年,信息检索导论。[第pdf章]

[2] 范辉,陶涛,翟成子昂。2004年,信息检索启发式的正式研究。第27届ACM SIGIR信息检索研究与开发国际年会会议记录(SIGIR’04)。[pdf格式]

[3] 安德烈·布尔科夫。百页机器学习书。2019[第pdf章]

[4] 郭家峰、范宜兴、艾庆耀和W.Bruce Croft。2016.深度相关匹配模型,用于Ad-hoc检索。《第25届ACM国际信息与知识管理会议论文集》(CIKM’16)。[pdf格式]

[5] 熊晨燕、戴竹云、杰米·卡兰、刘志远和罗素·鲍尔。2017.使用核心池进行端到端的神经网络特别排名。在第40届国际ACM SIGIR信息检索研究与开发会议(SIGIR’17)的会议记录中。[pdf格式]

[6] 唐纳德·梅茨勒和W.布鲁斯·克罗夫特。2005.术语相关性的马尔可夫随机场模型。第28届ACM SIGIR信息检索研究与开发国际年会论文集(SIGIR’05)。[pdf格式]

[7] 唐纳德·梅茨勒。2011.以特征为中心的信息检索视图。[第pdf章](链接仅适用于uni网络)

[8] 戴朱云、熊晨艳、杰米·卡兰和刘志远。2018.Ad-hoc搜索中软匹配N-Grams的卷积神经网络。第十一届ACM网络搜索和数据挖掘国际会议论文集(WSDM’18)。[pdf格式]

[9] 许凯、Andrew Yates、Klaus Berberich、Gerard de Melo。2017.PACRR:关联匹配的位置-软件神经IR模型。《2017年自然语言处理实证方法会议论文集》(EMNLP’17)。[pdf格式]

[10] 安德鲁·叶茨(Andrew Yates,Kai Hui)。2017.DE-PACRR:探索PACRR模型内部的层。在SIGIR 2017年神经信息检索研讨会(NeuIR’17)上。 [pdf格式]

[11] Kai Hui、Andrew Yates、Klaus Berberich、Gerard de Melo。2018年。Co-PACRR:一个用于特殊检索的上下文软件神经IR模型。第十一届ACM网络搜索和数据挖掘国际会议论文集(WSDM’18)。 【pdf】

[12] 塞缪尔·休斯顿和W.布鲁斯·克罗夫特。2014.使用术语相关性的检索模型比较。第23届ACM信息和知识管理国际会议(CIKM’14)会议记录。[pdf格式]

[13] 陶涛和翟成香。2007年,探索信息检索中的邻近度量。在第30届ACM SIGIR国际信息检索研究与开发会议(SIGIR’07)的会议记录中。[pdf格式]

[14] 克里斯·奥拉(Chris Olah)。2015.了解LSTM网络。博客帖子。[链接]

[15] 范宜兴、郭家峰、兰艳艳、徐军、翟成祥和程雪琪。2018.Ad-hoc检索中的多种关联模式建模。第41届国际ACM SIGIR信息检索研究与开发会议(SIGIR’18)。[pdf格式]

[16] 唐志文和格雷斯·惠阳。2019.DeepTileBars:可视化神经信息检索的术语分布。第三十三届AAAI人工智能会议论文集(AAAI-19)。[pdf格式]

[17] 迈克尔·本德斯基和奥伦·库兰德。2008.使用基于段落的语言模型进行文档检索。ECIR 2008会议记录【pdf】

[18] 梁鹏、蓝燕燕、郭家峰、徐军和程雪琪。2016年,Ad-hoc检索的匹配金字塔模型研究。2016年SIGIR神经信息检索研讨会(NeuIR’16)。[pdf格式]

[19] 概率潜在语义索引。托马斯·霍夫曼。SIGIR’99。[pdf格式]

[20] 作为统计翻译的信息检索。亚当·伯杰和约翰·拉弗蒂。SIGIR’99。[pdf格式]

[21]信息检索公理方法中的语义术语匹配。慧芳和翟成香。2006年SIGIR。[pdf格式]

[22]基于点击的Web搜索翻译模型:从单词模型到短语模型。高剑锋、何晓东、聂建云。10公里。[pdf格式]

[23]深层语境化的词语表征。马修·彼得斯(Matthew E.Peters)、马克·诺依曼(Mark Neumann)、莫希特·伊耶(Mohit Iyyer)、马特·加德纳(Matt Gardner)、克里斯托弗·克拉克(Christopher Clark)、肯顿·李(Kenton Lee)和卢克·泽特莫耶(Luke Zettlemoyer)。NAACL’18。[pdf格式]

[24]注意力是你所需要的。阿什什·瓦斯瓦尼(Ashish Vaswani)、诺姆·沙泽尔(Noam Shazeer)、尼基·帕尔玛(Niki Parmar)、雅各布·乌斯科雷特(Jakob Uszkoreit)、利昂·琼斯(Llion Jones)、艾丹·戈麦斯(Aidan N.Gomez)、卢卡斯·凯泽(Lukas。NIPS’17。[pdf格式]

[25]BERT:语言理解深度双向变形金刚的预训练。雅各布·德夫林(Jacob Devlin)、张明伟(Ming Wei Chang)、肯顿·李(Kenton Lee)和克里斯蒂娜·图塔诺娃(Kristina Toutanova)。NAACL’19。[pdf格式]

[26]使用点击数据学习Web搜索的深层结构化语义模型。黄伯森、何晓东、高剑锋、李登、亚历克斯·亚塞罗、拉里·赫克。CIKM’13。[pdf格式]

[27]使用BERT进行通道重新分类。Rodrigo Nogueira和Kyunghyun Cho。2019年8月。[pdf格式]

[28]BERT在特殊文档检索中的简单应用。2019年8月,杨伟、张浩天和林吉米。[pdf格式]

[29]CEDR:文档排序的上下文嵌入。肖恩·麦卡瓦尼(Sean MacAvaney)、安德鲁·耶茨(Andrew Yates)、阿曼·科汉(Arman Cohan)和纳兹利·戈哈里安(Nazli Goharian)。SIGIR’19。[pdf格式]

[30]基于相关性的语言模型。维克托·拉夫伦科和W.布鲁斯·克罗夫特。SIGIR’01。[pdf格式]

[31]学习使用文本的本地和分布式表示进行匹配以进行Web搜索。巴斯卡·米特拉、费尔南多·迪亚兹、尼克·克拉斯韦尔。WWW’17。[pdf格式]

[32]基于简单注意的表征学习,用于对社交媒体短文进行排名。彭实、饶金凤、林吉米。NAACL’19。[pdf格式]

[33]通过查询预测进行文档扩展。Rodrigo Nogueira、Wei Yang、Jimmy Lin和Kyunghyun Cho。2019年8月。[pdf格式]

[34]从神经重新排序到神经排序:学习反向索引的稀疏表示。哈米德·扎马尼。莫斯塔法·德哈尼。W.布鲁斯·克罗夫特。埃里克·莱恩德·米勒(Erik Learnd-Miller)。雅普·坎普。CIKM 2018年[pdf格式]

[35]通过知识图嵌入实现学术搜索的显式语义排名。熊晨燕、拉塞尔·鲍尔和杰米·卡兰。WWW’17[pdf格式]

[36]文档排名的Word-Entity Duet表示。熊晨燕(Chenyan Xiong)、杰米·卡兰(Jamie Callan)和刘铁燕(Tie-Yan Liu)。SIGIR’17[pdf格式]

[37]实体二元神经排序:理解知识图语义在神经信息检索中的作用。刘正浩、熊晨燕、孙茂松、刘志远。ACL’18[pdf格式]

[38]在文档检索中利用实体。克里斯蒂安·巴洛格。In:在文档检索中利用实体。2018年施普林格。[pdf格式]

[39]使用知识库链接扩展实体查询功能。杰弗里·道尔顿、劳拉·迪茨和詹姆斯·艾伦。SIGIR’14[pdf格式]

[40]搜索结果多样化。罗德里戈·L·T·桑托斯(Rodrygo L.T.Santos)、克雷格·麦克唐纳(Craig Macdonald)和伊德·乌尼斯(Iadh Ounis)。信息检索的基础和趋势。[pdf格式]

[41]学习深度列表上下文模型以进行排名优化。艾庆耀,毕克平,郭家峰,W.Bruce Croft。[pdf格式]

[42]李灿嘉,孙英飞,何本,王乐,开辉,叶茨,孙乐,徐军刚。NPRF:一个用于Ad-hoc信息检索的神经伪相关反馈框架。[pdf格式]

[43]学习Web搜索排名功能的伪测试集合。尼玛·阿萨迪、唐纳德·梅茨勒、塔默·埃尔萨耶德、吉米·林。SIGIR’11。[pdf格式]

[44]监管较弱的神经网络排名模型。Mostafa Dehghani、Hamed Zamani、Aliaksei Severyn、Jaap Kamps、W.Bruce Croft。SIGIR’17。[pdf格式]

[45]针对特设重新排名的基于内容的弱监督。肖恩·麦卡瓦尼(Sean MacAvaney)、安德鲁·叶茨(Andrew Yates)、凯慧(Kai Hui)和奥菲尔·弗里德(Ophir Frieder)。[pdf格式]

[46]监管薄弱的通道排名。徐鹏、马晓飞、拉梅什·纳拉帕蒂、Bing Xiang。ICLR’19有限标签数据学习研讨会。[pdf格式]

[47]使用对抗学习的神经排名模型的跨域正则化。Daniel Cohen、Bhaskar Mitra、Katja Hofmann、W.Bruce Croft。SIGIR’18。[pdf格式]

[48]正则化神经排名模型的公理方法。科尔比·罗塞特(Corby Rosset)、巴斯卡尔·米特拉(Bhaskar Mitra)、熊晨燕(Chenyan Xiong)、尼克·克拉斯韦尔(Nick Crashwell)、夏松(Xia Song)、索拉巴·蒂瓦里(Saurabh Tiwary)。SIGIR’19。[pdf格式]

[49]关于神经排序模型有效性改进的可加性。Wei Yang、Kuang Lu、Peilin Yang和Jimmy Lin.SIGIR’19。[pdf格式]

课程结构

这门高级课程包括每周2小时的讲座,四个写作作业,要求学生批判性地阅读和对比几篇科学文章,以及一次口试。由于作业的重点是阅读和分析科学文献,以加深对某一主题的理解,因此将没有每周的辅导。

学生的期末成绩将根据期末考试确定,期末考试将是一次口试,涵盖课堂材料及其相关阅读材料。为了有资格参加期末考试,学生必须通过所有四项作业。每个学生的期末考试时间段将通过电子邮件公布。学生应尽快通知讲师与(重新)考试日期之间的任何潜在冲突。

作业将涉及阅读几篇科学论文,以便通过批判性讨论论文来回答论文提示。对于每个作业,学生将单独阅读一篇或多篇研究论文,并提交一份报告,讨论阅读和回答作业问题。报告必须批判性地讨论指定的论文,并证明对主题的理解;简单地总结一下不足以获得及格分数。报告必须引用所有使用的来源。建议报告长度为三页。报告到期时间正午在截止日期前。

作业分为四个等级:不及格、及格、良好或优秀。学生可以在作业截止日期后两周内重新提交一份未通过的作业。任何未在截止日期前提交的作业都将被视为失败。获得优秀成绩会给你一个加分。两个好成绩算一个优秀。如果你通过了期末考试,每个加分将使你的期末成绩提高1/3分,最多提高1分。例如,如果你的期末考试成绩为1.6分,你有一个加分,那么你的期末分数将为1.3分。期末考试不及格的学生也会不及格,无论他们的作业成绩如何。