信息检索与数据挖掘

2019-2020年冬季学期,核心课程,9 ECTS学分

新闻

  • 2019年10月23日:第一项任务完成!
  • 2019年10月30日:第二讲的幻灯片更新。
  • 2019年10月30日:第一份作业将于今天16:15在讲座上完成!
  • 2019年11月5日:作业2添加了提示!
  • 2019年11月15日:在作业4问题3中添加了澄清。
  • 2019年11月26日:引入教程演示奖金-请参阅谷歌群组!
  • 09.03.2020:期末考试成绩出格-检查在这里。恭喜!:)
  • 2020年3月9日:期末考试检查将于3月12日进行。有关详细信息,请查看谷歌群组中的电子邮件。
  • 020年3月9日:重考主题将主要基于作业和第一次考试中的主题。
  • 2020年5月6日:重新洗牌日期已确定(见下文)。
  • 2021年5月14日:Re-exam成绩出局-检查在这里。恭喜!:)

基本信息

类型核心课程,9 ECTS
讲师

Andrew Yates博士Rishiraj Saha Roy博士

协调员和联系人

斯雷亚西·纳格·乔杜里阿津-加兹马汀

讲座

星期三,16-18,E1 3-Hörsaal II(0.02)以及星期五,14-16,E1 3-Hörsaal II(0.02)

教程

星期一14-16(11月4日为第一节教程):

  • 第1组-E1.3 SR014
  • 第2组-E1.3 SR015
  • 第3组-E1.3 SR016
  • 组4-E1.3 SR107

星期二10-12(第一节教程在11月5日):

  • 第5组-E1.3 SR015
  • 第6组-E1.3 SR016
  • 组7-E1.3 SR107
  • 组8-E1.1 SR106
考试

期末考试:星期三 2020年2月26日,14:00-17:00,演讲厅001,E2.5。

Re-exam公司:2020年10月19日星期一,14:00-17:00,GHH,001,002和003,E1 3演讲厅

教学助理

谷歌集团IRDM19公司

讲座时间表

讲座日期主题讲师阅读
第01讲10月16日基础IRSR公司Aggarwal通道2
第二讲10月18日基础II相对标准偏差Aggarwal第12章
第03讲10月23日统计学I是的Wasserman第1-5章
第04讲10月25日统计学II是的Wasserman第6、7、9、10章
第05讲10月30日模式挖掘IRSR公司

Aggarwal第4章,

Zaki&Meira第8章

假日11月1日   
第6讲2006年11月模式挖掘IIRSR公司Aggarwal第5章,
Zaki&Meira Ch.9、12
第07讲11月8日分类是的

Aggarwal第10章,

Zaki&Meira第18、19、22章

第08讲11月13日集群I合资企业Aggarwal第6章
第09讲11月15日集群II合资企业Aggarwal第7章
第10讲11月20日序列I    相对标准偏差Aggarwal第3、14、15章
第11讲11月22日序列II    RSR公司Aggarwal第14、15章
第12讲11月27日图表I    RSR公司

Aggarwal Ch.第17、19、,

Zaki&Meira Ch.4、11、16

第13讲11月29日图表IIRSR公司Zaki&Meira第16章
第14讲2004年12月异常检测RSR公司Aggarwal第8、9章
第15讲2006年12月IR基础是的

Manning等人第1章、第5.1章、第6章,

翟和马松Ch.8

第16讲12月11日排名I是的

Manning等人第6章、第12章,

翟和马松Ch.6

第17讲12月13日预处理和评估

Manning等人,第2.1-2.2章,第3.3章,第8章,

翟和马松Ch.9

第18讲12月18日排名II是的

Manning等人第11章、第18章,

Zhai&Massung第17章

第19讲12月20日编制索引是的Manning等人Ch.(3,)4,5
圣诞节休息   
第20讲2008年1月链接分析RSR公司

Manning等人第21章,

Aggarwal第18章

第21讲1月10日单击分析RSR公司

Joachims 2002年,

2007年Crashwell&Szummer

第22讲1月15日神经IR I是的

深度学习书Ch 6

郭等人2016

第23讲1月17日神经IR II是的深度学习书Ch 9,
MacAvaney等人2019年,
Dai&Callan 2019年
第24讲1月22日查询扩展是的人员编制9和19.6
讲座251月24日IR中的实体是的 
第26讲1月29日问答系统RSR公司

Lu等人2019Abujabal等人,2018年,

Chen等人,2017年,克拉克和加德纳2018

第27讲1月31日扼要重述RSR、AY 

教程时间表

发布日期

提交日期

教程日期

主题

练习表

解决方案

10月23日

10月30日

11月4/5日

基础

作业1

解决方案1

10月30日

11月6日

2012年11月11日

统计

作业2

解决方案2

11月6日

11月13日

2019年11月18日

模式挖掘

作业3

解决方案3

11月13日

11月20日

11月25/26日

分类

作业4

解决方案4

11月20日

11月27日

12月2/3日

群集

作业5

解决方案5

11月27日

12月4日

2010年12月9日

序列

作业6

解决方案6

12月4日

12月11日

2017年12月16日

作业7

解决方案7

12月11日

12月18日

1月6/7日

IR基础

作业8

解决方案8

12月18日

1月8日

2014年1月13日

排名和评估

作业9

解决方案9

1月8日

1月15日

1月20日/21日

排名和索引

作业10

解决方案10

1月15日

1月22日

1月27日/28日

链接点击分析

任务11解决方案11

1月22日

1月29日

2月3/4日

神经红外

任务12

解决方案12

1月29日

铁5

2011年2月10日

查询扩展

任务13

解决方案13

2月5日

2月12日

2018年2月17日

实体和QA

转让14

解决方案14

课程内容

信息检索(IR)和数据挖掘(DM)是组织、搜索和分析来自网络、社交媒体和企业的数字内容以及这些环境中的多元数据集的方法。IR模型和算法包括文本索引、查询处理、搜索结果排名和语义搜索的信息提取。DM模型和算法包括模式挖掘、规则挖掘、分类和推荐。这两个领域都建立在线性代数、图论、概率和统计领域的数学基础之上。

前提条件

良好的本科数学(线性代数、概率论)和基本算法知识。

教程和练习

收到作业单后,你在家里(单独)解决问题,并在指定日期(16:15之前)将问题提交给助教。在辅导课程中,助教会要求你们中的一些人提出你的解决方案。每个学生必须在学期内至少提交两次解决方案。助教也会帮助你澄清答案。你提交的表格将被评分,并在课程结束时交还给你。

要做练习,你必须学习所需的阅读材料并浏览幻灯片。

我们不允许剽窃。第一次被抓到时,您将获得特定作业的0分。第二次,您将被取消课程注册。 

通过课程的评分和要求

总成绩将是期末和重考的最佳成绩(不再尝试)。不会有期中考试。期末考试是封闭式的,不允许讨论。

要参加期末笔试,必须具备以下先决条件:

  • 提交所有14项作业
  • 在所有作业中平均获得50%或更多(平均80%或更多将为您赢得一个加分,这将导致期末考试中的一个学分跳跃(如果可能))
  • 在教程中至少演示两次解决方案

文学类

我们将使用以下初级教科书。

对于概率论和统计学,

  • 拉里·沃瑟曼:《所有统计》,斯普林格出版社,2004年。

对于数据挖掘,

  • Charu Aggarwal:《数据挖掘-教科书》,施普林格出版社,2015年。
  • Mohammed J.Zaki和Wagner Meira Jr:《数据挖掘与分析》,剑桥大学出版社,2014年。

对于信息检索,

  • Chris Manning、Prabhakar Raghavan和Hinrich Schütze:《信息检索导论》,剑桥大学出版社,2008年。
  • 翟成祥(ChengXiang Zhai)和肖恩·马松(Sean Massung):《文本数据管理与分析》(Text Data Management and Analytics),摩根士丹利会计师事务所(Morgan&Claypool),2016年

库中提供了这些参考和其他参考: