信息检索与数据挖掘

2017-2018年冬季学期核心课程,9 ECTS学分

新闻

  • (已更新)2018年4月4日:找到重赛结果在这里
  • 2018-03-02:查找考试结果在这里.
  • 2018-02-03:本课程信息检索部分的最终结果(通过/未通过)为在这里.
  • 2018-01-24:今天的讲座因讲师病假而取消。下周教程所需的所有材料将于周五(1月26日)提供。
  • 2017-12-15:查找在这里数据挖掘的结果
  • 2017-11-14:从11月21日开始,D组将在E1.7 0.01房间
  • 2017-11-13:C组已被A组和B组取代
  • 2017-11-10:查找在这里基础与统计的最终结果
  • 2017-10-25:查找在这里测验成绩
  • 2017-10-19:教程注册已关闭。在下面查找您的组分配
  • 2017-10-13:您现在可以注册教程(见下文)
  • 2017-10-09:发布讲座和教程时间表(暂定)
  • 2017-09-01:稍后将提供更多信息

基本信息

类型核心课程,9 ECTS
讲师

Jilles Vreeken博士Jannik Strötgen博士

协调员和联系人

亚洲比加曼氏帕纳吉奥蒂斯 

讲座

星期三,14-16,E1 3-Hörsaal II(0.02)星期五,12-14,E1 3-霍尔萨勒二世(0.02)

(第一堂课将于10月18日星期三举行)

教程

14-16星期一和10-12星期二(10月23日和24日为第一次教程)

星期一:

  • A组-E1.3 SR014
  • B组-E1.3 SR015

星期二:

  • D组-E1.7 0.01
  • E组-E1.3 SR015
考试
  • 2018年2月21日14:00-17:00,E2.2,Günter-Hotz大厅
  • 2018年3月14日14:00-17:00,E2.2,Günter-Hotz大厅

教学助理

凯拉什·布达霍基

匡轩初

塞巴斯蒂安·达尔莱格

乔纳斯·费舍尔

阿津-加兹马汀

安娜·克里斯蒂娜·吉马拉斯

大卫·卡尔滕波思

Janis Kalofolias公司

普雷西·拉霍蒂

亚历山大·马克思

卡西亚普·波帕特

 

讲座时间表

日期讲座讲师阅读
42

10月18日

10月20日

介绍,基础I

基础II

合资企业和合资企业

合资企业

Aggarwal第12章

Aggarwal通道2

43

10月25日

10月27日

统计学I

统计学II

合资企业

合资企业

Wasserman第1-5章

瓦瑟曼Ch.6,7,9,10

44

11月1日

11月3日

是的,假期,不上课

分类

-

合资企业

 

Aggarwal第10章

45

11月8日

11月10日

模式挖掘I

模式挖掘II

合资企业

合资企业

Aggarwal Ch 4,5.2

 

46

11月15日

11月17日

集群I

集群II

合资企业

合资企业

Aggarwal第6、7章

 

47

11月22日

11月24日

是的,没有讲座

离群值分析

-

合资企业

 

Aggarwal第8、9章

48

11月29日

12月1日

序列I

序列II

合资企业

合资企业

Aggarwal第3.4、14、15章

 

49

12月6日

12月8日

图表I

图表II

合资企业

合资企业

Aggarwal Ch.第17、19章

 

50

12月13日

12月15日

IR基础

预处理和评估

(DM总结,因果推理)

JS公司

JS公司

合资企业

Manning等人第1章、第5.1章、第6章

Manning等人第2.1、2.2、3.3、8章

51

12月20日

12月22日

IR的NLP

是的,快放假了,没有上课

JS公司

 

(幻灯片)

 

52

12月27日

12月29日

是的,假期,不上课

是的,假期,不上课

  
1

1月3日

1月5日

排名I(更新,2018-01-08)

排名II(更新日期:2018-01-08)

JS公司

JS公司

Manning等人第6章、第12章

Manning等人第9章、第18章

2

1月10日

1月12日

编制索引

查询处理

JS公司

JS公司

Manning等人Ch.(3,)4,5

Manning等人第7章

1月17日

1月19日

网络搜索I

网络搜索II

JS公司

JS公司

Manning等人第19、20、21章

Manning等人第19章。20, 21

4

1月24日

1月26日

(已取消)

文本挖掘

JS公司

JS公司

 

Manning等人Ch 13,19

5

1月31日

2月2日

语义搜索

高级IR

JS公司

JS公司

 

教程时间表

日期主题示例练习要求的读数

42

2017年10月16日

无教程会话

 

 

43

10月23/24日

采样、预处理、PCA

解决方案 

Aggarwal第2章、第12章

44

10月30日/31日

是的,假期,没有辅导

 

 

45

11月6/7日

概率与统计

解决方案

Wasserman Ch.1-7、9、10

46

2014年11月13日

模式挖掘

解决方案

Aggarwal Ch 4,5.2

47

11月20/21日

群集

解决方案

Aggarwal第6、7章

48

11月27/28日

分类和异常值

解决方案

Aggarwal第8、9、10章

49

12月4/5日

序列

解决方案

Aggarwal第3.4、14、15章

50

2012年12月11日

解决方案

Aggarwal Ch.第17、19章

51

19年12月18日

IR基础与评估

解决方案,脚本

Manning等人第1章、第2.1章、第2.2章、第3.3章、第5.1章、第6章、第8章

52

26年12月25日

是的,假期,没有辅导

  

1

1月1/2日

是的,假期,没有辅导

 

 

2

1月8/9日

IR排名

解决方案

Manning等人第6、9、12、18章

2016年1月15日

IR索引

解决方案

Manning等人第3、4、5、7章

4

1月22日/23日

IR Web搜索

解决方案

Manning等人第19、20、21章

5

1月29日/30日

IR文本挖掘

解决方案

Manning等人Ch 13,19

课程内容

信息检索(IR)和数据挖掘(DM)是组织、搜索和分析来自网络、社交媒体和企业的数字内容以及这些环境中的多元数据集的方法。IR模型和算法包括文本索引、查询处理、搜索结果排名和语义搜索的信息提取。DM模型和算法包括模式挖掘、规则挖掘、分类和推荐。这两个领域都建立在线性代数、图论、概率和统计领域的数学基础之上。

前提条件

良好的本科数学(线性代数、概率论)和基本算法知识。

教程和练习

在辅导课程中,你将练习涵盖讲座主题的练习。在教程课程开始时,您将收到练习表,您将在课程中解决该练习表。在辅导过程中,导师会在那里提供帮助和澄清。在教程结束时,您将提交解决方案。这些将被评分,并在下一节教程中交还给你。

要在指定的时间内完成练习,你必须学习所需的阅读材料、幻灯片,并在教程之前练习示例练习。

为了有资格参加考试,你需要获得至少50%的练习分数课程的每三部分.

我们不允许剽窃。当你第一次被抓到时,你将获得满分0分。第二次,你被排除在课程之外。 

通过课程的评分和要求

总成绩将是期末和重考的最佳成绩。

要参加期末笔试,必须具备以下先决条件:

  • 获得基础与统计练习表(练习表1和练习表2)50%或以上的分数
  • 获得数据挖掘练习表(练习表3、4、5、6和7)50%或以上的分数
  • 获得信息检索练习表(练习表8、9、10、11和12)50%或以上的分数

这个版本的IRDM没有期中考试。

文学类

我们将使用以下初级教科书。

对于概率论和统计学,

  • 拉里·瓦瑟曼:《所有统计》,斯普林格出版社,2004年

对于数据挖掘,

  • Charu Aggarwal:《数据挖掘-教科书》,施普林格出版社,2015年

对于信息检索,

  • Chris Manning,Prabhakar Raghavan,Hinrich Schütze:信息检索导论,剑桥,2008
  • 翟成祥,肖恩·马松:《文本数据管理与分析》,摩根Claypool出版社,2016年

库中提供了这些和其他参考: