信息提取

2019-20年冬季学期高级讲座,6 ECTS学分

基本信息

本次高级讲座的重点是如何使用信息提取技术构建知识库。主题将是使用模式的自动信息提取、监督提取器和开放信息提取、信息框爬行、实体消歧和规范化、知识库学习及其在问答中的应用。我们还将涉及众包知识库的构建、评估措施、,以及一些最先进的知识库。在实验室中,参与者将使用来自维基粉丝社区网站作为源。

地铁列车时刻表

 日期讲座门诊化验室 
115.10.引言(pdf格式)熟悉数据集(pdf格式) 
222.10.知识表示(pdf格式)领域建模(pdf)(示例解决方案) 
第29.10条。爬行和刮擦(pdf格式)报废(pdf格式) 
412.11.*实体类型(pdf格式)维基百科第一句中的实体键入(pdf,文件) 
519.11.分类归纳、共指和歧义消除(pdf格式)分类归纳法(pdf格式) 
626.11.关系提取(pdf格式)关系提取(pdf格式,文件夹) 
73.12.关系提取II(pdf格式)OpenIE编码(pdf格式,文件夹) 
810.12.知识整合(pdf格式)规则挖掘(pdf格式,文件) 
917.12.应用程序(pdf格式)考试准备 
 (7.1.2020)(备用插槽)  
 14.+15.1.2020年口试(E1 4 433室,日程安排)  
 24.3.2020Reexam(在线,日程安排)  

*注意:5.11没有讲座/实验室。

规则和分级

作业

  • 每周有8项作业
  • 每个作业提交都会收到一个二进制通过/不通过分数
  • 要被录取参加期末考试,至少必须通过6项作业。
  • 每周时间表:
    • 作业于周二上午发布
    • 周二下午的实验室计划开始作业
    • 作业应在同一周的周六23:59完成
    • 评估于周二上午提供
  • 工作分配结果(链接)

考试

进一步阅读

行业相关性(第1讲):

  • 产业规模知识图:教训与挑战,娜塔莎·诺伊,高玉清,安舒·贾恩,阿南特·纳拉亚南,阿兰·帕特森,杰米·泰勒,CACM,2019(链接)

知识表达(第二讲):

  • 以实体为中心的知识库中的知识表示和规则挖掘,Fabian M。Suchanek、Jonathan Lajus、Armand Boschin、Gerhard Weikum、RW,2019年(链接)

爬行和刮擦(第三讲):

  • 网络爬行中的资源效率:优化衰退信息的更新频率,Simon Razniewski,CIKM,2016(链接)
  • 维基百科的大规模刮取:DBpedia:开放数据网络的核心,Auer,Sören等人,ISWC 2007(链接)

打字(第四讲):

  • 信息提取(第2章),Sunita Sarawagi,FnT,2007(链接)
  • ENTYFI:虚构文本中的实体键入,Chu等人,WSDM 2020(链接)

分类归纳法(第5讲):

  • Panchenko,Alexander等,《SEMEVAL-2016出租车任务13:基于词汇句法模式、子串和聚焦爬行的分类归纳方法》。2016年6月(链接)
  • Gupta,Amit,et al.“使用上名子序列进行分类归纳”,CIKM 2017(链接)
  • TiFi:虚构领域的分类归纳,Chu等人,WWW 2019(链接)

参考文献(第5讲):

消除歧义(第五讲):

  • 文本中命名实体的稳健消歧,Hoffart等人,EMNLP 2011(链接)