问答系统

高级讲座，6 ECTS学分，2020年夏季学期

讲座和作业

在一个典型的讲座中，我们将每周阅读两篇完整的研究论文，这将构成该周的阅读材料。不需要额外的教科书。没有教程，也不需要学生的演示。讲师将在课堂上描述研究论文中的方法。这不是研讨会课程。

作为每周的作业，学生将被要求对课堂上讨论的每篇论文写一个简短的摘要(之后讲座），并评论其优缺点。作业将是个人作业，不允许小组作业。作业成绩将影响期末考试成绩。

每篇论文的报告建议简明扼要，大约十行：总结上四行，积极和消极各三句。如果确实需要，您可以包含更多的点，但不鼓励使用过于冗长的报告。没有正确或错误的答案，也没有合适的句子长度。将赋值放在文本文件名中，名为2020-qa-firstname-lastname-wek-nn.txt(nn个= 01, 02, ... ,11）并以抄送的形式附在给讲师和助教的电子邮件中。请在文件中保持一致，并在附件文本中注明你的身份证号码。电子邮件主题为2020 QA任务周nn个.

下节课开始前提交作业的截止时间（周二14:00）。未能在截止日期前完成，将导致课程取消注册。

要做练习，你必须学习所需的阅读材料并浏览幻灯片。

我们不允许剽窃。当你第一次被抓到时，你将获得特定作业的零分。第二次，您将从课程中注销。

课程结束时，还会有一个额外的玩具编程作业。

基本信息

类型：高级讲座
讲师：Rishiraj Saha Roy博士
信用：6 ECTS学分
时间：周二，14:00-16:00，HS 001，E1.3/通过缩放在线
谷歌集团供讨论和发布
拜托登记如果你想参加这门课的话，就去谷歌集团吧！[注册最后期限：2020年5月12日]
期末考试类型：口腔
课程持续时间：2020年5月5日至7月14日（由于日冕危机而缩短了一个月）
每周负荷：一次讲座（通常涵盖两篇研究论文）和一次写作作业
助教： 马格达莱娜·凯撒
分数在主考和重考结束后在这里.

课程内容

在这个以研究为导向的高级讲座中，我们将围绕自动问答（QA）系统的知识图、文本源和潜在组合来讨论主题。示例主题包括基于模板的方法、神经方法、命名实体消歧以及利用释义进行问答。过去几年，问答主题的研究激增，涉及信息检索、自然语言处理和人工智能等领域。本课程将涵盖QA这段真正活跃的发展时期的亮点，让参与者了解当前正在使用的算法系列。我们根据从何处检索答案的潜在来源对研究贡献进行划分：策划的知识图、非结构化文本或混合语料库。我们选择这种划分维度，因为它在算法设计方面最具区分性。每个子主题还涵盖了其他关键维度：如所解决问题的复杂性，以及系统中引入的可解释性和交互性的程度。我们将以QA领域最有希望的新兴趋势来结束本课程，这将有助于该领域的新参与者做出最佳决策，推动社区向前发展。

在本课程结束时，学生将能够描述和对比最先进的问题回答方法。他们还将能够批判性地检查该领域当前的方法的贡献和弱点。一般来说，他们将获得分析相关科学文献的经验。

前提条件

具备数据库管理系统、信息检索、自然语言处理和机器学习的基本知识将有所帮助。补充了概率统计、线性代数和优化技术的额外知识，但并非绝对必要。

考试和资格

课程结束时，会有一个口头的考试和一次口试。不会有期中考试。口试（暂定）为在线、闭卷、个人。

为了有资格参加考试，学生必须提交全部的在规定的截止日期内完成任务。总成绩将是主考和重考的最佳成绩（不再尝试）。

讲座时间表

讲座	日期	主题	幻灯片	视频	阅读
01	2020年5月5日	模板和KG-QA简介	PDF格式	第1部分, 第2部分	[1]
02	2020年5月12日	模板：从文本到精选KG	PDF格式	第1部分, 第2部分	[2, 3]
03	2020年5月19日	开放式KGs：模板、转述和图表	PDF格式	第1部分, 第2部分	[4, 5]
04	2020年5月26日	命名实体识别与消歧	PDF格式	第1部分, 第2部分	[6, 7]
05	2020年6月2日	牢记效率	PDF格式	第1部分,第2部分	[8, 9]
06	2020年6月9日	产生影响的基准	PDF格式	第1部分,第2部分	[10, 11]
07	2020年6月16日	神经KG-QA系统	PDF格式	第1部分,第2部分	[12, 13]
08	2020年6月23日	阅读理解与开放式问答	PDF格式	第1部分,第2部分	[14, 15]
09	2020年6月30日	异构源的QA	PDF格式	第1部分,第2部分	[16, 17]
10	2020年7月7日	QA中的强化学习	PDF格式	第1部分,第2部分	[18, 19]
11	2020年7月14日	对话式问答	PDF格式	第1部分,第2部分	[20, 21]
-	2020年7月21日	主要考试（口语）	-	-	-
-	2020年8月4日	Re-exam（口服）	-	-	-

每堂课有1-2篇论文作为相关阅读材料。建议您阅读所需的材料之前讲座。

工具书类

[1] 昂格、克里斯蒂娜、洛伦斯·比赫曼、延斯·莱曼、阿克塞尔·科里尔·恩贡加·恩戈莫、丹尼尔·格伯和菲利普·西米亚诺。“基于模板的RDF数据问答。”在第21届万维网国际会议记录第639-648页。2012

[2] Abujabal、Abdalghani、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。“通过知识库进行开放领域问答的学习永无止境。”在2018年万维网会议记录第1053-1062页。2018

[3] 拉维坎德兰、迪帕克和爱德华·霍维。“学习问答系统的表层文本模式。”在计算语言学协会第40届年会会议记录第41-47页。计算语言学协会，2002年。

[4] Fader、Anthony、Luke Zettlemoyer和Oren Etzioni。“针对开放式问题回答的释义驱动学习。”在计算语言学协会第51届年会论文集（第一卷：长篇论文）第1608-1618页。2013

[5] Lu、Xiaolu、Soumajit Pramanik、Rishiraj Saha Roy、Abdalghani Abujabal、Yafang Wang和Gerhard Weikum。“通过将多文档证据与准知识图结合来回答复杂问题。”在第42届国际ACM SIGIR信息检索研究与开发会议记录第105-114页。2019

[6] 霍法特（Hoffart）、约翰内斯（Johannes）、穆罕默德·阿米尔·约瑟夫（Mohamed Amir Yosef）、伊拉里亚·博尔迪诺（Ilaria Bordino）、哈根·弗斯特诺（Hagen Fürstenau）、曼弗雷德·平卡尔（Manfred Pinkal）、马克·斯潘尼奥尔（Marc Spaniol）、比利亚纳·。“文本中命名实体的强大消歧功能。”《自然语言处理实证方法会议记录》，第782-792页。计算语言学协会，2011年。

[7] 费拉吉纳、保罗和乌戈·斯卡耶拉。“使用维基百科页面快速准确地注释简短文本。”IEEE软件29，第1期（2011）：70-75。

[8] 巴斯特、汉纳和埃尔马尔·奥斯曼。“在Freebase上更准确地回答问题。”第24届ACM国际信息与知识管理会议记录，第1431-1440页。2015

[9] 迪芬巴赫、丹尼斯、安德烈亚斯·博思、卡迈尔·辛格和皮埃尔·马雷特。“面向语义Web上的问答系统。”语义网（2018）：1-19。

[10] Berant、Jonathan、Andrew Chou、Roy Frostig和Percy Liang。“在freebase上对问答对进行语义分析。”《2013年自然语言处理实证方法会议论文集》，第1533-1544页。2013

[11] Rajpurkar、Pranav、Jian Zhang、Konstantin Lopyrev和Percy Liang。“SkuAD:100000多个机器理解文本的问题。”《2016年自然语言处理实证方法会议记录》，第2383-2392页。2016

[12] Yih、Wen-tau、Ming-Wei Chang、Xiaodong He和Jianfeng Gao。“通过分阶段查询图生成进行语义分析：使用知识库进行问题解答。”《计算语言学协会第53届年会和第7届国际自然语言处理联合会议论文集》（第1卷：长篇论文），第1321-1331页。2015

[13] Huang、Xiao、Jingyuan Zhang、Dingcheng Li和Ping Li。“基于知识图嵌入的问答。”《第十二届ACM网络搜索和数据挖掘国际会议论文集》，第105-113页。2019

[14] Chen、Danqi、Adam Fisch、Jason Weston和Antoine Bordes。“阅读维基百科回答开放域问题。”《计算语言学协会第55届年会论文集》（第1卷：长篇论文），第1870-1879页。2017

[15] 克拉克、克里斯托弗和马特·加德纳。“简单有效的多段阅读理解。”《计算语言学协会第56届年会论文集》（第1卷：长篇论文），第845-855页。2018

[16] Sun、Haitian、Tania Bedrax-Weiss和William Cohen。“PullNet：基于知识库和文本的迭代检索的开放领域问题解答。”《2019年自然语言处理实证方法会议记录》和第九届国际自然语言处理联合会议（EMNLP-IJCNLP），第2380-2390页。2019

[17] Sydorova、Alona、Nina Poerner和Benjamin Roth。“基于知识库和文本的可解释问题解答。”《计算语言学协会第57届年会会议记录》，第4943-4951页。2019

[18] Buck、Christian、Jannis Bulian、Massimiliano Ciaramita、Wojciech Gajewski、Andrea Gesmundo、Neil Houlsby和Wei Wang。“提出正确的问题：通过强化学习进行主动问题重组。”第六届学习代表国际会议记录。2018

[19] Das、Rajarshi、Shehzaad Dhuliawala、Manzil Zaheer、Luke Vilnis、Ishan Durugkar、Akshay Krishnamurthy、Alex Smola和Andrew McCallum。“走走，找到答案：使用强化学习在知识库中进行推理。”第六届学习代表国际会议记录。2018

[20] Christmann、Philipp、Rishiraj Saha Roy、Abdalghani Abujabal、Jyotsna Singh和Gerhard Weikum。“三思而后行：使用巧妙的上下文扩展在知识图上回答对话问题。”第28届ACM信息和知识管理国际会议记录，第729-738页。2019

[21]沈，陶，耿秀波，陶智南，郭大雅，唐杜玉，南端，龙国栋，蒋大新。“在大规模知识库上进行对话式问题回答的多任务学习。”《2019年自然语言处理实证方法会议记录》和第九届国际自然语言处理联合会议（EMNLP-IJCNLP），第2442-2451页。2019