教程：基于Curated和Open Web Sources的问题解答

Rishiraj Saha Roy和Avishek Anand

摘要

过去几年，自动化问答（QA）主题的研究激增，涉及信息检索、自然语言处理和人工智能等领域。本教程将介绍QA这段真正活跃的发展时期的亮点，让观众了解当前正在使用的算法系列。我们根据从何处检索答案的潜在来源对研究贡献进行划分：策划的知识图、非结构化文本或混合语料库。我们选择这种划分维度，因为它在算法设计方面最具区分性。每个子主题涵盖了其他关键维度：如所解决问题的复杂性，以及系统中引入的可解释性和交互性。我们将以QA领域最有希望的新兴趋势来结束本教程，这将有助于该领域的新参与者做出最佳决策，推动社区向前发展。自SIGIR 2016上一期QA教程以来，社区发生了很大的变化，我们相信，这一及时的概述确实会使大量与会者受益。

日期

2020年9月14日9:00 AM-12:30 PM

事件

SIGIR 2020，ICTIR 2020

位置

X'ian（SIGIR）、Stavanger（ICTIR）

这个半天的教程分为两部分，每部分90分钟——知识图上的QA和文本上的QA。时间表和幻灯片如下。

工具书类

[1] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2017.QUINT：基于知识库的可解释问题解答。在EMNLP中。

[2] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2018.通过知识库进行开放领域问答的永无止境的学习。在WWW中。

[3] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2019.ComQA：一个社区来源的数据集，用于复杂事实类问题的解释器聚类解答。NAACL-HLT’19。

[4] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2017.知识图问答的自动模板生成。在WWW中。

[5] 尤金·阿基斯坦、大卫·卡梅尔、丹·佩利格、尤瓦尔·平特和唐娜·哈曼。2015年，TREC 2015 LiveQA跟踪概述。在TREC中。

[6] 阿迪蒂亚·卡利恩普尔（Aditya Kalyanpur）、阿尔菲奥·格利奥佐（Alfio Gliozzo）和詹姆斯·范（James Fan）。2012年，沃森的自然语言处理。在NAACL-HLT中。

[7] 阿维谢克·阿南德（Avishek Anand）、劳伦斯·卡文登（Lawrence Cavedon）、希迪奥·乔霍（Hideo Joho）、马克·桑德森（Mark Sanderson）和本诺·斯坦因（Benno Stein）。2020.对话搜索（Dagstuhl研讨会19461）。达格斯图尔报告9，11（2020）。

[8] 因此，伦·奥尔、克里斯蒂安·比泽、乔治·科比拉罗夫、延斯·莱曼、理查德·西加尼亚克和扎卡里·艾夫斯。2007年，DBpedia：开放数据网络的核心。(2007).

[9] 鲍俊伟、南段、赵燕、周明和赵铁军。2016。基于约束的知识图问答。在COLING中。

[10] 汉娜·巴斯特和埃尔玛·奥斯曼。2015年，在Freebase上更准确地回答问题。在CIKM中。

[11] 乔纳森·贝兰特（Jonathan Berant）、安德鲁·周（Andrew Chou）、罗伊·弗罗斯蒂格（Roy Frostig）和珀西·梁（Percy Liang）。2013.基于问答对的Freebase语义分析。在EMNLP中。

[12] 尼基塔·不丹（Nikita Bhutani）、郑欣怡（Xinyi Zheng）和HV Jagadish。2019.学习用查询组合回答知识库中的复杂问题。在CIKM中。

[13] 库尔特·博拉克（Kurt Bollacker）、科林·埃文斯（Colin Evans）、普拉文·帕里托什（Praveen Paritosh）、蒂姆·斯特奇（Tim Sturge）和杰米·泰勒（Jamie Taylor）。2008.Freebase：一个合作创建的图形数据库，用于构建人类知识。在SIGMOD中。

[14] 帕维尔·布拉斯拉夫斯基、丹尼斯·萨文科夫、尤金·阿奇斯坦和阿里娜·杜巴托夫卡。2017年。你到底是什么意思？分析CQA中的澄清问题。用CHIIR。

[15] Danqi Chen、Adam Fisch、Jason Weston和Antoine Bordes。2017.阅读维基百科回答开放域问题。在ACL中。

[16] Yu Chen、Lingfei Wu和Mohammed J Zaki.2019。基于知识库的双向注意记忆网络。在NAACL-HLT中。

[17] 蔡恩索尔、何贺、莫希特·伊耶、马克·亚茨卡、文涛·义、蔡叶锦、梁佩西和卢克·泽特莫耶。2018年，QuAC：上下文中的问答。在EMNLP中。

[18] 菲利普·克里斯特曼（Philipp Christmann）、里希拉杰·萨哈·罗伊（Rishiraj Saha Roy）、阿卜杜勒加尼·阿布贾巴尔（Abdalghani Abujabal）、乔茨纳·辛格（Jyotsna Singh）和格哈德·威库姆。2019.三思而后行：运用巧妙的语境扩展在知识图上回答对话问题。在CIKM中。

[19] 克里斯托弗·克拉克和马特·加德纳。2018年。简单有效的多段阅读理解。在ACL中。

[20] Charles L.A.Clarke和Egidio L.Terra。2003年，在SIGIR中，通过检索和文档检索来回答事实性问题。

[21]丹尼尔·科恩（Daniel Cohen）、刘洋（Liu Yang）和W Bruce Croft。2018年，WikiPassageQA：非事实性答案文章检索研究的基准集合。在SIGIR中。

[22]Silviu Cucerzan和Eugene Agichtein。2005.非结构化和结构化Web内容的事实类问题解答。在TREC中。

[23]杰弗里·道尔顿（Jeffrey Dalton）、熊晨燕（Chenyan Xiong）和杰米·卡兰（Jamie Callan）。2019年。CAsT2019：对话协助跟踪概述。在TREC中。

[24]拉贾西·达斯（Rajarshi Das）、谢赫扎德·杜利亚瓦拉（Shehzaad Dhuliawala）、曼齐尔·扎赫尔（Manzil Zaheer）、卢克·维尼斯（Luke Vilnis）、伊珊·杜鲁加（Ishan Durugkar）、阿克沙伊·克里希纳穆西（Akshay Krishnamurthy。2018.走走，找到答案：使用强化学习在知识库中推理路径。在ICLR中。

[25]Rajarshi Das、Manzil Zaheer、Siva Reddy和Andrew McCallum。2017年，使用通用模式和记忆网络对知识库和文本进行问答。在ACL中。

[26]Pradeep Dasigi、Nelson F Liu、Ana Marasovic、Noah A Smith和Matt Gard-ner。2019.Quoref：一个阅读理解数据集，包含需要关联推理的问题。在EMNLP-IJCNLP中。

[27]穆斯塔法·德哈尼（Mostafa Dehghani）、胡塞因·阿扎尔博尼亚德（Hosein Azarbonyad）、贾普·坎普斯（Jaap Kamps）和马尔滕·德瑞克（Maarten de Rijke）。2019.学习在开放领域的问题回答中转换、组合和推理。WSDM。

[28]劳拉·迪茨（Laura Dietz）、马尼沙·维尔玛（Manisha Verma）、菲利普·拉德林斯基（Filip Radlinski）和尼克·克拉斯韦尔（Nick Crashwell）。2017.TREC复杂答案检索概述。在TREC中。

[29]丁季伟，胡伟，徐启新，曲渝中.2019。利用频繁查询子结构生成复杂问题解答的形式查询。在EMNLP-IJCNLP中。

[30]董欣，加布里洛维奇，海茨，霍恩，倪劳，墨菲，斯特罗曼，孙绍华，张伟。2014.知识库：概率知识融合的网络规模方法。在KDD中。

[31]杜希鲁、王毅忠、普拉迪普·达西吉、加布里埃尔·斯坦诺夫斯基、萨梅尔·辛格和马特·加德纳。2019.DROP：需要对段落进行离散推理的阅读理解基准。在NAACL-HLT中。

[32]艾哈迈德·埃尔戈哈里（Ahmed Elgohary）、陈昭（Chen Zhao）和乔丹·博伊德·格拉伯（Jordan Boyd-Graber）。2018.连续开放域问答的数据集和基线。EMNLP。

[33]安东尼·法德（Anthony Fader）、卢克·泽特尔莫耶（Luke Zettlemoyer）和奥伦·埃齐奥尼（Oren Etzioni）。2013年。ACL中开放式问题回答的释义驱动学习。

[34]安东尼·法德、卢克·泽特莫耶和奥伦·埃齐奥尼。2014年，针对策划和提取的知识库的开放式问题解答。在KDD中。

[35]詹姆斯·范和肯·巴克。2015年，沃森的自然语言处理。在AAAI。

[36]David Ferrucci、Eric Brown、Jennifer Chu Carroll、James Fan、David Gondek、Aditya A.Kalyanpur、Adam Lally、J.William Murdock、Eric Nyberg、John Prager、Nico Schlaefer和Chris Welty。2010年，Building Watson:DeepQA项目概述。AI杂志31，3（2010）。

[37]小伯特·F·格林（Bert F Green Jr）、爱丽丝·K·沃尔夫（Alice K Wolf）、卡罗尔·乔姆斯基（Carol Chomsky）和肯尼斯·劳弗利（Kenneth Laughery）。1961.棒球：自动回答问题。在西方联合IRE-AIEE-ACM计算机会议上。

[38]郭大亚，唐杜玉，南端，周明，尹健。2018.对话-行动：通过大规模知识库进行对话式问答。在NeurIPS中。

[39]郭洋洋、程志勇、聂立强、刘一兵、王应龙和莫汉·坎坎哈利。2019.量化和缓解视觉问答中的语言先验问题。SIGIR。

[40]桑达·哈拉巴吉乌（Sanda Harabagiu）和丹·摩尔多瓦（Dan Moldovan）。2001.开放域文本问答。在NAACL-HLT中。

[41]胡森，邹雷，徐宇，王海训，赵东燕。2017.通过知识图上的子图匹配回答自然语言问题。TKDE 30，5（2017）。

[42]胡森，邹磊，张欣波。2018年。一个国家转型框架，用于回答有关知识库的复杂问题。在EMNLP中。

[43]小黄，张靖远，李定成，李萍.2019。WSDM中基于知识图嵌入的问答。

[44]莫希特·伊耶（Mohit Iyyer）、易文涛（Wen-tau Yih）和张明伟（Ming-Wei Chang）。2017.用于顺序问题回答的基于搜索的神经结构学习。在ACL中。

[45]郑佳，阿卜杜勒加尼·阿布贾巴尔，里希拉杰·萨哈·罗伊，詹尼克·斯特罗根和格哈德·魏库姆。2018年，TEQUILA：基于知识库的时间问题解答。在CIKM中。

[46]马格达莱娜·凯泽（Magdalena Kaiser）、里希拉吉·萨哈·罗伊（Rishiraj Saha Roy）和格哈德·魏库姆（Gerhard Weikum）。2020年。利用单词邻近网络在文章中回答对话问题——奏效。在SIGIR中。

[47]Tushar Khot、Ashish Sabharwal和Peter Clark.2017年。使用开放式信息提取回答复杂问题。在ACL中。

[48]伯恩哈德·克拉茨瓦尔德和斯特凡·费尔里格尔。2019.从网上神经问题回答的在线用户反馈中学习。在WWW中。

[49]汤姆·奎亚特科夫斯基（Tom Kwiatkowski）、詹尼马里亚·帕洛马基（Jennimaria Palomaki）、奥利维娅·雷德菲尔德（Olivia Redfield）、迈克尔·柯林斯（Michael Collins）、安库尔·帕里克（Ankur Parikh）、克里斯·阿尔贝蒂（Chris Alberti）、丹尼尔·爱泼斯坦。2019.自然问题：问答研究的基准。TACL 7（2019年）。

[50]帕特里克·刘易斯、卢多维奇·德诺耶和塞巴斯蒂安·里德尔。2019.完形填空翻译无监督问答。在ACL中。

[51]费力和HV Jagadish。2014.为关系数据库构建交互式自然语言界面。在VLDB中。

[52]吉米·林（Jimmy Lin）和鲍里斯·卡茨（Boris Katz）。2003年，万维网问答技术。在EACL中。

[53]YankaiLin，HaozheJi，Zhiyuan Liu，Maosong Sun.2018 Denoising远程监督开放域问答。在ACL中。

[54]Lu Xiaolu、Soumajit Pramanik、Rishiraj Saha Roy、Abdalghani Abujabal、Yafang Wang和Gerhard Weikum。2019.通过将多文档证据与准知识图结合来回答复杂问题。在SIGIR中。

[55]罗康琪，林凤丽，罗旭升，朱肯尼。2018.通过复杂查询图编码的知识库问题解答。在EMNLP中。

[56]郝马，闫珂.2015。介绍实体推荐和理解。WWW.[57]毛萨姆。2016年，开放式信息提取系统和下游应用程序。在IJCAI。

[58]Anusri Pampari、Preethi Raghavan、Jennifer Liang和Jian Peng。2018.emrQA:电子病历问答大型语料库。在EMNLP中。

[59]潘伯元，李浩，姚紫玉，蔡登，孙欢。2019.会话问题生成的强化动态推理。在ACL中。

[60]Panupong Pasupat和Percy Liang。2015.半结构化表的合成语义分析。在ACL中。

[61]邱云琪，王元卓，金小龙，张坤。2020。弱监督知识图上多关系问题回答的逐步推理。在WSDM中。

[62]Filip Radlinski和Nick Craswell。2017.会话搜索的理论框架。用CHIIR。

[63]普拉纳夫·拉杰普卡尔（Pranav Rajpurkar）、张健（Jian Zhang）、康斯坦丁·洛佩列夫（Konstantin Lopyrev）和珀西·梁（Percy Liang）。2016.SkuAD:100000多个机器理解文本的问题。在EMNLP中。

[64]Sudha Rao和Hal DauméIII.2018年。学习提出好的问题：使用完美信息的神经期望值对澄清问题进行排序。在ACL中。

[65]迪帕克·拉维坎德兰（Deepak Ravichandran）和爱德华·霍维（Eduard Hovy）。2002.学习问答系统的表层文本模式。在ACL中。

[66]西瓦·雷迪（Siva Reddy）、陈丹琪（Danqi Chen）和克里斯托弗·曼宁（Christopher Manning）。2019.CoQA：对话式问答挑战。TACL 7（2019年）。

[67]Marzieh Saeidi、Max Bartolo、Patrick Lewis、Sameer Singh、Tim Rocktaïschel、Mike Sheldon、Guillaume Bouchard和Sebastian Riedel。2018.对话机器阅读中自然语言规则的解释。在EMNLP中。

[68]阿姆里塔·萨哈（Amrita Saha）、瓦尔达安·帕胡亚（Vardaan Pahuja）、米提什·哈普拉（Mitesh Khapra）、卡提克·桑卡拉纳拉亚南（Karthik Sankaranarayanan）和萨拉斯·钱达尔（Sarath Chandar）。2018.复杂顺序问答：学习用知识图在链接的问答对上进行对话。在AAAI。

[69]丹尼斯·萨文科夫（Denis Savenkov）和尤金·阿基斯坦（Eugene Agichtein）。2016年，当知识库不够时：使用外部文本数据对知识库进行问答。在SIGIR中。

[70]陶慎，耿秀波，秦涛，郭大雅，唐杜玉，南端，龙国栋，蒋大新。2019.基于大规模知识库的对话式问题回答多任务学习。在EMNLP-IJCNLP中。

[71]费比安·苏查内克（Fabian Suchanek）、格杰吉·卡塞基（Gjergji Kasneci）和格哈德·魏库姆（Gerhard Weikum）。2007.YAGO：语义知识的核心。在WWW中。

[72]《海地太阳报》（Haitian Sun）、塔妮娅·贝德拉克斯·维斯（Tania Bedrax-Weiss）和威廉·科恩（William Cohen）。2019.PullNet：基于知识库和文本的迭代检索的开放领域问题解答。在EMNLP-IJCNLP中。

[73]海地太阳、Bhuwan Dhingra、Manzil Zaheer、Kathryn Mazaitis、RuslanSalakhutdinov和William Cohen。2018.使用知识库和文本的早期融合进行开放领域问题解答。在EMNLP中。

[74]孙欢，马浩，何晓东，叶文涛，于苏，闫喜峰。2016用于问题回答的表格单元格搜索。在WWW中。

[75]孙浩，马浩，叶文义，蔡英文，刘建军，张敏敏。2015.开放域问题通过语义丰富进行回答。在WWW中。

[76]阿隆娜·西多洛娃（Alona Sydorova）、尼娜·波纳（Nina Poerner）和本杰明·罗斯（Benjamin Roth）。2019.可解释问题基于知识库和文本的回答。在ACL中。

[77]阿隆·塔尔莫（Alon Talmor）和乔纳森·贝兰特（Jonathan Berant）。2018.网络作为知识库回答复杂问题。在NAACL-HLT中。

[78]阿隆·塔尔莫（Alon Talmor）和乔纳森·贝兰特（Jonathan Berant）。2019.MultiQA：一项实证调查阅读理解中的泛化和迁移。在ACL中。

[79]谭C.，魏F.，周Q.，杨N.，杜B.，吕W.，周M。2018.使用分层门控递归神经网络进行上下文感知的答案句子选择。IEEE/ACM传输。《音频、语音和语言处理》第26、3期（2018年）。

[80]克里斯蒂娜·昂格（Christina Unger）、洛伦斯·布赫曼（Lorenz Buöhmann）、延斯·莱曼（Jens Lehmann。2012.基于模板的RDF数据问答。在WWW中。

[81]斯维特拉娜·瓦库连科、哈维尔·大卫·费尔南德斯·加西亚、阿克塞尔·波列斯、马尔滕·德Rijke和Michael Cochez。2019.知识图上复杂问题答案的消息传递。在CIKM中。

[82]埃伦·沃希斯（Ellen M.Voorhees）。1999年，TREC-8问答跟踪报告。在TREC中。

[83]丹尼·弗兰德克和马克斯·克罗。2014.维基数据：免费协作知识库。CACM 57，10（2014）。

[84]王炳宁，姚婷，张琦，徐静芳，田志兴，刘康赵军。2019.用于开放域问题解答的文档网关阅读器。SIGIR。

[85]吴志勇，高本，吴天宣，尹彭成，刘群。2020.PERQ：预测、解释和纠正KB-QA系统中的失败问题。在WSDM中。

[86]熊文翰，莫煜，张世玉，郭晓晓，王威廉.杨。2019.使用具有知识意识的读者改进不完整知识库的问题解答。在ACL中。

[87]徐晶晶，王月晨，唐杜玉，南端，杨鹏程，齐曾，周明，徐孙。2019.在基于知识的问答中提出澄清问题。在EMNLP-IJCNLP中。

[88]徐坤，赖宇轩，冯燕松，王志国。2019.增强基于知识的问题回答的关键值记忆神经网络。NAACL-HLT。

[89]徐坤，红蒂，冯燕松，黄松芳，赵东燕。2016年，通过关系提取和文本证据在Freebase上回答问题。在ACL中。

[90]穆罕默德·叶海亚（Mohamed Yahya）、克劳斯·贝贝里奇（Klaus Berberich）、谢迪·埃尔巴索尼（Shady Elbassuoni）和格哈德·魏库姆（Gerhard Weikum）。2013年，通过链接数据网络进行稳健的问答。在CIKM中。

[91]杨云伦，愚公，陈曦。2018.电子商务对话搜索的查询跟踪：机器理解视角。在CIKM中。

[92]杨志林，齐鹏，张赛正，本吉奥，科恩，萨拉库丁诺夫，曼宁。2018.HotpotQA:一个用于多种可解释的多跳问答的数据集。EMNLP。

[93]斯科特·文陶毅（Scott Wen-tau Yih）和郝马（Hao Ma.2016）。利用知识库、网络和其他工具进行问答。在NAACL-HLT中。

[94]叶文涛，马浩.2016。利用知识库、网络和其他工具进行问答。在SIGIR中。

[95]尹鹏程，段南，高本，鲍俊伟，周明。2015.在开放知识库中回答具有复杂语义约束的问题。在CIKM公司。

[96]张新波，邹雷，胡森.2019。改进的互动机制通过反馈的问答系统。在CIKM中。

[97]周康彦，Shrimai Prabhumoye，和Alan W Black。2018.A数据集记录固定对话。在EMNLP中。

教程：基于Curated和Open Web Sources的问题解答

摘要

目录

工具书类