教程:基于Curated和Open Web Sources的问题解答

摘要

过去几年,自动化问答(QA)主题的研究激增,涉及信息检索、自然语言处理和人工智能等领域。本教程将介绍QA这段真正活跃的发展时期的亮点,让观众了解当前正在使用的算法系列。我们根据从何处检索答案的潜在来源对研究贡献进行划分:策划的知识图、非结构化文本或混合语料库。我们选择这种划分维度,因为它在算法设计方面最具区分性。每个子主题涵盖了其他关键维度:如所解决问题的复杂性,以及系统中引入的可解释性和交互性。我们将以QA领域最有希望的新兴趋势来结束本教程,这将有助于该领域的新参与者做出最佳决策,推动社区向前发展。自SIGIR 2016上一期QA教程以来,社区发生了很大的变化,我们相信,这一及时的概述确实会使大量与会者受益。

日期
2020年9月14日9:00 AM-12:30 PM
位置
X'ian(SIGIR)、Stavanger(ICTIR)

这个半天的教程分为两部分,每部分90分钟——知识图上的QA和文本上的QA。时间表和幻灯片如下。


目录

  1. 知识图上的问答通过里希拉吉·萨哈·罗伊.[完整视频]

  1. 基于文本来源的问答通过阿维谢克·阿南德


工具书类


[1] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2017.QUINT:基于知识库的可解释问题解答。在EMNLP中。

[2] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2018.通过知识库进行开放领域问答的永无止境的学习。在WWW中。

[3] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2019.ComQA:一个社区来源的数据集,用于复杂事实类问题的解释器聚类解答。NAACL-HLT’19。

[4] Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum。2017.知识图问答的自动模板生成。在WWW中。

[5] 尤金·阿基斯坦、大卫·卡梅尔、丹·佩利格、尤瓦尔·平特和唐娜·哈曼。2015年,TREC 2015 LiveQA跟踪概述。在TREC中。

[6] 阿迪蒂亚·卡利恩普尔(Aditya Kalyanpur)、阿尔菲奥·格利奥佐(Alfio Gliozzo)和詹姆斯·范(James Fan)。2012年,沃森的自然语言处理。在NAACL-HLT中。

[7] 阿维谢克·阿南德(Avishek Anand)、劳伦斯·卡文登(Lawrence Cavedon)、希迪奥·乔霍(Hideo Joho)、马克·桑德森(Mark Sanderson)和本诺·斯坦因(Benno Stein)。2020.对话搜索(Dagstuhl研讨会19461)。达格斯图尔报告9,11(2020)。

[8] 因此,伦·奥尔、克里斯蒂安·比泽、乔治·科比拉罗夫、延斯·莱曼、理查德·西加尼亚克和扎卡里·艾夫斯。2007年,DBpedia:开放数据网络的核心。(2007).

[9] 鲍俊伟、南段、赵燕、周明和赵铁军。2016。基于约束的知识图问答。在COLING中。

[10] 汉娜·巴斯特和埃尔玛·奥斯曼。2015年,在Freebase上更准确地回答问题。在CIKM中。

[11] 乔纳森·贝兰特(Jonathan Berant)、安德鲁·周(Andrew Chou)、罗伊·弗罗斯蒂格(Roy Frostig)和珀西·梁(Percy Liang)。2013.基于问答对的Freebase语义分析。在EMNLP中。

[12] 尼基塔·不丹(Nikita Bhutani)、郑欣怡(Xinyi Zheng)和HV Jagadish。2019.学习用查询组合回答知识库中的复杂问题。在CIKM中。

[13] 库尔特·博拉克(Kurt Bollacker)、科林·埃文斯(Colin Evans)、普拉文·帕里托什(Praveen Paritosh)、蒂姆·斯特奇(Tim Sturge)和杰米·泰勒(Jamie Taylor)。2008.Freebase:一个合作创建的图形数据库,用于构建人类知识。在SIGMOD中。

[14] 帕维尔·布拉斯拉夫斯基、丹尼斯·萨文科夫、尤金·阿奇斯坦和阿里娜·杜巴托夫卡。2017年。你到底是什么意思?分析CQA中的澄清问题。用CHIIR。

[15] Danqi Chen、Adam Fisch、Jason Weston和Antoine Bordes。2017.阅读维基百科回答开放域问题。在ACL中。

[16] Yu Chen、Lingfei Wu和Mohammed J Zaki.2019。基于知识库的双向注意记忆网络。在NAACL-HLT中。

[17] 蔡恩索尔、何贺、莫希特·伊耶、马克·亚茨卡、文涛·义、蔡叶锦、梁佩西和卢克·泽特莫耶。2018年,QuAC:上下文中的问答。在EMNLP中。

[18] 菲利普·克里斯特曼(Philipp Christmann)、里希拉杰·萨哈·罗伊(Rishiraj Saha Roy)、阿卜杜勒加尼·阿布贾巴尔(Abdalghani Abujabal)、乔茨纳·辛格(Jyotsna Singh)和格哈德·威库姆。2019.三思而后行:运用巧妙的语境扩展在知识图上回答对话问题。在CIKM中。

[19] 克里斯托弗·克拉克和马特·加德纳。2018年。简单有效的多段阅读理解。在ACL中。

[20] Charles L.A.Clarke和Egidio L.Terra。2003年,在SIGIR中,通过检索和文档检索来回答事实性问题。

[21]丹尼尔·科恩(Daniel Cohen)、刘洋(Liu Yang)和W Bruce Croft。2018年,WikiPassageQA:非事实性答案文章检索研究的基准集合。在SIGIR中。

[22]Silviu Cucerzan和Eugene Agichtein。2005.非结构化和结构化Web内容的事实类问题解答。在TREC中。

[23]杰弗里·道尔顿(Jeffrey Dalton)、熊晨燕(Chenyan Xiong)和杰米·卡兰(Jamie Callan)。2019年。CAsT2019:对话协助跟踪概述。在TREC中。

[24]拉贾西·达斯(Rajarshi Das)、谢赫扎德·杜利亚瓦拉(Shehzaad Dhuliawala)、曼齐尔·扎赫尔(Manzil Zaheer)、卢克·维尼斯(Luke Vilnis)、伊珊·杜鲁加(Ishan Durugkar)、阿克沙伊·克里希纳穆西(Akshay Krishnamurthy。2018.走走,找到答案:使用强化学习在知识库中推理路径。在ICLR中。

[25]Rajarshi Das、Manzil Zaheer、Siva Reddy和Andrew McCallum。2017年,使用通用模式和记忆网络对知识库和文本进行问答。在ACL中。

[26]Pradeep Dasigi、Nelson F Liu、Ana Marasovic、Noah A Smith和Matt Gard-ner。2019.Quoref:一个阅读理解数据集,包含需要关联推理的问题。在EMNLP-IJCNLP中。

[27]穆斯塔法·德哈尼(Mostafa Dehghani)、胡塞因·阿扎尔博尼亚德(Hosein Azarbonyad)、贾普·坎普斯(Jaap Kamps)和马尔滕·德瑞克(Maarten de Rijke)。2019.学习在开放领域的问题回答中转换、组合和推理。WSDM。

[28]劳拉·迪茨(Laura Dietz)、马尼沙·维尔玛(Manisha Verma)、菲利普·拉德林斯基(Filip Radlinski)和尼克·克拉斯韦尔(Nick Crashwell)。2017.TREC复杂答案检索概述。在TREC中。

[29]丁季伟,胡伟,徐启新,曲渝中.2019。利用频繁查询子结构生成复杂问题解答的形式查询。在EMNLP-IJCNLP中。

[30]董欣,加布里洛维奇,海茨,霍恩,倪劳,墨菲,斯特罗曼,孙绍华,张伟。2014.知识库:概率知识融合的网络规模方法。在KDD中。

[31]杜希鲁、王毅忠、普拉迪普·达西吉、加布里埃尔·斯坦诺夫斯基、萨梅尔·辛格和马特·加德纳。2019.DROP:需要对段落进行离散推理的阅读理解基准。在NAACL-HLT中。

[32]艾哈迈德·埃尔戈哈里(Ahmed Elgohary)、陈昭(Chen Zhao)和乔丹·博伊德·格拉伯(Jordan Boyd-Graber)。2018.连续开放域问答的数据集和基线。EMNLP。

[33]安东尼·法德(Anthony Fader)、卢克·泽特尔莫耶(Luke Zettlemoyer)和奥伦·埃齐奥尼(Oren Etzioni)。2013年。ACL中开放式问题回答的释义驱动学习。

[34]安东尼·法德、卢克·泽特莫耶和奥伦·埃齐奥尼。2014年,针对策划和提取的知识库的开放式问题解答。在KDD中。

[35]詹姆斯·范和肯·巴克。2015年,沃森的自然语言处理。在AAAI。

[36]David Ferrucci、Eric Brown、Jennifer Chu Carroll、James Fan、David Gondek、Aditya A.Kalyanpur、Adam Lally、J.William Murdock、Eric Nyberg、John Prager、Nico Schlaefer和Chris Welty。2010年,Building Watson:DeepQA项目概述。AI杂志31,3(2010)。

[37]小伯特·F·格林(Bert F Green Jr)、爱丽丝·K·沃尔夫(Alice K Wolf)、卡罗尔·乔姆斯基(Carol Chomsky)和肯尼斯·劳弗利(Kenneth Laughery)。1961.棒球:自动回答问题。在西方联合IRE-AIEE-ACM计算机会议上。

[38]郭大亚,唐杜玉,南端,周明,尹健。2018.对话-行动:通过大规模知识库进行对话式问答。在NeurIPS中。

[39]郭洋洋、程志勇、聂立强、刘一兵、王应龙和莫汉·坎坎哈利。2019.量化和缓解视觉问答中的语言先验问题。SIGIR。

[40]桑达·哈拉巴吉乌(Sanda Harabagiu)和丹·摩尔多瓦(Dan Moldovan)。2001.开放域文本问答。在NAACL-HLT中。

[41]胡森,邹雷,徐宇,王海训,赵东燕。2017.通过知识图上的子图匹配回答自然语言问题。TKDE 30,5(2017)。

[42]胡森,邹磊,张欣波。2018年。一个国家转型框架,用于回答有关知识库的复杂问题。在EMNLP中。

[43]小黄,张靖远,李定成,李萍.2019。WSDM中基于知识图嵌入的问答。

[44]莫希特·伊耶(Mohit Iyyer)、易文涛(Wen-tau Yih)和张明伟(Ming-Wei Chang)。2017.用于顺序问题回答的基于搜索的神经结构学习。在ACL中。

[45]郑佳,阿卜杜勒加尼·阿布贾巴尔,里希拉杰·萨哈·罗伊,詹尼克·斯特罗根和格哈德·魏库姆。2018年,TEQUILA:基于知识库的时间问题解答。在CIKM中。

[46]马格达莱娜·凯泽(Magdalena Kaiser)、里希拉吉·萨哈·罗伊(Rishiraj Saha Roy)和格哈德·魏库姆(Gerhard Weikum)。2020年。利用单词邻近网络在文章中回答对话问题——奏效。在SIGIR中。

[47]Tushar Khot、Ashish Sabharwal和Peter Clark.2017年。使用开放式信息提取回答复杂问题。在ACL中。

[48]伯恩哈德·克拉茨瓦尔德和斯特凡·费尔里格尔。2019.从网上神经问题回答的在线用户反馈中学习。在WWW中。

[49]汤姆·奎亚特科夫斯基(Tom Kwiatkowski)、詹尼马里亚·帕洛马基(Jennimaria Palomaki)、奥利维娅·雷德菲尔德(Olivia Redfield)、迈克尔·柯林斯(Michael Collins)、安库尔·帕里克(Ankur Parikh)、克里斯·阿尔贝蒂(Chris Alberti)、丹尼尔·爱泼斯坦。2019.自然问题:问答研究的基准。TACL 7(2019年)。

[50]帕特里克·刘易斯、卢多维奇·德诺耶和塞巴斯蒂安·里德尔。2019.完形填空翻译无监督问答。在ACL中。

[51]费力和HV Jagadish。2014.为关系数据库构建交互式自然语言界面。在VLDB中。

[52]吉米·林(Jimmy Lin)和鲍里斯·卡茨(Boris Katz)。2003年,万维网问答技术。在EACL中。

[53]YankaiLin,HaozheJi,Zhiyuan Liu,Maosong Sun.2018 Denoising远程监督开放域问答。在ACL中。

[54]Lu Xiaolu、Soumajit Pramanik、Rishiraj Saha Roy、Abdalghani Abujabal、Yafang Wang和Gerhard Weikum。2019.通过将多文档证据与准知识图结合来回答复杂问题。在SIGIR中。

[55]罗康琪,林凤丽,罗旭升,朱肯尼。2018.通过复杂查询图编码的知识库问题解答。在EMNLP中。

[56]郝马,闫珂.2015。介绍实体推荐和理解。WWW.[57]毛萨姆。2016年,开放式信息提取系统和下游应用程序。在IJCAI。

[58]Anusri Pampari、Preethi Raghavan、Jennifer Liang和Jian Peng。2018.emrQA:电子病历问答大型语料库。在EMNLP中。

[59]潘伯元,李浩,姚紫玉,蔡登,孙欢。2019.会话问题生成的强化动态推理。在ACL中。

[60]Panupong Pasupat和Percy Liang。2015.半结构化表的合成语义分析。在ACL中。

[61]邱云琪,王元卓,金小龙,张坤。2020。弱监督知识图上多关系问题回答的逐步推理。在WSDM中。

[62]Filip Radlinski和Nick Craswell。2017.会话搜索的理论框架。用CHIIR。

[63]普拉纳夫·拉杰普卡尔(Pranav Rajpurkar)、张健(Jian Zhang)、康斯坦丁·洛佩列夫(Konstantin Lopyrev)和珀西·梁(Percy Liang)。2016.SkuAD:100000多个机器理解文本的问题。在EMNLP中。

[64]Sudha Rao和Hal DauméIII.2018年。学习提出好的问题:使用完美信息的神经期望值对澄清问题进行排序。在ACL中。

[65]迪帕克·拉维坎德兰(Deepak Ravichandran)和爱德华·霍维(Eduard Hovy)。2002.学习问答系统的表层文本模式。在ACL中。

[66]西瓦·雷迪(Siva Reddy)、陈丹琪(Danqi Chen)和克里斯托弗·曼宁(Christopher Manning)。2019.CoQA:对话式问答挑战。TACL 7(2019年)。

[67]Marzieh Saeidi、Max Bartolo、Patrick Lewis、Sameer Singh、Tim Rocktaïschel、Mike Sheldon、Guillaume Bouchard和Sebastian Riedel。2018.对话机器阅读中自然语言规则的解释。在EMNLP中。

[68]阿姆里塔·萨哈(Amrita Saha)、瓦尔达安·帕胡亚(Vardaan Pahuja)、米提什·哈普拉(Mitesh Khapra)、卡提克·桑卡拉纳拉亚南(Karthik Sankaranarayanan)和萨拉斯·钱达尔(Sarath Chandar)。2018.复杂顺序问答:学习用知识图在链接的问答对上进行对话。在AAAI。

[69]丹尼斯·萨文科夫(Denis Savenkov)和尤金·阿基斯坦(Eugene Agichtein)。2016年,当知识库不够时:使用外部文本数据对知识库进行问答。在SIGIR中。

[70]陶慎,耿秀波,秦涛,郭大雅,唐杜玉,南端,龙国栋,蒋大新。2019.基于大规模知识库的对话式问题回答多任务学习。在EMNLP-IJCNLP中。

[71]费比安·苏查内克(Fabian Suchanek)、格杰吉·卡塞基(Gjergji Kasneci)和格哈德·魏库姆(Gerhard Weikum)。2007.YAGO:语义知识的核心。在WWW中。

[72]《海地太阳报》(Haitian Sun)、塔妮娅·贝德拉克斯·维斯(Tania Bedrax-Weiss)和威廉·科恩(William Cohen)。2019.PullNet:基于知识库和文本的迭代检索的开放领域问题解答。在EMNLP-IJCNLP中。

[73]海地太阳、Bhuwan Dhingra、Manzil Zaheer、Kathryn Mazaitis、RuslanSalakhutdinov和William Cohen。2018.使用知识库和文本的早期融合进行开放领域问题解答。在EMNLP中。

[74]孙欢,马浩,何晓东,叶文涛,于苏,闫喜峰。2016用于问题回答的表格单元格搜索。在WWW中。

[75]孙浩,马浩,叶文义,蔡英文,刘建军,张敏敏。2015.开放域问题通过语义丰富进行回答。在WWW中。

[76]阿隆娜·西多洛娃(Alona Sydorova)、尼娜·波纳(Nina Poerner)和本杰明·罗斯(Benjamin Roth)。2019.可解释问题基于知识库和文本的回答。在ACL中。

[77]阿隆·塔尔莫(Alon Talmor)和乔纳森·贝兰特(Jonathan Berant)。2018.网络作为知识库回答复杂问题。在NAACL-HLT中。

[78]阿隆·塔尔莫(Alon Talmor)和乔纳森·贝兰特(Jonathan Berant)。2019.MultiQA:一项实证调查阅读理解中的泛化和迁移。在ACL中。

[79]谭C.,魏F.,周Q.,杨N.,杜B.,吕W.,周M。2018.使用分层门控递归神经网络进行上下文感知的答案句子选择。IEEE/ACM传输。《音频、语音和语言处理》第26、3期(2018年)。

[80]克里斯蒂娜·昂格(Christina Unger)、洛伦斯·布赫曼(Lorenz Buöhmann)、延斯·莱曼(Jens Lehmann。2012.基于模板的RDF数据问答。在WWW中。

[81]斯维特拉娜·瓦库连科、哈维尔·大卫·费尔南德斯·加西亚、阿克塞尔·波列斯、马尔滕·德Rijke和Michael Cochez。2019.知识图上复杂问题答案的消息传递。在CIKM中。

[82]埃伦·沃希斯(Ellen M.Voorhees)。1999年,TREC-8问答跟踪报告。在TREC中。

[83]丹尼·弗兰德克和马克斯·克罗。2014.维基数据:免费协作知识库。CACM 57,10(2014)。

[84]王炳宁,姚婷,张琦,徐静芳,田志兴,刘康赵军。2019.用于开放域问题解答的文档网关阅读器。SIGIR。

[85]吴志勇,高本,吴天宣,尹彭成,刘群。2020.PERQ:预测、解释和纠正KB-QA系统中的失败问题。在WSDM中。

[86]熊文翰,莫煜,张世玉,郭晓晓,王威廉.杨。2019.使用具有知识意识的读者改进不完整知识库的问题解答。在ACL中。

[87]徐晶晶,王月晨,唐杜玉,南端,杨鹏程,齐曾,周明,徐孙。2019.在基于知识的问答中提出澄清问题。在EMNLP-IJCNLP中。

[88]徐坤,赖宇轩,冯燕松,王志国。2019.增强基于知识的问题回答的关键值记忆神经网络。NAACL-HLT。

[89]徐坤,红蒂,冯燕松,黄松芳,赵东燕。2016年,通过关系提取和文本证据在Freebase上回答问题。在ACL中。

[90]穆罕默德·叶海亚(Mohamed Yahya)、克劳斯·贝贝里奇(Klaus Berberich)、谢迪·埃尔巴索尼(Shady Elbassuoni)和格哈德·魏库姆(Gerhard Weikum)。2013年,通过链接数据网络进行稳健的问答。在CIKM中。

[91]杨云伦,愚公,陈曦。2018.电子商务对话搜索的查询跟踪:机器理解视角。在CIKM中。

[92]杨志林,齐鹏,张赛正,本吉奥,科恩,萨拉库丁诺夫,曼宁。2018.HotpotQA:一个用于多种可解释的多跳问答的数据集。EMNLP。

[93]斯科特·文陶毅(Scott Wen-tau Yih)和郝马(Hao Ma.2016)。利用知识库、网络和其他工具进行问答。在NAACL-HLT中。

[94]叶文涛,马浩.2016。利用知识库、网络和其他工具进行问答。在SIGIR中。

[95]尹鹏程,段南,高本,鲍俊伟,周明。2015.在开放知识库中回答具有复杂语义约束的问题。CIKM公司。

[96]张新波,邹雷,胡森.2019。改进的互动机制通过反馈的问答系统。在CIKM中。

[97]周康彦,Shrimai Prabhumoye,和Alan W Black。2018.A数据集记录固定对话。在EMNLP中。