问题解答

研究小组组长：里希拉吉·萨哈·罗伊（导师：格哈德·威库姆)

范围和愿景

直接为基于事实的问题提供清晰的答案已成为当今网络搜索引擎和数字助理的事实标准。这为用户省去了浏览一个或多个文档以找到正确答案的麻烦，也省去了听冗长的口头回答的麻烦。我们的研究设计了一种机制，通过利用但不限于大型策划知识图的力量，实现在Web上的直接回复。我们的首要目标是提供鲁棒的,有效率的，以及可解释的当前此范式中主要任务的解决方案：会话的,复杂的，以及异质的回答问题。阅读更多在这里.探索我们的工作在这里.

请查看下面列出的我们的项目及其相关出版物的详细信息。

项目浏览器：https://qa.mpi-inf.mpg.de/projects网站/

书：Rishiraj Saha Roy和阿维谢克·阿南德，Curated Web的问答：知识库和文本集问答的任务和方法，施普林格，2022年。

课程

姓名	类型	影响因素	位置	学期
信息检索与数据挖掘	核心课程	9个ECTS	萨尔州大学	2019/20年冬季
问答系统	高级课程	6个ECTS	萨尔州大学	2020年夏季
问答中的选定主题	研讨会	7个ECTS	萨尔州大学	2020/21年冬季

信念：对异质源的忠实时间问题解答

临时问答（QA）涉及时间限制，如“2019年……”或“……在冠肺炎之前”。在前者中，时间是一个显式条件，在后者中，时间则是一个隐式条件。最先进的方法在三个方面都有局限性。首先，通过神经推理，时间限制只是软匹配，为无效或无法解释的答案留出了空间。其次，隐性时间问题的支持度很低。第三，答案来自单一来源：知识库（KB）或文本语料库。我们提出了一个临时QA系统来解决这些缺点。首先，它强制实施了时间限制，以便用有形证据忠实回答。其次，它能正确处理隐含的问题。第三，它在异构源上运行，以统一的方式覆盖KB、文本和web表。该方法分为三个阶段：（i）理解问题及其时间条件，（ii）从所有来源检索证据，以及（iii）忠实地回答问题。由于在先前的基准测试中隐式问题很少，我们引入了一种生成不同问题的原则性方法。实验表明，与一组基线相比，性能优越。

基于异质源的可信时间问题解答Zhen Jia、Philipp Christmann和Gerhard Weikum，WWW 2024。
[网站] [预打印] [代码]

TIQ：具有隐含时间约束的时间问题回答基准，Zhen Jia、Philipp Christmann和Gerhard Weikum，TempWeb@WWW2024
[网站] [代码]

REIGN：具有强化重整生成的会话问答模型的鲁棒训练

知识图（KG）上的会话式问答（ConvQA）模型通常在黄金QA对的基准上进行训练和测试。这意味着培训仅限于在各自数据集中看到的表面形式，而评估是针对一小组搁置问题。通过我们提出的框架REIGN，我们采取了几个步骤来纠正这种受限的学习设置。首先，我们系统地生成训练问题的重新公式，以提高模型对曲面形状变化的鲁棒性。鉴于这些问题的不完整性，这是一个特别具有挑战性的问题。其次，我们引导ConvQA模型朝着更高的性能方向发展，方法是使用深层强化学习，只输入那些有助于提高答题质量的改写。第三，我们证明了在一个基准上训练主要模型组件并将其应用于另一个基准的可行性。最后，为了严格评估训练模型的稳健性，我们使用并发布了大量不同的重新公式，这些公式是通过提示GPT使用基准测试集生成的（导致大小增加了20倍）。我们的研究结果表明，通过重新设计进行稳健训练的ConvQA模型显著优于仅使用黄金QA对进行标准训练的Conv QA模型。

具有增强重构生成的会话问答模型的鲁棒训练，Magdalena Kaiser，Rishiraj Saha Roy和Gerhard Weikum，WSDM 2024。
[网站] [预打印] [代码][幻灯片][视频]

EXPLAIGNN：关于异质来源的可解释对话问题解答

在会话式问答（ConvQA）中，用户通过一系列不完全语境和即席风格的话语来表达他们的信息需求。现有的ConvQA方法通常依赖于单个信息源，如精选知识库（KB）、文本集合或一组Web表，从而降低了整体答案召回率。此外，它们都没有提供支持答案推导过程的解释。我们提出EXPLAIGNN：一种通过将来自混合来源的信息与用户可理解的答案解释相结合来克服这些限制的方法。我们的技术使用从知识库、文本语料库、信息框和Web表中检索到的实体和证据片段构建异构图。然后，通过包含问题级注意力的图形神经网络，对这个大图形进行迭代简化，直到提取出最佳答案及其解释。综合实验表明，与最先进的ConvQA基线相比，EXPLAIGNN提高了应答性能。一项众包用户研究表明，最终用户可以理解由该框架得出的答案。

基于迭代图神经网络的异构源上可解释对话问答, Philipp Christmann、Rishiraj Saha Roy和Gerhard Weikum，SIGIR 2023。
[预打印] [网站] [代码] [幻灯片] [视频] [用户研究]

信念：关于异质来源的对话问答

对话式问答（ConvQA）解决了后续问题中隐含上下文的连续信息需求。当前的ConvQA系统在同质信息源上运行：要么是知识库（KB），要么是文本语料库，要么是表集合。这个项目解决了一个新问题，即联合利用所有这些信息，从而提高答案覆盖率。我们介绍了CONVINSE，这是一个跨异构源的ConvQA端到端管道，分三个阶段运行：i）学习传入问题及其对话上下文的显式结构化表示，ii）利用这种框架式表示统一地从知识库、文本和表中捕获相关证据，以及iii）运行融合解码模型以生成答案。我们为跨异构源的ConvQA构建并发布了第一个基准，ConvMix，包括3000个真实用户对话，15000多个问题，以及实体注释、完整的问句和问题释义。实验表明，与最先进的基线相比，我们的方法具有可行性和优势。

异质源对话问答,Philipp Christmann、Rishiraj Saha Roy和Gerhard Weikum，SIGIR 2022。
[预打印] [网站] [基准] [代码] [幻灯片] [海报] [视频] [ACM徽章]

CompMix：异构问题解答的基准,Philipp Christmann、Rishiraj Saha Roy和Gerhard Weikum，WWW 2024。
[预打印] [网站] [基准]

CLOCQ：基于知识库的复杂问题答案搜索空间缩减

在知识库（KB-QA）上回答复杂问题时，面临着包含数十亿事实的巨大输入数据，涉及数百万个实体和数千个谓词。为了提高效率，QA系统首先通过识别一组可能包含所有答案和相关线索的事实来减少答案搜索空间。最常见的技术是将命名实体消歧（NED）系统应用于问题，并检索消歧实体的知识库事实。这项工作提出了CLOCQ，这是一种使用KB-软件信号修剪搜索空间中不相关部分的有效方法。CLOCQ使用top-k查询处理器处理以分数为顺序的知识库项列表，这些知识库项组合了词汇匹配、与问题的相关性、候选项之间的一致性以及知识库图中的连接性等信号。针对复杂问题的两个最近QA基准测试的实验表明，CLOCQ在答案存在性、搜索空间大小和运行时方面优于最先进的基准。

超越NED：快速有效地缩减知识库中复杂问题的搜索空间, Philipp Christmann、Rishiraj Saha Roy和Gerhard Weikum，WSDM 2022。
[预打印] [网站] [代码] [幻灯片] [海报] [视频]

CLOCQ：快速轻松访问知识库的工具包、Philipp Christmann、Rishiraj Saha Roy和Gerhard Weikum截至2023年.
[代码] [海报] [幻灯片]

通过CLOCQ链接到知识库的问题实体和关系菲利普·克里斯特曼（Philipp Christmann）、里希拉杰·萨哈·罗伊（Rishiraj Saha Roy）和格哈德·魏库姆（Gerhard Weikum）智能@ISWC '22.
[代码] [幻灯片] [视频]

EXAQT：在知识图上回答复杂时间问题

时间意图问题是一类特殊的具有实际意义的问题，但在研究中没有得到太多关注。本项目介绍EXAQT，这是第一个用于回答具有多个实体和谓词以及相关时态条件的复杂时态问题的端到端系统。EXAQT分两个阶段回答关于KG的自然语言问题，一个阶段致力于提高召回率，另一个阶段则致力于提高排名靠前的准确性。第一步计算KG中与问题相关的紧致子图，并使用相关的时间事实明智地增强它们，这两种方法都使用微调BERT模型。第二步从第一步的输出构建关系图卷积网络（R-GCN），并通过时间感知实体嵌入和对时间关系的关注来增强R-GCN。我们根据从各种通用KG-QA基准编译而成的1600个时间问题的大型数据集评估EXAQT。结果表明，它在回答复杂问题方面优于三种最先进的系统，从而证明了时间QA的专门处理是合理的。

知识图上复杂时间问题的求解, Zhen Jia、Soumajit Pramanik、Rishiraj Saha Roy和Gerhard Weikum，CIKM 2021。
[预打印] [数据+演示] [代码] [幻灯片] [海报] [视频]

征服：从会话问答中的改革中强化学习

对话式问答（ConvQA）在与个人助理的互动中越来越流行。知识图上ConvQA的最新方法只能从流行的基准测试中发现的清晰的问答对中学习。然而，在现实中，这样的培训数据很难获得：网络用户很少明确地将答案标记为正确或错误。在这个项目中，我们朝着更自然的学习范式迈出了一步——从嘈杂和隐含的反馈到问题重组。不正确的系统响应可能会触发重新制定，而新的后续信息需求通常可以指示前一轮的正确性。我们提出了一种强化学习模型，称为CONQUER（用改写回答会话问题），它自然适合于对一系列此类改写进行建模。CONQUER将回答过程建模为多个代理在知识图上并行行走，其中行走由使用策略网络采样的操作确定。该策略网络将问题和会话上下文作为输入，并通过从重新制定可能性中获得的噪声奖励进行训练。为了评估CONQUER，我们创建并发布了ConvRef，这是一个包含约205k个改写的约11000个自然对话的基准。实验表明，CONQUER成功地从嘈杂的奖励信号中学习回答会话问题，比最先进的基线CONVEX有显著提高。

基于知识图的会话问答中的强化学习Magdalena Kaiser、Rishiraj Saha Roy和Gerhard Weikum，SIGIR 2021。
[预打印] [数据+演示] [代码] [幻灯片] [视频] [海报] [ACM徽章]

UNIQORN:RDF知识图和文本源上的统一问答

通过知识图和其他RDF数据进行问答已经得到了极大的改进，许多好的系统为自然语言问题或电报查询提供了清晰的答案。其中一些系统将文本源作为回答过程的附加证据，但无法单独计算文本中的答案。相反，来自IR和NLP社区的系统已经解决了文本的QA问题，但这些系统几乎没有使用语义数据和知识。本文介绍了第一个能够在统一框架中无缝操作RDF数据集和文本语料库或两者兼而有之的QA系统。我们的方法UNIQORN通过使用微调BERT模型从RDF数据和/或文本语料集片段中检索与问题相关的三元组，实时构建上下文图。结果图通常很丰富，但噪音很大。UNIQORN使用Group Steiner Trees的高级图形算法处理此输入，该算法可以识别上下文图中的最佳候选答案。在具有多个实体和关系的复杂问题的几个基准上的实验结果表明，UNIQORN产生的结果与KGs、文本语料库和异构来源的最先进结果相当。基于图形的方法为完整的回答过程提供了用户可解释的证据。

UNIQORN：基于RDF知识图和自然语言文本的统一问答Soumajit Pramanik、Jesujoba Alabi、Rishiraj Saha Roy和Gerhard Weikum，arXiv 2021年。
[预打印] [数据+演示] [代码] [海报]

关于在Curated和Open Web Sources上回答问题的教程

过去几年，自动化问答（QA）主题的研究激增，涉及信息检索、自然语言处理和人工智能等领域。本教程将介绍QA这段真正活跃的发展时期的亮点，让观众了解当前正在使用的算法系列。我们根据从何处检索答案的潜在来源对研究贡献进行划分：策划的知识图、非结构化文本或混合语料库。我们选择这种划分维度，因为它在算法设计方面最具区分性。每个子主题还涵盖了其他关键维度：如所解决问题的复杂性，以及系统中引入的可解释性和交互性的程度。我们将以QA领域最有希望的新兴趋势来结束本教程，这将有助于该领域的新参与者做出最佳决策，推动社区向前发展。自SIGIR 2016上一期QA教程以来，社区发生了很大的变化，我们相信，这一及时的概述确实会使大量与会者受益。

基于知识库和文本集的QA中管理Web任务和方法的问答，Rishiraj Saha Roy和Avishek Anand，施普林格，2022年。

通过受管制和开放的Web源回答问题Rishiraj Saha Roy和Avishek Anand，SIGIR 2020。
[网站] [预打印] [幻灯片] [视频第1部分][视频第二部分]

皇冠：对话式问答

文本段的问答是信息检索中一个长期关注的问题。最近，对话环境引起了人们的注意，用户可以问一系列问题来满足她对主题的信息需求。虽然这种设置是一种自然的设置，并且类似于人类之间的对话，但它引入了一个关键的研究挑战：理解用户在后续问题中留下的隐含上下文。在这项工作中，我们展示了CROWN（通过Word Networks上的推理对会话段落进行排名）：一个无监督但有效的会话QA系统，该系统支持多轮上下文传播的多种模式。为此，CROWN首先从大型语料库构建单词邻近网络（WPN），以存储统计意义上的词汇共现。在回答时，文章根据与问题的相似性和内查询词的一致性进行排序：这些因素通过读取WPN中的节点和边缘权重来衡量。CROWN为最终用户提供了一个直观的界面，为专家重新配置到单个设置提供了有见地的界面。CROWN是根据TREC CAsT数据进行评估的，在一系列神经方法中，它的性能高于中值。

利用单词邻近网络在短文中回答会话问题, Magdalena Kaiser、Rishiraj Saha Roy和Gerhard Weikum，SIGIR 2020。
[预打印] [演示] [代码] [视频]

皇冠：基于单词网络推理的会话段落排名，Magdalena Kaiser、Rishiraj Saha Roy和Gerhard Weikum，TREC 2019。
[预打印] [幻灯片][海报] [BibTeX公司]

凸集：知识图上的对话问答

以事实为中心的信息需求很少是一次性的；用户通常会提出后续问题来探索某个主题。在这样的对话环境中，用户的输入往往是不完整的，省略了实体或谓词，以及不符合语法的短语。这对通常依赖于完整疑问句中线索的问答系统提出了巨大挑战。作为一种解决方案，在本项目中，我们开发了CONVEX：一种无监督的方法，它可以通过使用到目前为止看到的实体和谓词维护对话上下文，并自动推断后续问题的缺失或模糊部分，从而在知识图（KG）上回答不完整的问题。我们的方法的核心是一个图形探索算法，它明智地扩展了一个边界，以找到当前问题的候选答案。为了评估CONVEX，我们发布了ConvQuestions，这是一个众包基准，有来自五个不同领域的11200个不同对话。我们证明CONVERX：（i）为任何独立的QA系统添加了对话支持，（ii）优于最先进的基线和问题完成策略。

三思而后行：运用巧妙的语境扩展在知识图上回答对话问题Philipp Christmann、Rishiraj Saha Roy、Abdalghani Abujabal、Jyotsna Singh和Gerhard Weikum，CIKM 2019。
[预打印] [数据+演示] [代码] [幻灯片] [海报]

问题：通过结合多文档证据回答复杂问题

对于基于文本的QA来说，直接回答涉及多个实体和关系的问题是一个挑战。当只能通过连接多个文档中的证据才能找到答案时，这个问题最为突出。Curated knowledge graphs（KG）可能会给出很好的答案，但其固有的不完整性和潜在的陈旧性限制了它。该项目提出了QUEST，这是一种通过计算不同文档的部分结果之间的相似性连接来直接从文本源中实时回答复杂问题的方法。我们的方法是完全无监督的，避免了训练数据瓶颈，能够处理用户问题中快速发展的即席主题和公式化风格。QUEST构建了一个带有节点和边缘权重的噪声准KG，由动态检索的实体名称和关系短语组成。它用类型和语义对齐来扩充该图，并通过组Steiner树的算法计算最佳答案。我们根据复杂问题的基准对QUEST进行了评估，并表明它大大优于最先进的基准。

用拟知识图结合多文档证据回答复杂问题陆晓璐（Xiaolu Lu）、苏马吉特·普拉马尼克（Soumajit Pramanik）、里希拉杰·萨哈·罗伊（Rishiraj Saha Roy）、阿卜杜勒加尼·阿布贾巴尔（Abdalghani Abujabal）、王亚芳（Yafang Wang）和格哈德·魏库姆。
[预打印] [视频] [幻灯片] [代码+数据] [演示] [科技博客] [文丘里管底座]

ComQA：用于复杂事实类问题解答的社区源数据集

为了弥合最先进的事实类问题回答（QA）能力与用户提问之间的差距，我们需要大量真实问题的数据集，这些数据集能够捕获各种有趣的现象以及公式模式中的相关多样性。我们介绍了ComQA，这是一个真实用户问题的大型数据集，展示了不同的挑战性方面，例如合成、时间推理和比较。ComQA问题选自WikiAnswers社区QA平台，该平台通常包含当前搜索引擎无法令人满意地回答的问题。通过大规模的众包工作，我们（i）从平台中提取事实类问题，并将其分组为释义簇（此类疑问释义已被证明在开发对句法变化的鲁棒性方面非常有用），以及（ii）用维基百科中的答案注释这些问题簇。ComQA包含11214个问题，分为4834个释义簇。我们详细描述了这一施工过程，强调了为确保高质量输出而采取的措施。我们还对我们的数据集进行了广泛的分析，包括最先进系统的性能，以证明ComQA如何有效地推动未来的研究。

ComQA：用于复杂事实类问题解答的社区源数据集、Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum，NAACL-HLT 2019。
[数据] [海报]

TEQUILA：基于知识库的时间问题解答

基于知识库的问答（KB-QA）在处理需要分解为子问题的复杂问题时带来了挑战。本项目中解决的一个重要案例是时间问题，需要发现和处理时间关系的线索。我们提出了TEQUILA，这是一种可以在任何KB-QA引擎上运行的临时QA的启用方法。TEQUILA有四个阶段。它检测问题是否具有时间意图。它将问题分解并重写为非临时子问题和时间约束。然后从底层的KB-QA引擎检索子问题的答案。最后，TEQUILA使用时间间隔上的约束推理来计算完整问题的最终答案。与最先进基线的比较表明了我们方法的可行性。

TEQUILA：基于知识库的时间问题解答Zhen Jia、Abdalghani Abujabal、Rishiraj Saha Roy、Jannik Strötgen和Gerhard Weikum，CIKM 2018。
[预打印] [海报] [数据] [演示] [代码]

TempQuestions：时间问题回答的基准、Zhen Jia、Abdalghani Abujabal、Rishiraj Saha Roy、Jannik Strötgen和Gerhard Weikum，HQA 2018（WWW研讨会）。
[幻灯片] [数据]

NEQA：基于知识库的开放域问题解答永无止境的学习

将自然语言问题转换为语义表示（如SPARQL）是基于知识库的开放域问答（KB-QA）的核心挑战。现有方法依赖于离线培训阶段（学习模型）和在线阶段（部署模型）之间的明确分离。这种方法的两个主要缺点是：（i）它们需要访问一个大的带注释的训练集，而这个训练集并不总是现成可用的；（ii）它们无法处理来自以前的域的问题。为了克服这些局限性，本项目提出了NEQA，一种用于KB-QA的持续学习范式。离线时，NEQA自动学习从少量训练问答对中映射句法结构到语义结构的模板。一旦部署，模板不足的情况下会触发持续学习。NEQA使用问题之间的语义相似性函数，并通过明智地调用不恰当的用户反馈，学习新的模板来捕获以前的语法结构。这样，NEQA逐渐扩展了其模板存储库。NEQA定期重新训练其底层模型，使其能够适应部署后使用的语言。我们的实验证明了NEQA的可行性，随着时间的推移，回答质量稳步提高，并且能够回答来自新领域的问题。

基于知识库的开放域问答永无止境的学习Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum，WWW 2018。
[幻灯片] [模板] [科技@彭博社]

TIPI：回答组合问题的答案类型预测

该项目研究了在效率约束下，在知识库（KB）上回答组成事实问题的问题。该方法称为TIPI，（i）分解组合问题，（ii）预测单个子问题的答案类型，（iii）联合类型兼容性的原因，最后，（iv）根据类型约束制定组合SPARQL查询。TIPI的答案类型预测器使用远程监控进行训练，并利用词汇、句法和基于嵌入的特征来计算输入问题的上下文和层次结构软件候选答案类型。最近一个基准测试的实验表明，在真实世界中，假设只有一个SPARQL查询可以在KB上执行，TIPI可以产生最先进的性能，并且在更一般的情况下，查询数量大大减少。

基于答案类型预测的组合问题高效软件回答David Ziegler、Abdalghani Abujabal、Rishiraj Saha Roy和Gerhard Weikum，2017年国际JCNLP。
[海报]

QUINT：知识图上问答的自动模板生成

模板是在知识图上进行问答的重要资产，它简化了输入语句的语义分析，并为可解释的答案生成结构化查询。最先进的方法依赖于覆盖范围有限的手工模板。这个项目展示了QUINT，这是一个系统，它只从与答案匹配的用户问题中自动学习话语查询模板。此外，QUINT能够利用语言组合来回答复杂的问题，而无需为整个问题提供任何模板。使用不同基准的实验证明了QUINT的高质量。

基于知识图的问答模板自动生成Abdalghani Abujabal、Mohamed Yahya、Mirek Riedewald和Gerhard Weikum，WWW 2017。
[幻灯片] [数据]

QUINT：基于知识库的可解释问题解答Abdalghani Abujabal、Rishiraj Saha Roy、Mohamed Yahya和Gerhard Weikum，EMNLP 2017。
[演示] [海报]

TriniT：扩展知识图上的关系查询

文本语料库上的实体搜索不适用于关系查询，其中的答案是相关实体的元组，并且查询通常需要来自多个文档的连接提示。对于大型知识图，对其关系事实进行结构化查询是一种替代方法，但由于用户查询和知识图之间的不匹配，或者由于填充关系较弱，常常会导致召回率很低。该项目展示了TriniT搜索引擎，用于在结合关系事实和文本web内容的扩展知识图上进行查询和排名。我们的查询语言是基于SPO三重模式的范式设计的，但更具表现力，支持每个SPO参数的文本短语。我们提出了一个自动查询松弛模型，以补偿数据和用户查询之间的不匹配。查询答案（实体元组）根据统计语言模型进行排序。我们在YAGO知识图和实体注释的ClueWeb09语料库的组合上使用不同的基准测试进行了实验，包括复杂的关系查询。

扩展知识图上的关系查询Mohamed Yahya、Denilson Barbosa、Klaus Berberich、Qiuyue Wang和Gerhard Weikum，WSDM 2016。

迪安娜：通过链接数据网络进行稳健的问题解答

知识库和链接数据网络已成为搜索、推荐和分析的重要资产。自然语言问题是利用这些丰富知识和数据的一种用户友好模式。然而，在这种情况下，问答技术并不能很好地发挥作用，因为问题必须转换为结构化查询，用户在表达问题时必须小心。该项目提倡一种新的方法，允许将问题部分转换为轻松的查询，涵盖用户输入的基本但不一定所有方面。为了弥补这些遗漏，我们利用与实体和关系事实相关的文本源。我们的系统将用户问题转换为结构化SPARQL查询的扩展形式，并将文本谓词附加到三重模式。我们的解决方案基于一个新的优化模型，并将其转换为一个整数线性规划，用于联合分解和消除用户问题的歧义。我们通过QALD基准测试实验证明了我们方法的质量。

在链接数据的Web上进行稳健的问题解答Mohamed Yahya、Klaus Berberich、Shady Elbassuoni和Gerhard Weikum，CIKM 2013。

数据网络的自然语言问题Mohamed Yahya、Klaus Berberich、Shady Elbassuoni、Maya Ramanath、Volker Tresp和Gerhard Weikum，EMNLP 2012。

D5成员

外部合作者

郑佳，西南交通大学，中国
印度IIT比莱Soumajit Pramanik
Abdalghani Abujabal，亚马逊河州，德国
Lu Xiaolu，微软，澳大利亚
德国博世人工智能中心Jannik Strötgen
王亚芳，蚂蚁金融服务集团，中国
Mohamed Yahya，英国彭博社
Mirek Riedewald，美国东北大学

资源

TIQ公司：具有隐含时间约束的时间问题回答基准（KG+文本+表格+信息框）[WWW 2024]
CompMix公司：异构源（KG+Text+Table+Infobox）上复杂QA的基准测试[WWW 2024]
ConvMix公司：异构源（KG+文本+表格+信息框）上会话QA的基准[SIGIR 2022]
时间问题：从8个通用KB-QA数据集整理的复杂时间问题基准[CIKM 2021]
ConvRef公司：真实用户重新设置对话问题回答基准[SIGIR 2021]
Conv问题：基于五个领域知识图的对话式问题回答基准[CIKM 2019]
ComQA公司：带有疑问释义的真实复杂问题基准[NAACL-HLT 2019]
临时问题：从多个问题回答基准中整理出的时间问题基准【CIKM 2018】
复杂问题：多实体和关系的真实问题基准[WWW 2017]