描述

在知识库(KB-QA)上回答复杂问题时,面临着包含数十亿事实的巨大输入数据,涉及数百万个实体和数千个谓词。为了提高效率,QA系统首先通过识别一组可能包含所有答案和相关线索的事实来减少答案搜索空间。最常见的技术是将命名实体消歧(NED)系统应用于问题,并检索消歧实体的知识库事实。
这项工作提出了CLOCQ,这是一种使用KB-软件信号修剪搜索空间中不相关部分的有效方法。CLOCQ使用top-k查询处理器处理按分数排序的知识库项目列表,这些知识库项目组合了词汇匹配、与问题的相关性、候选项目之间的一致性以及知识库图中的连接性等信号。针对复杂问题的两个最近QA基准测试的实验表明,CLOCQ在答案存在性、搜索空间大小和运行时方面优于最先进的基准。
到CLOCQ代码的GitHub链接 直接下载CLOCQ代码

概述

为了减少搜索空间,CLOCQ将知识库和问题中的所有事实作为输入,并为每个问题单词检索一组候选知识库项。利用全局信号(KB-graph中的连接性、语义连贯性)和局部信号(问题相关性、术语匹配)对这些知识库条目进行评分,并检测每个问题单词的top-k知识库条目。由于k的选择并不简单,CLOCQ提供了一种机制,可以为每个单独的疑问词自动设置k。对于“谁在2018年法国和克罗地亚的决赛中得分?”这个问题,“2018年决赛”比“得分”更模糊,因此CLOCQ会考虑更多的KB-项目来解释潜在的错误。
最后,检索带有消歧知识库项的显著事实,并将其作为搜索空间传递给QA系统。

CLOCQ(和基线)的一些歧义消除示例可以在这里找到:


正确的歧义消除用绿色表示。这些示例说明了CLOCQ如何动态调整参数k,并允许在出现非常模糊的疑问词(例如“All We Know”或“son”)时消除歧义错误。在第一个示例中,尽管CLOCQ将一些疑问词映射到不正确的KB-项目,但CLOCQ的健壮性有助于识别用于回答问题的重要KB-项(足球队、杜塞尔多夫和福图纳·杜塞尔道夫)。
有关更多详细信息,请参阅纸张.

联系人

有关反馈和澄清,请联系:菲利普·克里斯特曼(在mpi HYPHEN inf DOT mpg DOT de的圣诞节),里希拉吉·萨哈·罗伊(rishiraj AT mpi HYPHEN inf DOT mpg DOT de)或格哈德·威库姆(威库姆在mpi HYPHEN inf DOT mpg DOT de)。

要了解我们团队的更多信息,请访问https://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/question-answering/.

相关论文

“超越NED:快速有效地缩减知识库中复杂问题的搜索空间”菲利普·克里斯特曼(Philipp Christmann)、里希拉杰·萨哈·罗伊(Rishiraj Saha Roy)和格哈德·魏库姆(Gerhard Weikum)。WSDM’222022年2月21日至25日,亚利桑那州凤凰城。
[扩展版本] [代码] [海报] [幻灯片] [视频] [扩展视频]

“CLOCQ:快速轻松访问知识库的工具包”菲利普·克里斯特曼(Philipp Christmann)、里希拉杰·萨哈·罗伊(Rishiraj Saha Roy)和格哈德·魏库姆(Gerhard Weikum)。BTW’23年2023年3月6日至10日,德国德累斯顿。
[代码] [海报] [幻灯片]

“通过CLOCQ链接到知识库的问题实体和关系”菲利普·克里斯特曼(Philipp Christmann)、里希拉杰·萨哈·罗伊(Rishiraj Saha Roy)和格哈德·魏库姆(Gerhard Weikum)。 智能@ISWC22年2022年10月27日,中国杭州。
[代码] [幻灯片] [视频]

美国石油学会

我们向CLOCQ API添加了实体和关系链接功能。试试看! CLOCQ API入门 API使用:62176000个请求

检索问题的搜索空间(Wikidata事实)。
GET(获取)/api/搜索空间

问题=
必填字段。
&k个=
可选字段。
&第页=
可选字段。
检索给定Wikidata-item ID的以事实为中心的1-hop邻域。
GET(获取)/api/邻域

项目=
必填字段。
&第页=
可选字段。
对问题运行实体链接。
建议的方法SMART 2022任务.
GET(获取)/链接_api/entity_linking

问题=
必填字段。
&k个=
可选字段。
在问题上运行关系链接。
建议的方法SMART 2022任务.
GET(获取)/链接_api/relation_linking

问题=
必填字段。
排名靠前的=
可选字段。
检索给定Wikidata-item ID的标签。
GET(获取)/api/itemto标签

项目=
必填字段。
检索给定Wikidata-item ID的别名(如果可用)。
GET(获取)/api/itemto别名

项目=
必填字段。
检索给定Wikidata-item ID的描述(如果可用)。
GET(获取)/api/项目_描述

项目=
必填字段。
检索给定Wikidata-item ID的类型。
GET(获取)/api/项目类型

项目=
必填字段。
检索给定Wikidata-item ID的最常见类型。
GET(获取)/api/项目类型

项目=
必填字段。
计算给定Wikidata-item ID的频率。
GET(获取)/api/频率

项目=
必填字段。
两个Wikidata-item ID的连接检查(在2个跃点内)。
GET(获取)/api/连接检查

项目1=
必填字段。
第2项=
必填字段。
两个Wikidata-item ID之间的最短路径(如果有两个跃点)。
GET(获取)/api/连接

项目1=
必填字段。
第2项=
必填字段。