常识性知识

组长:西蒙·拉兹涅夫斯基

关于对象属性、人类行为和一般概念的常识对于强大的人工智能应用至关重要。然而,由于在线资源的稀疏性和偏见,自动获取这些知识是很有挑战性的。


蜡烛

结构化知识对许多人工智能应用程序都很重要。常识知识是强大的以人为中心的人工智能的关键,被少数结构化知识项目所涵盖。然而,他们缺乏对基于社会文化背景的人类特征和行为的知识,这对情境人工智能至关重要。在本项目中,我们介绍了Candle,一种提取高质量的端到端方法文化常识(CCSK)。Candle从一个巨大的网络语料库中提取CCSK断言,并将其组织成连贯的集群,涵盖3个主题领域(地理、宗教、职业)和几个文化层面(食物、饮料、服装、传统、仪式、行为)。Candle包含基于分类的过滤和兴趣度评分的明智技术。实验评估显示了Candle CCSK集合相对于先前工作的优势,一个外部用例表明了CCSK对于GPT-3语言模型的好处。

Candle的输出是一组1.1M CCSK断言,组织成60K相干簇。该集合由3个感兴趣的领域组成–地理宗教职业–共有386个实例,称为学科(或文化群体)。每个主题的断言涵盖5个文化层面食物饮料服装仪式传统(针对地理和宗教)或行为(针对职业)。此外,我们还用其显著性注释每个断言概念.

更多链接:

出版物:

  • Tuan-Phong Nguyen、Simon Razniewski、Aparna Varde和Gerhard Weikum。 大规模提取文化常识知识WWW 2023。[pdf格式]

不同寻常

关于日常概念的常识是人工智能应用程序的重要资产,例如问答和聊天机器人。最近,我们看到人们对结构化常识知识库(CSKB)的构建越来越感兴趣。人类常识的一个重要部分是关于不适用于概念的属性,而现有的CSKB只存储积极的语句。此外,由于CSKB是在开放世界假设下运作的,缺席的声明被认为是未知的事实,而不是无效的。我们提出了UNCOMMONSENSE框架,用于将信息性负面常识陈述具体化。给定一个目标概念,在CSKB中确定了可比较的概念,并假设了局部封闭世界假设。这样,目标概念中缺少的关于可比概念的积极陈述就成为了消极陈述候选的种子。然后根据信息量对大量候选人进行审查、删减和排名。 

演示https://uncommonense.mpi-inf.mpg.de/

项目页面:https://www.mpi-inf.mpg.de/uncommense

出版物

  • Hiba Arnaout、Simon Razniewski、Gerhard Weikum和Jeff Z.Pan非常识:关于日常概念的信息性负面知识。CIKM’22号 [PDF格式]
  • Hiba Arnaout、Tuan-Phong Nguyen、Simon Razniewski、Gerhard Weikum和Jeff Z.Pan,行动中的非常识!常识知识库的信息否定。WSDM’23 [演示] [视频] [PDF格式]

上升++

上升++是之前Ascent方法的继承者,是一个从任何英语文本语料库自动收集、提取和合并常识知识(CSK)的管道。Ascent++能够提取面向丰富的断言,克服了传统知识库(KB)中基于三元组的知识模型的常见局限性。Ascent++还捕获了带有子组和相关方面的复合概念,为CSK断言提供了更多的表达能力。

Ascent++KB是使用Ascent++管道从C4爬网中提取的CSKB。它由200万CSK关于10K流行概念的断言组成。CSKB有两个变体:一个带有开放谓词(例如,“be”、“have”、“live-in”等),另一个带有已建立的ConceptNet模式,其中包含19个预先指定的谓词(例如,AtLocation、CapableOf、HasProperty等)。

网站: https://ascentpp.mpi-inf.mpg.de/

出版物:

  • 阮元培(Tuan-Phong Nguyen)、西蒙·拉兹涅夫斯基(Simon Razniewski)、朱利安·罗梅罗(Julien Romero)、格哈德·魏库姆(Gerhard Weikum)。 从大规模Web内容中提炼出的常识知识。IEEE知识与数据工程汇刊2022年,doi:10.1109/TKDE.2022.3206505[pdf格式]

上升

上升 (A类高级S公司用于的放射C常见问题e(电子)国家标准化委员会n个猫头鹰Ext吨raction)是一个从web自动收集、提取和整合常识知识(CSK)的管道。 上升能够提取面向丰富的断言,克服了传统知识库(KB)中基于三元组的知识模型的常见局限性。 上升还捕获了带有子组和相关方面的复合概念,为CSK断言提供了更多的表达能力。

更多链接:

出版物:

  • Tuan-Phong Nguyen、Simon Razniewski、Gerhard Weikum。 用于常识知识提取的高级语义WWW 2021。[pdf格式]
  • Tuan-Phong Nguyen、Simon Razniewski、Gerhard Weikum。ASCENT内部:探索深层常识知识库及其在问答中的应用ACL 2021-系统演示。[pdf格式]

儿童常识文本

对于基于文本提取编译CSK,许多关注点围绕着以下问题报告偏差也就是说,文本来源中的频率并不能很好地代表相关性或真实性,尤其是基本知识。本文基于这样一个假设,即儿童文本是否掌握了常识知识提取的关键,即这些内容可能对读者的知识作出较少的假设,从而更明确地表达常识。对几个语料库的分析表明,儿童文本确实包含了更多、更典型的常识性断言。此外,实验表明,这种优势可以在流行的基于语言模型的常识知识提取设置中得到利用,在这种设置中,对少量儿童文本进行特定任务的微调已经产生了显著的改进。这提供了一个全新的视角,不同于从更大的模型和语料库中获得进展的共同趋势。

出版物:

  • 儿童文本掌握常识知识的关键吗?朱利安·罗梅罗和西蒙·拉兹涅夫斯基,EMNLP 2022[pdf格式]


卡西莫多

关于对象属性、人类行为和一般概念的常识对于强大的人工智能应用至关重要。然而,由于在线资源的稀疏性和偏见,自动获取这些知识具有挑战性。本文介绍了Quasimodo,这是一种从非标准web源中提取常识属性的方法和工具套件。我们设计了一种新颖的方法来利用搜索引擎查询日志和QA论坛,并在确证步骤中将结果候选断言与百科全书、书籍和图像标签的统计线索相结合。与之前关于常识知识库的工作不同,卡西莫多侧重于与特定对象或概念相关的显著属性。广泛的评估,包括外部使用案例研究表明,与质量相当的最新基线相比,卡西莫多提供了更好的覆盖范围。

更多链接


骰子

常识知识(CSK)支持各种人工智能应用,从视觉理解到聊天机器人。以前关于获取CSK的工作,如ConceptNet,已经编译了一些语句,这些语句将概念(如日常对象或活动)与大多数或部分概念实例的属性相关联。每个概念都与其他概念分开对待,属性的唯一定量度量(或排名)是声明有效的置信度。本文旨在通过引入CSK语句的多面模型和对相互关联语句集进行联合推理的方法来克服这些局限性。我们的模型捕获了CSK陈述的四个不同维度:合理性、典型性、显著性和显著性,每个维度都有评分和排名。例如,鬣狗饮用水是典型的,但并不显著,而鬣狗吃尸体是显著的。为了进行推理和排序,我们开发了一种带有软约束的方法,将对分类层次结构中相关概念的推理耦合起来。推理被转化为整数线性规划(ILP),我们利用松弛LP的缩减成本理论来计算信息排名。该方法适用于多个大型CSK集合。我们的评估表明,我们可以将这些输入整合为更清晰、更具表现力的知识。  

更多链接:


WebChild(网络儿童)

WebChild是从Web内容中自动提取和消除歧义的常识知识的大型集合。WebChild包含三元组,通过hasShape、hasTaste、incurseEmotion等细粒度关系将名词与形容词连接起来。这些断言、名词和形容词的论据通过映射到适当的WordNet意义上来消除歧义。

大规模实验证明了WebChild的高准确性(超过80%)和覆盖率(超过400万个细粒度的消歧断言)。

更多链接:

  • 专用WebChild页面
  • 《网络儿童:从网络中获取和组织常识性知识》,Niket Tandon、Gerard de Melo、Fabian Suchanek、Gerhard Weikum(2014)WSDM[PDF格式

如何使用知识库

HowToKB是第一个代表如何(任务)知识的大规模知识库。每个任务都由一个框架表示,其中包含父任务、前一个子任务、后一子任务、所需工具或其他项的属性,以及与可视插图的链接。 

其他链接:

  • 从如何进入社区中提炼任务知识,Cuong Xuan Chu,Niket Tandon,Gerhard Weikum,WWW 2017[pdf格式]

其他资源


相关人员