跳到主导航菜单 跳到主要内容 跳到网站页脚

基于Wikidata的多语言语义分析中的合成泛化

摘要

语义解析(SP)允许人类通过自然交互利用大量的知识资源。然而,解析器大多是针对英语资源设计和评估的,例如CFQ(Keysers等人,2020),当前的标准基准基于语法规则生成的英语数据,面向过时的知识库Freebase。我们提出了一种基于Wikidata创建多语言并行问题查询对数据集的方法。我们介绍了这样一个数据集,我们称之为多语言合成维基数据问题(MCWQ),并使用它分析希伯来语、卡纳达语、汉语和英语语义解析器的合成泛化。虽然语言内泛化在不同语言之间具有可比性,但对零快照跨语言迁移的实验表明,即使使用最先进的预处理多语言编码器,跨语言合成泛化也会失败。此外,与现有资源相比,我们的方法、数据集和结果将有助于在更现实和多样化的环境中对SP进行未来研究。
麻省理工学院出版社的文章 在EMNLP 2022上发布