Compositional Generalization in Multilingual Semantic Parsing over Wikidata

Ruixiang Cui; Rahul Aralikatte; Heather Lent; Daniel Hershcovich

第10卷（2022年）

TACL批准

基于Wikidata的多语言语义分析中的合成泛化

出版2022-09-07

崔瑞香

,

拉胡尔·阿拉利卡特

,

希瑟四旬斋

,

丹尼尔·赫什科维奇

崔瑞香
哥本哈根大学

拉胡尔·阿拉利卡特
哥本哈根大学

希瑟四旬斋
哥本哈根大学

丹尼尔·赫什科维奇
哥本哈根大学

摘要

语义解析（SP）允许人类通过自然交互利用大量的知识资源。然而，解析器大多是针对英语资源设计和评估的，例如CFQ（Keysers等人，2020），当前的标准基准基于语法规则生成的英语数据，面向过时的知识库Freebase。我们提出了一种基于Wikidata创建多语言并行问题查询对数据集的方法。我们介绍了这样一个数据集，我们称之为多语言合成维基数据问题（MCWQ），并使用它分析希伯来语、卡纳达语、汉语和英语语义解析器的合成泛化。虽然语言内泛化在不同语言之间具有可比性，但对零快照跨语言迁移的实验表明，即使使用最先进的预处理多语言编码器，跨语言合成泛化也会失败。此外，与现有资源相比，我们的方法、数据集和结果将有助于在更现实和多样化的环境中对SP进行未来研究。

麻省理工学院出版社的文章在EMNLP 2022上发布