SLOG: A Structural Generalization Benchmark for Semantic Parsing

Bingzhi Li; Lucia Donatelli; Alexander Koller; Tal Linzen; Yuekun Yao; Najoung Kim

doi:10.18653/v1/2023.emnlp-main.194

SLOG公司：语义分析的结构泛化基准

李炳之,露西娅·多纳泰利,亚历山大·科勒,塔尔·林岑,姚月坤,Najoung Kim公司

摘要

合成泛化基准的目标是评估模型对新的复杂语言表达式的泛化程度。现有的基准通常侧重于词汇泛化，即对训练中熟悉的句法结构中的新词汇项目的解释；结构泛化任务是指模型需要解释自己在训练中不熟悉的句法结构，但这些任务往往表现不足，导致对模型泛化程度的过于乐观。我们介绍了SLOG，这是一个语义分析数据集，它扩展了COGS（Kim和Linzen，2020），包含17个结构泛化案例。在我们的实验中，Transformer模型（包括预处理模型）的泛化准确率仅达到40.6%，而结构软件解析器的泛化正确率仅达到70.8%。这些结果与现有模型在COGS上实现的近乎完美的准确性相差甚远，这表明SLOG在突出模型的词汇和结构泛化能力之间的巨大差异方面发挥了作用。

选集ID：: 2023.emnlp-main.194年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 3213–3232
语言：
网址：: https://aclantology.org/2023.emnlp-main.194
内政部：: 10.18653/v1/2023.emnlp-main.194
比比键：
引用（ACL）：: 李炳之、卢西娅·多纳泰利、亚历山大·科勒、塔尔·林岑、姚月坤和金纳戎。2023SLOG：语义分析的结构泛化基准.英寸2023年自然语言处理实证方法会议记录，第3213–3232页，新加坡。计算语言学协会。
引用（非正式）：: SLOG：语义分析的结构泛化基准（Li等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.194.pdf
视频：: https://aclantology.org/2023.emnlp-main.194.mp4

PDF格式引用搜索视频