SLOG公司:语义分析的结构泛化基准

李炳之,露西娅·多纳泰利,亚历山大·科勒,塔尔·林岑,姚月坤,Najoung Kim公司


摘要
合成泛化基准的目标是评估模型对新的复杂语言表达式的泛化程度。现有的基准通常侧重于词汇泛化,即在训练中熟悉的句法结构中解释新的词汇项;结构泛化任务是指模型需要解释自己在训练中不熟悉的句法结构,但这些任务往往表现不足,导致对模型泛化程度的过于乐观。我们介绍了SLOG,这是一个语义分析数据集,它扩展了COGS(Kim和Linzen,2020),包含17个结构泛化案例。在我们的实验中,Transformer模型(包括预处理模型)的泛化准确率仅达到40.6%,而结构软件解析器的泛化正确率仅达到70.8%。这些结果与现有模型在COGS上实现的近乎完美的准确性相差甚远,这表明SLOG在突出模型的词汇和结构泛化能力之间的巨大差异方面发挥了作用。
选集ID:
2023.emnlp-main.194年
体积:
2023年自然语言处理经验方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
3213–3232
语言:
网址:
https://aclantology.org/2023.emnlp-main.194
内政部:
10.18653/v1/2023.emnlp-main.194
比比键:
引用(ACL):
李炳之、卢西娅·多纳泰利、亚历山大·科勒、塔尔·林岑、姚月坤和金纳戎。2023SLOG:语义分析的结构泛化基准.英寸2023年自然语言处理实证方法会议记录,第3213–3232页,新加坡。计算语言学协会。
引用(非正式):
SLOG:语义分析的结构泛化基准(Li等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.194.pdf
视频:
 https://aclantology.org/2023.emnlp-main.194.mp4