What does the Failure to Reason with “Respectively” in Zero/Few-Shot Settings Tell Us about Language Models?

Ruixiang Cui; Seolhwa Lee; Daniel Hershcovich; Anders Søgaard

doi:10.18653/v1/2023.acl-long.489

在零/极少数快照设置中，“分别进行推理”的失败告诉了我们关于语言模型的什么？

摘要

人类可以毫不费力地理解句子的并列结构，例如“尼尔斯·玻尔和科特·科本分别出生于哥本哈根和西雅图”。在自然语言推理（NLI）的背景下，我们从句法语义知识和常识世界知识两个角度考察了语言模型（LM）如何与各自的阅读进行推理（Gawron和Kehler，2004）。我们提出了一个受控的合成数据集WikiResNLI和一个自然发生的数据集NatResNLI，以包含“分别”的各种显式和隐式实现。我们表明，在没有明确监督的情况下，微调NLI模型难以理解此类读数。虽然在有明确线索的情况下很容易进行快速学习，但当阅读被隐式激发时，需要更长的训练，让模型依赖常识推理。此外，我们的细粒度分析表明，模型无法在不同的结构中进行概括。总之，我们证明LM在概括语言结构的长尾方面仍然落后于人类。

选集ID：: 2023.acl长489
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯，乔丹·博伊德·格雷伯，冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
SIG公司：
出版商：: 计算语言学协会
注：
页：: 8786–8800
语言：
网址：: https://aclantology.org/2023.acl-long.489
内政部：: 10.18653/v1/2023.acl长489
比比键：
引用（ACL）：: 崔瑞祥、李秀华、丹尼尔·赫什科维奇和安德斯·索加德。2023在零/极少数快照设置中，“分别进行推理”的失败告诉了我们关于语言模型的什么？.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第8786–8800页，加拿大多伦多。计算语言学协会。
引用（非正式）：: 在零/极少数快照设置中，“分别进行推理”的失败告诉了我们关于语言模型的什么？（Cui等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.489.pdf
视频：: https://aclantology.org/2023.acl-long.489.mp4

PDF格式引用搜索视频