BRAINTEASER品牌:大型语言模型的横向思维难题

姜一凡,菲利普·伊利耶夫斯基,马开新,日瓦·苏拉蒂


摘要
语言模型的成功激发了NLP社区关注需要隐含和复杂推理的任务,依赖于类似人类的常识机制。虽然这种垂直思维任务相对流行,但横向思维难题却很少受到关注。为了弥合这一差距,我们设计了BrainTaser:一项多项选择问答任务,旨在测试模型展示横向思维和无视默认常识关联的能力。我们设计了一个三步程序来创建第一个横向思维基准,包括数据收集、分心物生成和对抗性示例生成,从而产生1100个具有高质量注释的谜题。为了通过模型评估横向推理的一致性,我们在对问题进行语义和语境重建的基础上对BrainTraser进行了丰富。我们使用最先进的教学和常识语言模型进行的实验揭示了人和模型性能之间的巨大差距,当考虑到对抗格式之间的一致性时,这一差距进一步扩大。我们提供所有代码和数据,以刺激开发和评估横向思维模型的工作。
选集ID:
2023.emnlp-main.885年
体积:
2023年自然语言处理经验方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
14317–14332
语言:
网址:
https://aclantology.org/2023.emnlp-main.885
内政部:
10.18653/v1/2023.emnlp-最小值.885
比比键:
引用(ACL):
蒋一凡、菲利普·伊里夫斯基、马开新和志瓦·苏拉蒂。2023BRAINTEASER:大型语言模型的横向思维难题.英寸2023年自然语言处理实证方法会议记录,第14317–14332页,新加坡。计算语言学协会。
引用(非正式):
BRAINTEASER:大型语言模型的横向思维难题(Jiang等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.885.pdf
视频:
 https://aclantology.org/2023.emnlp-main.885.mp4网址