Generalized Quantifiers as a Source of Error in Multilingual NLU Benchmarks

Ruixiang Cui; Daniel Hershcovich; Anders Søgaard

doi:10.18653/v1/2022.naacl-main.359

广义量词是多语错误的来源非语言单位基准

摘要

自19世纪以来，表示语言的逻辑方法已经发展并评估了量词的计算模型，但今天的NLU模型仍然难以捕捉其语义。我们依靠广义量词理论对量词语义进行独立于语言的表示，以量化它们对NLU模型错误的贡献。我们发现量词在NLU基准测试中普遍存在，它们在测试时的出现与性能下降有关。多语言模型也显示出不令人满意的量词推理能力，但对于非英语语言来说不一定更差。为了便于直接有针对性的探究，我们提出了一个对抗性广义量词NLI任务（GQNLI），并表明预先训练的语言模型在广义量词推理中明显缺乏鲁棒性。

选集ID：: 2022.naacl-main.359年
体积：: 计算语言学协会北美分会2022年会议记录：人类语言技术
月份：: 七月
年份：: 2022
地址：: 美国西雅图
编辑：: 海洋木瓜,玛丽·凯瑟琳·德·马内夫,伊万·弗拉基米尔·梅扎·鲁伊斯
地点：: NAACL公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 4875–4893
语言：
网址：: https://aclantology.org/2022.naacl-main.359
内政部：: 10.18653/v1/2022.naacl-main.359
比比键：
引用（ACL）：: 崔瑞祥、丹尼尔·赫什科维奇和安德斯·索加德。2022广义量词是多语言NLU基准测试中的误差源.英寸计算语言学协会北美分会2022年会议记录：人类语言技术，第4875–4893页，美国西雅图。计算语言学协会。
引用（非正式）：: 广义量词是多语言NLU基准测试中的误差源（Cui等人，NAACL 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.naacl-main.359.pdf

PDF格式引用搜索