物理常识理解的多层方法:创建和评估塔利班数据集

朱利亚·彭萨,贝戈尼亚·阿尔图纳,伊齐亚尔·冈萨雷斯(Itziar Gonzalez-Dios)


摘要
在本文中,我们探索了大型语言模型(LLM)的物理常识推理,并提出了一种具体的方法来评估对物理世界的低级理解。具体来说,目标是创建一个测试集,以分析意大利语大型语言模型中的物理常识推理,并重点对结果进行可信的分析。为此,我们提出了一个分层的意大利数据集,称为分级意大利注释数据集(GITA),由专业语言学家编写并彻底注释,它使我们能够专注于三个不同层次的常识理解。此外,我们创建了一个半自动化系统来完成数据集的精确注释。我们还通过使用多语言模型(XLM-RoBERTa)执行三个任务来验证数据集,并对结果进行定性分析。我们发现,尽管该模型可能在高级分类任务中执行,但其推理不一致且无法验证,因为它没有捕获中间证据。
选集ID:
2024.lrec-main.74年
体积:
2024年计算语言学、语言资源和评估联合国际会议记录(LREC-COLING 2024)
月份:
五月
年份:
2024
地址:
意大利都灵
编辑:
尼科莱塔·卡尔佐拉里,菅直人(Min-Yen Kan),Veronique主机,亚历山德罗·伦奇,Sakriani Sakti公司,念文雪
场馆:
LREC公司|冷却
SIG公司:
出版商:
ELRA和ICCL
注:
页:
819–831
语言:
网址:
https://aclantology.org/2024.lrec-main.74
内政部:
比比键:
引用(ACL):
朱利亚·彭萨(Giulia Pensa)、贝戈尼亚·阿尔图纳(Begoña Altuna)和伊齐亚·冈萨雷斯(Itziar Gonzalez-Dios)。2024物理常识理解的多层方法:意大利数据集的创建和评估.英寸2024年计算语言学、语言资源和评估联合国际会议记录(LREC-COLING 2024),第819-831页,意大利都灵。ELRA和ICCL。
引用(非正式):
物理常识理解的多层方法:意大利数据集的创建和评估(Pensa等人,LREC-COLING 2024)
复制引文:
PDF格式:
https://aclantology.org/2024.lrec-main.74.pdf