大型语言模型仅在年通过小学考试印尼:对ndo公司MMLU公司

法里·库托,努鲁尔·艾赛亚,李浩南,蒂莫西·鲍德温


摘要
尽管大型语言模型(LLM)通常在大规模多语言文本上进行预训练,但它们的推理能力和真实世界知识主要是基于英语数据集进行评估的。评估英语以外的LLM能力越来越重要,但由于缺乏合适的数据集,这一点受到了阻碍。在这项工作中,我们介绍了IndoMMLU,这是第一个针对印尼文化和语言的多任务语言理解基准,包括印尼小学到大学入学考试的问题。通过聘请专业教师,我们获得了涉及64个任务和教育水平的14981个问题,其中46%的问题侧重于评估印尼语言的熟练程度以及印尼九种当地语言和文化的知识。我们的实证评估表明,GPT-3.5仅能通过印尼小学水平,对印尼当地语言和文化的了解有限。其他较小的型号,如BLOOMZ和Falcon,性能甚至更低。
选集ID:
2023.emnlp-main.760年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
12359–12374
语言:
网址:
https://aclantology.org/2023.emnlp-main.760
内政部:
10.18653/v1/2023.emnlp-main.760
比比键:
引用(ACL):
Fajri Koto、Nurul Aisyah、Haonan Li和Timothy Baldwin。2023大型语言模型在印尼只能通过小学考试:IndoMMLU综合测试.英寸2023年自然语言处理实证方法会议记录,第12359–12374页,新加坡。计算语言学协会。
引用(非正式):
大型语言模型在印尼只能通过小学考试:IndoMMLU综合测试(Koto等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.760.pdf
视频:
 https://aclantology.org/2023.emnlp-main.760.mp4网址