@正在进行{koto-etal-2023-大型,title=“大型语言模型仅在年通过小学考试{I} 失忆症:综合测试{一} ndo公司{MMLU}“,author=“Koto、Fajri和Aisyah、Nurul和李浩南和蒂莫西·鲍德温“,editor=“Bouamor、Houda和皮诺、胡安和巴厘岛,卡利卡”,booktitle=“2023年自然语言处理实证方法会议记录”,月=12月,年=“2023”,address=“新加坡”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.emnlp-main.760”,doi=“10.18653/v1/2023.emnlp-main.760”,pages=“12359--12374”,abstract=“尽管大型语言模型(LLM)通常对大规模多语言文本进行预训练,他们的推理能力和现实世界知识主要基于英语数据集进行评估。评估英语以外的LLM能力越来越重要,但由于缺乏合适的数据集,这一点受到了阻碍。在这项工作中,我们介绍了IndoMMLU,这是第一个针对印尼文化和语言的多任务语言理解基准,包括印尼小学到大学入学考试的问题。通过聘请专业教师,我们获得了涉及64个任务和教育水平的14981个问题,其中46个问题侧重于评估印尼语言的熟练程度以及印尼九种当地语言和文化的知识。我们的实证评估表明,GPT-3.5仅能通过印尼小学水平,对印尼当地语言和文化的了解有限。其他较小的型号,如BLOOMZ和Falcon,性能甚至更低。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“koto-etal-2023-large”><标题信息>大型语言模型只通过印尼小学考试:IndoMMLU综合测试</titleInfo><name type=“personal”>Fajri传真Koto公司<角色>作者</角色></name><name type=“personal”>努鲁尔艾西娅<角色>作者</角色></name><name type=“personal”>豪南<namePart type=“given”>李<namePart type=“family”><角色>作者</角色></name><name type=“personal”>蒂莫西鲍德温<角色>作者</角色></name><originInfo>2023-12发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>2023年自然语言处理实证方法会议记录</titleInfo><name type=“personal”>侯达布阿莫尔<角色>编辑器</角色></name><name type=“personal”>胡安皮诺<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>卡利卡</namePart>巴厘岛<角色>编辑器</角色></name><原始信息>计算语言学协会<位置>新加坡</place></originInfo>会议出版物</relatedItem>尽管大型语言模型(LLM)通常在大规模多语言文本上进行预训练,但它们的推理能力和真实世界知识主要是基于英语数据集进行评估的。评估英语以外的LLM能力越来越重要,但由于缺乏合适的数据集,这一点受到了阻碍。在这项工作中,我们介绍了IndoMMLU,这是第一个针对印尼文化和语言的多任务语言理解基准,包括印尼小学到大学入学考试的问题。通过聘请专业教师,我们获得了涉及64个任务和教育水平的14981个问题,其中46%的问题侧重于评估印尼语言的熟练程度以及印尼九种当地语言和文化的知识。我们的实证评估表明,GPT-3.5仅能通过印尼小学水平,对印尼当地语言和文化的了解有限。其他较小的型号,如BLOOMZ和Falcon,性能甚至更低</摘要>koto-etal-2023-大型10.18653/v1/2023.emnlp-main.760<位置><网址>https://aclantology.org/2023.emnlp-main.760</url></位置><部分>2023-12年<扩展单元=“page”><开始>1235912374</范围></部分></mods></modsCollection>
%0会议记录%大型语言模型在印尼只能通过小学考试:一项关于IndoMMLU的综合测试%阿库托,法杰里%A Aisyah,努鲁尔%阿丽,浩南%蒂莫西·鲍德温%Y Bouamor,Houda公司%胡安·皮诺%Y巴厘岛,卡利卡%2023年自然语言处理实证方法会议论文集%D 2023年%12月8日%计算语言学协会%C新加坡%F koto-etal-2023-大型%尽管大型语言模型(LLM)通常是在大规模多语言文本上预先训练的,但它们的推理能力和实际知识主要是基于英语数据集进行评估的。评估英语以外的LLM能力越来越重要,但由于缺乏合适的数据集,这一点受到了阻碍。在这项工作中,我们介绍了IndoMMLU,这是第一个针对印尼文化和语言的多任务语言理解基准,包括印尼小学到大学入学考试的问题。通过聘请专业教师,我们获得了涉及64个任务和教育水平的14981个问题,其中46%的问题侧重于评估印尼语言的熟练程度以及印尼九种当地语言和文化的知识。我们的实证评估表明,GPT-3.5仅能通过印尼小学水平,对印尼当地语言和文化的了解有限。其他较小的型号,如BLOOMZ和Falcon,性能甚至更低。%R10.18653/v1/2023.emnlp-main.760%U型https://aclantology.org/2023.emnlp-main.760%U型https://doi.org/10.18653/v1/2023.emnlp-main.760%电话:12359-12374
降价(非正式)
【大型语言模型仅通过印尼小学考试:IndoMMLU综合测试】(https://aclantology.org/2023.emnlp-main.760)(Koto等人,EMNLP 2023)
国际计算语言学协会