CMMLU: Measuring massive multitask language understanding in Chinese

Li, Haonan; Zhang, Yixuan; Koto, Fajri; Yang, Yifei; Zhao, Hai; Gong, Yeyun; Duan, Nan; Baldwin, Timothy

计算机科学>计算与语言

arXiv:2306.09212（cs）

【于2023年6月15日提交(第1版)，上次修订日期：2024年1月17日（此版本，v2）]

标题：CMMLU：测量汉语大规模多任务语言理解

作者：李浩南,张一轩,法里·库托,杨一飞,赵海（Hai Zhao）,龚叶云,南段,蒂莫西·鲍德温

查看PDF HTML（实验性）

摘要：随着大型语言模型（LLM）能力的不断提高，评估其性能变得越来越重要和具有挑战性。本文旨在通过介绍CMMLU来弥补这一差距，CMMLU是一个涵盖自然科学、社会科学、工程和人文学科在内的综合性中国基准。我们对18个高级多语言和面向汉语的LLM进行了全面评估，评估了它们在不同学科和环境中的表现。结果表明，大多数现有的LLM都很难达到50%的平均准确率，即使提供了上下文中的示例和思维链提示，而随机基线为25%。这突出了LLM的显著改进空间。此外，我们进行了大量实验，以确定影响模型性能的因素，并提出增强LLM的方向。CMMLU填补了在中国语境下评估大型语言模型的知识和推理能力方面的空白。

学科：	计算与语言（cs.CL）
引用为：	arXiv:2306.09212【cs.CL】
	（或 arXiv:2306.09212v2【cs.CL】对于此版本）
	https://doi.org/10.44850/arXiv.2306.09212

提交历史记录

发件人：李浩南[查看电子邮件]
[第1版]2023年6月15日星期四15:49:51 UTC（2135 KB）
[版本2]2024年1月17日星期三19:09:57 UTC（3151 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2023-06

更改为浏览方式：

反恐精英

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：CMMLU：测量汉语大规模多任务语言理解

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：CMMLU：测量汉语大规模多任务语言理解

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目