计算机科学>计算与语言
标题: CMMLU:测量汉语大规模多任务语言理解
摘要: 随着大型语言模型(LLM)能力的不断提高,评估其性能变得越来越重要和具有挑战性。 本文旨在通过介绍CMMLU来弥补这一差距,CMMLU是一个涵盖自然科学、社会科学、工程和人文学科在内的综合性中国基准。 我们对18个高级多语言和面向汉语的LLM进行了全面评估,评估了它们在不同学科和环境中的表现。 结果表明,大多数现有的LLM都很难达到50%的平均准确率,即使提供了上下文中的示例和思维链提示,而随机基线为25%。 这突出了LLM的显著改进空间。 此外,我们进行了大量实验,以确定影响模型性能的因素,并提出增强LLM的方向。 CMMLU填补了在中国语境下评估大型语言模型的知识和推理能力方面的空白。