MEGA: Multilingual Evaluation of Generative AI

Kabir Ahuja; Harshita Diddee; Rishav Hada; Millicent Ochieng; Krithika Ramesh; Prachi Jain; Akshay Nambi; Tanuja Ganu; Sameer Segal; Mohamed Ahmed; Kalika Bali; Sunayana Sitaram

doi:10.18653/v1/2023.emnlp-main.258

MEGA公司：生成性的多语言评估人工智能

卡比尔·阿胡加,哈西塔·迪迪,里沙夫·哈达,Millicent Ochieng公司,克里提卡·拉梅什,普拉奇·贾因,阿克沙伊·南比,塔努贾·加努,萨米尔·西格尔,穆罕默德·艾哈迈德,卡利卡-巴厘岛,Sunayana Sitaram公司

摘要

生成性人工智能模型在许多自然语言处理任务（如语言理解、推理和语言生成）中表现出了令人印象深刻的性能。当今人工智能社区提出的一个重要问题是关于这些模型的能力和局限性，很明显，评估生成性人工智能非常具有挑战性。大多数关于生成性LLM的研究都局限于英语，目前尚不清楚这些模型在理解和生成其他语言文本方面的能力。我们提出了生成性LLM的第一个综合基准测试-MEGA，它根据标准NLP基准评估模型，涵盖70种不同类型语言的16个NLP数据集。我们将生成性LLM（包括Chat-GPT和GPT-4）与最新（SOTA）非自回归模型在这些任务上的性能进行比较，以确定生成性模型与前一代LLM相比的性能如何。我们对跨语言和任务的模型性能进行了深入分析，并讨论了在低资源语言上提高生成性LLM性能的挑战。我们创建了一个在多语言环境下评估生成性LLM的框架，并为该领域的未来进展提供了方向。

选集ID：: 2023.emnlp-main.258年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 4232–4267
语言：
网址：: https://aclantology.org/2023.emnlp-main.258
内政部：: 10.18653/v1/2023.emnlp-main.258
比比键：
引用（ACL）：: 卡比尔·阿胡贾（Kabir Ahuja）、哈什塔·迪迪（Harshita Diddee）、里沙夫·哈达（Rishav Hada）、米利森特·奥钦（Millicent Ochieng）、克里蒂卡·拉梅什（Krithika Ramesh）、普拉奇·贾因（Prachi Jain）、阿克沙伊·南比（Akshay Nambi）、塔努贾努（Tanuja Ganu）、。2023MEGA：生成性人工智能的多语言评估.英寸2023年自然语言处理实证方法会议记录，第4232–4267页，新加坡。计算语言学协会。
引用（非正式）：: MEGA：生成性人工智能的多语言评估（Ahuja等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.258.pdf
视频：: https://aclantology.org/2023.emnlp-main.258.mp4网站

PDF格式引用搜索视频