xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval

Khan, Mohammad Abdullah Matin; Bari, M Saiful; Do, Xuan Long; Wang, Weishi; Parvez, Md Rizwan; Joty, Shafiq

计算机科学>计算与语言

arXiv公司：2303.03004（cs）

【于2023年3月6日提交(第1版)，最新修订日期：2023年11月6日（本版本，第4版）]

标题：xCodeEval：用于代码理解、生成、翻译和检索的大规模多语言多任务基准

作者：穆罕默德·阿卜杜拉·马丁·汗,M Saiful Bari先生,宣龙道,王伟士,Rizwan Parvez先生,沙菲克·乔蒂

查看PDF

摘要：最近，预训练大型语言模型（LLM）在从自然语言描述生成代码、修复错误代码、在语言之间转换代码以及检索相关代码段方面表现出了令人印象深刻的能力。然而，这些模型的评估通常以分散的方式仅在一个或两个特定任务上进行，使用几种语言，在部分粒度（例如，功能）级别上，并且在许多情况下没有适当的训练数据。更令人担忧的是，在大多数情况下，对生成代码的评估只是根据与参考代码的词汇重叠来进行的，而不是实际执行。我们引入了xCodeEval，这是迄今为止最大的可执行多语言多任务基准测试，由大约7.5$K美元的独特问题中的$25$M文档级编码示例（$16.5$B令牌）组成，其中包含多达$11$的编程语言，具有执行级并行性。它的特点是总共有$7$的任务，涉及代码理解、生成、翻译和检索。xCodeEval采用基于执行的评估，并提供多语言代码执行引擎ExecEval，该引擎支持所有$11$语言中基于单元测试的执行。为了解决在验证/测试集中平衡文本代码样本在多个属性上的分布这一难题，我们提出了一种基于几何平均值和图形理论原理的新型数据分割和数据选择方案。我们在任务和语言上使用OpenAI的LLM（零快照）和开放LLM（零快照和微调）进行的实验表明，**xCodeEval**对于语言模型的当前进步来说非常具有挑战性。

评论：	代码和数据位于此https URL,此https URL。评估框架可在此https URL
学科：	计算与语言（cs.CL）
引用为：	arXiv公司：2303.03004【cs.CL】
	（或 arXiv：2303.03004v4【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2303.03004

提交历史记录

发件人：M Saiful Bari[查看电子邮件]
[第1版]2023年3月6日星期一10:08:51 UTC（11191 KB）
[版本2]2023年4月17日星期一05:27:18 UTC（11192 KB）
[第3版]2023年6月13日星期二11:29:45 UTC（8237 KB）
[第4版]2023年11月6日星期一07:16:58 UTC（10069 KB）

计算机科学>计算与语言

标题：xCodeEval：用于代码理解、生成、翻译和检索的大规模多语言多任务基准

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：xCodeEval：用于代码理解、生成、翻译和检索的大规模多语言多任务基准

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目