计算机科学>计算与语言
标题: xCodeEval:用于代码理解、生成、翻译和检索的大规模多语言多任务基准
摘要: 最近,预训练大型语言模型(LLM)在从自然语言描述生成代码、修复错误代码、在语言之间转换代码以及检索相关代码段方面表现出了令人印象深刻的能力。 然而,这些模型的评估通常以分散的方式仅在一个或两个特定任务上进行,使用几种语言,在部分粒度(例如,功能)级别上,并且在许多情况下没有适当的训练数据。 更令人担忧的是,在大多数情况下,对生成代码的评估只是根据与参考代码的词汇重叠来进行的,而不是实际执行。 我们引入了xCodeEval,这是迄今为止最大的可执行多语言多任务基准测试,由大约7.5$K美元的独特问题中的$25$M文档级编码示例($16.5$B令牌)组成,其中包含多达$11$的编程语言,具有执行级并行性。 它的特点是总共有$7$的任务,涉及代码理解、生成、翻译和检索。 xCodeEval采用基于执行的评估,并提供多语言代码执行引擎ExecEval,该引擎支持所有$11$语言中基于单元测试的执行。 为了解决在验证/测试集中平衡文本代码样本在多个属性上的分布这一难题,我们提出了一种基于几何平均值和图形理论原理的新型数据分割和数据选择方案。 我们在任务和语言上使用OpenAI的LLM(零快照)和开放LLM(零快照和微调)进行的实验表明,**xCodeEval**对于语言模型的当前进步来说非常具有挑战性。