计算机科学>软件工程
职务: 越大越好? 通过预算重新分配改进LLM代码生成
摘要: 人们普遍认为大型语言模型(LLM)优于小型语言模型。 然而,更大的模型在推理过程中也需要更多的时间和计算。 这就引出了一个问题:当两种模型在相同的预算下运行时会发生什么? (例如,计算、运行时)。 为了解决这个问题,我们分析了各种大小的代码生成LLM,并进行了比较,例如运行一次70B模型,与从13B模型生成五个输出并选择一个输出进行比较。 我们的研究结果表明,在标准的单元测试设置中,重复使用较小的模型可以产生一致的改进,在五项任务中可以获得高达15%的收益。 另一方面,在单元测试不可用的情况下,从较小模型中选择基于等级的候选者会低于从较大模型中选择单个输出的性能。 我们的结果突出了使用较小模型而不是较大模型的潜力,以及研究对LLM输出进行排名的方法的重要性。