计算机科学>机器学习
标题: 让我们逐步验证
摘要: 近年来,大型语言模型在执行复杂多步骤推理的能力方面有了很大的提高。 然而,即使是最先进的模型也会经常出现逻辑错误。 为了训练更可靠的模型,我们可以转向结果监督(为最终结果提供反馈)或过程监督(为每个中间推理步骤提供反馈)。 鉴于训练可靠模型的重要性,以及人工反馈的高成本,仔细比较这两种方法很重要。 最近的工作已经开始进行这种比较,但仍有许多问题。 我们进行了自己的调查,发现在解决具有挑战性的MATH数据集中的问题的训练模型中,过程监督明显优于结果监督。 我们的过程监控模型解决了MATH测试集代表子集中78%的问题。 此外,我们还表明,主动学习显著提高了过程监督的效率。 为了支持相关研究,我们还发布了PRM800K,这是一个包含80万个阶梯级人类反馈标签的完整数据集,用于训练我们的最佳奖励模型。