Let's Verify Step by Step

Lightman, Hunter; Kosaraju, Vineet; Burda, Yura; Edwards, Harri; Baker, Bowen; Lee, Teddy; Leike, Jan; Schulman, John; Sutskever, Ilya; Cobbe, Karl

计算机科学>机器学习

arXiv:2305.20050（cs）

【于2023年5月31日提交】

标题：让我们逐步验证

作者：亨特·莱特曼,Vineet Kosaraju葡萄园,尤拉·伯达,哈里·爱德华兹,鲍文·贝克,泰迪·李,简·雷克,约翰·舒尔曼,伊利亚·萨茨克沃,卡尔·科布

查看PDF

摘要：近年来，大型语言模型在执行复杂多步骤推理的能力方面有了很大的提高。然而，即使是最先进的模型也会经常出现逻辑错误。为了训练更可靠的模型，我们可以转向结果监督（为最终结果提供反馈）或过程监督（为每个中间推理步骤提供反馈）。鉴于训练可靠模型的重要性，以及人工反馈的高成本，仔细比较这两种方法很重要。最近的工作已经开始进行这种比较，但仍有许多问题。我们进行了自己的调查，发现在解决具有挑战性的MATH数据集中的问题的训练模型中，过程监督明显优于结果监督。我们的过程监控模型解决了MATH测试集代表子集中78%的问题。此外，我们还表明，主动学习显著提高了过程监督的效率。为了支持相关研究，我们还发布了PRM800K，这是一个包含80万个阶梯级人类反馈标签的完整数据集，用于训练我们的最佳奖励模型。

学科：	机器学习（cs.LG）; 人工智能；计算与语言（cs.CL）
引用为：	arXiv:2305.20050【cs.LG】
	（或 arXiv:2305.20050v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2305.20050

提交历史记录

发件人：Karl Cobbe[查看电子邮件]
[第1版]2023年5月31日星期三17:24:00 UTC（10363 KB）

计算机科学>机器学习

标题：让我们逐步验证

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：让我们逐步验证

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目