Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Freedman, Rachel; Korbak, Tomasz; Lindner, David; Freire, Pedro; Wang, Tony; Marks, Samuel; Segerie, Charbel-Raphaël; Carroll, Micah; Peng, Andi; Christoffersen, Phillip; Damani, Mehul; Slocum, Stewart; Anwar, Usman; Siththaranjan, Anand; Nadeau, Max; Michaud, Eric J.; Pfau, Jacob; Krasheninnikov, Dmitrii; Chen, Xin; Langosco, Lauro; Hase, Peter; Bıyık, Erdem; Dragan, Anca; Krueger, David; Sadigh, Dorsa; Hadfield-Menell, Dylan

计算机科学>人工智能

arXiv:2307.15217（cs）

【于2023年7月27日提交(第1版)，最新修订日期：2023年9月11日（本版本，v2）]

标题：从人的反馈中强化学习的开放性问题和基本局限性

查看PDF

摘要：人工反馈强化学习（RLHF）是一种训练人工智能系统以符合人类目标的技术。RLHF已经成为用于微调最先进的大型语言模型（LLM）的中心方法。尽管如此受欢迎，但很少有公共工作将其缺陷系统化。在本文中，我们（1）综述了RLHF及其相关方法的开放性问题和基本局限性；（2）概述在实践中理解、改进和补充RLHF的技术；（3）提出审计和披露标准，以改进RLHF系统的社会监督。我们的工作强调了RLHF的局限性，并强调了多方面方法对开发更安全的AI系统的重要性。

学科：	人工智能（cs.AI）; 计算与语言（cs.CL）；机器学习（cs.LG）
引用为：	arXiv:2307.15217[cs.人工智能]
	（或 arXiv:2307.15217v2[cs.人工智能]对于此版本）
	https://doi.org/10.48550/arXiv.2307.15217

提交历史记录

发件人：Stephen Casper[查看电子邮件]
[第1版]2023年7月27日星期四22:29:25 UTC（921 KB）
[版本2]2023年9月11日星期一17:25:24 UTC（939 KB）

计算机科学>人工智能

标题：从人的反馈中强化学习的开放性问题和基本局限性

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>人工智能

标题：从人的反馈中强化学习的开放性问题和基本局限性

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目