计算机科学>人工智能
标题: 从人的反馈中强化学习的开放性问题和基本局限性
摘要: 人工反馈强化学习(RLHF)是一种训练人工智能系统以符合人类目标的技术。 RLHF已经成为用于微调最先进的大型语言模型(LLM)的中心方法。 尽管如此受欢迎,但很少有公共工作将其缺陷系统化。 在本文中,我们(1)综述了RLHF及其相关方法的开放性问题和基本局限性; (2) 概述在实践中理解、改进和补充RLHF的技术; (3)提出审计和披露标准,以改进RLHF系统的社会监督。 我们的工作强调了RLHF的局限性,并强调了多方面方法对开发更安全的AI系统的重要性。