OpenAssistant对话-使大型语言模型对齐民主化

的一部分神经信息处理系统的进展36(NeurIPS 2023)数据集和基准跟踪

Biptex公司 纸类 补充的

作者

安德烈亚斯·科普夫(Andreas Köpf)、亚尼克·基尔彻(Yannic Kilcher)、迪米特里·冯·吕特(Dimitri von Rütte)、索蒂里斯·阿纳格诺斯蒂迪斯(Sotiris Anagnostidis)、志锐·谭(Zhi Rui Tam)、基思·史蒂文斯(Keith Stevens)、阿卜杜拉·巴胡姆(Abdullah Barhoum)、阮公爵(Duc Nguyen)、奥利弗·斯坦利(Oliver Stanley)、里查德·纳吉

摘要

事实证明,将大型语言模型(LLM)与人类偏好相结合可以显著提高可用性,并推动了快速采用,ChatGPT就是一例。校准技术,如监督微调(\textit{SFT})和人工反馈强化学习(\textit{RLHF}),大大减少了有效利用LLM功能所需的技能和领域知识,增加了它们在各个领域的可访问性和实用性。然而,像\textit{RLHF}这样的最先进的对齐技术依赖于高质量的人工反馈数据,这些数据的创建成本很高,并且通常是专有的。为了使大规模对齐的研究民主化,我们发布了OpenAssistant Conversations,这是一个由人生成的、由人注释的助理式对话语料库,由35种不同语言的161443条消息组成,注释了461292个质量等级,生成了10000多个完整且完全注释的对话树。该语料库是一项涉及13500多名志愿者的全球众包活动的产物。在OpenAssistant Conversations上培训的模型显示,相对于各自的基本模型,标准基准测试得到了一致的改进。我们在完全许可的许可下发布代码\脚注{\git}和数据\脚注}。