OpenAssistant Conversations - Democratizing Large Language Model Alignment

Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi Rui; Stevens, Keith; Barhoum, Abdullah; Nguyen, Duc; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew; Schuhmann, Christoph; Nguyen, Huu; Mattick, Alexander

OpenAssistant对话-使大型语言模型对齐民主化

的一部分神经信息处理系统的进展36（NeurIPS 2023）数据集和基准跟踪

作者

安德烈亚斯·科普夫（Andreas Köpf）、亚尼克·基尔彻（Yannic Kilcher）、迪米特里·冯·吕特（Dimitri von Rütte）、索蒂里斯·阿纳格诺斯蒂迪斯（Sotiris Anagnostidis）、志锐·谭（Zhi Rui Tam）、基思·史蒂文斯（Keith Stevens）、阿卜杜拉·巴胡姆（Abdullah Barhoum）、阮公爵（Duc Nguyen）、奥利弗·斯坦利（Oliver Stanley）、里查德·纳吉

摘要

事实证明，将大型语言模型（LLM）与人类偏好相结合可以显著提高可用性，并推动了快速采用，ChatGPT就是一例。校准技术，如监督微调（\textit{SFT}）和人工反馈强化学习（\textit{RLHF}），大大减少了有效利用LLM功能所需的技能和领域知识，增加了它们在各个领域的可访问性和实用性。然而，像\textit{RLHF}这样的最先进的对齐技术依赖于高质量的人工反馈数据，这些数据的创建成本很高，并且通常是专有的。为了使大规模对齐的研究民主化，我们发布了OpenAssistant Conversations，这是一个由人生成的、由人注释的助理式对话语料库，由35种不同语言的161443条消息组成，注释了461292个质量等级，生成了10000多个完整且完全注释的对话树。该语料库是一项涉及13500多名志愿者的全球众包活动的产物。在OpenAssistant Conversations上培训的模型显示，相对于各自的基本模型，标准基准测试得到了一致的改进。我们在完全许可的许可下发布代码\脚注{\git}和数据\脚注}。

OpenAssistant对话-使大型语言模型对齐民主化

作者

摘要

名称更改策略