计算机科学>计算与语言
标题: LLM360:走向完全透明的开放源代码LLM
摘要: 最近,开源大型语言模型(LLM)的激增,如LLaMA、Falcon和Mistral,为人工智能从业者和研究人员提供了多种选择。 然而,大多数LLM只发布了部分工件,例如最终模型权重或推理代码,并且技术报告越来越将其范围限制在高级设计选择和表面统计。 这些选择降低了LLM培训的透明度,迫使团队重新发现培训过程中的许多细节,从而阻碍了该领域的进展。 我们介绍LLM360,这是一个完全开源LLM的倡议,它提倡向社区提供所有培训代码和数据、模型检查点和中间结果。 LLM360的目标是通过使端到端LLM培训过程透明且人人可复制,支持开放式协作AI研究。 作为LLM360的第一步,我们发布了两个7B参数的LLM,即Amber和CrystalCoder,它们经过了从头开始的预训练,包括它们的训练代码、数据、中间检查点和分析(位于 此https URL ). 我们致力于通过这一开源努力不断推动LLM的发展。 更多大规模和更强的模型正在进行中,并将在未来发布。