开放语言模型：OLMo

最先进、真正开放的LLM和框架

开放语言模型（OLMo）——AI2 LLM框架旨在提供通过开放研究推进人工智能所需的数据、训练代码、模型和评估代码，以使学者和研究人员能够共同研究语言模型科学。

OLMo和框架包括：

完整的预培训数据：该模型基于AI2 多尔马数据集，具有用于语言模型预训练的3万亿令牌开放语料库，包括生成训练数据的代码。
培训代码和模型权重：OLMo框架包括四个7B级模型变体的完整模型权重，每个变体都经过至少2T的训练。推理代码、训练指标和训练日志均已提供。
评价：我们发布了开发中使用的评估套件，在Catwalk项目的保护下，在培训过程中每1000个步骤和评估代码中，每个模型有500多个检查点。

每种型号都配有以下部件：

用于这些模型的完整训练数据，包括AI2生成训练数据的代码多尔马、和 WIMBD公司用于分析预处理数据。
全模型重量，培训代码，训练日志，以权重和偏差日志形式的训练度量，以及推理代码。
每个模型有500多个检查点，在训练过程中每1000步就有一个，可在HuggingFace上进行修订。
AI2保护伞下的评估代码猫道和帕洛马.
微调代码和适应的模型（带有开放式指令)
所有代码、权重和中间检查点都是根据Apache 2.0许可证发布的。

OLMo为研究人员和开发人员提供了什么

更精确：
通过对模型背后的训练数据的全面了解，研究人员将能够更快地工作，不再需要依赖模型性能的定性假设
减少碳排放：
通过开放完整的培训和评估生态系统，它从根本上减少了开发冗余，这对人工智能的脱碳至关重要
持久效果：
将模型及其数据集保持在开放状态，而不是在API背后，这使研究人员能够从以前的模型和工作中学习和构建。

现在是真正开放人工智能研究的时候了

微软首席科学官、AI2科学咨询委员会创始成员埃里克·霍维茨（Eric Horvitz）表示：“我非常希望将OLMo交给人工智能研究人员。”。“新产品延续了Allen AI提供有价值的开放模型、工具和数据的传统，这在全球范围内推动了AI的诸多进步。”

Meta首席人工智能科学家Yann LeCun表示：“开放式基础模型在推动围绕生成性人工智能的创新和发展方面发挥了关键作用。”。“来自开源的充满活力的社区是构建人工智能未来最快、最有效的方式。”

数据：Dolma

介绍OLMo预处理数据集Dolma。Dolma是一个开放的数据集，包含来自不同组合的web内容、学术出版物、代码、书籍和百科全书材料的3万亿令牌。它通常可从Hugging Face Hub下载，是迄今为止LLM培训的最大开放数据集。

评估：Paloma

Paloma是评估许多不同领域（从利基艺术家社区到心理健康reddit论坛）的开放语言模型的基准。我们已经评估了几个模型，例如我们使用不同的流行语料库（如Dolma）训练的61亿个参数基线模型，以了解语言模型性能在585个不同领域中的差异。我们鼓励社区在其他模型上运行我们的标准化推理代码，并提交其结果以扩展我们的基准。

OLMo入门

了解更多信息

问题？联系我们。

对于问题或反馈，您可以在allenai dot org的olmo联系我们，或在GitHub上打开一个问题！

这项工作是由我们了不起的合作伙伴完成的！

没有AMD、CSC-IT科学中心（芬兰）、Mosaic/Databricks、哈佛大学凯姆普纳研究所和华盛顿大学的合作，OLMo是不可能实现的。另外还要感谢EleutherAI、Meta、Stanford CRFM、TogetherAI和HuggingFace。