OLMo-Eval公司

OLMo-Eval是一个用于评估开放语言模型的存储库。

概述

这个olmo值（_E）框架是一种在NLP任务上运行语言模型评估管道的方法。代码库是可扩展的，包含任务集（_set）以及运行系列的示例配置属于探戈计算模型输出和度量的步骤。

使用此管道，您可以计算米上的模型t吨task_sets，其中每个task_set由一个或多个单独的任务组成。使用task_sets可以计算多个任务的聚合度量。可选的谷歌表单可以使用集成用于报告。

克隆存储库后，请运行

conda create-n eval-pipline python=3.10conda激活eval管道光盘OLMo-Evalpip安装-e。

当前任务集（_S）可以在以下位置找到配置/任务集。在本例中，我们运行生成任务（_T）在EleutherAI/pythia-1b。示例配置为在这里.

配置可以按如下方式运行：

tango——设置tango.yml运行configs/example_config.jsonnet——工作空间my-eval-workspace

这将执行配置中定义的所有步骤，并将它们保存在本地探戈工作区已调用my-eval-工作空间。如果将新的task_set或模型添加到配置中并再次运行相同的命令，它将重用以前的输出，并且只计算新的输出。

输出应如下所示：

可以通过修改示例配置.

从 探戈 进口 工作区
工作区 = 工作区.来自url("本地：//my-eval-workspace")结果 = 工作区.步骤_结果(“合并所有输出”)

使用每个实例的输出加载单个任务结果

结果 = 工作区.步骤_结果(“outputs_pythia-1bstep140000_gen_tasks_drop”)

这个评估表config评估猎鹰-7b，mpt-7b型，美洲驼2-7b、和美洲驼2-13b，上的标准_基准和MMLU公司运行如下：

tango——设置tango.yml运行configs/eval_table.jsonnet——工作区my-eval-workspace

此存储库还用于对PALOMA纸

可以找到在PALOMA上运行评估的详细信息在这里.