跳到内容

allenai/OLMo-Eval公司

存储库文件导航

OLMo-Eval公司

OLMo-Eval是一个用于评估开放语言模型的存储库。

概述

这个olmo值(_E)框架是一种在NLP任务上运行语言模型评估管道的方法。代码库是可扩展的,包含任务集(_set)以及运行系列的示例配置属于探戈计算模型输出和度量的步骤。

使用此管道,您可以计算上的模型t吨task_sets,其中每个task_set由一个或多个单独的任务组成。使用task_sets可以计算多个任务的聚合度量。可选的谷歌表单可以使用集成用于报告。

管道使用ai2-探戈ai2-猫道.

安装

克隆存储库后,请运行

conda create-n eval-pipline python=3.10conda激活eval管道光盘OLMo-Evalpip安装-e。

快速启动

当前任务集(_S)可以在以下位置找到配置/任务集。在本例中,我们运行生成任务(_T)EleutherAI/pythia-1b。示例配置为在这里.

配置可以按如下方式运行:

tango——设置tango.yml运行configs/example_config.jsonnet——工作空间my-eval-workspace

这将执行配置中定义的所有步骤,并将它们保存在本地探戈工作区已调用my-eval-工作空间。如果将新的task_set或模型添加到配置中并再次运行相同的命令,它将重用以前的输出,并且只计算新的输出。

输出应如下所示:

晚上9点22点35分截屏2023-12-04

可以通过修改示例配置.

加载管道输出

 探戈 进口 工作区
工作区 = 工作区.来自url("本地://my-eval-workspace")结果 = 工作区.步骤_结果(“合并所有输出”)

使用每个实例的输出加载单个任务结果

结果 = 工作区.步骤_结果(“outputs_pythia-1bstep140000_gen_tasks_drop”)

在标准基准上评估通用模型

这个评估表config评估猎鹰-7bmpt-7b型美洲驼2-7b、和美洲驼2-13b,上的标准_基准MMLU公司运行如下:

tango——设置tango.yml运行configs/eval_table.jsonnet——工作区my-eval-workspace

帕洛马

此存储库还用于对PALOMA纸

可以找到在PALOMA上运行评估的详细信息在这里.

高级

发布

未发布任何版本

包装

未发布包

贡献者4

  •  
  •  
  •  
  •  

语言文字