内政部：10.48550/arXiv.2312.10523
语料库ID:266348815

Paloma：评估语言模型适合性的基准

@第{Magnusson2023PalomaAB条，title={Paloma:评估语言模型匹配性的基准}，作者={Ian Magnusson和Akshita Bhagia、Valentin Hofmann和Luca Soldaini、A.Jha和Oyvind Tafjord、Dustin Schwenk、Pete Walsh和Yanai Elazar、Kyle Lo和Dirk Groneveld、Iz Beltagy和Hanna Hajishirzi、Noah A.Smith和Kyle Richardson以及Jesse Dodge}，日志={ArXiv}，年份＝{2023}，体积={abs/2312.10523}，url={https://api.semanticscholar.org/CorpusID:266348815}}

伊恩·马格努森Akshita学院杰西·道奇
出版在里面arXiv.org网站 2023年12月16日
计算机科学、语言学

语言模型评估的困惑分析（Paloma），测量LM适合585个文本域，从nytimes.com到Reddit上的r/depression，并演示Paloma可能的分析，例如发现在没有Common Crawl以外的数据的情况下进行预训练会导致许多域的匹配不一致。

[PDF]语义阅读器

6引文

2

三

本文图表

话题

基准帕洛马困惑语言模型 R/凹陷重新编辑普通爬网参数

语言模型可以通过过度训练和下游任务进行可靠扩展

S.Gadre公司乔治·斯米尼斯路德维希·施密特

计算机科学

2024

本文研究了过度训练状态下的缩放，拟合了模型参数数量和训练令牌与参数之比外推的缩放律，并通过幂律将语言模型的复杂性与其下游任务性能联系起来。

7

[PDF]（PDF格式）

Catwalk：一个针对多个数据集的统一语言模型评估框架

德克·格罗内维尔德阿纳斯·阿瓦达拉杰西·道奇

计算机科学

2023

Catwalk为广泛的现有NLP数据集和模型提供了统一的接口，从规范的监督训练和微调，到更现代的范例，如上下文学习，并大大降低了进行大规模受控实验的障碍。

1

[PDF]（PDF格式）

电传飞行管理技术报告

向丽姚一群黄铁军

计算机科学、语言学

2024

本报告介绍了Tele-FLM（又名FLM-2），这是一个52B开源的多语言大型语言模型，具有稳定、高效的预训练范式和增强的事实判断能力，并展示了BPB在文本语料库上测量的卓越的多语言建模能力。

[PDF]（PDF格式）

OLMo：加速语言模型科学

德克·格罗内维尔德伊兹·贝尔塔吉汉娜·哈吉什尔齐

计算机科学、语言学

2024

OLMo是一个竞争性的、真正的开放语言模型，旨在实现对语言模型的科学研究，希望此次发布将增强开放研究社区的力量，并激发新的创新浪潮。

[PDF]（PDF格式）

交叉护理：评估训练前数据对语言模型偏差的医疗影响

单晨杰克·加里芬特丹妮尔·比特曼

医学、计算机科学

2024

引入了交叉护理（Cross-Care），这是第一个用于评估LLM中的偏见和现实世界知识的基准框架，特别侧重于不同人口群体中疾病流行率的表示，这表明偏见传播的风险显著，并且缺乏LLM医学应用的现实基础。

[PDF]（PDF格式）

良好的开端是成功的一半：正确的起点在多步骤数学推理中的重要性

库沙尔·贾因Niket Tandon公司库马尔·施里达尔

计算机科学

2023

这项工作提出了两种使较小的模型从初始指导中受益的方法：要求LLM提供初始指导，以及自问指导，学生模型可以首先提出关于如何开始然后继续推理链的问题。

1

[PDF]（PDF格式）

Dolma：一个用于语言模型预训练研究的三万亿标记的开放语料库

卢卡·索尔达尼罗德尼·金尼凯尔·洛

计算机科学、语言学

2024

为了促进语言模型预训练方面的科学研究，Dolma被策划并发布，这是一个三万亿标记的英语语料库，由多种多样的网络内容、科学论文、代码、公共领域书籍、社交媒体和百科全书材料混合而成。

用于衡量统计语言建模进展的十亿字基准

西普里安·切尔巴托马斯·米科洛夫 T.罗宾逊

计算机科学、语言学

INTERSPEECH公司

2014

本文提出了一个新的用于测量统计语言建模进展的基准语料库，该语料库包含近10亿字的训练数据，有助于快速评估新的语言建模技术，并比较它们与其他先进技术结合时的贡献。

1,044

[PDF]（PDF格式）

语言模型是无监督的多任务学习者

亚历克·拉德福德吴建福R.儿童D.卢安达里奥·阿莫迪I.Sutskever公司

计算机科学、语言学

2019

研究表明，当语言模型在一个由数百万个网页组成的新数据集（称为WebText）上进行训练时，在没有任何明确监督的情况下开始学习这些任务，这为构建语言处理系统提供了一条有希望的路径，该系统可以从自然发生的演示中学习执行任务。

GLUE：一个用于自然语言理解的多任务基准和分析平台

王培沂阿曼普雷特·辛格朱利安·迈克尔费利克斯·希尔奥马尔·利维塞缪尔·鲍曼

计算机科学、语言学

黑匣子NLP@EMNLP

2018

九个不同NLU任务的基准，一个用于探测模型以了解特定语言现象的辅助数据集，以及一个用于评估和比较模型的在线平台，该平台支持能够以有助于样本高效学习和跨任务有效知识传递的方式表示语言知识的模型。

5,706

[PDF]（PDF格式）

UniMax：更公平、更有效的大规模多语言预训练语言采样

Hyung Won Chung（亨元忠）诺亚常数奥汉·菲拉特

计算机科学、语言学

2023

一系列广泛的消融在一套多语言基准上测试了一系列采样策略，同时改变了模型规模，发现UniMax的性能优于标准的基于温度的采样，并且随着规模的增加，其优势持续存在。

[PDF]（PDF格式）

你应该根据标记化的边际似然来评估你的语言模型

克里斯·曹劳拉·里梅尔

计算机科学

2021

有人认为，语言模型应该根据其在标记化上的边际似然进行评估，结果表明，边际复杂度可以明显优于最佳的，尤其是在域外数据上。

14

[PDF]（PDF格式）

Pythia：跨训练和缩放分析大型语言模型的套件

斯特拉·拜德曼Hailey Schoelkopf公司奥斯卡·范德沃尔

计算机科学

2023

介绍了一组16个LLM，所有LLM均按照相同的顺序接受公共数据训练，参数范围从70M到12B，证明了这种高度控制的设置可以用于对LLM及其训练动态产生新的见解。

[PDF]（PDF格式）

预训练语言模型中的无监督领域聚类

罗伊·阿哈罗尼约夫·戈德伯格

计算机科学、语言学

辅助控制线

2020

研究表明，大量的预训练语言模型隐式地学习按领域聚类的句子表示，而无需监督——建议对文本数据中的领域进行简单的数据驱动定义，并提出基于此类模型的领域数据选择方法，这类模型只需要少量的领域内单语数据。

205

[PDF]（PDF格式）

预训练语言模型的高效分层域自适应

亚历山德拉·克洛诺普鲁（Alexandra Chronopoulou）马修·彼得斯杰西·道奇

计算机科学

2022

本文介绍了一种允许域适应多个不同域的方法，该方法基于文本域部分重叠的观察结果，使用计算效率高的适配器方法，并将域表示为层次树结构，其中树中的每个节点与一组适配器权重相关联。

35

[PDF]（PDF格式）

使用统一的文本到文本转换器探索迁移学习的局限性

科林·拉斐尔诺姆·M·沙泽尔彼得·J·刘

计算机科学、语言学

J.马赫。学习。物件。

2020

这项系统研究比较了几十项语言理解任务的预训练目标、体系结构、未标记数据集、迁移方法和其他因素，并在包括摘要、问答、文本分类等的许多基准上取得了最先进的结果。

14,290

[PDF]（PDF格式）