电传飞行管理技术报告
本报告介绍了Tele-FLM(又名FLM-2),这是一个52B开源的多语言大型语言模型,具有稳定、高效的预训练范式和增强的事实判断能力,并展示了BPB在文本语料库上测量的卓越的多语言建模能力。 OLMo:加速语言模型科学
OLMo是一个竞争性的、真正的开放语言模型,旨在实现对语言模型的科学研究,希望此次发布将增强开放研究社区的力量,并激发新的创新浪潮。 交叉护理:评估训练前数据对语言模型偏差的医疗影响
引入了交叉护理(Cross-Care),这是第一个用于评估LLM中的偏见和现实世界知识的基准框架,特别侧重于不同人口群体中疾病流行率的表示,这表明偏见传播的风险显著,并且缺乏LLM医学应用的现实基础。 用于衡量统计语言建模进展的十亿字基准
本文提出了一个新的用于测量统计语言建模进展的基准语料库,该语料库包含近10亿字的训练数据,有助于快速评估新的语言建模技术,并比较它们与其他先进技术结合时的贡献。 语言模型是无监督的多任务学习者
研究表明,当语言模型在一个由数百万个网页组成的新数据集(称为WebText)上进行训练时,在没有任何明确监督的情况下开始学习这些任务,这为构建语言处理系统提供了一条有希望的路径,该系统可以从自然发生的演示中学习执行任务。 预训练语言模型中的无监督领域聚类
研究表明,大量的预训练语言模型隐式地学习按领域聚类的句子表示,而无需监督——建议对文本数据中的领域进行简单的数据驱动定义,并提出基于此类模型的领域数据选择方法,这类模型只需要少量的领域内单语数据。 预训练语言模型的高效分层域自适应
本文介绍了一种允许域适应多个不同域的方法,该方法基于文本域部分重叠的观察结果,使用计算效率高的适配器方法,并将域表示为层次树结构,其中树中的每个节点与一组适配器权重相关联。