Data Similarity is Not Enough to Explain Language Model Performance

Gregory Yauney; Emily Reif; David Mimno

doi:10.18653/v1/2023.emnlp-main.695

数据相似性不足以解释语言模型的性能

摘要

大型语言模型在许多但不是所有下游任务上实现了高性能。通常假设预处理数据和任务数据之间的交互作用来确定这种差异：假设数据与模型的预处理数据更相似的任务对该模型更容易。通过对Pile和C4预处理数据集与下游基准的大规模比较，我们测试了分布和特定示例的相似性度量（嵌入、令牌和基于模型）是否与语言模型性能相关。相似性与多语言数据集的性能相关，但在其他基准测试中，我们惊讶地发现相似性度量与准确性甚至彼此之间都不相关。这表明预训练数据和下游任务之间的关系比通常假设的更复杂。

选集ID:: 2023.emnlp-main.695年
体积：: 2023年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2023
地址：: 新加坡
编辑：: Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 11295–11304
语言：
网址：: https://aclantology.org/2023.emnlp-main.695
内政部：: 10.18653/v1/2023.emnlp-main.695
双钥匙：
引用（ACL）：: Gregory Yauney、Emily Reif和David Mimno。2023数据相似性不足以解释语言模型的性能.英寸2023年自然语言处理实证方法会议记录，第11295–11304页，新加坡。计算语言学协会。
引用（非正式）：: 数据相似性不足以解释语言模型的性能（Yauney等人，EMNLP 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.emnlp-main.695.pdf
视频：: https://acl选集.org/2023.emnlp-main.695.mp4

PDF格式引用搜索视频