数据相似性不足以解释语言模型的性能

格雷戈里·尤尼,艾米丽·雷夫,大卫·米姆诺


摘要
大型语言模型在许多但不是所有下游任务上实现了高性能。通常假设预处理数据和任务数据之间的交互作用来确定这种差异:假设数据与模型的预处理数据更相似的任务对该模型更容易。通过对Pile和C4预处理数据集与下游基准的大规模比较,我们测试了分布和特定示例的相似性度量(嵌入、令牌和基于模型)是否与语言模型性能相关。相似性与多语言数据集的性能相关,但在其他基准测试中,我们惊讶地发现相似性度量与准确性甚至彼此之间都不相关。这表明预训练数据和下游任务之间的关系比通常假设的更复杂。
选集ID:
2023.emnlp-main.695年
体积:
2023年自然语言处理实证方法会议记录
月份:
十二月
年份:
2023
地址:
新加坡
编辑:
Houda Bouamor公司,胡安·皮诺,卡利卡-巴厘岛
地点:
EMNLP公司
SIG公司:
出版商:
计算语言学协会
注:
页:
11295–11304
语言:
网址:
https://aclantology.org/2023.emnlp-main.695
内政部:
10.18653/v1/2023.emnlp-main.695
双钥匙:
引用(ACL):
Gregory Yauney、Emily Reif和David Mimno。2023数据相似性不足以解释语言模型的性能.英寸2023年自然语言处理实证方法会议记录,第11295–11304页,新加坡。计算语言学协会。
引用(非正式):
数据相似性不足以解释语言模型的性能(Yauney等人,EMNLP 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.emnlp-main.695.pdf
视频:
 https://acl选集.org/2023.emnlp-main.695.mp4