预训练语言模型(LM)通过在少量快照设置中从几个示例中进行推断,证明了执行数值推理的能力。然而,这种推断在多大程度上依赖于稳健的推理尚不清楚。在本文中,我们研究了这些模型对预处理数据中不太常见的术语的推理能力。特别是,我们检查了测试实例上的模型性能与预训练数据中来自这些实例的术语频率之间的相关性。我们在各种数字推导任务(例如,算术和单位转换)上测量了许多基于GPT的语言模型(在Pile数据集上预处理)的这种相关性的强度。我们的结果一致表明,模型在术语更为普遍的情况下更为准确,在某些情况下,与最底层的10%相比,在最常见的10%术语中,超过70%(绝对值)的模型更为准确。总的来说,虽然LMs在少数几个热点的数值推理任务中表现出了很强的性能,但我们的结果提出了一个问题,即除了预训练数据外,模型实际推广了多少,我们鼓励研究人员在解释评估结果时考虑预训练数据。