出版物
如果您使用数据集,请引用以下内容。
NeurIPS数据集跟踪,2021年
@第{条,
author=“Yuki M.Asano和Christian Rupprecht以及Andrew Zisserman和Andrea Vedaldi”,
title=“PASS:ImageNet替代了无人值守的自我监督预训练”,
journal=“NeurIPS跟踪数据集和基准”,
year=“2021”
}
计算机视觉长期以来依赖于ImageNet和其他从互联网上采集的大型图像数据集来预处理模型。然而,这些数据集存在道德和技术缺陷,例如包含未经同意而获取的个人信息、不明确的许可证使用、偏见,在某些情况下甚至包含有问题的图像内容。另一方面,目前最先进的预训练是通过无监督方法获得的,这意味着像ImageNet这样的标记数据集对于模型预训练来说可能不是必要的,甚至可能不是最优的。因此,我们提出了一个用于自我监督的未标记数据集PASS:Pictures without humAns。PASS仅包含具有CC-BY许可证和完整属性元数据的图像,解决了版权问题。最重要的是,它根本不包含任何人的图像,并且还避免了其他类型的图像,这些图像对数据保护或道德有问题。我们表明,PASS可用于MoCo-v2、SwAV和DINO等方法的预训练。在转移学习环境中,它产生了与ImageNet预训练类似的下游性能,甚至在涉及人类的任务上,例如人类姿势估计。PASS不会使现有数据集过时,例如,它不足以进行基准测试。然而,它表明,在使用更安全的数据的情况下,模型预训练通常是可能的,并且它也为预训练方法的更稳健的评估提供了基础。