Does language help generalization in vision models?

Benjamin Devillers; Bhavin Choksi; Romain Bielawski; Rufin Vanrullen

doi:10.18653/v1/2021.conll-1.13

语言有助于视觉模型中的泛化吗？

摘要

在多模式数据集上训练的视觉模型可以受益于大型图像选项数据集的广泛可用性。最近发现一种模型（CLIP）在零快照和转移学习环境中具有良好的泛化能力。这可能意味着语言或“语义基础”赋予视觉特征空间额外的泛化能力。在这里，我们从无监督聚类、少快照学习、转移学习和对抗鲁棒性方面系统地评估了各种多模式体系结构和可视化模型。在每种情况下，与标准的监督视觉训练相比，多模态训练没有产生额外的泛化能力。我们的结论是，语义基础仍然需要改进视觉模型。

选集ID：: 2021.续-1.13
体积：: 第25届计算自然语言学习会议记录
月份：: 十一月
年份：: 2021
地址：: 在线的
编辑：: 阿里安娜·比萨扎,奥姆里·阿本德
地点：: CoNLL公司
SIG公司：: SIGNLL公司
出版商：: 计算语言学协会
注：
页：: 171–182
语言：
网址：: https://aclantology.org/2021.coll-1.13
内政部：: 10.18653/v1/2021.coll-1.13
比比键：
引用（ACL）：: 本杰明·德维勒（Benjamin Devillers）、巴文·乔克西（Bhavin Choksi）、罗曼·比拉夫斯基（Romain Bielawski）和鲁芬·范鲁伦（Rufin VanRullen）。2021语言有助于视觉模型中的泛化吗？.英寸第25届计算自然语言学习会议记录，第171-182页，在线。计算语言学协会。
引用（非正式）：: 语言有助于视觉模型中的泛化吗？（Devillers等人，CoNLL 2021）
复制引文：
PDF格式：: https://aclantology.org/2021.coll-1.13.pdf
视频：: https://aclantology.org/2021.coll-1.13.3mp4网址
代码: bdvllrs/通用视觉
数据: CIFAR-10公司, CIFAR-100型, CUB-200-2011年, 时尚-MNIST, 如何达到100M, MNIST公司, 中景COCO, SVHN公司

PDF格式引用搜索代码视频