ClevrTex：无监督多对象分割的纹理丰富基准

摘要

最近出现了大量旨在以无监督方式将场景分解和分割为多个对象的方法，即无监督多对象分割。执行这样的任务是计算机视觉的一个长期目标，它可以解锁对象级推理，而不需要密集的注释来训练分割模型。尽管取得了重大进展，但目前的模型是在简单的视觉场景上开发和训练的，这些场景描绘了在普通背景上的单色物体。然而，自然世界在视觉上是复杂的，有各种各样的纹理和复杂的灯光效果。在这项研究中，我们提出了一个名为ClevrTex的新基准测试，它是比较、评估和分析算法的下一个挑战。ClevrTex的特色是使用基于物理的渲染技术创建的具有不同形状、纹理和照片贴图材质的合成场景。我们在ClevrTex上对大量最近的无监督多对象分割模型进行了基准测试，发现所有最先进的方法都无法在纹理设置中学习良好的表示，尽管在较简单的数据上表现出色。我们还创建了Clevertex数据集的变体，控制场景复杂性的不同方面，并探索当前方法中的个别缺点。

下载

版本2

由于中原始ClevrTex数据集中使用的材料的许可证发生了一些变化，因此可能无法再获得用于AI相关目的的材料。因此，可能无法再修改ClevrTex的渲染管道以生成新版本。我们提供了一个新的材料库来解决这一问题，为了方便起见，我们还呈现了数据集的新版本。请注意，这仅影响材质。数据集（包括原始版本）如下所示。有关更多详细信息，请参阅Github存储库。

原始版本

ClevrTex小型数据集预览/示例（260 MB）

生成和评估代码

致谢

L.K.由EPSRC自主智能机器和系统博士培训中心EP/S024050/1资助。C.R.由Innovate UK（项目71653）代表英国研究与创新（UKRI）和欧洲研究理事会（ERC）IDIU-638009提供支持。I.L.由EPSRC项目拨款Seebibyte EP/M013774/1和ERC启动拨款IDIU-638009支持。我们感谢Clevr的作者们的开源实现。我们还要感谢马丁·恩格尔克（Martin Engelcke）就将Genesis-v2应用于ClevrTex和德米特里·斯米尔诺夫（Dmitriy Smirnov）分享他们对MarioNette的实施提出的有益建议。