残酷的真相与野外的圆满

管其战¹

郑川霞¹

谢伟迪^1,2

安德鲁·齐瑟曼¹

¹牛津大学视觉几何组²上海交通大学

{关奇，cxzheng，weidi，az}@robots.ox.ac.uk

阿莫达尔-泰尔图形

摘要

本文研究的问题是非对称图像分割：预测包括可见和不可见（遮挡）部分的整个对象分割遮罩。在以往的工作中，真实图像上的非对称分割背景真实性通常是通过人工注释来预测的，因此具有主观性。相比之下，我们使用3D数据建立一个自动管道，以确定真实图像中部分遮挡对象的真实地面真相。该管道用于构建一个由各种对象类别和标签组成的非对称完井评估基准MP3D-amodal。为了更好地处理野外的非对称完成任务，我们探索了两种架构变体：一个两阶段模型，首先推断封堵器，然后是非对称掩模完成；以及一个单阶段模型，该模型利用稳定扩散的表示能力跨多个类别进行非对称分割。我们的方法在覆盖多种对象的Amodal分割数据集（包括COCOA和我们的新MP3D-Amode数据集）上实现了最新的性能，没有什么特别之处。

出版物

残酷的真相与野外的圆满

管其战，郑川霞，谢伟迪，安德鲁·齐瑟曼

CVPR 2024年

Biptex公司|PDF格式|arXiv公司|代码

MP3D-模态数据集

数据集比较

不同Amodal数据集的比较。我们的MP3D-Amodal数据集是第一个为真实场景中各种类别的遮挡对象提供真实非真实背景的非真实数据集。

mp3d_示例

MP3D-模态数据集示例。

mp3d_stat（mp3d_状态）

mp3d列表

MP3D-模态数据集的统计信息。

mp3d生成

MP3D-模态数据集的生成过程。

数据集下载

评估数据集：
- mp3d_eval.zip

培训数据集：
- mp3d_train.zip

注释：（与COCOA格式相同）
- 注释.pkl

建筑

拱_1

用于Amodal预测的两阶段架构（OccAmodal）。左图：基于U-Net的轻量级架构用于预测每个对象的遮挡器遮罩。右：amodal预测器将预测的封堵器掩模以及模式掩模和图像作为输入来预测amodal分割掩模。

拱门_2

阿莫达尔预言的一阶段架构（SDamodel）。将图像输入到预处理的稳定扩散模型中，得到包含遮挡信息的多尺度表示。图像和模式掩码特征被连接并转发到多个解码层以进行变形预测。稳定扩散模型在训练期间被冻结。

实验结果

烧蚀_2

比较_索塔

定性的

致谢

本研究得到了EPSRC项目资助VisualAI EP/T028572/1、皇家学会研究教授RP\R1\191132、AWS信贷基金、中国牛津奖学金和ERC-CoG UNION 101001212的支持。

网页模板修改自张曦轲.