计算机科学>计算机视觉和模式识别
标题: Video-kMaX:一种简单的在线和近在线视频全景分割统一方法
摘要: 视频全景分割(VPS)旨在通过分割视频中的所有像素和关联对象来实现全面的像素级场景理解。 当前的解决方案可以分为在线和近在线方法。 随着时间的推移,每个类别都有自己的专门设计,因此在不同类别之间调整模型很重要。 为了缓解这种差异,在这项工作中,我们提出了在线和近在线VPS的统一方法。 所提出的Video-kMaX的元体系结构由两个组件组成:剪辑内分段器(用于剪辑级分段)和跨剪辑关联器(用于跨剪辑关联)。 我们提出clip-kMaX(clip-k-means mask transformer)和HiLA-MB(Hierarchical Location-Aware Memory Buffer)来分别实例化分段器和关联器。 我们的一般公式将在线场景作为一个特例,采用长度为1的剪辑。 Video-kMaX在KITTI-STEP和VIPSeg上实现了视频全景分割,在VSPW上实现视频语义分割,而没有了铃铛和哨声。 代码将公开。