计算机科学>计算机视觉和模式识别
标题: 将视觉和运动联系起来,实现自我监督的以对象为中心的感知
摘要: 以对象为中心的表示使自主驾驶算法能够推理许多独立代理和场景特征之间的交互。 传统上,这些表示是通过监督学习获得的,但这将感知与下游驾驶任务解耦,并可能损害泛化。 在这项工作中,我们采用了一种自监督的以对象为中心的视觉模型,以仅使用RGB视频和车辆姿势作为输入来执行对象分解。 我们证明了我们的方法在Waymo Open感知数据集上取得了很好的结果。 虽然对象遮罩质量落后于使用更多特权信息的监督方法或替代方法,但我们发现,我们的模型能够学习一种随时间融合多个摄像头视点的表示,并成功跟踪数据集中的许多车辆和行人。 我们模型的代码可从以下网址获得: 此https URL .