2024年IEEE计算机视觉和模式识别会议
@诉讼中{Szymanowicz24,author=“Stanislaw Szymanowicz和Christian Rupprecht以及Andrea Vedaldi”,title=“飞溅图像:超快速单视图3D重建”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2024”,}
我们介绍了Splatter Image,这是一种高效的单目三维物体重建方法。溅射图像基于高斯溅射,允许从多个图像快速高质量重建3D场景。我们通过学习一个神经网络将高斯散斑应用于单目重建,该神经网络在测试时以38 FPS的前馈方式执行重建。我们的主要创新是对这个网络进行了令人惊讶的直接设计,它使用2D算子将输入图像映射到每个像素一个3D高斯。由此产生的高斯图像集形成了一个图像,即溅射图像。我们进一步扩展了该方法,将多幅图像作为交叉关注的输入。由于渲染器的速度(588 FPS),我们使用单个GPU进行训练,同时在每次迭代中生成整个图像,以优化LPIPS等感知指标。在几个合成的、真实的、多类别的和大规模的基准数据集上,我们在PSNR、LPIPS和其他指标方面取得了更好的结果,同时比以前的工作更快地进行训练和评估。有关代码、模型和更多结果,请访问https://szymanowiczs.github.io/splatter-image。
2023年IEEE计算机视觉和模式识别会议
@诉讼中{卡拉耶夫23,author=“尼基塔·卡拉耶夫(Nikita Karaev)、伊格纳西奥·罗科(Ignacio Rocco)、本杰明·格雷厄姆(Benjamin Graham)、纳塔莉亚·内弗罗娃(Natalia Neverova)、安德烈亚·维达尔迪(Andrea Veda,title=“动态立体声:来自立体声视频的一致动态深度”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度计算方法都独立处理不同的立体帧,导致深度预测在时间上不一致。时间一致性对于沉浸式AR或VR场景尤其重要,因为闪烁会大大降低用户体验。我们提出了一种新的基于变换器的体系结构DynamicStereo来估计立体视频的视差。该网络学习汇集来自相邻帧的信息,以提高其预测的时间一致性。我们的架构旨在通过划分的关注层高效地处理立体视频。我们还引入了Dynamic Replica,这是一个新的基准数据集,包含扫描环境中人和动物的合成视频,与现有数据集相比,它为更接近实际应用的动态立体声提供了补充的训练和评估数据。使用该数据集进行训练,进一步提高了我们提出的DynamicStereo和先前方法的预测质量。最后,它作为一致立体声方法的基准。
IEEE计算机视觉和模式识别会议,第23799-23808页,2023年6月
@诉讼中{刘23,author=“刘耀耀(Yaoyao Liu)、伯恩特·席勒(Bernt Schiele)、安德烈亚·维达尔迪(Andrea Vedaldi)和克里斯蒂安·鲁普雷希特(Christian Rupprecht)”,title=“用于增量目标检测的连续检测变压器”,booktitle=“IEEE计算机视觉和模式识别会议”,pages=“23799-23808”,month=“六月”,年=“2023”,publisher=“IEEE”,}
增量目标检测(IOD)旨在分阶段训练目标检测器,每个阶段都带有新目标类别的注释。与其他增量设置一样,IOD也容易发生灾难性遗忘,这通常通过知识提取(KD)和样本重放(ER)等技术来解决。然而,如果将KD和ER直接应用于最先进的基于变压器的目标探测器(如可变形DETR和UP-DETR),则其效果并不理想。在本文中,我们通过提出一种连续检测变压器(CL-DETR)来解决这些问题,这是一种基于变压器的IOD的新方法,能够在这种情况下有效地使用KD和ER。首先,我们引入了检测器知识蒸馏(DKD)损失,重点关注旧版本模型中信息最丰富、最可靠的预测,忽略冗余的背景预测,并确保与可用的地面实况标签的兼容性。我们还通过提出一种校准策略来改进ER,以保持训练集的标签分布,从而更好地匹配训练和测试统计数据。我们对COCO 2017进行了大量实验,并证明CL-DETR在IOD设置中取得了最先进的结果。
L.Melas-Kyriazi,C.鲁普雷希特,A.维达尔迪CVPR亮点纸
2023年IEEE计算机视觉和模式识别会议
@诉讼中{Melaskyriazi23b,author=“卢克·梅拉斯·基里亚齐(Luke Melas-Kyriazi)、克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)”,title=“PC2:用于单图像3D重建的投影条件点云扩散”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
从单个RGB图像重建物体的3D形状是计算机视觉中一个长期存在且极具挑战性的问题。本文提出了一种新的单幅图像三维重建方法,该方法通过条件去噪扩散过程生成稀疏点云。我们的方法将单个RGB图像及其相机姿势作为输入,并逐渐将一组3D点(其位置最初是从三维高斯分布中随机采样的)去噪为对象的形状。我们的方法的关键是一个几何一致的调节过程,我们称之为投影调节:在扩散过程的每一步,我们将局部图像特征从给定的相机姿势投影到部分进化的点云上。这种投影调节过程使我们能够生成与输入图像对齐的高分辨率稀疏几何体,并且还可以用于预测形状重建后的点颜色。此外,由于扩散过程的概率性质,我们的方法自然能够生成与单个输入图像一致的多个不同形状。与之前的工作相比,我们的方法不仅在合成基准上表现良好,而且在复杂的真实世界数据上也有很大的质量改进。
L.Melas-Kyriazi,I.莱纳,C.鲁普雷希特,A.维达尔迪
2023年IEEE计算机视觉和模式识别会议
@诉讼中{Melaskyriazi23a,author=“卢克·梅拉斯·基里亚齐(Luke Melas-Kyriazi)和伊罗·莱纳(Iro Laina)以及克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)”,title=“RealFusion:从单个图像中360度重建任何对象”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,}
我们考虑从物体的单个图像重建物体的完整360°摄影模型的问题。我们通过对图像拟合神经辐射场来实现这一点,但发现这个问题存在严重缺陷。因此,我们采用了一种基于扩散的非自我条件图像生成器,并设计了一个提示,鼓励它“虚构”物体的新奇视图。使用受DreamFields和DreamFusion启发的方法,我们将给定的输入视图、条件先验和其他正则化器融合到最终一致的重建中。与以前的单目三维重建方法相比,我们在基准图像上展示了最先进的重建结果。定性地说,我们的重建提供了输入视图的忠实匹配,以及对其外观和3D形状的合理推断,包括对图像中不可见对象的侧面。
2023年IEEE国际计算机视觉会议
@会议记录{Shtedritski23,author=“Aleksandar Shtedritski、Christian Rupprecht和Andrea Vedaldi”,title=“CLIP对红色圆圈了解多少?VLM的视觉提示工程”,booktitle=“IEEE国际计算机视觉会议”,年=“2023”,}
大规模的视觉语言模型(如CLIP)学习了强大的图像-文本表示,这些表示在许多应用中都有发现,从零快照分类到文本-图像生成。尽管如此,他们通过提示解决新的歧视性任务的能力落后于大型语言模型,如GPT-3。在这里,我们探索了视觉提示工程的思想,通过在图像空间而不是文本中编辑来解决分类以外的计算机视觉任务。特别是,我们发现了CLIP的一种应急能力,通过简单地在对象周围画一个红圈,我们可以将模型的注意力引向该区域,同时还可以维护全局信息。我们通过在零快照引用表达式理解和关键点定位任务中的强大性能方面达到最先进水平,展示了这种简单方法的威力。最后,我们提请注意大型语言视觉模型的一些潜在伦理问题。
2023年IEEE国际计算机视觉会议
@诉讼中{Szymanowicz23,author=“Stanislaw Szymanowicz和Christian Rupprecht以及Andrea Vedaldi”,title=“视图集扩散:(0-)基于2D数据的图像条件三维生成模型”,booktitle=“IEEE计算机视觉国际会议”,年=“2023”,}
我们介绍了Viewset Diffusion,它是一种基于扩散的生成器,可以输出3D对象,而只使用多视图2D数据进行监控。我们注意到,视图集之间存在一对一的映射,即一个对象的多个2D视图和3D模型的集合。因此,我们训练扩散模型来生成视图集,但设计神经网络生成器来重建内部相应的3D模型,从而也生成这些模型。我们将扩散模型拟合到给定类别对象的大量视图集。生成的生成器可以以零个、一个或多个输入视图为条件。以单个视图为条件,它执行3D重建,以解决任务的模糊性,并允许采样与输入兼容的多个解决方案。该模型以前馈的方式高效地执行重建,并且仅使用渲染损失对每个视图集使用最少三个视图进行训练。
2023年IEEE国际计算机视觉会议
@会议记录{Wang23,author=“王建元(Jianyuan Wang)和克里斯蒂安·鲁普雷希特(Christian Rupprecht)以及大卫·诺沃特尼(David Novotny)”,title=“PoseDiffusion:通过扩散辅助束调整解决姿态估计”,booktitle=“IEEE计算机视觉国际会议”,年=“2023”,}
摄像机姿态估计是一个长期存在的计算机视觉问题,到目前为止,它通常依赖于经典方法,如手工关键点匹配、RANSAC和束调整。在本文中,我们建议在概率扩散框架内建立运动结构(SfM)问题,对给定输入图像的相机姿势的条件分布进行建模。这种对旧问题的新观点有几个优点。(i) 扩散框架的性质反映了束调整的迭代过程。(ii)该公式允许从极线几何无缝集成几何约束。(iii)它擅长于典型的困难场景,例如具有宽基线的稀疏视图。(iv)该方法可以预测任意数量图像的内在和外在特征。我们证明了我们的方法PoseDiffusion比经典的SfM管道和两个真实数据集上的学习方法有显著改进。最后,我们观察到,我们的方法可以在没有进一步训练的情况下在数据集之间进行推广。
IEEE计算机视觉和模式识别会议,第23799-23808页,2023年6月
@诉讼中{温布尔23,author=“Felix Wimbauer和Nan Yang以及Christian Rupprecht和Daniel Cremers”,title=“幕后:单视图重建的密度场”,booktitle=“IEEE计算机视觉和模式识别会议”,pages=“23799-23808”,月=“jun”,年=“2023”,publisher=“IEEE”,}
从单个图像中推断有意义的几何场景表示是计算机视觉中的一个基本问题。基于传统深度图预测的方法只能推断图像中可见的区域。目前,神经辐射场(NeRF)可以捕获包括颜色在内的真实3D,但过于复杂,无法从单个图像中生成。作为替代方案,我们引入了一种神经网络,它可以从单个图像预测隐式密度场。它将图像平截体中的每个位置映射到体积密度。我们的网络只能通过视频数据进行自我监控来训练。通过不在隐式体积中存储颜色,而是在训练期间直接从可用视图中采样颜色,我们的场景表示比NeRFs要简单得多,并且我们可以训练神经网络来预测它。因此,我们可以应用体渲染来执行深度预测和新视图合成。在我们的实验中,我们表明我们的方法能够为输入图像中被遮挡的区域预测有意义的几何体。此外,我们还展示了我们的方法在三个数据集上用于深度预测和新视图合成的潜力。
国际计算机视觉杂志,2023年
@第{Wu23b条,author=“吴尚哲(Shangzhe Wu)和托马斯·贾卡布(Tomas Jakab)以及克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)”,title=“鸽子:通过观看视频学习可变形3D对象”,journal=“国际计算机视觉杂志”,年=“2023”,}
从2D图像中学习可变形3D对象通常是一个不适定的问题。现有方法依赖于显式监督来建立多视图对应关系,例如模板形状模型和关键点注释,这限制了它们在“野外”对象上的适用性。建立通信的一种更自然的方式是观看物体移动的视频。在本文中,我们提出了一种DOVE方法,该方法从在线可用的单目视频中学习变形对象类别的纹理3D模型,无需关键点、视点或模板形状监督。通过解决对称引起的姿势模糊性并利用视频中的时间对应性,该模型自动学习从每个单独的RGB帧中提取3D形状、关节姿势和纹理,并为测试时的单图像推理做好准备。在实验中,我们表明,现有的方法在没有额外的关键点或模板监督的情况下无法学习合理的3D形状,而我们的方法可以生成时间一致的3D模型,这些模型可以从任意角度进行动画和渲染。