从不完全数据中学习可能对称的神经表面

迪伦·坎贝尔

小结:SNeS是一种神经网络,它利用从单侧拍摄的一组姿势图像重建一个基本对称的物体,并呈现出令人信服的、新颖的看不见的一面的图像。

[纸类·项目页面·代码]

问题

你开车时经过一辆停着的车。你身边是什么没有看样子?大概吧印象派的纹理和融化的几何图形的幻影,就像莫奈和达利的混搭。然而这就是最先进的神经渲染模型,比如NeRF[1]还有NeuS[2]预测,充其量。如果一个孩子能准确地看到汽车看不见的一面,我们如何让我们的模型也这样做呢?

重建驱动。
驱动重构:从一系列观看过往车辆的帧序列中,我们的模型同时从数据中学习对称变换的参数,并将对称性作为软约束来重建模型,尽管可见侧和未看见侧之间的视图密度存在显著差异。学习到的对称性允许SNeS在整个模型中共享信息,从而产生更精确的重建和更高保真的新颖合成视图。
迪伦·坎贝尔2022年7月18日

卡尔文-一个神经网络,可以学习规划和导航未知环境

石田淑

小结:卡尔文是一个神经网络,可以规划,探索和导航在新的三维环境。它只需要从专家的演示中学习解决迷宫之类的任务。我们的工作建立在价值迭代网络(VIN)[1],一种动态构建计划的递归卷积神经网络。虽然VIN在完全已知的环境中工作得很好,但CALVIN甚至可以在未知的环境中工作,在这些环境中,代理必须探索环境以找到目标。

[纸类·项目页面·代码]

问题

我们要解决的问题是演示的可视化导航。机器人代理必须学习如何导航,给定一定数量的RGB-D图像的专家轨迹和所采取的行动。虽然使用定义障碍物和目标的自上而下的地图进行规划很容易,但是如果代理必须从RGB-D图像中了解障碍物和目标的性质,则更具挑战性。

代理将其视为专家演示的一系列图像和操作
代理将其视为专家演示的一系列图像和操作

导航的另一个重要方面是探索。我们的代理一开始对新环境一无所知,因此它必须在导航时构建环境地图,并学习探索最有可能通向目标的区域。

代理学会预测最好解释专家演示的奖励
代理学会预测最好解释专家演示的奖励。高值为亮(黄色),低值为暗,专家的轨迹为虚线,代理的轨迹为实心。

为了使代理能够在未接受过培训的环境中导航,它必须学习一些适用于所有环境的通用知识。特别是,我们重点学习一个共享的转换模型和奖励模型,它可以最好地解释专家演示,然后可以应用到新的设置中。

代理学习可在所有环境中重用的运动动力学
代理学习可在所有环境中重用的运动动力学。在每一个区域内,每一个区域内的一个区域内,每一个区域内的一个区域内,每一个区域内的一个区域内,每一个区域内的一个区域内,每一个区域内的一个区域内,每一个区域内的每一个区域都有一个移动的方向;静止不动对应于面板中心的单个高概率(亮值)。
石田淑2022年6月2日

从野外图像中无监督学习可能对称的可变形三维物体

吴尚哲、克里斯蒂安·鲁普雷希特和安德烈·韦达尔迪

总结:我们提出了一种从原始单视图图像中学习弱对称可变形三维对象类别的方法,该方法不需要地面真实三维、多视图、二维/三维关键点、先前的形状模型或任何其他监督。

这项工作已收到CVPR 2020最佳论文奖.

[纸类·项目页面·代码]

演示

演示摘要

吴尚哲、克里斯蒂安·鲁普雷希特和安德烈·韦达尔迪2020年2月26日

基于同步聚类和表征学习的自标记

浅野由子和克里斯蒂安·鲁普雷希特

总结:我们开发了一个自监督学习公式,通过优化特征和标签的公共交叉熵损失,同时学习特征表示和有用的数据集标签,同时最大化信息。此方法可用于为任何图像数据集生成标签。

[纸类·代码]

从未标记的数据中学习可以显著降低将算法部署到新应用程序的成本,从而扩大机器学习在现实世界中的影响。自我监督是一个越来越流行的学习框架标签。这个想法是定义借口学习任务可以单独从原始数据构建,但这仍然会导致神经系统能很好地传输到有用应用程序的网络。自我监督的研究大多集中在设计新的课前任务上。然而,鉴于监督数据作为图像网标准分类目标仍然是最小化交叉熵损失与任何此类方法相比(对于一定数量的数据和模型复杂性),预训练效果更好。这表明,只要有合适的数据标签,分类任务就足以用于训练前的网络有。本文提出了一种自动获取标签的方法自我标记算法。

浅野由子和克里斯蒂安·鲁普雷希特2020年2月14日

ShapeStacks:赋予机器人物理直觉

奥利弗·格罗斯

物理直觉是人类的超能力。它使我们的高级对象操作技能,我们应用在无数的场景-从玩玩具到使用工具。ShapeStacks项目旨在通过提供一个虚拟的操场,让机器人获得物理经验,从而让机器人具备类似的直觉。

ShapeStacks场景示例

[纸类·代码·数据]

我们中的大多数人可能以前玩过一个“延加”游戏,在厨房里处理成堆的脏盘子,或者用锤子把钉子钉进木头上。当我们试图制造一台能够做同样事情的机器时,这些简单的日常任务的内在复杂性就会立即变得清晰起来。机器人本质上是集传感、运动和操作于一体的计算机。和所有计算机一样,它们首先是快速精确的计算器。然而,尽管他们的数字运算能力(这使他们能够在几秒钟内完成复杂的物理和几何计算),他们仍然在很大程度上与基本的对象操作斗争。另一方面,人类的算术精度只有计算机的一小部分,但仍然能够“计算”四肢的精确运动(例如在钉子头上挥动锤子)和估计周围物体的物理状态(例如判断一堆盘子的稳定性)。

奥利弗·格罗斯2019年1月15日

VGG图像注释器

阿披实·杜塔

概述:VGG图像注释器(VIA)是一个手动图像注释工具,它非常易于使用,您可以在不到一分钟的时间内启动并运行此应用程序。VIA运行在大多数现代web浏览器中,不需要任何安装。整个应用程序非常小——不到400KB——可以通过电子邮件轻松地共享。这个图像注释工具不仅对计算机视觉研究有用,而且在人文、历史、动物学等其他学科中也得到了广泛的应用,自2017年4月发布以来,已经被使用了23万多次,讨论了它的影响,最后描述了围绕VIA项目蓬勃发展的开源生态系统。

介绍

手动图像标注示例使用VGG图像注释器进行手动图像注释的示例(通过)

手动图像注释是在图像中定义区域并使用文本元数据描述这些区域的过程。这些区域可以是任意形状的,主要由人工操作绘制。我们开发了一个开源软件,叫做VGG图像注释器(通过),允许对图像进行手动注释。VIA最重要的特性之一是它不需要任何安装,新用户可以快速开始使用该软件。此外,由于这是一个开源项目,用户可以更新源代码以满足他们的特定需求,而且很多人已经选择这样做。以下是VIA的一些重要功能:

阿披实·杜塔2018年10月17日

比较器网络

谢伟迪

摘要:我们提出一个深层神经网络(比较器网络)来进行集合验证,例如判断两组图像是否属于同一类别。

动机

验证通常是许多实际应用的中心,例如生物特征识别、安全、检索和跟踪。作为传统图像到图像验证的推广,这里我们考虑集合到集合的情况,其中每个集合可以包含任意数量的面部图像,例如单个图像或视频中的帧序列。要从多个图像中聚合信息,最直接的方法是使用均值来表示整个集合。

问题场景

然而,首先为每个面生成一个向量,然后简单地求平均值的过程,从四个方面忽略了可能使用更多可用信息的可能性:

谢伟迪2018年10月5日

看声音,听面孔

阿尔沙纳格拉尼

小结:我们探讨了音频和视频之间的关系,以便进行跨模式学习,重点放在人们说话的视频上。

顽固的在电话里和迪恩·鲍威尔通话

人类的面孔和声音有多相似?如果你只听到某人的声音,你能认出他们的脸吗?或者你只看到他们的脸就可以认出他们的声音?作为人类,我们可能会通过在大脑中形成一个只听到声音后的样子的图像来“看到声音”或“听到面孔”,反之亦然。

如果你看过电影《死而复生》,你可能还记得电影结尾时约翰·麦克莱恩(布鲁斯·威利斯饰)从大楼里走出来,立刻就能认出那名警察(阿尔·鲍威尔中士),他在整部电影中只通过无线电与之交谈,但从未见过。


虽然你可能凭直觉相信这一点,但人类心理学家如Kamachi等人研究了这种现象通过让参与者执行二进制强制匹配任务。他们被要求听人的声音,然后从随后呈现的两张人脸图像中选择一张具有相同身份的匹配人脸。

阿尔沙纳格拉尼2018年9月28日

使用深层网络映射环境

亨利克斯教堂

小结:我们教一个深层神经网络从视频中创建一个内部环境地图,并使用它进行自我定位。我们在玩具/游戏数据和真实机器人图像上进行了测试。关于如何实现这一点,也有一些有趣的技术细节。

嗨,欢迎来到VGG博客的第一期!在这个空间里,我们将分享一些(希望)我们在实验室里取得的令人兴奋的发现,以及我们在计算机视觉和深度学习的交叉点上发现的有趣的事情。不时收听(或使用RSS为一个新剂量的随机研究讨论。

我的名字叫João,我一直在教神经网络从视频中执行同步定位和映射(SLAM)。从表面上看,这似乎相对利基——为什么要构建地图?这和老牌的有什么不同,古典大满贯系统?原因是我认为地图绘制是迈向更大目标的第一步。

机器人视觉

在计算机视觉中,我们习惯于从图像或视频中做出预测——探测、分割,甚至深度。但如果我们想最终让自主的特工四处走动,为我们做一些有用的事情,他们需要一个稳定的世界的模型,一个超越当前观点的模型。其中一个例子是物体永久性–知道一个物体继续存在,即使在看不见的时候也可能在同一个地方。这个“地方”应该是相对于一个坚如磐石的以世界为中心的原点,而不是一个不断变化的以相机为中心的原点。这种知识可以让你制定更大、更复杂的计划,而不是只考虑当前的观点,比如记住厨房里有美味三明治的配料,并计划如何处理。

亨利克斯教堂2018年7月6日