Visual Geometry Group博客//www.robots.ox.ac.uk/~vgg/blog/2022-07-18T00:00:00+01:00SNeS:从不完整数据中学习可能对称的神经表面2022-07-18T00:00:00+01:002022-07-18T00:00:00+01:00迪伦·坎贝尔标签:www.robots.ox.ac.uk,2022-07-18:/~vgg/blog/snes-learning-probably-symmetric-neural-surfaces-from-incomplete-data.html<div align=“center”>[<a href=“https://arxiv.org/abs/2206.06340“>纸张</a>&middot;<a href=”https://www.robots.ox.ac.uk/~vgg/research/snes/“>项目页面</a>&middot;<a href=”https://github.com/eldar/snes“>代码</a>]</div><h3>问题</h3><p>你开车时经过一辆停着的汽车。你的哪一方没有做到;t</em>看到的样子是什么?大概不是印象派纹理和熔化的几何图形的幻影,就像莫奈和达利的混搭。然而,这就是NeRF等最先进的神经渲染模型</p><div align=“center”>[<a href=“https://arxiv.org/abs/2206.06340“>纸张</a>&middot;<a href=”https://www.robots.ox.ac.uk/~vgg/research/snes/“>项目页面</a>&middot;<a href=”https://github.com/eldar/snes“>代码</a>]</div><h3>问题</h3><p>你开车时经过一辆停着的汽车。你的哪一方没有做到;t</em>看到了吗?大概不是印象派纹理和熔化的几何图形的幻影,就像莫奈和达利的混搭。然而,这正是NeRF和NeuS等最先进的神经呈现模型预测的结果。如果一个孩子能准确地看到汽车看不见的一面,我们怎么能让我们的模型也这样做呢</p>(第页)<div class=“image fit”style=“max-width:1000px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/teaser.png”alt=“Drive-by重建”/><figcaption style=“font-size:0.8em;text-align:justify;”>Drive-by重建:从查看过往汽车的一系列帧中,我们的模型同时从数据中学习对称变换的参数,并将对称性作为软约束应用于重建模型,尽管可见侧和不可见侧的视野密度有显著差异。学习到的对称性允许SNeS在整个模型中共享信息,从而实现更准确的重建和更高精度的新合成视图</图标题></div><!-- 更多--><p>人类的优点是以前见过汽车,并且有对称性的心理模型。我们可以直接使用这些对称<a id=“footnote-1-ref”href=“#footnote-1”><sup>1</sup></a>,例如汽车的主要双侧反射对称,将信息从一侧传递到另一侧。这项任务变成了使用一组从单面拍摄的摆位图像重建一个最对称的物体,并在确保看到的部分与图像证据一致的同时,渲染出令人信服的不可见面的新颖视图图像</p>(第页)<div class=“image fit”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/symmetry.png”alt=“对称变换”/><figcaption style=“font-size:0.8em;text-align:justify;”>在前景区域(圆)内,我们的模型估计反射平面(水平虚线)的参数,以便它可以将信息从对象的一侧传递到另一侧。如果对称性保持不变,并且得到准确估计,则使用点颜色和不透明度的对称变换估计值渲染的颜色应与源颜色匹配</图标题></div><p>然而,正如Noah Snavely在发人深省的演讲中所指出的那样https://www.youtube.com/watch?v=syoGzmQIf08“>关于反射</a>,现实世界中有很多有趣的不对称现象。其中之一是几何不对称,例如备用轮胎偏离汽车后部的对称平面。另一个是外观不对称,例如挡风玻璃上的贴纸。更持久和有害的是由定向照明引起的强烈外观不对称和反射,这在真实场景中是不可避免的。因此,在使用对称传输信息之前,需要将场景的潜在对称部分(对象几何体和材质)与非对称部分(定向照明、阴影、镜面反射高光和反射)分离开来。此外,对称性无论如何都不能严格执行,因为场景总是以小或大的方式破坏对称性</p>(第页)<div class=“image fit”style=“最大宽度:1000px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/asymbly.png”alt=“几何和外观不对称。”/><figcaption style=“font-size:0.8em;text-align:justify;”>三维重建和新视图渲染显示,我们的模型保留了几何不对称(备胎、略微打开的门)和外观不对称(挡风玻璃贴纸、照明)</图标题></div><h3>SNeS模型</h3><p>与其他神经场模型一样,我们以一个复古游戏命名:SNeS(对称神经表面)。SNeS将其颜色模型分解为材质反照率颜色、反射率、漫反射照明和反射照明。这些组件由具有不同输入约束的神经网络建模,以确保它们正确分解。例如,反射率仅取决于位置,而不取决于视点。它们与类似Phong的模型线性组合,然后使用预测的不透明度通过光线追踪进行渲染,以获得像素颜色。在训练期间,我们优化对称参数,并通过光度损失鼓励前景模型的对称几何体(不透明度项)和与材料相关的外观(反照率和反射率项)</p>(第页)<div class=“image fit”style=“max-width:1000px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/flowter.png”alt=“流程图”/>SNeS模型。对于3D点x和方向d,模型使用生成符号距离&delta;的SDF网络估计几何体;,法向量n和特征向量f。前两个用于计算不透明度&alpha;,为曲面附近的点指定高不透明度。将特征向量传递给外观网络,以计算反射率颜色c<sup>a</sup>和反射率&gamma的材料属性<sup>r</sup>,以及漫反射着色的照明特性&gamma<sup>d</sup>和镜面反射颜色c<sup>s</sup>。最后,使用Phong模型计算3D点的颜色,并将沿射线的每个采样组合在一起,以渲染颜色为c&#770;的像素;。下标s表示几何体、材质和照明组件是否使用经过对称变换(1)或未经过对称变换的输入进行计算(0),用三角形符号表示。在每种情况下,照明网络采用不同的参数&theta;,因为照明通常是不对称的</图标题></div><h3>结果</h3><p>判断神经渲染方法性能的最佳方法是观察其实际效果。在这里,我们对来自CO3D数据集的单个汽车场景进行训练。在所有情况下,只能瞥一眼或根本看不到汽车的一侧。有关训练数据的外观,请参见第一张图中的胶片</p>(第页)<video playsinline=“”autoplay=“autoplay”loop=“loop”preload=“”muted=“”width=“100%”><source src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/417_57648_111091.mp4“type=”video/mp4“></video><video playsinline=“”autoplay=“autoplay”loop=“loop”preload=“”muted=“”width=“100%”><source src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/106_12662_23043.mp4“type=”video/mp4“></video><video playsinline=“”autoplay=“autoplay”loop=“loop”preload=“”静音=“”width=“100%”><source src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/157_17286_33548.mp4”type=“video/mp4”></video><video playsinline=“”autoplay=“autoplay”loop=“loop”preload=“”muted=“”width=“100%”><source src=“//www.robots.ox.ac.uk/~vgg/blog/images/snes/336_34811_63015.mp4“type=”video/mp4“></video><h3>限制</h3><p>自然,SNeS有很多局限性。首先,它只对具有显著对称性的对象或场景有益。然而,这并不像看上去那么严格。虽然自然世界很少有大规模的对称性,但它们在人类环境、建筑和物体设计中比比皆是。例如,在CO3D数据集中,90%的类别至少有一个主要对称性,例如球、棒球棒、长凳、自行车、书、瓶子和碗。因此,该方法更重要的局限性在于,必须提前指定对称的类型和数量,对称性必须足够重要,才能从数据中学习,对称平面或轴的初始化必须足够好,以避免网络陷入局部最优。在某些情况下,可能需要另一种方法,例如多次初始化,以防止出现后者</p>(第页)<p>该方法的另一个局限性是它仍然需要大量视图,即使不使用对称性也需要更多视图。这是因为如果没有合理的视图覆盖范围,可能很难优化对称参数,例如查找反射平面。这可以通过从一组场景中学习对称性来缓解。即使是单个视图也可能足以部分约束对称平面参数。我们的方法还依赖于良好的摄像机估计。虽然这一要求可以放宽(如NeRF中的[4]),但其他未知变量可能会使对称参数更难估计。最后,我们的方法没有明确处理不同尺度或分辨率下的对称性。例如,装饰好的蛋糕或披萨在一个尺度上是对称的,但考虑到更精细的细节时,可能会违反这种对称性</p>(第页)<p>有关更多详细信息,请查看我们的<a href=“https://arxiv.org/abs/2206.06340“>论文,<a href=”https://www.robots.ox.ac.uk/~vgg/research/snes/“>项目页面</a>和<a href=”https://github.com/eldar/snes“>代码</a>。我们将在ECCV 2022上展示SNeS,如果您参加,请访问我们的海报会议</p><h3>致谢</h3><p>Eldar和Dylan感谢大陆集团和欧洲研究委员会启动拨款(IDIU 638009)以及Jo&atilde;o获得皇家工程学院的支持(RF\201819\18\163)</p>(第页)<p>我们还要感谢NeuS的作者,他们在从姿势图像重建精确曲面方面的出色工作形成了我们的基准模型。查看他们的<a href=“https://arxiv.org/abs/2106.10689“>论文,<a href=”https://lingjie0206.github.io/papers/NeuS/“>项目页面</a>和<a href=”https://github.com/Totoro97/NeuS“>代码</a></p><h3>参考文献</h3><p id=“cite-1”>[1]Mildenhall等人,“NeRF:将场景表示为视图合成的神经辐射场”,ECCV 2020<a href=“#cite-1-ref”>&#8617</a></p><p id=“cite-2”>[2]Wang等人,“NeuS:通过体绘制学习神经隐式曲面用于多视图重建”,NeurIPS 2021<a href=“#cite-2-ref”>&#8617</a></p><p id=“cite-3”>[3]Reizenstein等人,“3D中的常见对象:真实生活3D类别重建的大规模学习和评估”,ICCV 2021<a href=“#cite-3-ref”>&#8617</a></p><p id=“cite-4”>[4]Wang等人,“NeRF——:无已知摄像机参数的神经辐射场”,arXiv 2021<a href=“#cite-4-ref”>&#8617</a></p><p id=“footnote-1”><sup>1</sup>一种赋予不变性的坐标变换<a href=“#footnote-1-ref”>&#8617</a></p><p id=“footnote-2”><sup>2</sup>也就是说,从已知相机位置和方向拍摄的图像具有已知相机内部特征<a href=“#footnote-2-ref”>&#8617</a></p>CALVIN-一种可以学习规划和导航未知环境的神经网络2022-06-02T00:00:00+01:002022-06-02T00:00:00+01:00石田淑标签:www.robots.ox.ac.uk,2022-06-02:/~vgg/blog/calvin-a-neural-network-that-can-learn-to-plan-and-navigate-unknown-environments.html<div align=“center”>[<a href=“https://arxiv.org/abs/1208.05713“>纸张</a>&middot;<a href=”https://shuishida.com/projects/calvin网址“>项目页面</a>&middot;<a href=”https://github.com/shuishida/calvin“>代码</a>]</div><h3>问题</h3><p>我们要解决的问题是演示中的视觉导航。给定RGB-D图像的固定数量的专家轨迹和所采取的操作,机器人代理必须学会如何导航。虽然用自上而下的地图来规划很容易,它定义了</p><div align=“center”>[<a href=“https://arxiv.org/abs/1208.05713“>纸张</a>&middot;<a href=”https://shuishida.com/projects/calvin网址“>项目页面</a>&middot;<a href=”https://github.com/shuishida/calvin“>代码</a>]</div><h3>问题</h3><p>我们要解决的问题是演示中的视觉导航。给定RGB-D图像的固定数量的专家轨迹和所采取的操作,机器人代理必须学会如何导航。虽然使用自上而下的地图来定义障碍和目标很容易进行规划,但如果代理必须从RGB-D图像中了解障碍和目标的性质,则更具挑战性</p>(第页)<div class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/image_sequence.png”alt=“代理视为专家演示的图像和动作序列”/>代理将一系列图像和动作视为专家演示</div><p>导航的另一个重要方面是探索。我们的代理开始时对新环境一无所知,因此它必须在导航时构建环境地图,并学习探索最可能通向目标的区域</p>(第页)<div class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/reward_maps.png”alt=“代理人学会预测最能解释专家演示的奖励”/><figcaption style=“font-size:0.8em;text-align:center;”>代理人学习预测最能解释专家演示的奖励。高值为亮(黄色),低值为暗,专家的轨迹为虚线,代理的轨迹为实线</图标题></div><p>为了使代理能够在未经培训的环境中导航,它必须学习一些适用于所有环境的通用知识。特别是,我们将重点学习一个共享的转换模型和奖励模型,该模型可以最好地解释专家演示,然后可以应用于新的设置</p>(第页)<div class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/motion_model.png”alt=“代理学习可在所有环境中重用的运动动力学”/><figcaption style=“font-size:0.8em;text-align:center;”>代理学习可在所有环境中重用的运动动力学。每个面板显示了在8个主要方向中的每个方向进行移动操作时,在代理周围的本地邻居着陆的概率;静止状态对应于面板中心的单一高概率(亮度值)</图标题></div><!-- 更多--><h3>模型概述</h3><p>我们的模型由两部分组成:一个是学习的映射组件,我们称之为Lattice PointNet,它将过去的观测结果聚合成嵌入的地面投影图;另一个是CALVIN,它是一个可微分规划器,它为值迭代建模。与强化学习中更常见的方法不同,在强化学习中,代理通过使用莱迪思PointNet学习的适当空间表示并使用CALVIN作为规划网络,看到图像并尝试反应性地预测最佳动作,我们的代理能够以一种具有空间意义的方式探索和导航过去的观测结果</p>(第页)<div class=“image fit”style=“max-width:900px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/model_overview.png”alt=“模型体系结构概述”/>模型体系结构概述</div><p>CALVIN是价值迭代网络(简称VIN)的改进版本,它使用递归卷积作为空间任务的价值迭代形式。它学习一个奖励图和一个卷积核,该卷积核应用于值迭代更新方程,生成一个Q值图,这是对代理可以获得的未来奖励的估计。一旦计算出价值图,代理人就可以采取产生最高价值的行动,以最大化其机会</p>(第页)<p>虽然VIN是一个简单的体系结构,但它有几个缺点,最明显的是它没有严格地学习实践中的值迭代。为了说明这一点,让我们考虑下图所示的迷宫。我们预计,根据目标细胞的路径长度,细胞将具有更高的值,并且所有无效细胞(例如迷宫壁)都应具有非阳性值,因为不应鼓励代理访问它们。事实上,我们的模型CALVIN学习生成一个与理论解几乎相同的值图(如右图所示)。另一方面,VIN生成的值图是无法解释的,不能正确表示有关障碍细胞的信息。我们发现这种不匹配是因为VIN没有受到足够的限制来惩罚障碍物,因此做出了次优决策,例如反复探索死路</p>(第页)<div class=“image fit”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/value_maps.png”alt=“VIN和calvin生成的值映射的比较。VIN生成不可解释的脆弱值映射。”/><figcaption style=“font-size:0.8em;text-align:center;”>比较VIN和CALVIN生成的价值图。VIN生成无法解释的易碎值映射</图标题></div><p>另一方面,CALVIN显式地学习有效和无效转换。它将转换模型分解为共享代理运动模型和动作可用性模型。CALVIN使用操作可用性模型来惩罚无效操作,并防止值从不可访问的状态传播。除了对可用动作的这些约束之外,我们还改进了训练损失,以便模型可以跨整个轨迹利用训练信号,而不仅仅是当前状态</p>(第页)<div class=“image fit”style=“max-width:900px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/calvin/calvin_model.png”alt=“calvin模型图”/>CALVIN模型图</div><h3>实验</h3><p>我们在三个领域进行了实验,特别是探索新的未知环境:网格迷宫环境,<a href=“https://github.com/maximecb/gym-miniworld网站“>MiniWorld[2],以及<a href=”https://www.cs.unc.edu/~ammirato/active_vision_dataset_website/“>active vision dataset</a>[3]。CALVIN实现了更强大的导航,即使在未知环境中,也能显示VIN所缺少的探索行为</p><p>在我们的网格迷宫设置中,代理只能在本地查看迷宫。代理可以选择向前移动、向左、向右旋转或完成触发。我们可以看到,代理预测了代理尚未探索的位置的较高值,并且当代理看到目标位置时,会获得较高的回报</p><div class=“video-video-16-9”><iframe src=“https://www.youtube.com/embed/mzcVGGOUxdc网站“title=”CALVIN in a Grid Maze Environment“frameborder=”0“allow=”加速计;自动播放;剪贴板书写;加密媒体;陀螺仪;图片中的图片“allowfullscreen></iframe></div><p>接下来,我们在一个名为MiniWorld的3D迷宫环境中进行了一个类似的实验,但这一次是从代理的角度使用RGB-D图像序列,而不是自顶向下的视图。当代理进行导航时,它使用莱迪思PointNet构建嵌入映射,然后将其输入CALVIN。在这里,代理也学会了为墙指定较低的值,为未勘探的位置指定较高的值。我们可以观察到,该代理在遇到死区时设法回溯,并重新规划到其他未探索的细胞。当代理看到目标时,它会向目标附近的细胞分配高奖励</p>(第页)<div class=“video-video-16-9”><iframe src=“https://www.youtube.com/embed/CcKSlxHnwIY网站“title=”CALVIN in MiniWorld“frameborder=”0“allow=”加速计;自动播放;剪贴板书写;加密媒体;陀螺仪;图片中的图片“allowfullscreen></iframe></div><p>最后,我们使用主动视觉数据集测试了代理,该数据集是机器人平台获得的真实世界图像的集合,我们可以从中创建轨迹。对于这项任务,我们使用了预先训练好的ResNet嵌入,并将其输入到Lattice PointNet中。特工接受了导航到房间里一个汽水瓶的训练</p>(第页)<div class=“video-video-16-9”><iframe src=“https://www.youtube.com/embed/jbGrqiBsnGI网站“title=”主动视觉数据集环境中的CALVIN“frameborder=”0“allow=”加速计;自动播放;剪贴板书写;加密媒体;陀螺仪;图片中的图片“allowfullscreen></iframe></div><h3>结论</h3><p>与其他差异化规划师相比,CALVIN能够更稳健地探索和导航未知环境。VIN的这种改进来自于明确的动作可用性建模,用于惩罚无效动作,以及使用轨迹重加权的改进训练损失。我们还引入了一个Lattice PointNet主干网,该主干网以空间一致的方式有效地融合了过去的观测结果</p>(第页)<p>有关更多详细信息,请查看<a href=“https://arxiv.org/abs/1208.05713“>我们的论文</a>和<a href=”https://github.com/shuishida/calvin网站“>开源代码</a>。我们将在CVPR 2022上展示,如果您感兴趣,请访问我们的海报会议</p><h3>参考文献</h3><p>[1] Tamar等人,“价值迭代网络”,NeurIPS 2016</p><p>[2] 谢瓦利尔·博伊斯弗特先生,https://github.com/maximecb/gym-miniworld网站2018年</p><p>[3] Ammirato等人,“积极愿景开发和基准测试的数据集”,ICRA 2017</p>从野外图像中无监督学习可能对称的可变形三维物体2020-02-26T00:00:00+00:002020-02-26T00:00:00+00:00吴尚哲(Shangzhe Wu)、克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)标签:www.robots.ox.ac.uk,2020-02-26:/~vgg/blog/unsupervised-learning-of-probably-symmetric-deformable-3d-objects-from-images-in-the-wild.html<脚本>$(文档).ready(函数(){initViewer();对于(var i=1;i<=15;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_face”);对于(var i=16;i<=30;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_paint”);对于(var i=31;i<=45;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_abstract”);for(var i=1…</script><脚本>$(文档).ready(函数(){initViewer();对于(var i=1;i<=15;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_face”);对于(var i=16;i<=30;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_paint”);对于(var i=31;i<=45;i++)添加演示图像按钮(“human”,i.zeroPad(3).toString()+“_abstract”);对于(var i=1;i<=23;i++)添加演示图像按钮('cat',i.zeroPad(3).toString()+'_cat');对于(var i=24;i<=45;i++)添加演示图像按钮('cat',i.zeroPad(3).toString()+'_abstract');渲染();});</script><样式>.面选择{宽度:100%;浮动:左;边框:1px纯黑色;余量:0.5%0.5%0.5%0;填充:5px;}.faceselect.imgcontainer{宽度:100%;显示器:柔性;justify-content:space-between;柔性包裹:包裹;}.img容器img{光标:指针;弹性:11.6.6%;宽度:6.6%;}.lds-省略号{显示:嵌入式块;位置:相对;宽度:80px;高度:80px;}.lds省略号div{位置:绝对;顶部:33px;宽度:13px;高度:13px;边距:50%;背景:#777;动画计时功能:cubic-bezier(0,1,1,0);}.lds-省略号div:nth-child(1){左:8px;动画:lds-ellipsis10.6s无限;}.lds-省略号div:nth-child(2){左:8px;动画:lds-ellipsis2 0.6s无限;}.lds-省略号div:nth-child(3){左:32px;动画:lds-ellipsis2 0.6s无限;}.lds-省略号div:nth-child(4){左:56px;动画:lds-ellipsis3 0.6s无限;}@关键帧lds-ellipsis1{0% {变换:缩放(0);}100% {变换:比例(1);}}@关键帧lds-ellipsis3{0% {变换:比例(1);}100% {变换:缩放(0);}}@关键帧lds-ellipsis2{0% {转换:转换(0,0);}100% {转换:转换(24px,0);}}</style><p align=“center”>这部作品获得了CVPR 2020年度最佳论文奖。</p><p align=“center”>[<a href=“https://arxiv.org/abs/1911.11130“>纸张</a>&middot;<a href=”https://elliottwu.com/projects/unsop3d/“>项目页面</a>&middot;<a href=”https://github.com/elliottwu/unsp3d“>代码</a>]</p><!-- 更多--><h2>演示</h2><p><p class=“image fit”style=“max-width:1024px”><div style=“width:100%;display:flex”><div style=“width:10%;float:left;border:1px纯黑;margin:5px 5px 5 px 0;padding:5px”>输入<img alt=“Input Image”id=“inputimage”src=“”style=“max-width:100%;display:none”><div id=“loading_spinner”class=“lds-ellipsis”><div></div><div style=“width:48%;float:left;border:1px纯黑;margin:5px 5px 5 px 0;padding:5px”>上传您自己的图像(1MB)<label for=“face_type_input”style=“display:inline-block;width:5em”>面类型<select id=“face_type_input”style=“display:inline-block;width:6em;height:2em;margin-right:1em”onchange=“faceTypeInputOnChange(this)”><option value=“human”>人</option><选项值=“cat”>类别</选择><input type=“checkbox”id=“auto_crop_face_input”checked=“”style=“display:inline-block”>检测面部区域<input type=“file”id=“local_file_uploader”onchange=“local_file_uploader_onchange(this)”onclick=“this.value=null”name=“uploaded_local_file”accept=“image/*”><h4 id=“errormsg”style=“color:red”></div><div style=“width:30%;float:left;border:1px纯黑;margin:5px 5px 5 px 0;padding:5px”>照明模式<input type=“radio”id=“rmNormal”name=“rendermode”value=“normal”onclick=“changeRenderMode(this);”>预测的<label for=“rmNormal”><input type=“radio”id=“rmRelighting”name=“rendermode”value=“relighting”onclick=“changeRenderMode(this);”>重新照明<input type=“radio”id=“rmShading”name=“rendermode”value=“shading”onclick=“changeRenderMode(this);”>仅几何体</div><div style=“width:10%;float:left;border:1px纯黑;margin:5px 5px 5 px 0;padding:5px”>分享<a id=“twitterlink”href=“#”class=“icon fa-twitter”style=“font-size:2.5em;line-hight:1.1;”>twitter</a>脸书<a id=“facebooklink”href=“#”class=“icon fa-facebook”style=“font-size:2.5em;line-hight:1.1;”>facebook</a></div></div><p style=“font-size:smaller;line-hight:1;color:#aaaaaa”>我们将上传图像的副本存储7天,之后将自动删除。上传的图像不用于任何其他目的</p>(第页)<div style=“width:100%;padding-top:56.25%;position:relative;”><div id=“faceViewerContainer”style=“位置:绝对;顶部:0;底部:0;左侧:0;右侧:0;”><canvas id=“faceViewerCanvas”style=“width:100%;height:100%;display:block”></canvas></div></div><div class=“faceselect”style=“margin-bottom:2em;”><h3>或选择以下示例之一</h3><div class=“imgcontainer”id=“demoimages”></div></div></p></p><h2>方法概述</h2><p>我们提出了一种学习3D可变形对象类别的方法根据原始单视图图像,<strong>无需任何手动或外部监督</strong>。该方法基于自动编码器每个输入图像到深度、反照率、视点和照明。为了在没有监督,我们利用许多对象类别的事实,至少原则上是对称结构。我们展示了这种推理关于照明,我们可以利用其潜在的对象对称,即使外观由于到底纹。此外,我们建模的对象可能,但不一定,通过预测对称概率实现对称映射,与其他组件进行端到端学习模型的</p>(第页)<p class=“视频”><iframe src=“https://www.youtube-nocookie.com/embed/5rPJyrU-WE4网站“frameborder=”0“allow=”加速计;自动播放;加密媒体;陀螺仪;图片中的图片“allowfullscreen></p><h3>摄影几何自动编码</h3><p>我们的方法基于一个自动编码器,该编码器将每个输入图像分解为<strong>深度</strong>、<strong>反射率</strongb>、<strong视点</strongs>和<strong]照明</strongg>。这四个部分组合在一起重建输入图像。该模型仅使用重建损失进行训练,没有任何外部监督</p>(第页)<p class=“image fit”style=“max-width:960px”><video autoplay loop muted inline width=“960”style=“max-width:100%”><source src=“./images/unsp3d/autoencoding.mp4”type=“video/mp4”alt=“Photo-Geometric autoencoding”></video(视频)></p><h3>利用对称性</h3><p>为了在没有监督的情况下实现这种分解,我们利用了这样一个事实,即许多对象类别都具有双边对称性。假设一个物体是完全对称的,可以通过简单地镜像图像来获得它的虚拟第二视图,并使用立体几何进行3D重建[1,2]</p>(第页)<p>在这里,我们想利用这个对称性假设。我们通过注入翻转操作来强制该模型预测对象的对称视图,并通过预测的视点变换获得相同输入视图的两个重建(有翻转和无翻转)。同时最小化两个重建损失本质上施加了“;双视图”;约束,并为恢复准确的3D形状提供足够的信号</p>(第页)<p class=“image fit”style=“最大宽度:960px”><video autoplay loop muted inline width=“960”style=“max-width:100%”><source src=“./images/unsp3d/symmetry.mp4”type=“video/mp4”alt=“通过光度几何自动编码利用对称性”></video(视频)></p><p>请注意,即使对象具有对称的固有纹理(即反照率),也可能由于不对称照明而导致不对称外观。在这里,这是通过分别预测反照率和照明来处理的,并且只在反照率上强制对称,同时允许阴影不对称。我们假设一个简单的Lambertian照明模型,并根据预测的灯光方向和深度贴图计算着色贴图</p>(第页)<p>事实上,这样做不仅可以让模型学习准确的内在图像分解,还可以在形状预测上提供强大的正则化(类似于从阴影中提取形状)!避免了不自然的形状,因为它们会导致不自然的着色,从而导致更高的重建损失</p>(第页)<h3>基于置信映射的对称性概率建模</h3><p>尽管对称性为恢复3D形状提供了强大的信号,但具体的对象实例实际上从来都不是完全对称的。我们使用不确定性建模来解释潜在的不对称性[3]。我们的模型还预测了一对像素置信度图,并经过训练以同时最小化两个置信度调整后的重建损失,并使用不对称权重以允许优势侧</p>(第页)<p class=“image fit”style=“max-width:960px”><video autoplay loop muted inline width=“960”style=“max-width:100%”><source src=“./images/unsp3d/confidence.mp4”type=“video/mp4”alt=“使用置信度映射的对称概率建模”></video(视频)></p><h3>致谢</h3><p>我们非常感谢视觉几何小组所有成员的深入讨论和建议,特别是索菲亚·科普克(Sophia Koepke)、吉尔·瓦罗尔(Gül Varol)、埃里卡·卢(Erika Lu)、奥利维娅·怀尔斯(Olivia Wiles)、伊罗·莱纳(Iro Laina)、丹·徐(Dan Xu)、法塔·古尼(Fatma Güney)、腾达·韩(。我们还要感谢阿比谢克·杜塔、埃内斯托·科托和乔·恩里克斯协助建立这个演示网站。我们还感谢Soumyadip Sengupta与我们分享生成合成人脸数据集的代码,并感谢Mihir Sahasrabudhe向我们发送Lifting AutoEncoders的重建结果。这项工作由Facebook Research和ERC Horizon 2020研究与创新项目IDIU 638009共同支持</p><h3>参考文献</h3><p><br>[1] 镜像对称性双视图立体几何。亚历山大·R·J·弗朗索瓦(Alexandre R.J.François)、杰拉德·G·梅迪奥尼(Gérard G.Medioni)和罗马·沃波提奇(Roman Waupotitsch)。图像和视觉计算,2003年。<br>[2] 检测和重建三维镜像对称对象。Sudipta N.Sinha、Krishnan Ramnath和Richard Szeliski。程序。ECCV,2012年。<br>[3] 在计算机视觉的贝叶斯深度学习中,我们需要什么样的不确定性?Alex Kendall和Yarin Gal.NeurIPS,2017年。<br></p><p>作者&rsquo;s网页:<a href=“https://elliottwu.com网址/“>尚哲</a>&amp;<a href=”https://chrirupp.github.io/“>克里斯蒂安</a></p>通过同时聚类和表示学习实现自我标记2020-02-14T00:00:00+00:002020-02-14T00:00:00+00:00Yuki M Asano和Christian Rupprecht标签:www.robots.ox.ac.uk,2020-02-14:/~vgg/blog/selobaleling-via-simultaneous-clustering-and-representation-learning.html<脚本>$(文档).ready(函数(){initCharts();});</script><p align=“center”>[<a href=“https://openreview.net/pdf?id=Hyx-jyBFPr“>纸张</a>&middot;<a href=”https://github.com/yukimasano/self-label网站“>代码</a>]</p><p>从未标记数据中学习可以显著降低将算法部署到新应用程序的成本,从而扩大机器学习在现实世界中的影响。自我监督是一种越来越流行的学习框架标签。其目的是定义借口学习任务</p><脚本>$(文档).ready(函数(){initCharts();});</script><p align=“center”>[<a href=“https://openreview.net/pdf?id=Hyx-jyBFPr“>纸张</a>&middot;<a href=”https://github.com/yukimasano/self-label网站“>代码</a>]</p><p>从未标记数据中学习可以显著降低将算法部署到新应用程序的成本,从而扩大机器学习在现实世界中的影响。自我监督是一种越来越流行的学习框架标签。其想法是定义借口学习任务可以仅从原始数据构建,但这仍然会导致神经能够很好地转换为有用应用程序的网络。自我监控的大部分研究都集中在设计新的课前任务上。然而,鉴于监管数据作为<a href=“网址:http://www.image-net.org/“>ImageNet</a>,最小化交叉熵损失的标准分类目标与任何此类方法相比,预训练效果更好(对于一定数量的数据和模型复杂性)。这表明,分类任务可能足以对网络进行预培训,前提是适当的数据标签可用。本文通过设计一个自标记算法,开发了一种自动获取标签的方法</p>(第页)<!-- 更多--><h2>为什么我们想用标签训练</氢气><p class=“image fit”style=“”><div style=“width:90%;溢出:隐藏”><div style=“float:left;width:256px”>集群id:0</span><img src=“网址:http://www.robots.ox.ac.uk/~vgg/research/selobel/asset/blog/views/0.jpg“id=”clustervis“style=”width:256px;height:256px“alt=”来自集群的图像“/></div><div style=“溢出:隐藏;宽度:自动;页边距顶部:2em;左侧填充:2em”><p><em>通过我们的方法生成的所有3000个簇如下图所示。每个像素表示一个图像,其颜色表示其ImageNet类标签。单击一个集群,最多可显示验证集中属于它的九个图像。</em></p><p><em>簇按纯度排序。即使从ImageNet类标签的角度来看,集群不是纯的,包含的图像在视觉上也是相似的</电子邮箱></p><p><em>查看集群<a class=“clusterbutton”href=“a></电子邮箱></p></div></div></p><p class=“image fit”style=“”><div style=“position:relative”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/selflabel/clusters.png”id=“clustermap”style=“width:90%;image-rendering:像素化;”/><div id=“clusterborderhover”style=“position:absolute;border:3.5px solid orange;display:none;pointer-events:none,color:black;text-shadow:0 0 4px#ffffff”></div><div id=“clusterborderclick”style=“position:absolute;border:3.5px纯红;display:none;pointer-events:none,top:0;left:0”></div></div></p><脚本>$(document).ready(function()){$(“#clustermap”).mousemove(clusterVisMouseMove);$(“#clustermap”)点击(clusterVisMouseClick);$(“.clusterbutton”)点击(clusterVisButtonClick);});</script><p>一种从未标记数据集中提取标签的方法是可取的,原因有三:</p><ol><li><p>我们知道,使用图像标签(例如来自ImageNet)训练神经网络非常有效,并且以这种方式训练的CNN可以很好地转移到其他任务和数据集</p>(第页)</li><li><p>即使是嘈杂的标签,如Instagram哈希标签,只要有<a href=“https://research.fb.com/wp-content/uploads/2018/05/exploring_the_limits_of_weakly_superviced_pretrining.pdf“>足够的数据</a></p></li><li><p>标签是理解数据集并将数据分组为抽象类别的一种方法</p>(第页)</li></ol><p>使用上面的交互式工具,您可以浏览我们的方法在ImageNet数据集中自动发现的集群/标签,而无需使用任何实际标签。几乎所有这些都是视觉上连贯的,并且对应于一个直观的概念</p>(第页)<h2>基于聚类的表示学习</h2><p>我们方法的基本思想是同时标记图像并使用这些标记训练网络。这是一个鸡和蛋的问题:我们需要标签来训练网络,我们需要网络来预测标签</p>(第页)<p>在我们的方法中,网络是第一位的。通过使用随机初始化的网络生成的微弱信号,我们可以引导第一组图像标签,然后可以对其进行细化。通过添加各种图像变换,例如随机裁剪和颜色抖动,我们可以进一步增强标签对此类非语义变换的不变性,并让网络学会提取更有意义的簇</p>(第页)<p>与以前的方法(如DeepCluster)相比,我们没有引入单独的集群损失,因为这会导致退化解决方案并且需要特别修复。相反,我们方法的新颖之处在于使用了一种聚类方法,该方法将网络学习也优化的交叉熵损失降至最低。我们通过合并一个正则化来实现这一点,即我们的类应该平等地划分数据。虽然这听起来有潜在的局限性,但通过简单地选择足够多的类,我们甚至可以考虑到高度偏斜的数据集,例如;正确”;这门课可能会占用我们的多节课</p>(第页)<h2>性能</h2><p>为了测试我们所学表示的质量,我们在各种大小数据集和任务上进行了许多实验</p>(第页)<h3>小规模数据集</h3><p>下面我们展示了我们的方法在小规模数据集上的性能:CIFAR-10/100和SVHN。我们发现,我们的表现远远超过了之前的先进水平[2]</p>(第页)<p class=“image fit”style=“max-width:80%”><canvas id=“smallerdatasets”style=“width:16px;height:9px”><脚本>$(document).ready(function()){makeChart('smallerdatasets'{类型:'bar',数据:{标签:[“CIFAR-10”,“CIFAR-100”,“SVHN”],数据集:[makeDataset('dc',[77.9,41.9,92.0]),makeDataset('and',[77.6,47.9,93.7]),makeDataset('sela',[83.4,57.4,94.5]),makeDataset(“监管”,[91.8,71.0,96.1]),]},选项:{title:makeTitleOptions('Conv5(top 1 acc,single crop,linear probes)'),布局:makeLayoutOptions([0,0,0,0]),插件:makePluginsOptions(),图例:makeLegendOptions(14)}});});</script><em>我们展示了最后一个卷积层在各种较小数据集上的线性可分性性能</电子邮箱></p><h3>大规模数据集</h3><p>在ImageNet的训练集上进行训练时,我们还评估了我们的方法。对于评估,网络;s重量为冻结并且只训练一个线性层来评估网络不同深度的特征地图的性能。由于线性层是一个相对较弱的分类器,这表明CNN作为一个特征提取器有多好</p>(第页)<h3>AlexNet公司</h3><p class=“image fit”style=“max-width:80%”><canvas id=“alexnet”style=“width:16px;height:9px”><脚本>$(document).ready(function()){makeChart('alexnet'{类型:'bar',数据:{标签:['Conv4','Conv5'],数据集:[makeDataset('rot',[38.2,36.5]),makeDataset('dc',[39.6,37.9]),makeDataset(‘sela’,[47.1,44.1]),makeDataset('rotret',[48.7,48.3]),生成数据集('selaR50rot',[50.0,50.0]),makeDataset('监管',[59.661.3]),]},选项:{title:makeTitleOptions('AlexNet(top 1 acc,10 crops,linear probe)'),布局:makeLayoutOptions([0,0,0,0]),plugins:makePluginsOptions(),图例:makeLegendOptions(14)}});});</script><em>我们展示了我们的方法和各种其他方法的最后两个卷积层的线性可分性性能</电子邮箱></p><h3>ResNet-50公司</h3><p>我们还展示了如何与大多数使用对比损失的最近方法进行比较。虽然一些方法在AlexNet上不起作用(例如CPC[5]),或者在AlexNetwork上没有表现出作用,但我们的表现优于在AlexNet上给出数字的方法,即对比多视图方法[6]。在ResNet-50基准测试本身上,我们的表现优于MoCo[7]和CPCv2[8],后者使用了与但以下是使用自动增强(CPCv2.1[8],CMC[6])或更重增强(PIRL[9])的方法。请注意,AutoAugment使用手动监督,因此它在培训过程中间接注入了少量监督</p>(第页)<p class=“image fit”style=“max-width:90%”><canvas id=“resnet50”style=“width:16px;height:9px”><脚本>$(document).ready(function()){var ds=makeSingleDataset('top-1准确度',['rot','cpc','bigbigan','sela','moco','cpc2','pirl','cmc21','supervised'],[43.9, 48.7, 55.4, 61.5, 60.6, 60.1, 63.6, 63.8, 64.1, 76.3]);makeChart(“resnet50”{类型:'bar',数据:{数据集:[ds[0],{标签:“对比训练”,数据:[{x:4,y:70},{x:4.1,y:71},{x:6.4,y:71},{x:6.5,y:72},{x:8.9,y:71},{x:9,y:70}],type:'line',背景颜色:'rgba(130,130,230,0.1)',borderColor:'rgb(130,130,230)',填充:true,showLine:true,点半径:0,xAxisID:'括号控制',},{label:'重型增强',数据:[{x:6,y:75},{x:6.1,y:76},{x:7.4,y:76},{x:7.5,y:77},},{x:8.9,y:76},{x:9,y:75}],type:'line',背景颜色:'rgba(230,130,130,0.1)',borderColor:“rgb(230130130)”,填充:true,showLine:true,点半径:0,xAxisID:'托架-插头',}],标签:ds[1]},选项:{title:makeTitleOptions(“ResNet-50(top 1 acc,single crop,linear probe)”),布局:makeLayoutOptions([0,0,0,0]),插件:makePluginsOptions(),图例:{标签:{字体大小:14,过滤器:函数(项目,图表){return!item.text.includes('top-1准确度');}}},刻度:{x轴:[{}{id:'括号控制',type:'线性',显示:假,堆叠:假,刻度:{beginAtZero:正确,步长:1,建议最大值:10}}, {id:'括号-插头',type:'线性',显示:假,堆叠:假,刻度:{beginAtZero:正确,步长:1,建议最大值:10}}],}}});});</script><em>我们展示了我们的方法和各种其他方法的平均混合特征映射的线性可分性性能</电子邮箱></p><h3>传输性能</h3><p>最后,由于预训练通常旨在改进下游任务,我们评估学习特征的质量通过对PASCAL VOC基准上三个不同任务的模型进行微调。在下表中,我们比较了多标签分类、对象检测和语义分割的结果关于PASCAL VOC。除了以通常的方式运行我们的模型外,我们还可以利用以下事实:;重新生成标签。一组标签生成的可以重新调整用途。因此,我们通过使用强大的ResNet-50计算的标签,然后使用这些标签来以更快的训练计划训练AlexNet。此外,我们可以增加额外的RotNet[3]损失通过组合多个任务进一步提高性能。这种混合方法类似于结合旋转和检索任务的art方法[4]该结果(SeLa*[3k x 10]<sup>-</sup>+Rot)达到了AlexNet无监督表示学习的最新水平,与ImageNet上以前的最佳性能相比,差距为1.3%,超过了ImageNetwork监管的传输基线排名下降1.7%</p>(第页)<p class=“image fit”style=“max-width:80%”><canvas id=“pascalvoc”style=“width:16px;height:9px”><脚本>$(document).ready(function()){makeChart('pascalvoc'{类型:'bar',数据:{标签:['Detection','Segmentation','Class.fc6-8','Class.all layers'],数据集:[makeDataset('bigan',[46.9,35.2,52.3,60.1]),makeDataset(“上下文”,[51.1,null,55.1,65.3]),makeDataset('context2',[55.8,41.4,null,69.6]),makeDataset('ccvgg',[56.5,42.6,null,72.5]),makeDataset('rot',[54.4,39.1,70.9,73.0]),makeDataset('dc',[55.4,45.1,72.0,73.0]),makeDataset('rotret',[58.0,45.9,72.5,74.7]),makeDataset('selaR50',[57.8,44.7,74.4,75.9]),makeDataset('selaR50rot',[59.2,45.7,76.6,77.7]),makeDataset(“监管”,[59.1、48.0、78.9、79.9]),]},选项:{title:makeTitleOptions(“PascalVOC微调”),布局:makeLayoutOptions([0,0,0,0]),插件:makePluginsOptions(),图例:makeLegendOptions(14)}});});</script><em>我们使用较小的Pascal VOC数据集展示了我们的方法在4个下游任务上的性能</电子邮箱></p><h2>有用的任务</h2><p>虽然最近的对比损失在过去几个月里表现出了巨大的性能飞跃,但我们的方法表明,聚类基于的方法产生了最先进的表征学习性能,同时产生了有意义的标签和工作通过各种数据集。最后,就像图像彩色化论文[10]一样,我们认为进行自主学习的方法还提供了一个有用的副作用,例如标签,它本身就很有意义,因此基于集群的方法继续提供了一条有希望的途径用于未来的研究</p>(第页)<p>参考文献<br>[1] 用于视觉特征无监督学习的深度聚类。卡隆、博亚诺夫斯基、朱林、杜泽。程序。ECCV,2018年。<br>[2] 社区发现的无监督深度学习黄、东、龚、朱。ICML,2019年<br>[3] 通过预测图像旋转的无监督表示学习。Gidaris、Singh、Komodakis。程序。ICLR,2018年。<br>[4] 基于旋转特征解耦的自监督表示学习。冯、徐、陶。程序。CVPR,2019年。<br>[5] 用对比预测编码进行表征学习。Oord、Li、Vinyals。arXiv预印arXiv:1807.037482018。<br>[6] 对比多视图编码。田,克里希南,伊索拉。arXiv预印arXiv:1906.05842019。<br>[7] 无监督视觉表征学习的动量对比。He等人,arXiv预印本arXiv:1911.057222019。<br>[8] 采用对比预测编码的数据高效图像识别。Hénaff等人。arXiv预印本arXiv:1905.092722019。<br>[9] 借口不变表示的自监督学习。范德马滕·米斯拉。arXiv预印arXiv:1912.01991、2019。<br>[10] 彩色图像着色。Zhang、Isola和Efros。程序。ECCV,2016年</p><p>作者&rsquo;s网页:<a href=“https://yukimasano.github.io/“>Yuki</a>&amp;<a href=”网址:https://chrirupp.github.io/“>克里斯蒂安</a></p>ShapeStacks:赋予机器人物理直觉2019-01-15T00:00:00+00:002019-01-15T00:00:00+00:00奥利弗·格罗斯标签:www.robots.ox.ac.uk,2019-01-15:/~vgg/blog/shapestacks-giving-robots-a-physical-industion.html<p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/shapestacks_header.png”alt=“shapestacks场景示例”/></p><p align=“center”>[<a href=“http://openaccess.thecvf.com/content_ECCV_2018/papers/Oliver_Groth_ShapeStacks_Learning_Vision-Based_ECCV_2018_paper.pdf“>纸张</a>&middot;<a href=”https://github.com/ogroth/shapestacks网站“>代码</a>&middot;<a href=”https://shapestacks.robots.ox.ac.uk/“>数据</a>]</p><p>我们大多数人可能以前玩过Jenga游戏,在厨房里处理过一堆脏盘子,或者用锤子把钉子敲进一块木头。当我们尝试……时,这些简单日常任务的内在复杂性立即变得清晰起来</p><p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/shapestacks_header.png”alt=“shapestacks场景示例”/></p><p align=“center”>[<a href=“http://openaccess.thecvf.com/content_ECCV_2018/papers/Oliver_Groth_ShapeStacks_Learning_Vision-Based_ECCV_2018_paper.pdf“>纸张</a>&middot;<a href=”https://github.com/ogroth/shapestacks网站“>代码</a>&middot;<a href=”https://shapestacks.robots.ox.ac.uk/“>数据</a>]</p><p>我们大多数人可能以前玩过Jenga游戏,在厨房里处理过成堆的脏盘子,或者用锤子把钉子敲进一块木头。当我们试图建造一台能够做同样事情的机器时,这些简单日常任务的内在复杂性立即变得清晰起来。机器人本质上是一种集成了传感、运动和操作的计算机。和所有计算机一样,它们首先是快速精确的计算器。然而,尽管他们拥有强大的数字运算能力(这使他们能够在几秒钟内完成复杂的物理和几何计算),但他们在基本的对象操作方面仍有很大困难。另一方面,人类的算术准确度只有计算机的一小部分,但仍然能够“计算”四肢的准确运动(例如,在钉子的头上挥动锤子)和估计周围物体的物理状态(例如判断一堆盘子的稳定性)</p>(第页)<!-- 更多--><p>一段时间以来,认知科学的研究人员一直在研究我们对物理环境的感知,例如[<a href=“https://www.pnas.org/content/10/45/18327.short网站“>1</a>,<a href=”https://www.ncbi.nlm.nih.gov/提交/27592412“>2</a>,<a href=”https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(17) 30126-2“>3</a>],但这种非凡的人类能力的确切内部工作机制仍然难以捉摸。因此,我们通常将其称为物理直觉,而不是更精确的描述。物理直觉对机器人专家来说同样有趣;从我的观点来看,这可能会导致我们的机器人目前缺乏各种技能:从快速评估陌生情况到灵巧地操作物体,甚至创造性地使用工具</p>(第页)<p>我们开始了ShapeStacks项目,以研究物理直觉以及如何通过机器学习获得它。几篇论文已经证明了预测场景直观物理属性的可行性,例如堆叠结构的稳定性[<a href=“https://papers.nips.cc/paper/5780-galileo-perceiving-physical-object-properties-by-integrating-a-physics-engine-with-deep-learning“>4</a>,<a href=”https://dl.acm.org/citation.cfm?id=3045437“>5</a>,<a href=”https://papers.nips.cc/paper/6620-learning-to-see-physics-via-visual-de-animation网站“>6</a>]来自视觉输入</p><p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/com.png”alt=“描绘一堆物体重心投影的草图。”/><em>可以通过从上到下依次考虑子堆栈来测试堆栈的稳定性。为了保持稳定性,每个子堆栈的质心投影必须位于支撑它的物体的接触面内。如右图所示,圆柱形或球形物体提供的接触面极小,无法提供稳定性</电子邮箱></p><p>受之前工作的启发,我们想创建一个虚拟环境,它可以产生物理体验,并将其作为训练数据输入神经网络。我们使用了MuJoCo[<a href=“https://home.cs.washington.edu/~todorov/papers/TodorovIROS12.pdf“>7</a>]物理模拟引擎,用于创建不同场景的对象堆栈,这些对象堆栈由基本几何形状组成,如长方体、圆柱体和球体,具有不同的大小和纵横比。在生成堆栈时,我们仔细注意控制其稳定性的物理,尤其是<em>质心</em>准则(CoM)我们故意选择何时何地违反重心标准。通过这样做,我们确保了训练数据集具有多种均衡的场景,例如,稳定场景和不稳定场景的数量一样多,以及不稳定场景在不同层崩溃</p>(第页)<p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/database.gif”alt=“shapestacks数据集中的场景概述”/><em>ShapeStacks数据集中的场景概述。我们已经创建了大约20000个具有随机颜色、纹理和照明条件的虚拟对象堆栈,并让神经网络对其进行观察,以获得关于刚体堆栈稳定性的直觉</电子邮箱></p><p>我们训练了Inception-v4[<a href=“https://arxiv.org/abs/1602.07261“>8</a>]基于堆栈初始图像的视觉分类器,通过逻辑回归预测二元稳定性标签。我们在搁置测试集上实现了约85%的分类准确率。我们还在现实世界堆栈塔图像的公开数据集上测试了分类器[<a href=”https://dl.acm.org/citation.cfm?id=3045437“>5</a>],并且在没有对真实世界图像进行任何微调的情况下立即实现了约75%的准确率</p><p>在随后的实验中,我们询问该网络的预测是否基于可信的物理直觉。我们从可视化网络在进行预测时分配给输入图像特定区域的重要性开始。我们根据经验发现,当预测堆栈不稳定时,我们的网络特别寻找非平面支撑表面和悬垂对象。这符合人类的直觉,大致符合质量中心原理的视觉含义,尽管网络从未计算出精确的CoM</p><p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapeststacks/stability.gif”alt=“稳定性预测器的注意力热图叠加在不稳定区域周围有峰值的对象堆栈的图像上。”/><em>在右侧的热图中,我们将网络在预测堆栈不稳定时最关注的图像区域可视化。我们发现,在大约80%的情况下,我们的网络会正确地关注崩溃开始的堆栈区域</电子邮箱></p><p>接下来,我们研究了该网络是否可以基于稳定性预测为对象计算良好的堆叠姿势。因此,我们构建了以下代理任务:我们在一个较大的盒子下面旋转被调查对象,并预测观察到的场景的稳定性。我们使用预期的稳定性作为对象“可堆叠性”的指标,即它在特定方向上可以提供多少支撑</p>(第页)<p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/stackability.gif”alt=“立方体、圆柱体和球体在盒子下面旋转,提供不同程度的稳定支撑。”/><em>我们将下部物体在不同姿势下提供的支撑可视化。红色表示当前姿势不适合构建稳定的堆栈,绿色表示姿势为顶部的对象提供稳定的支持</电子邮箱></p><p>最后,我们衡量了稳定性预测在人工操纵任务中的用处。我们使用随机对象创建了新的场景,并尝试仅使用经过训练的稳定性预测器将它们组合成一个稳定的堆栈。我们从计算合适的堆叠姿势开始,并通过支持代理实验根据堆叠性得分对所有对象进行排序。应先放置可堆叠的物品,然后放置可堆垛的物品。然后,我们对下一个要堆叠的对象的位置进行采样,并使用我们的预测网络评估结果塔的稳定性</p><p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/shapestacks/stacking.gif”alt=“一组6个对象仅根据稳定性预测器的反馈堆叠在一起。”/><em>给定的对象首先是定向的,并根据其可堆叠性进行排序。然后将它们从最易堆叠到最不易堆叠。以模拟退火方式对堆叠位置进行采样:对于每个采样位置,预测生成塔的稳定性,并将对象连续移动到其附近的下一个最稳定位置,直到过程收敛到最终位置</电子邮箱></p><p>在模拟堆叠实验中,我们的模型建造了中位高度为八块的塔。这超过了训练期间观察到的最大高度(训练数据集仅具有最多六个对象的堆栈),并证明了可以在操纵任务中成功地使用所学的结构稳定性直觉</p>(第页)<p>虽然目前物理直觉的应用仍然局限于计算机模拟,但我们继续改进当前的方法,并将此系统的更精细版本部署到机器人上,以解决现实世界中的谜题和操作任务。我们还发布了我们的<a href=“http://openaccess.thecvf.com/content_ECCV_2018/papers/Oliver_Groth_ShapeStacks_Learning_Vision-Based_ECCV_2018_paper.pdf“>当前结果</a>,<a href=”https://github.com/ogroth/shapestacks网站“>源代码</a>和<a href=”https://shapestacks.robots.ox.ac.uk/“>数据集</a>允许其他研究人员和修补人员在我们的发现基础上继续研究,并在ShapeStacks环境中训练新模型。我们希望物理直觉有一天能让机器人执行更复杂的操作任务,从处理脏盘子到使用工具,或者至少能让机器人在Jenga游戏中与我们竞争。</p><p>参考文献<br>[<a href=“http://www.pnas.org/content/110/45/18327.short“>1</a>]Peter W.Battaglia、Jessica B.Hamrick和Joshua B.Tenenbaum:模拟是物理场景理解的引擎。PNAS 2013年11月5日<br>[<a href=“https://www.ncbi.nlm.nih.gov/pubmed/27592412“>2</a>]Hamrick JB,Battaglia PW,Griffiths TL,Tenenbaum JB.:通过心理模拟推断复杂场景中的质量。认知。2016年12月<br>[<a href=“https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(17) 30126-2“>3</a>]James R.Kubrich,Keith J.Holyoak,Hongjing Lu:直觉物理学:当前研究和争议。认知科学趋势。2017年10月1日<br>[<a href=“https://papers.nips.cc/paper/5780-galileo-perceiving-physical-object-properties-by-integrating-a-physics-engine-with-deep-learning“>4</a>]吴佳军,伊尔基尔·伊尔迪里姆,约瑟夫·利姆,威廉·T·弗里曼,约书亚·B·特南鲍姆:伽利略:通过将物理引擎与深度学习相结合来感知物理对象属性。神经信息处理系统进展28(NIPS 2015)<br>[<a href=“https://dl.acm.org/citation.cfm?id=3045437“>5</a>]Adam Lerer,Sam Gross,Rob Fergus:通过示例学习Block Towers的物理直觉。ICML&lsquo;16第33届国际机器学习会议论文集<br>[<a href=“https://papers.nips.cc/paper/6620-learning-to-see-physics-via-visual-de-animation网站“>6</a>]吴佳军、卢埃里卡、科利、弗里曼、特南鲍姆:通过视觉去动画学习看物理。神经信息处理系统进展30(NIPS 2017)<br>[<a href=“https://home.cs.washington.edu/~todorov/papers/TodorovIROS12.pdf“>7</a>]Emanuel todorov、Tom Erez和Yuval Tassa:MuJoCo:基于模型控制的物理引擎。2012 IEEE/RSJ智能机器人和系统国际会议<br>[<a href=“https://arxiv.org/abs/1602.07261“>8</a>]Christian Szegedy、Sergey Ioffe、Vincent Vanhoucke、Alex Ameni:Inception-v4、Incepton-ResNet和剩余联系对学习的影响。AAAI 2017</p><p>作者&rsquo;s网页:<a href=“https://ori.ox.ac.uk/ori-people/oliver-groth/“>奥利弗</a></p>VGG图像注解器2018-10-17T00:00:00+01:002018-10-17T00:00:00+01:00阿比谢克·杜塔标签:www.robots.ox.ac.uk,2018-10-17:/~vgg/blog/vgg-image-annotator.html<h3>引言</h3><p><p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg-image-annotator/via_demo_screenshot.jpg”alt=“An example of manual image annotation”/><em>使用vgg image annotator完成手动图像注释的示例(<a href=“网址:http://www.robots.ox.ac.uk/~vgg/软件/通过/“>via</a>)</em></p></p><p>手动图像注释是定义图像中的区域并使用文本元数据描述这些区域的过程。这些区域可以具有任意形状,并且主要由操作员绘制。我们开发了一个开放的</p><h3>引言</h3><p><p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg-image-annotator/via_demo_screenshot.jpg”alt=“An example of manual image annotation”/><em>使用vgg image annotator完成手动图像注释的示例(<a href=“网址:http://www.robots.ox.ac.uk/~vgg/software/via/“>via)</em></p></p><p>手动图像注释是定义图像中的区域并使用文本元数据描述这些区域的过程。这些区域可以具有任意形状,并且主要由操作员绘制。我们开发了一个开源软件,称为VGG图像注释器(<a href=“网址:http://www.robots.ox.ac.uk/~vgg/software/via/“>via</a>),它允许手动注释图像。via最重要的功能之一是它不需要任何安装,新用户可以快速开始使用此软件。此外,由于这是一个开源项目,用户可以选择这样做;更新源代码以满足他们的特定需求。以下是VIA的一些重要功能列表:<!-- 更多--></p><ul><li>支持的区域形状:矩形、圆、椭圆、多边形、点和多段线</li><li>以csv和json文件格式导入/导出区域数据</li><li>支持图像网格视图中注释的批量更新</li><li>使用on-image注释编辑器快速更新注释</li><li>只需要一个现代网络浏览器(在Firefox、Chrome和Safari上测试)</li></ul><p>我们创建了<a href=“网址:http://www.robots.ox.ac.uk/~vgg/software/via/via_demo.html“>此应用程序的独立在线演示,让用户探索此图像注释软件的功能。我们还提供了其他在线演示,以展示via的不同功能。例如,<a href=”网址:http://www.robots.ox.ac.uk/~vgg/software/via/via_face_demo.html“>人脸注释演示</a>显示了via如何用于人脸注释以及网址:http://www.robots.ox.ac.uk/~vgg/software/via/via_wikimedia_demo.html“>wikimedia演示</a>显示了基于9955张由托管的特色图像的via项目https://commons.wikimedia.org/wiki/Main_Page网站“>Wikimedia Commons。这个<a href=”网址:http://www.robots.ox.ac.uk/~vgg/software/via/via_wikimedia_demo.html“>wikimedia演示版强调了via的一个重要功能,它允许用户注释远程服务器托管的图像</p><h3>大型数据集的手动注释</h3><p>手动注释大量图像既困难又昂贵。因此,大型图像数据集的注释很少手动完成。相反,通常采用以下两个阶段的过程来减轻人类注释者的负担:</p><ol><li><p><em>自动注释:计算机视觉算法的性能在过去几年中有了显著提高,因此这些算法可以应用于大型图像数据集,对图像进行初步注释</p>(第页)</li><li><p><em>手动筛选、选择和更新</em>:人工注释器会检查自动注释过程生成的注释,并执行手动筛选、选定和更新,以仅保留高质量的注释</p>(第页)</li></ol><p>这两个阶段的过程减轻了人工注释器的图像注释负担,只需要他们执行自动注释的过滤、选择和更新。使用VIA的图像网格视图功能,现在人类注释器可以快速轻松地执行手动过滤、选择和更新大型图像数据集注释的任务。<a href=“网址:http://www.robots.ox.ac.uk/~vgg/software/via/docs/face_track_annotation.html“>以下用户指南更详细地描述了此功能</p><p class=“image center fit”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg图像注释器/va_face_track_demo_screenshot1.jpg”alt=“人脸轨迹注释”/><em>人脸轨迹注释:使用<a href=的手动过滤、选择和更新(即图像网格)功能手动注释大型图像数据集的示例网址:http://www.robots.ox.ac.uk/~vgg/software/via/“>via</a></em></p><h3>用例和影响</h3><p>VIA最常见的用途是手动注释大量图像,以训练计算机视觉算法,用于物体检测、人脸检测和验证、人体关键点检测等任务。互联网上有许多博客文章(例如<a href=“https://medial.com/@drainingsun/boobs-yolo-bbox-annotation-tool-96fb765d0036“>1</a>,<a href=”https://engineering.matterport.com/splash-of-color-instance-segmentation-with-mask-r-cnn-and-tensorflow-7c761e238b46“>2</a>,<a href=”https://www.pugetsystems.com/labs/hpc/Easy-Image-Bounding-Box-Annotation-with-a-Simple-Mod-to-VGG-Image-Annotator-1191/“>3</a>),它描述了VIA是如何用于训练计算机视觉算法的。在这篇博客文章中,我将描述两个用例,它们突出了该软件在工程以外的学科中的实用性</p><p class=“image fit center”style=“最大宽度:586px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg-image-annotator/via_sarah_dphil_thesis.png”alt=“14世纪宇宙学图的注释(来源:sarah Griffin dphil论文)”/><em>14世纪宇宙图的注释</em></p><p>莎拉·格里芬最近在艺术史上提交了她的DPhil论文。作为DPhil文章的一部分,她使用VIA注释了一张14世纪的宇宙图。这幅画是多层的,包含了许多不同的元素(包括日历、神学人物和教皇神学文本)。莎拉说:“;[VIA]工具是一种非常有用的方法,可以解析图像的不同组成部分,同时提供拉丁文本的清晰转录和翻译”;。除了她的DPhil论文,她还向牛津大学考试办公室提交了查看这些注释所需的数字注释(json格式)和VIA工具</p>(第页)<p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg-image-annotator/via_15cbt_annotations.jpg”alt=“14世纪宇宙图注释(来源:Sarah Griffin DPhil论文)”/><em>15世纪印刷插图注释</em></p><p>Matilde Malaspina是<a href=“http://15cbooktrade.ox.ac.uk/“>15cBOOKTRADE</a>项目,并一直使用VIA对15世纪印刷插图进行注释。这些注释支持<a href=”http://zeus.robots.ox.ac.uk/15插图/“>15c插图</a>&ndash;一个全面而系统的工具,用于跟踪和调查15世纪印刷插图版本中木版画、肖像主题、艺术风格等的生产、使用、流通和复制。她还鼓励她的学者们使用VIA注释他们收集的15世纪印刷插图,并为<a href=“http://zeus.robots.ox.ac.uk/15插图/“>15cILLUSTRATION</a>。Matilde是VIA的早期采用者之一。她还测试了VIA的初始原型和发行版,并提供了许多错误报告和用户体验反馈,这些报告和反馈有助于提高VIA的稳定性和可用性</p><p>自2017年4月发布以来,VIA已被使用超过250000次,该软件的用户群继续快速增长</p>(第页)<h3>开源生态系统</h3><p>VIA的开源生态系统围绕其<a href=“https://gitlab.com/vgg/通过“>源代码存储库</a>托管在gitlab(并在<a href=”https://github.com/ox-vgg/通过“>github</a>)。自2017年4月VIA首次公开发布以来,我们投入了资源来开发和培育这个社区,用户不仅可以发布反馈和软件错误报告,还可以贡献代码为软件添加新功能</p><p class=“image center fit”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/vgg image-annotator/vi_gitlab_issues_merge_portal.png”alt=“via源代码库的问题门户(左)和合并请求门户(右)。”/><em>via源代码库的问题门户(左)和合并请求门户(右)</电子邮箱></p><p>我们主要使用<a href=“https://gitlab.com/vgg/via/issues网站“>问题</a>和<a href=”https://gitlab.com/vgg/via/merge_requests网站“>合并请求</a>门户。<a href=”https://gitlab.com/vgg/via/inquestions(网址:https://gitlab.com/vgg/via/inquestions)“>问题门户是VIA用户的一个平台</p><ul><li>发布他们对软件的反馈</li><li>请求<a href=“https://gitlab.com/vgg/via/issues?scope=all&amputf8=%E2%9C%93&amp;状态=关闭;label_name[]=功能%20Requests“>软件中的新功能,以及</li><li>报告<a href=“https://gitlab.com/vgg/via/issues?scope=all&amputf8=%E2%9C%93&amp;状态=关闭;label_name[]=错误%20报告“>使用此软件时遇到的错误(或问题)</li></ul><p>大多数<a href=“https://gitlab.com/vgg/via/issues?scope=all&amputf8=%E2%9C%93&amp;状态=关闭;标签名称[]=功能%20请求“>用户请求的功能</a>现已在VIA的最新版本中引入。我们的许多用户不仅发布错误报告,还建议对这些错误进行潜在的修复。有时,他们还会复制VIA源代码库,修复报告的错误,并向我们发送请求,将这些更改合并回VIA的主副本源代码使其他人不必遇到或处理相同的问题。这里是<a href=“https://gitlab.com/vgg/via/merge_requests/7“>这类贡献的一个例子</p><p>开发和维护开源软件的好处之一是用户可以为软件的开发做出贡献。VIA项目最近开始以代码贡献的形式从许多用户那里获得这些好处,这些用户可以添加新功能或改进现有功能。例如,最近,Gyoung-Yoon Ryoohttps://gitlab.com/vgg/via/issues/147“>贡献了代码</a>,允许使用on-image注释编辑器快速更新注释。<a href=”https://gitlab.com/vgg/via/merge_requests网站“>合并请求</a>门户简化了此过程并保留用户贡献记录。此外,我们还将用户贡献记录在<a href=”https://gitlab.com/vgg/via/blob/master/Contributors.md“>Contributors.md</a>文件。我们欢迎愿意在<a href=”https://gitlab.com/vgg/via/blob/master/LICENSE“>VIA项目的BSD 2条款许可。随着我们的前进,我们的目标是进一步加强VIA的以下四个属性:</p><ul><li>简单直观的用户界面</li><li>无需安装;在多个平台上运行不到一分钟</li><li>可以离线使用</li><li>自给自足,重量轻;没有外部依赖项</li></ul><p>在开源项目中,有些任务最好由外部用户(即不属于开发团队的用户)处理。例如,<a href=“https://en.wikipedia.org/wiki/Code_review“>代码审查</a>最好由不参与软件开发或维护的独立第三方进行。我们已成功完成<a href=”https://gitlab.com/vgg/via/issues/54“>对via-1.0.0的代码审查</a>,现在我们准备对<a href=”https://gitlab.com/vgg/via/issues/152“>via-2.0.x</a>。因此,目前我们<a href=”https://gitlab.com/vgg/via/issues/152“>向可以对VIA源代码进行代码审查的用户寻求帮助。因此,如果您知道如何使用Javascript、HTML和CSS进行编码,并且希望在代码审查过程中提供帮助,请<a href=”https://gitlab.com/vgg/via/issues/152“>让我们知道</p><p>我们定期搜索搜索引擎的搜索关键字<a href=“https://www.bing.com/search?q=&quotvgg+图像+注释器&quot;“>&ldquo;vgg image annotator&rdquo;</a>了解此软件的使用和更新情况。我们很高兴看到博客帖子(例如<a href=”https://www.pugetsystems.com/labs/hpc/Easy-Image-Bounding-Box-Annotation-with-a-Simple-Mod-to-VGG-Image-Annotator-1191/“>1</a>,<a href=”https://medial.com/@drainingsun/boobs-yolo-bbox-annotation-tool-96fb765d0036“>2</a>,<a href=”https://engineering.matterport.com/splash-of-color-instance-segmentation-with-mask-r-cnn-and-tensorflow-7c761e238b46“>3</a>)和视频(例如<a href=”https://www.youtube.com/watch?v=MRkdgOoUqFk“>1</a>,<a href=”https://www.youtube.com/watch?v=stLXi8-Fej8“>2</a>)不仅解释了如何使用VIA,还描述了升级VIA以满足特定要求的过程。例如,<a href=“https://www.pugetsystems.com/labs/hpc/Easy-Image-Bounding-Box-Annotation-with-a-Simple-Mod-to-VGG-Image-Annotator-1191/“>Donald Kinghorn博士</a>写了一篇博客文章,解释了他如何更新VIA源代码以满足对on-image注释编辑器的需求。(注:最新发布的网址:http://www.robots.ox.ac.uk/~vgg/software/via“>via-2.0.2</a>现在包括一个图像注释编辑器)</p><h3>未来工作</h3><p>VIA是一个不断发展的开源项目,旨在为许多学术学科和工业环境中的图像注释任务提供帮助。这要求VIA不断改进和引入先进的新功能。目前,我们正在考虑以下两个功能作为VIA的下一次重大升级:</p><ul><li><p>分布式注释:注释大量图像(例如一百万个图像)需要大量人工注释器之间的协作。我们希望升级VIA,使其能够支持多个人工注释器以增量和独立地注释大量图像。客户端-服务器模型显然是这种功能的候选者,其中服务器协调大量用户的协作注释工作。然而,我们认为这将损害<em>&ldquo;无需安装。”</em>VIA的功能,要求用户设置服务器或使用现有服务器。我们更喜欢对等解决方案,它不需要服务器和用户(或客户端)相互通信,共享和维护支持协作注释所需的状态和数据。这种对等解决方案的一个主要示例是<A href=“https://webtorrent.io/“>https://webtorrent.io/</a>应用程序,允许基于web浏览器的torrent客户端以对等方式交换数据。此外,<a href=“https://developer.mozilla.org/en-US/docs/Web/API/WebRTC_API“>WebRTC API向web应用程序承诺了一种技术,即“在浏览器之间交换任意数据而不需要中介”。这些技术有可能为VIA中的分布式注释功能提供支持</p></li><li><p>注释助手:当前计算机视觉模型的最新技术在常见注释任务中变得非常准确,例如<a href=“https://github.com/rbgirshick/py-faster-rcnn“>查找对象</a>,<a href=”网址:http://www.robots.ox.ac.uk/~vgg/software/vff/“>检测和识别人脸网址:http://www.robots.ox.ac.uk/~vgg/software/textspot/“>阅读文本</a>,<a href=”https://medium.com/tensorflow/real-time human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5“>检测人体上的关键点</a>以及通常分配给人类注释器的许多其他任务。我们认为这些计算机视觉模型在后台运行;通过在图像中植入自动注释区域,然后让人工注释器编辑/更新这些检测结果以提交最终注释,可以帮助加快手动注释过程。感谢<a href=“https://js.tensorflow.org/“>tensorflow.js,现在可以在web浏览器中运行其中许多模型。例如,<a href=”https://medium.com/tensorflow/real-time human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5“>此演示</a>在web浏览器中运行,并使用GPU(如果存在)快速检测网络摄像头捕获的视频流中的人体关键点。我们设想这样的计算机视觉模型在VIA中作为插件运行,并自动向人类注释器建议注释</p></li></ul><p>我们始终对用户贡献持开放态度。因此,如果您觉得这些(和其他功能)对您感兴趣,<a href=“https://gitlab.com/vgg/via/issues网站“>联系我们</a></p>比较器网络2018-10-05T00:00:00+01:002018-10-05T00:00:00+01:00谢伟迪标签:www.robots.ox.ac.uk,2018-10-05:/~vgg/blog/comparator-networks.html<h3>动机</h3><p>验证通常是许多现实世界应用的核心,例如生物识别、安全、检索和跟踪。作为传统图像到图像验证的推广,这里我们考虑设置到设置的情况,其中,每组可以包含任意数量的面部图像,例如单个图像或…中的帧序列</p><h3>动机</h3><p>验证通常是许多现实世界应用的核心,例如生物识别、安全、检索和跟踪。作为传统图像到图像验证的推广,这里我们考虑设置到设置的情况,其中,每组可以包含任意数量的面部图像,例如单个图像或视频中的帧序列。要从多个图像中聚合信息,最简单的方法是使用平均值来表示整个集合</p>(第页)<p class=“image fit”style=“max-width:700px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/comparator/problem_scenario.png”alt=“问题场景”/></p><p>然而,这种首先为每个人脸生成单个向量,然后简单地对其进行平均的过程,错过了以四种方式使用更多可用信息的可能性:</p><!-- 更多--><ul><li><p>视点条件相似性:当两张脸的姿势和光照相似时,很容易判断这两张脸是不是同一个人。例如,如果两者都是正面的或都是侧面的,那么可以进行点对点的比较,而如果一个是侧面的而另一个是正面的,则不可能进行比较</p>(第页)</li><li><p>当地地标对比:为了解决细粒度匹配问题,有必要比较同余部分(面部的局部区域),例如眼睛与眼睛、鼻子与鼻子</p>(第页)</li><li><p>在设定权重下:并不是一组中的所有图像都同等重要,来自低分辨率或模糊人脸的特征可能不如来自高分辨率完美聚焦人脸的特征重要。例如,未加权平均池忽略了每个人脸图像提供的信息量的差异,而畸变图像,例如非常模糊的图像,可能会产生显著影响,因为大多数模糊的人脸图像看起来都很相似(例如上图中的最后两张图像)</p>(第页)</li><li><p>集之间权重:什么对验证有用取决于两组中的内容。例如,如果一个集只有轮廓面,而第二个集除了一个轮廓实例外都是正面的,那么,第二组中的单个配置文件实例可能比前面的实例更重要</p>(第页)</li></ul><h3>方法</h3><p>为了应对上述挑战,我们提出了一个比较器网络,包括三个模块:检测、参与和比较。<p class=“image fit”style=“max-width:800px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/comparator/overview.png”alt=“comparator Networks”/></p></p><h4><strong>检测<p>将共享子网络应用于每个图像,隐式生成稠密特征图和多个可区分部分的检测分数。请注意,推断出的标志旨在最好地协助后续任务,它们不局限于遵循与人类定义的面部标志相同的直觉,例如嘴巴、鼻子等。理想情况下,给定一组具有各种姿势或照明的多个图像,地标过滤器可以对不同的面部部位、视点或照明敏感:例如,一个可能对正面的眼睛敏感,另一个可能会对侧面的嘴更敏感</p>(第页)参加<p>根据每个输入图像的地标检测得分图,过滤器激活往往与图像质量呈正相关,例如,眼睛检测器的滤波器响应在高质量图像上往往比模糊或极端姿势更高。因此,地标得分图之间的交叉归一化用于两个目的:首先,抑制低质量图像的贡献;其次,该集合可能包含任意数量的图像,因此归一化对于比较具有不同数量图像的两组图像至关重要。这些标准化的得分图成为注意力图,并用于汇集对每组不同地标进行编码的特征描述符</p>(第页)比较<p>至此,对于每个集合,我们都可以获得多个特征描述符。具体来说,来自两个集合的特定于地标的描述符是第一个L2规范化的,并与一个热编码的地标标识符连接(参见上图)。每个连接的向量都是作为完全连接(FC)层实现的本地“专家”的输入</p>(第页)<h3>实验</h3>数据集<p>我们在大规模VGGFace2数据集上训练模型,该数据集在姿势、年龄、光照、种族和职业(例如演员、运动员、政治家)方面有很大的差异</p>(第页)<h4><strong>地标</strong><p>如上所述,检测子网络必须隐式推断多个地标,然而,没有什么可以阻止此模块学习同一里程碑的相同副本。例如,它可以学会始终检测眼睛,或者给它足够大的感受野,它可以始终精确定位图像的中心</p>(第页)<p>我们试验了两种不同的正则化物:首先,一个多样性正则化器,以鼓励推断出的地标彼此不同;其次,一个关键点正则化器,它受益于预训练的面部关键点检测模型</p>(第页)<h3>结果</h3><p>我们根据具有挑战性的IARPA Janus基准对所有模型进行了评估,其中,所有图像都是在不受约束的环境中捕获的,并且显示了视点和图像质量的巨大变化。与传统的封闭世界分类任务相比,验证是一个开放世界的问题(即训练集和测试集的标签空间是不相交的)。性能报告为真实接受率(TAR)与假阳性率(FAR)(即接收器工作特性(ROC)曲线)。<p class=“image fit”style=“max-width:780px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/comparator/results_curve.png”alt=“结果曲线”/></p></p><h3>可视化</h3><p>按照设计,来自Detect子网络的地标应满足两个条件:首先,它们必须尽可能在空间上传播;第二,他们还必须尽可能具有歧视性。在可视化隐式推断的地标时,两个正则化器都满足上述条件</p>(第页)关键点正则器<p><p class=“image fit”style=“最大宽度:750px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/comparator/keypoint_vis.png”alt=“关键点正则化器”/></p></p>多样性正则化器<p><p class=“image fit”style=“max-width:720px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/comparator/dividity_vis.png”alt=“diversity Regulazer”/></p></p>结论<p>我们引入了一种灵活的体系结构,能够比较图像集并验证它们是否匹配。虽然我们在这项工作中使用了几组人脸图像,比较器网络可以直接应用于人的重新身份识别,在这种情况下,集合通常是可用的。它还可能应用于其他验证任务,例如对象跟踪、,或其他细粒度分类任务,例如,从同一实例的多个图像中确定鸟或花的种类</p>(第页)<p>有用的链接</p><ul><li><a href=“网址:http://www.robots.ox.ac.uk/~vgg/data/vgg_face2/“>VGGFace2数据集</a></li><li><a href=“网址:http://www.robots.ox.ac.uk/~vgg/publications/2018/Xie18a/Xie18a.pdf“>比较器网络</a></li><li><a href=“网址:http://www.robots.ox.ac.uk/~vgg/publications/2018/Xie18b/Xie18b.pdf“>用于人脸识别的多列网络</a></li></ul><p>作者&rsquo;s网页:<a href=“https://weidixie.github.io/weidi-personal网页/“>谢伟迪</p>看到声音和听到面孔2018-09-28T00:00:00+01:002018-09-28T00:00:00+01:00阿尔沙·纳格拉尼标签:www.robots.ox.ac.uk,2018-09-28:/~vgg/blog/seeing-voices-and-heering-faces.html<p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/diehard.jpg”alt=“diehard”/><em>McPlane在“diehard”中与鲍威尔通话</em></p><p>人的脸和声音有多相似?您能认出某人吗;如果你只听到他们的声音?或者,如果你只见过他们的脸,就能认出他们的声音?作为人类,我们可能&lsquo;查看语音;或&lsquo;倾听面部表情;由</p><p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/diehard.jpg”alt=“diehard”/><em>McPlane在“diehard”中与鲍威尔通话</em></p><p>人的脸和声音有多相似?您能认出某人吗;如果你只听到他们的声音?或者,如果你只见过他们的脸,就能认出他们的声音?作为人类,我们可以;查看语音;或&lsquo;听到面孔;通过在脑海中形成一个人只听到自己声音后的样子,或者反之亦然</p>(第页)<p>如果您;我看过电影“;Die Hard”;,你可能还记得约翰·麦克莱恩(布鲁斯·威利斯饰)在电影快结束时从大楼里走出来的场景,他立刻认出了警察(阿尔·鲍威尔中士),他在整个电影中只通过无线电与他通话,但从未见过他</p>(第页)<p></br></p><p>虽然你可能凭直觉相信这一点,但卡马奇等人等人类心理学家实际上<a href=“https://www.sciencedirect.com/science/article/pii/S0960982203006638“>通过要求参与者执行二元强制匹配任务来研究这一现象。他们被要求听一个人的声音,然后从随后呈现的两张人脸图像中选择一张相同身份的匹配人脸</p><!-- 更多--><p></br><p class=“image fit center”style=“max-width:500px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/kamachi.jpg”alt=“kamachi等人”/></p><em>来自<a href=“https://www.sciencedirect.com/science/article/pii/S0960982203006638“>Kamachi at al</a>。在心室颤动设置中,最初学习声音X,然后观察者看到两张脸,必须选择与第一阶段听到声音的人对应的脸。在FV设置中,这些脸的顺序相反。</em></p><p></br></p><p>自从卡马奇的工作以来,已经有许多其他的工作对这一现象进行了精确的研究,证明了人类能够以高于随机精度的方式解决这一任务。我们开始对以下问题感兴趣:<em>我们可以训练机器自动完成这项工作吗</电子邮箱></p><p>为了完成这项任务,我们使用了一个CNN(卷积神经网络)模型(在<a href=“https://arxiv.org/pdf/1804.00326.pdf“>CVPR论文</a>),它摄取人脸图像和语音片段(以频谱图的形式),并能够推断它们之间的对应关系。我们的模型设计包括三个特定模态的子网络(或溪流);两个参数共享人脸流和一个语音流。然后将三条流合并通过一个融合层(通过特征级联)并馈入modality共享顶部的完全连接层</p>(第页)<p class=“image left”style=“width:350px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/arch-a.png”alt=“网络”/></p><p></br></br></br><em>SVHF-Net:三流CNN架构用于解决二进制匹配任务,即选择与语音具有相同身份的人脸。语音权重以粉红色显示,面对面权重以蓝色显示,以及模式共享紫色砝码。可以在我们的<a href=“https://arxiv.org/pdf/1804.00326.pdf“>纸张</a>。</em></p><p></br></p><p>此架构背后的基本原理是强制早期层专门针对特定模态特征(例如作为面部图像中的边缘和音频片段中的频谱模式),同时允许后面的层捕获更高级别的概念,如身份。本质上,为了使网络能够解决选择正确匹配人脸的任务,网络需要能够从人脸和语音中获取身份信息。我们将面部和声音中的重叠信息称为两种模式之间的冗余信息</p>(第页)<p class=“image fit center”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/venn_1.001.png”alt=“Venn1”/></p><p><em>给定同一个人的面部图像和语音片段(在不同时间从视频中提取),这两个信号中存在的冗余信息将与该人的身份密切相关。声音中不太可能捕捉到图像中面部的姿势(正面与侧面)或光照,也不太可能从单面图像中推断出词汇内容(说出的确切单词)</电子邮箱></p><p>我们在大规模人脸数据集上训练该模型(<a href=“网址:http://www.robots.ox.ac.uk/~vgg/data/vgg_face/“>VGGFace</a>)和语音(<a href=”网址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/“>voxceleb</a>),使用了150000多个语音段和近100万张人脸图像。在测试时,我们的网络能够以令人印象深刻的准确性在相同身份上解决此任务(当然,使用不同的图像和语音样本)。由于神经网络具有较高的模型容量,因此,在提供足够的训练数据的情况下,神经网络能够根据之前看到的恒等式来解决这一任务,这可能并不奇怪。然而,真正有趣的是,能够利用看不见、闻所未闻的身份(网络在培训中从未遇到过的身份——一种“零快照”学习形式)解决此类任务</p>(第页)<p>匹配看不见、听不见的身份对人类来说是一项挑战。为了将我们从未见过的人的面部与语音进行匹配,我们需要线索:我们需要能够识别影响说话人语音和面部的因素(这些被称为跨模式生物特征识别)。有一些潜在属性(如年龄、性别、种族/口音)会影响面部外观和声音。除此之外,还有其他更微妙的交叉模态生物识别<a href=“https://link.springer.com/article/10.1007/s10508-012-0054-0“>生物学和进化认知方面的研究表明,青春期激素水平影响面部形态和音高。男性更高睾酮与雌激素的比值导致眉毛突出脊线和宽阔的下颚线,同时导致较低的音高</p>(第页)<p class=“image fit center”style=“max-width:700px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/venn_1.002.png”alt=“Venn2”/></p><p><em>除了身份之外,如果我们的模型能够捕获性别、年龄、种族/口音等跨模式生物特征,它甚至能够解决模型从未听说过或见过的身份问题</电子邮箱></p><p>我们表明,我们的模型能够以80%的准确率对未知身份执行此任务,远远高于偶然性(这是50%,因为它是一个二进制强制匹配任务)。我们还进行了一些有趣的实验,研究了性别、年龄和国籍等每种生物特征的影响。有关详细信息,请参阅我们的<a href=“https://arxiv.org/pdf/1804.00326.pdf“>纸张</a></p><p>为什么这种跨模式学习有用?想象以下场景:我们所掌握的关于一个人是少数说话(音频)样本,因为数据是从电话交谈中记录下来的。我们然后想要从视频流中识别个人CCTV视频中的例子。一个更良性的应用程序是自动的在电视和电影材料中标记人物可以同时听到但看不到字符,以及因此,可以使用交叉模式匹配来推断标签</p>(第页)<p>上述匹配实验的结果表明,面部和声音之间存在一定的相关性(即信号之间存在冗余信息)。因此,我们可以更进一步,将人脸和声音映射到相同的特征空间中,以便直接进行比较。这项任务构成了我们<a href=“https://arxiv.org/pdf/1805.00833.pdf“>ECCV论文</a>,我们将人脸和语音映射到可以直接比较的向量。我们将这些向量称为个人身份节点(PIN)</p><p class=“image fit center”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/PINs.002.png”alt=“PINs1”/></p><p>我们训练这个模型时完全没有任何身份标签,借用了度量学习和自我监督学习的概念。查看我们的<a href=“https://arxiv.org/pdf/1805.00833.pdf“>文件</a>了解更多详细信息!<p class=“image fit center”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/seeing-voices/PINs.001.png”alt=“PINs2”/></p></p><p>最近,利用不同模式之间的冗余信息的概念开始引起人们的兴趣,发表了几部伟大的著作,其中包括<a href=“https://arxiv.org/pdf/1705.08168.pdf“>Arandjelovic和Zisserman,<a href=”http://andrewowens.com/multisensory(多传感器)/“>欧文斯(Owens)和埃夫罗斯(Efros)以及其他许多人将类似的概念应用于物体、仪器甚至动作。利用不同模式的信息,我们可以开发新的自我监督和非监督学习技术,并利用上传到互联网上的越来越多的多模态数据</p>(第页)<p>有用的链接</p><ul><li><a href=“https://www.youtube.com/watch?v=AJt993-VGsk“>视频结果</a></li><li><a href=“网址:http://www.robots.ox.ac.uk/~vgg/research/CBMiometrics/“>这项工作的网页</a></li><li><a href=“网址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/“>voxceleb数据集</a></li></ul><p>作者;网页:<a href=“网址:http://www.robots.ox.ac.uk/~arsha/“>arsha</a>和<a href=”网址:http://www.robots.ox.ac.uk/~albanie/“>塞缪尔</p>使用深层网络映射环境2018-07-06T00:00:00+01:002018年07月06日0:00+01:00Jo&atilde;(&A);o F.Henriques先生标签:www.robots.ox.ac.uk,2018-07-06:/~vgg/blog/mapping-environments-with-deep-networks.html<p>嗨,欢迎来到VGG博客的第一期!在这个领域,我们;我将分享一些(希望如此)令人兴奋的发现,我们在实验室中,以及我们发现有趣的东西,在计算机视觉和深度学习的交叉点。不时收听</p><p>嗨,欢迎来到VGG博客的第一期!在这个领域,我们;我将分享一些(希望如此)令人兴奋的发现,我们在实验室中,以及我们发现有趣的东西,在计算机视觉和深度学习的交叉点。随时收听(或使用我们的<a href=“https://www.wired.com/story/rss-readers-feedly-inoreader-old-reader/“>RSS</a>feed),用于新一轮的非正式研究讨论</p><p>我的名字是Jo&atilde;o、 和我;一直致力于教授神经网络从视频中执行同步定位和映射(SLAM)。从表面上看,这似乎相对合适&ndash;为什么要构建地图?这与公认的做法有何不同,<a href=“https://en.wikipedia.org/wiki/Synallime_localization_and_mapping“>经典SLAM</a>系统?原因是我认为映射是迈向更大目标的第一步</p><p class=“image left”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/mapnet/pointcloud.png”alt=“Robot vision”/></p><p>在计算机视觉中,我们;重复使用图像或视频进行预测&ndash;检测、分割甚至深度。但是,如果我们希望最终让自主代理四处活动并为我们做有用的事情,那么他们;我们需要一个稳定的世界模型,一个超越当前观点的模型。其中一个例子是<a href=“https://en.wikipedia.org/wiki/Object_permanence网站“>对象持久性</a>&ndash;知道一个对象仍然存在,即使在看不见的情况下也可能在同一个位置。那就是“位置”;应该是相对于岩石固体的世界中心原点,而不是不断变化的相机中心原点。这种知识使你能够制定比仅考虑当前观点时更大、更复杂的计划,例如记住厨房里有美味三明治的配料,并计划如何使用它们</p>(第页)<!-- 更多--><p>此外,我们希望地图是语义的(“冰箱里有一些新鲜奶酪”),而不是度量的(“我知道这些坐标处有一个多边形”)。这就是深度学习的用武之地。如果地图存储了深度语义嵌入,那么它应该对许多不同的任务有用。最近人们一直在关注这个问题,但它的困难意味着目前的解决方案只解决了部分问题。最近的提案通常不得不放弃对<a href=“https://arxiv.org/abs/1804.00168“>增量地图构建</a>,用于<a href=”https://arxiv.org/abs/1702.03920“>地图内的自我本地化</a>,甚至<a href=”https://www.cs.ox.ac.uk/files/9026/DepVO.pdf“>彻底擦洗地图</a></p><p class=“image right”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/mapnet/map-tensor.png”alt=“地图张量”/></p><p>那么地图应该是什么样的呢?在这项工作中,我只是使用2D网格(接地平面)离散化世界,并让网络将深度嵌入每个2D单元关联起来。这本质上是一个内存张量(具有三维X、Y和功能通道),可以随着时间的推移进行更新,因为网络会观察摄像头在某些环境中移动的视频。网络<em>从这个内存中读取</em>以定位自身(通过将它看到的内容与内存进行比较),然后<em>向其写入</em]以执行增量映射(通过将其看到的内容存储在内存中以供后代使用)</p>(第页)<p>这里有一个很好的二元性&ndash;本地化/阅读、绘图/写作。在本文中,我们证明了这种对偶性的进一步扩展。事实证明,我们的2D地图上的定位可以通过单个卷积来实现。原因是,本地化(找到您的位置)是一种模式匹配练习(在世界空间中看到的和已知的之间),而卷积非常适合这样做。这可以很容易地扩展以处理摄影机旋转,而不仅仅是其位置。然而,也许不太直观,我们证明了映射可以通过一次反褶积来实现。您可以将其视为“;撤消”;定位操作,所以我们得到了定位/卷积和映射/反卷积之间的完美对称</p>(第页)<p class=“image fit”style=“max-width:600px”><img src=“//www.robots.ox.ac.uk/~vgg/blog/images/mapnet/conv-deconv.png”alt=“双重操作符”/></p><p>如果您想检查这是如何完成的,并且您喜欢空间几何变换的证明,<a href=“网址:http://www.robots.ox.ac.uk/~vgg/publications/2018/Henriques18a/henriques18mapnet.pdf“>查看论文。</a>中还提供了更直观的技术细节解释https://www.youtube.com/watch?v=HAOCaqvcf8w“>2018年CVPR演讲视频(12分钟)</p><p>现在,我们如何知道这是可行的?我们从2D迷宫环境的一些简单实验开始,在那里我们观察到一些很好的突发行为,例如当面临模糊情况时对当前位置的多模态信念(想想具有对称或重复结构的走廊)。另一个紧急属性是地图中的嵌入与语义概念密切相关:转弯、交叉或死行。当然,我们想尝试更复杂的环境,所以我们继续用游戏中的玩家速度运行视频训练我们的模型(称为MapNet)网址:http://www.robots.ox.ac.uk/~vgg/research/researcdoom/“>末日:</p><p class=“视频”><iframe src=“https://www.youtube-nocookie.com/embed/mInSO7YW1EU?rel=0“allow=”自动播放;加密媒体“allowfullscreen=”“frameborder=”0“></iframe></p><p>上面的视频显示了覆盖在地平面上的轨迹和位置热图(从下到左),以及方向热图(由下到右)。即使环境非常具有挑战性,我们的MapNet似乎也能很好地应对。我也非常希望这部作品能够“;走出实验室”;,通过使用真实的机器人数据。为此,我们在房屋和办公室等环境中用机器人收集的一些漂亮的图像序列上训练它,称为<a href=“http://cs.unc.edu/~ammirato/active_vision_dataset_website/index.html“>active vision数据集</a>:</p><p class=“视频”><iframe src=“https://www.youtube-nocookie.com/embed/-MUXfcrxGEM?rel=0“allow=”自动播放;encrypted-media“allowfullscreen=”“frameborder=”0“></iframe></p><p>什么;这一点(以及一般的深层网络)的好处在于,除了替换底层的CNN(生成图像嵌入)之外,整个系统和超参数与《末日》完全相同。这让我相信,我们有一些东西可以推广,并适应不同的设置,而不需要太多的修改</p>(第页)<p>这一点;就是这样!这些网络还没有真正取代经典的SLAM,因为地图的粒度很粗(在我们的例子中,单元格是30x30厘米)。然而,我认为它们作为地图提供的语义和健壮性对于支持未来更复杂的机器人行为非常重要</p>(第页)