2024年欧洲计算机视觉会议
@会议记录{Bhalgat24,author=“Yash Bhalgat and Iro Laina and Joao ~ F.Henriques and Andrea Vedaldi and Andrew Zisserman”,title=“{N2F2}:嵌套神经特征场的分层场景理解”,booktitle=“欧洲计算机视觉会议”,年=“2024”,}
在计算机视觉中,在多个抽象层次上理解复杂场景仍然是一项艰巨的挑战。为了解决这个问题,我们引入了Nested Neural Feature Fields(N2F2),这是一种新的方法,它使用分层监督来学习单个特征字段,其中同一高维特征中的不同维度以不同的粒度编码场景属性。我们的方法允许灵活定义层次结构,根据物理维度或语义或两者进行定制,从而实现对场景的全面而细致的理解。我们利用2D类认知分割模型在图像空间中以任意比例提供语义上有意义的像素分组,并查询CLIP视觉编码器以获得这些分段的语言对齐嵌入。然后,我们提出的分层监督方法指定特征字段的不同嵌套维度,以使用不同物理尺度的延迟体积渲染提取CLIP嵌入,从而创建一种从粗到细的表示。大量实验表明,在诸如开放词汇表三维分割和定位等任务中,我们的方法优于最新的特征场提取方法,证明了学习到的嵌套特征场的有效性。
石田慎太郎,G.Corrado,G.Fedoseev,H.Yeo,拉塞尔,J.Shotton,J.F.亨里克
2024年ICLR大型语言模型(LLM)代理研讨会
@诉讼中{石田24,author=“Shu Ishida和Gianluca Corrado、George Fedoseev和Hudson Yeo、Lloyd Russell和Jamie Shotton以及Joao ~ F.Henriques”,title=“LangProp:一个使用应用于驾驶的大型语言模型的代码优化框架”,booktitle=“大型语言模型(LLM)代理ICLR 2024研讨会”,年=“2024”,}
我们提出了LangProp,这是一个用于在监督和强化学习环境中迭代优化大型语言模型(LLM)生成的代码的框架。虽然LLM可以生成合理的零快照编码解决方案,但它们通常是次优的。特别是对于代码生成任务,初始代码很可能会在某些边缘情况下失败。LangProp自动评估输入输出对数据集上的代码性能,捕获任何异常,并在训练循环中将结果反馈给LLM,以便LLM可以迭代地改进其生成的代码。通过对该代码优化过程采用度量和数据驱动的训练范式,可以很容易地适应传统机器学习技术(如模拟学习、DAgger和强化学习)的结果。我们展示了LangProp对一般领域(如数独和CartPole)的适用性,并展示了CARLA中自动驾驶的自动代码优化概念的第一次证明。我们表明,LangProt可以生成可解释和透明的策略,这些策略可以通过度量和数据驱动的方式进行验证和改进。我们的代码位于https://github.com/shuishida/LangProp。
2024年3月,3D视觉国际会议记录
@诉讼{Kloepfer24a,author=“多米尼克·克罗普费尔(Dominik Kloepfer)和若昂(Joao)~F.亨里克(F.Henriques)和迪伦·坎贝尔(Dylan Campbell)”,title=“SCENES:具有Epipolar监督的亚像素对应性估计”,booktitle=“3D视觉(3DV)国际会议论文集”,month=“三月”,年=“2024”,}
从场景的两个或多个视图中提取点对应关系是一个基本的计算机视觉问题,对于相对相机的姿态估计和运动中的结构尤为重要。现有的局部特征匹配方法通过对大规模数据集进行对应监督训练,可以在测试集上获得高精度的匹配。然而,与经典的特征提取器不同,它们不能很好地概括出新数据集的不同特征。相反,它们需要微调,这需要假定地面与地面的对应关系或地面与地面之间的相机姿势和3D结构可用。我们放宽了这一假设,去掉了对三维结构的要求,例如深度图或点云,只需要摄像机姿势信息,而这些信息可以从里程计中获得。我们通过将对应损失替换为对极损失来做到这一点,这鼓励假定的匹配位于相关的对极线上。虽然比通信监管弱,但我们观察到,这一线索足以根据新数据微调现有模型。然后,通过在一种新的自举方法中使用姿势估计,我们进一步放宽了已知相机姿势的假设。我们对极具挑战性的数据集进行评估,包括室内无人机数据集和室外智能手机摄像头数据集,并在没有严格监管的情况下获得最先进的结果。
2024年声学、语音和信号处理国际会议
@诉讼中{Oncescu24,author=“安德烈亚·马里亚·昂塞斯库(Andreea-Maria Oncescu)和若奥·F·亨利克斯(Joao~F.Henriques)、安德鲁·齐瑟曼(Andrew Zisserman)、塞缪尔·阿尔巴尼(Samuel Albanie)和A.索菲亚·科普克(,title=“声音方法:使用大型语言模型生成音频描述,用于以自我为中心的文本音频检索”,booktitle=“声学、语音和信号处理国际会议”,年=“2024”,}
来自互联网的视频数据库是文本音频检索数据集的宝贵来源。然而,考虑到声音和视觉流代表不同的数据“视图”,将视觉描述视为音频描述远不是最佳的。即使存在音频类标签,它们通常也不是很详细,这使得它们不适合文本音频检索。为了利用视频文本数据集中的相关音频信息,我们引入了一种使用大型语言模型(LLM)生成以音频为中心的描述的方法。在这项工作中,我们考虑了以自我为中心的视频设置,并基于EpicMIR和EgoMCQ任务以及EpicSounds数据集提出了三个新的文本音频检索基准。与使用原始的以视觉为中心的描述相比,我们获得以音频为中心的描述性描述的方法具有明显更高的零快照性能。此外,我们还表明,与使用数据集的原始音频类标签相比,使用相同的提示,我们可以成功地使用LLM改进EpicSounds上的检索。最后,我们确认LLM可用于确定识别与声音相关的动作的难度。
2023年IEEE计算机视觉和模式识别会议
@会议记录{Bhalgat23,author=“Yash Bhalgat and Joao~F.Henriques and Andrew Zisserman”,title=“教授变形金刚多视角几何的轻触法”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2023”,keywords=“变形金刚,极线损耗,目标检索”,}
变形金刚是强大的视觉学习者,很大程度上是因为他们明显缺乏人工指定的先验。这种灵活性在涉及多视图几何的任务中可能会有问题,因为3D形状和视点可能会有近无限的变化(需要灵活性),而射影几何的精确性质(遵循刚性定律)。为了解决这个难题,我们提出了一种“轻触”的方法,指导视觉变形金刚学习多视图几何,但允许他们在需要时自由发挥。我们通过使用极线来引导Transformer的交叉注意力图,惩罚极线之外的注意力值,并鼓励沿着这些线给予更高的关注,因为它们包含几何上合理的匹配。与以前的方法不同,我们的方案在测试时不需要任何相机姿势信息。我们重点关注位置不变的对象实例检索,由于查询和检索图像之间的视点差异很大,标准Transformer网络很难实现这一点。实验上,我们的方法在对象检索方面优于最先进的方法,而不需要测试时的姿势信息。
2023年神经信息处理系统进展
@会议记录{Bhalgat23a,author=“Yash Bhalgat and Iro Laina and Joao ~ F.Henriques and Andrew Zisserman and Andrea Vedaldi”,title=“对比提升:通过慢速对比融合分割三维对象实例”,booktitle=“神经信息处理系统的进展”,年=“2023”,keywords=“神经辐射场、实例分割、度量学习、聚类、3D计算机视觉”,}
由于缺乏大规模注释数据集,3D中的实例分割是一项具有挑战性的任务。在本文中,我们表明,利用2D预训练模型进行实例分割可以有效地解决这一问题。我们提出了一种新的方法,将2D片段提升到3D,并通过神经场表示将其融合,从而鼓励跨帧的多视图一致性。我们方法的核心是一个慢速快速聚类目标函数,它是可扩展的,非常适合具有大量对象的场景。与以前的方法不同,我们的方法不需要对象数量的上限或跨帧的对象跟踪。为了演示慢速聚类的可伸缩性,我们创建了一个新的称为“杂乱房间”的半真实数据集,该数据集以每个场景最多包含500个对象的场景为特征。我们的方法在ScanNet、Hypersim和Replica数据集的具有挑战性的场景以及我们新创建的Messy Rooms数据集上优于最先进的方法,这证明了我们的慢速聚类方法的有效性和可扩展性。
IEEE国际计算机视觉会议,第16634-16644页,2023年10月
@诉讼{Kloepfer23a,author=“多米尼克·克罗普费尔(Dominik Kloepfer)、迪伦·坎贝尔(Dylan Campbell)和若奥~F.亨里克(Joao~F.Henriques)”,title=“LoCUS:从姿势图像中学习多尺度三维一致特征”,booktitle=“IEEE计算机视觉国际会议”,pages=“16634-16644”,月=“十月”,年=“2023”,}
对于像机器人这样的自主代理来说,一个重要的挑战是保持世界在空间和时间上的一致模型。它必须通过遮挡、先前的视图和长时间范围(例如,环路闭合和重新识别)来保持。如何在没有监督的情况下训练这样一种多功能的神经表征仍然是一个悬而未决的问题。我们的出发点是,训练目标可以作为一个补丁检索问题来构建:给定场景中一个视图中的图像补丁,我们希望在映射到同一真实世界位置的其他视图中检索(高精度和召回)所有补丁。一个缺点是,这个目标并没有促进功能的重用:由于表示对于场景来说是唯一的(达到完美的精确性/召回率),因此表示在其他场景的上下文中没有用处。我们发现,通过仔细构建检索集,去掉映射到远处位置的补丁,可以平衡检索和重用性。类似地,我们可以通过调整空间容差来容易地调节学习特征(例如,点、对象或房间)的尺度,以将检索视为正的。我们在一个统一的基于等级的目标中优化(平滑)平均精度(AP)。这个目标同时也是选择地标或关键点作为高AP补丁的标准。我们展示了创建由高度可识别的地标组成的稀疏、多尺度、语义空间地图的结果,以及在地标检索、定位、语义分割和实例分割中的应用。
2023年IEEE国际计算机视觉会议
@诉讼中{Xia23,author=“阎霞、玛丽亚·格拉德科娃、王芮、李倩云、乌维·斯蒂拉、若奥~F.亨利克斯和丹尼尔·克莱默斯”,title=“CASSPR:交叉注意力单扫描位置识别”,booktitle=“IEEE计算机视觉国际会议”,年份=“2023”,}
基于点云的位置识别(LiDAR)是自主机器人或自动驾驶车辆的重要组成部分。当前的SOTA性能是通过使用基于点或基于体素的结构在积累的LiDAR子图上实现的。虽然基于体素的方法很好地跨多个尺度集成了空间上下文,但它们没有表现出基于点的方法的局部精度。因此,现有方法难以在稀疏单次激发激光雷达扫描中对细微几何特征进行精细匹配。为了克服这些局限性,我们提出CASSPR作为一种使用交叉注意变换器融合基于点和基于体素的方法的方法。CASSPR利用稀疏体素分支以较低分辨率提取和聚集信息,并利用点式分支获取细粒度的局部信息。CASSPR使用来自一个分支的查询来尝试匹配另一个分支中的结构,确保两者都提取点云的自包含描述符(而不是一个分支占主导地位),但使用两者来通知点云的输出全局描述符。大量实验表明,CASSPR在几个数据集(Oxford RobotCar,TUM,USyd)上以很大的优势超过了最先进的技术。例如,它实现了银币@1在TUM数据集上为85.6%,超过了之前最强的模型15%。我们的代码是公开的。
2022年国际学习代表大会
@会议记录{Franzmeyer22,author=“蒂姆·弗兰兹梅耶(Tim Franzmeyer)、马特乌斯·马林诺夫斯基(Mateusz Malinowski)和若奥~F.亨里克(Joao~F.Henriques)”,title=“在没有外部奖励的强化学习中学习利他行为”,booktitle=“学习代表国际会议”,年=“2022”,}
人工智能体能在不知道目标是什么的情况下学会帮助他人实现目标吗?通用强化学习代理可以通过奖励他们的利他行为,即奖励他们在特定情况下为其他代理带来利益,从而训练他们以利他的方式对待他人。这种方法假设其他代理人的目标是已知的,以便利他主义代理人能够合作实现这些目标。然而,通常很难获得其他代理目标的明确知识。就人类代理人而言,他们的目标和偏好可能难以充分表达;它们可能模棱两可,甚至相互矛盾。因此,培养不依赖外部监督的代理人并以任务认知的方式学习利他行为是有益的。我们建议通过给其他代理人更多的选择,让他们更好地实现目标,从而对他们采取利他主义行为。一些具体的例子包括为他人敞开大门或保护他们不受干扰地追求自己的目标。我们形式化了这个概念,并提出了一个利他主义代理,该代理通过倾向于最大化其他代理在其未来可以达到的状态数来学习增加其他代理的选择。我们在三种不同的多代理环境中评估我们的方法,其中另一个代理的成功取决于利他行为。最后,我们表明,我们的无监督代理可以与经过明确训练的代理进行类似的合作,在某些情况下甚至比他们表现更好。
2022年欧洲计算机视觉会议
@在诉讼中{Insafutdinov22,author=“埃尔达尔·因萨福丁诺夫(Eldar Insafutdinov)、迪伦·坎贝尔(Dylan Campbell)和若奥(Joao)~F.亨利克斯(F.Henriques)和安德烈亚·维达尔迪(Andrea Vedaldi)”,title=“SNeS:从不完整数据中学习可能对称的神经表面”,booktitle=“欧洲计算机视觉会议”,年=“2022”,publisher=“Springer”,}
我们提出了一种对部分对称物体进行精确三维重建的方法。我们基于神经重建和渲染领域的最新进展,如神经辐射场(NeRF)。这种方法的一个主要缺点是,它们无法重建训练图像中不清晰可见的对象的任何部分,这通常是在真实图像和视频中的情况。当缺乏证据时,可以使用对称性等结构先验来完成缺失的信息。然而,在神经渲染中利用这些先验信息是非常重要的:虽然几何体和非反射材质可能是对称的,但来自环境场景的阴影和反射通常是不对称的。为了解决这个问题,我们对3D几何体和材质属性应用了软对称约束,将外观因素化为照明、反照率颜色和反射率。我们在最近引入的CO3D数据集上评估了我们的方法,由于重建高反射材料的挑战,我们将重点放在汽车类别上。我们表明,它能够以高保真度重建未观察到的区域,并渲染出高质量的新视图图像。