LangProp:一个代码优化框架,使用应用于驾驶的大型语言模型

石田淑

概要:LangProp是一个框架,它根据培训目标使用LLM(大型语言模型)优化代码。候选代码根据训练数据集进行评估,根据其性能重新分类,并使用LLM进行更新。我们应用LangProp来优化自动驾驶代理的代码,在CARLA基准测试中,它的性能优于许多人工编写的驾驶系统。

[纸类·海报·项目页面·代码]
LangProp论文概述
LangProp概述。LangProp是一个用于优化LLM生成的代码的框架。我们评估了LangProp在CartPole上的性能,解决了广义M x N数独,以及在CARLA模拟器中的自动驾驶。

我们可以用ChatGPT开车吗?

您可能已经使用ChatGPT编写电子邮件、总结文档、查找信息或帮助调试代码。但是,我们可以更进一步,让ChatGPT驾驶汽车吗?

这是我在开始工作时想回答的问题Wayve路去年三月。Wayve是伦敦一家自主驾驶初创公司,将端到端学习应用于城市驾驶的挑战性问题。当时,该公司正准备启动LLM研究团队,该团队已成功开发LINGO-1和LINGO-2。AutoGPT刚刚问世,而旅行者号还没有问世。然而,LLM造成的破坏是显而易见的。问题是,我们如何利用这项新技术来驾驶,在这个领域,语言不是主要的形式?

在这篇博客文章中,我想概述一下我们的论文LangProp我们于2024年5月在ICLR(学习代表国际会议)的LLM代理研讨会上介绍了该报告。

石田淑2024年6月29日

SNeS:从不完整数据中学习可能对称的神经曲面

迪伦·坎贝尔

概述:SNeS是一种神经网络,它使用从单面拍摄的一组姿势图像重建一个最对称的物体,并呈现出令人信服的非可视面的新颖视图图像。

[纸类·项目页面·代码]

问题

你开车时经过一辆停着的汽车。你身边有什么没有看到了吗?大概吧印象派纹理和融合几何的幻影,就像莫奈和达利的混合体。然而,这就是NeRF等最先进的神经渲染模型[1]和NeuS[2]最多只能预测。如果一个孩子能准确地看到汽车看不见的一面,我们怎么能让我们的模型也这样做呢?

通过改造驱动。
驾驶再现:从一系列观察过往汽车的帧中,我们的模型同时从数据中学习对称变换的参数,并将对称性作为软约束来重建模型,尽管可见侧和不可见侧之间的视图密度存在显著差异。学习到的对称性允许SNeS在整个模型中共享信息,从而实现更准确的重建和更高精度的新合成视图。
迪伦·坎贝尔2022年7月18日

CALVIN-一种可以学习规划和导航未知环境的神经网络

石田树

小结:CALVIN是一种神经网络,可以在新的3D环境中规划、探索和导航。它通过专家演示学习解决迷宫等任务。我们的工作基于价值迭代网络(VIN)[1],这是一种动态构建计划的递归卷积神经网络。虽然VIN在完全已知的环境中工作良好,但CALVIN甚至可以在未知环境中工作,在这种环境中,代理必须探索环境才能找到目标。

[纸类·项目页面·代码]

问题

我们要解决的问题是演示中的视觉导航。给定RGB-D图像的固定数量的专家轨迹和所采取的操作,机器人代理必须学会如何导航。虽然使用自上而下的地图来定义障碍和目标很容易进行规划,但如果代理必须从RGB-D图像中了解障碍和目标的性质,则更具挑战性。

代理将一系列图像和动作视为专家演示
代理将一系列图像和动作视为专家演示

导航的另一个重要方面是探索。我们的代理开始时对新环境一无所知,因此它必须在导航时构建环境地图,并学习探索最可能通向目标的区域。

代理人学会预测最能解释专家演示的奖励
代理学会预测最能解释专家演示的奖励。高值为亮(黄色),低值为暗,专家的轨迹为虚线,代理的轨迹为实线。

为了使代理能够在未经培训的环境中导航,它必须学习一些适用于所有环境的通用知识。特别是,我们将重点学习一个共享的转换模型和奖励模型,该模型可以最好地解释专家演示,然后可以应用于新的设置。

代理学习可在所有环境中重用的运动动力学
代理学习可在所有环境中重用的运动动力学。每个面板显示了在8个主要方向中的每个方向进行移动操作时,在代理周围的本地邻居着陆的概率;静止状态对应于面板中心的单一高概率(亮度值)。
石田树2022年6月2日

从野外图像中无监督学习可能对称的可变形三维物体

吴尚哲(Shangzhe Wu)、克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)

摘要:我们提出了一种从原始单视图图像中学习弱对称可变形3D对象类别的方法,无需地面真实3D、多视图、2D/3D关键点、先前的形状模型或任何其他监督。

这项工作已收到CVPR 2020最佳论文奖.

[纸类·项目页面·代码]

演示

演示摘要

吴尚哲(Shangzhe Wu)、克里斯蒂安·鲁普雷希特(Christian Rupprecht)和安德烈亚·维达尔迪(Andrea Vedaldi)2020年2月26日

通过同时聚类和表示学习实现自我标记

Yuki M Asano和Christian Rupprecht

摘要:我们开发了一种自我监督学习公式,通过优化特征和标签的共同交叉熵损失,同时最大化信息,从而同时学习特征表示和有用的数据集标签。此方法可用于为任何图像数据集生成标签。

[纸类·代码]

从未标记数据中学习可以显著降低将算法部署到新应用程序的成本,从而扩大机器学习在现实世界中的影响。自我监督是一种越来越流行的学习框架标签。其想法是定义借口学习任务可以仅从原始数据构建,但这仍然会导致神经能够很好地转换为有用应用程序的网络。自我监控的大部分研究都集中在设计新的课前任务上。然而,鉴于监管数据作为ImageNet公司,标准分类目标仍然是最小化交叉熵损失与任何此类方法相比,预训练效果更好(对于一定数量的数据和模型复杂性)。这表明,分类任务可能足以对网络进行预培训,前提是适当的数据标签可用。本文通过设计一个自动标记算法。

Yuki M Asano和Christian Rupprecht2020年2月14日

ShapeStacks:赋予机器人物理直觉

奥利弗·格罗斯

概要:物理直觉是人类的超能力。它使我们能够在无数场景中应用我们卓越的对象操作技能,从玩玩具到使用工具。ShapeStacks项目旨在为机器人提供一个虚拟游乐场,让机器人能够获得物理体验,从而为机器人提供类似的直觉。

ShapeStacks场景示例

[纸类·代码·数据]

我们大多数人可能以前玩过Jenga游戏,在厨房里处理过一堆脏盘子,或者用锤子把钉子敲进一块木头。当我们试图建造一台能够做同样事情的机器时,这些简单日常任务的内在复杂性立即变得清晰起来。机器人本质上是一种集成了传感、运动和操作的计算机。和所有计算机一样,它们首先是快速精确的计算器。然而,尽管他们拥有强大的数字运算能力(这使他们能够在几秒钟内完成复杂的物理和几何计算),但他们在基本的对象操作方面仍有很大困难。另一方面,人类的算术准确度只有计算机的一小部分,但仍然能够“计算”四肢的准确运动(例如,在钉子的头上挥动锤子)和估计周围物体的物理状态(例如判断一堆盘子的稳定性)。

奥利弗·格罗斯2019年1月15日

VGG图像注解器

阿比谢克·杜塔

概述:VGG图像注释器(VIA)是一个手动图像注释工具,使用起来非常简单,您可以在不到一分钟的时间内启动并运行此应用程序。VIA在大多数现代web浏览器中运行,不需要任何安装。整个应用程序非常小,不到400KB,因此可以通过电子邮件轻松共享。该图像注释工具不仅对计算机视觉研究有用,而且还被用于其他学科,如人文、历史、动物学等,自2017年4月发布以来,已被使用超过23万次。这篇博客文章强调了VIA的主要特性,讨论了它的影响,最后描述了围绕VIA项目蓬勃发展的开源生态系统。

介绍

手动图像注释示例使用VGG图像注释器进行手动图像注释的示例(VIA公司)

手动图像注释是定义图像中的区域并使用文本元数据描述这些区域的过程。这些区域可以具有任意形状,并且大多由操作员绘制。我们开发了一个开源软件,称为VGG图像注释器(VIA公司),允许对图像进行手动注释。VIA最重要的功能之一是它不需要任何安装,新用户可以快速开始使用此软件。此外,由于这是一个开放源码项目,用户可以更新源代码以满足他们的特定需求,而且许多人已经选择这样做。以下是VIA的一些重要功能列表:

阿比谢克·杜塔,2018年10月17日

比较器网络

谢伟迪

摘要:我们提出了一种深度神经网络(比较器网络)来进行集合验证,例如确定两组图像是否属于同一类别。

动机

验证通常是许多实际应用的中心,例如生物特征识别、安全性、检索和跟踪。作为传统图像到图像验证的推广,这里我们考虑设置到设置的情况,其中,每组可以包含任意数量的面部图像,例如单个图像或视频中的帧序列。要从多个图像中聚合信息,最简单的方法是使用平均值来表示整个集合。

问题场景

然而,这个过程首先为每个面生成一个向量,然后简单地求平均值,错过了以四种方式使用更多可用信息的可能性:

谢伟迪,2018年10月5日

看到声音和听到面孔

阿尔沙·纳格拉尼

小结:我们通过关注人们讲话的视频,探讨了跨模式学习中音频和视频之间的关系。

迪哈德麦克莱恩在《DieHard》中与鲍威尔通话

人的脸和声音有多相似?如果你只听到某人的声音,你能认出他的脸吗?或者,如果你只看到他们的脸,就能认出他们的声音?作为人类,我们可以通过在只听到一个人的声音后形成一个人的心理图像来“看到声音”或“听到脸”,反之亦然。

如果你看过电影《虎胆龙威》,你可能会记得约翰·麦克莱恩(布鲁斯·威利斯饰)在电影结束时从大楼里走出来的场景,他能立即认出警察(阿尔·鲍威尔中士),他在整个电影中只通过无线电与他通话,但从未见过他。


虽然你可能凭直觉相信这一点,但卡马奇等人等人类心理学家实际上已经研究了这个现象通过要求参与者执行二进制强制匹配任务。他们被要求听一个人的声音,然后从随后呈现的两张人脸图像中选择一张相同身份的匹配人脸。

阿尔沙·纳格拉尼,2018年9月28日

使用深层网络映射环境

乔·恩里克

摘要:我们教一个深度神经网络从视频中创建其环境的内部映射,并将其用于自定位。我们在玩具/游戏数据和真实机器人的图像上对其进行了测试。关于如何实现这一点,也有一些有趣的技术细节。

嗨,欢迎来到VGG博客的第一期!在这个空间里,我们将分享一些(希望如此)令人兴奋的发现,我们在实验室里取得的,以及我们在计算机视觉和深度学习的交叉点上发现的有趣的东西。不时收听(或使用我们的RSS(RSS)feed)进行新一轮的非正式研究讨论。

我叫João,一直在教神经网络从视频中执行同时定位和映射(SLAM)。从表面上看,这似乎是相对利基的——为什么要构建地图?这与公认的,经典SLAM系统?原因是我认为绘制地图是走向更大事物的第一步。

机器人视觉

在计算机视觉中,我们习惯于从图像或视频中进行预测——检测、分割,甚至深度。但如果我们想最终让自主代理四处移动并为我们做有用的事情,他们需要一个稳定的超越当前观点的世界模型。其中一个例子是对象持久性–知道一个物体仍然存在,即使在看不见的时候也可能在同一个地方。这个“地方”应该是相对于岩石坚实的以世界为中心的起源,而不是不断变化的以相机为中心的来源。这种知识使你能够制定比仅考虑当前观点时更大、更复杂的计划,例如记住厨房里有美味三明治的配料,并计划如何使用它们。

乔·恩里克,2018年7月6日