跳到内容
人工智能

机器人即将拥有自己的ChatGPT时刻吗?

研究人员正在使用生成性人工智能和其他技术来教授机器人新技能,包括他们可以在家中执行的任务。

伸展机器人在其抓握器中呈现玫瑰
彼得·亚当斯

沉默。刚性。笨拙的。

亨利和简·埃文斯习惯了尴尬的房客。十多年来,这对住在加利福尼亚州洛斯阿尔托斯山的夫妇在家中接待了大量机器人。 

2002年,40岁的亨利中风,导致四肢瘫痪,无法说话。从那以后,他学会了如何通过在信纸上移动眼睛来交流,但他高度依赖护理人员和他的妻子简。 

2010年,当亨利在美国有线电视新闻网(CNN)上看到查理·坎普(Charlie Kemp)时,他看到了另一种生活的曙光。佐治亚理工大学的机器人学教授肯普在电视上谈论由Willow Garage公司开发的机器人PR2。PR2是一种巨大的双臂轮式机器,看起来像一个粗糙的金属管家。肯普是演示机器人如何工作以及谈论他关于医疗机器人如何帮助人们的研究。他展示了PR2机器人如何将药物递给电视主持人。   

简说:“突然,亨利转向我说,‘为什么那个机器人不能成为我身体的延伸?’我说,‘为什么不能?’”。 

为什么不呢,这是有充分的理由的。虽然工程师们在让机器人在实验室和工厂等严格控制的环境中工作方面取得了很大进展,但事实证明,这所房子很难设计。在现实的、凌乱的世界中,家具和平面图差别很大;儿童和宠物可以在机器人面前跳跃;需要折叠的衣服有不同的形状、颜色和尺寸。即使是最先进的机器人原型也无法管理这种不可预测的设置和各种条件。 

这似乎终于改变了,很大程度上要归功于人工智能。几十年来,机器人学家或多或少关注于控制机器人的“身体”——手臂、腿、杠杆、轮子,以及类似的视觉驱动软件。但新一代科学家和发明家认为,人工智能之前缺失的成分可以让机器人比以往更快地学习新技能和适应新环境。这种新方法也许最终能将机器人从工厂带到我们的家中。 

不过,进展不会一蹴而就,埃文斯夫妇从多年来使用各种机器人原型的经历中就知道了这一点。 

PR2是他们引进的第一个机器人,它为亨利开启了全新的技能。它会装着一个剃须刀,亨利会把脸靠在它上,这样他就可以自己刮胡子和搔痒了十年来第一次但这款机器人的重量约为450磅(200公斤),售价为40万美元,很难随身携带。简说:“它可以很容易地把你房子里的墙拆掉。”。“我不是一个超级粉丝。”

最近,埃文斯夫妇一直在测试一种叫做“伸展”的小型机器人,这是肯普通过他的创业公司Hello robot开发的。大流行期间推出的第一代产品价格更合理,约为18000美元

拉伸重约50磅。它有一个小的移动底座,一根挂着相机的棍子,一个可调节的手臂,末端有一个吸盘。它可以用控制台控制器控制。Henry使用笔记本电脑控制Stretch,该工具可以跟踪他的头部运动,从而移动光标。他能够移动拇指和食指,足以点击电脑鼠标。去年夏天,斯特里奇和这对夫妇相处了一个多月,亨利说这给了他一个全新的自主权。他说:“这很实用,我可以看到每天都在使用它。”。 

一只机器人手臂将刷子举过躺在枕头上的亨利·埃文斯的头
亨利·埃文斯(Henry Evans)用伸展机器人给自己梳头、吃饭,甚至和孙女玩耍。
彼得·亚当斯

使用他的笔记本电脑,他可以让机器人给他梳头,并让它拿着水果烤肉串给他吃。这也打开了亨利与孙女特迪的关系。以前,他们几乎没有互动。简说:“她一点也没有拥抱他说再见。没什么。”。但“Papa Wheelie”和Teddie使用Stretch进行比赛,包括接力赛、保龄球和磁性钓鱼。 

Stretch没有太多智能:它附带了一些预先安装的软件,例如Henry用来控制它的web界面,以及其他功能,例如支持AI的导航。Stretch的主要好处是人们可以插入自己的人工智能模型并使用它们进行实验。但它提供了一个有用的家用机器人世界的一瞥。自20世纪50年代该领域成立以来,机器人一直是机器人研究领域的梦想,它可以完成人类在家中做的许多事情,例如叠衣服、做饭和清洁。坎普说,很长一段时间以来,一直是这样:“机器人充满了梦想家。”。

但加州大学伯克利分校的机器人学教授肯·戈德伯格(Ken Goldberg)表示,该领域正处于一个转折点。他说,以前建造一个有用的家用机器人的努力,严重地未能满足大众文化的期望——想想来自杰森一家现在情况大不相同了。得益于像Stretch这样的廉价硬件,再加上收集和共享数据的努力以及生成性人工智能的进步,机器人变得比以往任何时候都更有能力、更有帮助。Goldberg说:“我们正处于一个非常接近于获得真正有用的能力的阶段。”。 

今天,AI驱动的机器人正在学习做一些对他们的前辈来说非常困难的任务,比如叠衣服、煮虾、擦拭表面、卸购物篮。 

缺失的零件

机器人学家有一个众所周知的观察:对人类来说困难的东西对机器来说容易,而对人类来说容易的东西对机械来说却很难。这被称为莫拉维克悖论,最早是由汉斯·莫拉韦克(Hans Moravec)于20世纪80年代提出的,当时他是美国机器人学会(Robotics Institute of卡内基梅隆大学机器人可以下棋或连续数小时不动物体。系鞋带、接球或聊天是另一回事。 

戈德伯格说,这有三个原因。首先,机器人缺乏精确的控制和协调。第二,他们对周围世界的理解是有限的,因为他们依赖摄像机和传感器来感知。第三,他们缺乏与生俱来的实用物理学意识。 

戈德伯格说:“拿起一把锤子,它很可能会从你的夹子上掉下来,除非你抓住它靠近重物的地方。但如果你只是看着它,你就不知道它是如何工作的。”。 

除了这些基本考虑因素外,还有许多其他技术方面的问题需要解决,从电机到摄像头再到Wi-Fi连接,硬件可能会非常昂贵。 

在机械方面,我们已经能够做相当复杂的事情有一段时间了。在一个1957年的视频,两个巨大的机器人手臂足够灵巧,可以捏一支香烟,放在打字机旁的一位女士嘴里,然后重新涂上口红。但机器人的智能和空间感知来自于操作它的人

“”
在1957年的一段视频中,一名男子操作两个大型机械臂,并用机器为一名女子涂口红。自那以后,机器人已经走过了很长的路。
《新闻的光明面——原子机器人——一个笨手笨脚的家伙》(1957)通过YOUTUBE

卡内基梅隆大学计算机科学助理教授Deepak Pathak说:“缺少的是:我们如何让软件自动完成这些事情?”。 

训练机器人的研究人员传统上是通过对机器人所做的每一件事进行极其详细的规划来解决这个问题的。机器人巨头波士顿动力公司(Boston Dynamics)在开发其仿人机器人阿特拉斯(Atlas)时使用了这种方法。摄像机和计算机视觉用于识别物体和场景。然后,研究人员利用这些数据建立模型,用于极其精确地预测机器人以特定方式移动时会发生什么。使用这些模型,机器人专家通过编写一个非常具体的操作列表来规划机器的运动。然后,工程师们在实验室里多次测试这些动作,并将其调整到完美。 

这种方法有其局限性。像这样训练的机器人经过严格的舞蹈设计,可以在一个特定的环境中工作。把它们带出实验室,放到一个陌生的地方,它们很可能会翻倒。 

Pathak说,与计算机视觉等其他领域相比,机器人技术一直处于黑暗时代。但这种情况可能不会持续太久,因为该领域正在经历一场大的调整。他说,由于人工智能的蓬勃发展,现在的重点正从身体灵活性的壮举转移到以神经网络的形式构建“通用机器人大脑”。虽然人脑具有很强的适应性,可以控制人体的不同方面,但这些网络可以适应不同的机器人和不同的场景。这项工作的早期迹象表明取得了可喜的成果。 

机器人,遇到AI

长期以来,机器人研究是一个不可饶恕的领域,进展缓慢。在帕塔克工作的卡内基梅隆机器人研究所,他说:“过去有句俗话说,如果你触摸机器人,你的博士学位就会增加一年。”现在,他说,学生们可以接触到许多机器人,几周内就能看到结果。

这批新机器人的区别在于他们的软件。机器人专家已经开始使用深度学习和神经网络来创建系统,在移动中从环境中学习并相应地调整其行为,而不是传统的艰苦规划和培训。与此同时,新的、更便宜的硬件,如非现成组件和机器人(如Stretch),使得这种实验更容易进行。 

从广义上讲,研究人员使用人工智能训练机器人有两种流行的方式。Pathak一直在使用强化学习,这是一种人工智能技术,允许系统通过尝试和错误来改进,让机器人适应新环境中的动作。波士顿动力公司(Boston Dynamics)也开始在名为“斑点”(Spot)的机器人“狗”中使用这种技术。

“带腿部机器人的极致公园”,许新成等人。
“带腿部机器人的极致公园”,许新成等人。
“带腿部机器人的极致公园”,许新成等人。
“带腿部机器人的极致公园”,许新成等人。

卡内基梅隆大学的Deepak Pathak团队使用一种称为强化学习的人工智能技术,创造了一种机器人狗,它可以通过最少的预先编程完成极限跑酷运动。

2022年,Pathak的团队使用此方法创建四条腿的机器人“狗”能够爬上台阶,在复杂的地形上行走。这些机器人首先被训练成在模拟器中以一般方式移动。然后他们在现实世界中被释放,用一个内置的摄像头和计算机视觉软件来引导他们。其他类似的机器人依赖严格规定的世界内部地图无法超越它们。

Pathak说,该团队的方法受到了人类导航的启发。人类通过眼睛接收周围世界的信息,这有助于他们本能地将一只脚放在另一只脚前面,以适当的方式四处走动。人类走路时通常不会低头看脚下的地面,而是往前走几步,在他们想去的地方。Pathak的团队训练机器人采取类似的行走方式:每个机器人都使用摄像机向前看。然后,机器人能够长时间记住前面的内容,以指导其腿的放置。机器人在没有内部地图的情况下实时了解世界,并相应地调整其行为。当时,专家告诉麻省理工学院技术评论这项技术是“机器人学习和自主性方面的突破”,可以让研究人员建造能够在野外部署的腿机器人。   

帕塔克的机器狗已经升级了。该团队的最新算法允许四足机器人极限跑酷机器人再次接受了模拟训练,能够以一般方式移动。但通过强化学习,它可以在移动中自学新技能,例如如何跳远、如何用前腿行走、如何爬上两倍于自身高度的高箱子。这些行为并不是研究人员设定的。相反,机器人通过试错和前置摄像头的视觉输入进行学习。“三年前我不相信这是可能的,”Pathak说。 

在另一种被称为模仿学习的流行技术中,模型通过模仿人类遥控机器人的动作或使用VR耳机收集机器人的数据来学习执行任务。丰田研究所(Toyota research Institute)机器人研究副总裁兼麻省理工学院(MIT)教授拉斯·特德雷克(Russ Tedrake)表示,这项技术几十年来一直风靡一时,但最近在执行操纵任务的机器人中更受欢迎。

通过将这项技术与生成性人工智能相结合,丰田研究所、哥伦比亚大学和麻省理工学院的研究人员能够快速教会机器人完成许多新任务。他们相信,他们已经找到了一种方法,将推动生成人工智能的技术从文本、图像和视频领域扩展到机器人运动领域。 

这个想法是从一个人开始,由他手动控制机器人来演示诸如打鸡蛋或捡盘子之类的行为。使用一种称为扩散政策之后,机器人可以使用输入的数据学习技能。研究人员已经教给机器人200多种技能,例如剥蔬菜和倒液体,并表示他们正在努力在年底前教给机器人1000种技能。 

许多其他人也利用了生成性人工智能。Covariant是一家机器人创业公司,从OpenAI现在封闭的机器人研究部门分离出来,它已经建立了一个多模式名为RFM-1的模型它可以接受文本、图像、视频、机器人指令或测量等形式的提示。生成性人工智能允许机器人理解指令并生成与这些任务相关的图像或视频。 

Tedrake说,丰田研究所团队希望有一天这将导致“大型行为模型”,这类似于大型语言模型。他说:“很多人认为行为克隆将使我们进入机器人ChatGPT时代。”。 

在今年早些时候的一次类似的演示中,斯坦福大学的一个团队成功地使用了一个价格相对便宜、价值32000美元的无人机来完成复杂的操作任务,例如煮虾和清洗污渍。它通过人工智能快速学习了这些新技能

打电话移动ALOHA(“一个低成本的开源硬件远程操作系统”的松散缩写),机器人通过20个人类演示和其他任务的数据(例如撕下纸巾或胶带)学习烹饪虾。斯坦福大学的研究人员发现,人工智能可以帮助机器人获得可转移的技能:训练一项任务可以提高其他任务的性能。

丰田研究院
丰田研究院
丰田研究院
丰田研究院

虽然当前一代的生成人工智能与图像和语言有关,但丰田研究所、哥伦比亚大学和麻省理工学院的研究人员认为,这种方法可以扩展到机器人运动领域。

这一切都为在家中使用机器人奠定了基础。随着时间的推移,人类的需求会发生变化,教机器人可靠地完成各种任务非常重要,因为这将帮助它们适应我们的需要。这对商业化也至关重要——第一代家用机器人的价格会很高,机器人需要有足够的有用技能,让普通消费者愿意投资于它们。 

斯坦福大学计算机科学和电子工程助理教授、Mobile ALOHA项目顾问Chelsea Finn表示,长期以来,机器人界对这种方法持怀疑态度。芬恩说,近十年前,基于学习的方法在机器人会议上很少见,在机器人界受到了贬低。她说:“[自然语言处理]的繁荣让社区更多的人相信,这种方法真的非常强大。”。 

然而,有一个问题。为了模拟新的行为,人工智能模型需要大量数据。 

更多就是更多

与聊天机器人不同,聊天机器人可以使用互联网上收集的数十亿个数据点进行训练,机器人需要专门为机器人创建的数据。纽约大学计算机科学助理教授勒勒·平托(Lerre Pinto)表示,他们需要实物演示如何打开洗衣机和冰箱,如何拿起盘子,如何折叠衣物。目前,数据非常稀缺,人类需要很长时间才能收集到。

顶部框架显示一个人用抓取器记录自己打开厨房抽屉的过程,底部显示一个机器人正在尝试同样的动作
“关于带机器人回家”,NUR MUHAMMAD(MAHI)SHAFIULLAH等人。

一些研究人员正在尝试使用现有的人类活动视频来训练机器人,希望机器能够在不需要物理演示的情况下复制动作。 

平托的实验室还开发了一种简洁、廉价的数据收集方法,将机器人的动作与期望的动作联系起来。研究人员拿了一个类似于捡拾垃圾的抓取器棒,并在上面安装了一部iPhone。人类志愿者可以使用这个系统拍摄自己做家务的过程,模仿机器人看到的机器人手臂末端。将此支架用于Stretch的机械臂和名为DOBB-E的开源系统Pinto的团队能够让一个Stretch机器人学习一些任务,比如从杯子里倒水和打开浴帘,只需要20分钟的iPhone数据。 

但对于更复杂的任务,机器人需要更多的数据和更多的演示。 

Pinto说,使用DOBB-E很难达到所需的规模,因为你基本上需要说服地球上的每一个人购买采集系统,收集数据,并将其上传到互联网。 

谷歌DeepMind发起的一项新倡议,称为开放X实体协作,旨在改变这种状况。去年,该公司与34个研究实验室和大约150名研究人员合作,从22个不同的机器人(包括Hello Robot’s Stretch)收集数据。结果数据集于2023年10月发布,由显示527项技能的机器人组成,例如拾取、推动和移动。 

参与该项目的加州大学伯克利分校计算机科学家谢尔盖·莱文(Sergey Levine)表示,其目标是通过收集世界各地实验室的数据来创建“机器人互联网”。这将使研究人员能够获得更大、更可扩展和更多样的数据集。导致当今生成性人工智能的深度学习革命始于2012年ImageNet的兴起,一个庞大的在线图像数据集。Open X-Embodiment Collaboration是机器人社区对机器人数据进行类似操作的尝试。 

早期迹象表明,更多的数据正在导致更智能的机器人。研究人员建立了两个版本的机器人模型,称为RT-X,可以在单个实验室的计算机上本地运行,也可以通过网络访问。这个更大的、可上网的模型用互联网数据进行了预处理,以从大型语言和图像模型中发展出“视觉常识”或对世界的基线理解。 

当研究人员在许多不同的机器人上运行RT-X模型时,他们发现这些机器人学习技能的成功率比每个实验室正在开发的系统高50%。

谷歌DeepMind机器人主管文森特·范胡克(Vincent Vanhoucke)表示:“我认为没有人预见到这一点。”。“突然之间,有了一条基本利用所有其他数据源的途径,可以在机器人领域实现非常智能的行为。”

范胡克说,许多机器人专家认为,能够分析图像和语言数据的大型视觉语言模型可能会为机器人提供有关周围世界如何工作的重要提示。它们提供了关于世界的语义线索,可以帮助机器人进行推理、推理和通过解释图像学习。为了测试这一点,研究人员取了一个在大模型上训练过的机器人,让它指向泰勒·斯威夫特的照片。Vanhoucke说,研究人员没有展示Swift的机器人照片,但它仍然能够识别这位流行歌星,因为它对她是谁有着网络级的了解,即使数据集中没有她的照片。

“”
RT-2是一种最新的机器人控制模型,它是根据在线文本和图像以及与现实世界的交互进行训练的。
凯西·麦克莱伦

Vanhoucke表示,谷歌DeepMind越来越多地使用类似于机器翻译的技术,将英语翻译成机器人。去年夏天,谷歌推出了视觉语言动作模型RT-2该模型从其接受过培训的在线文本和图像以及其在现实世界中的交互中获得对世界的一般理解。它将数据转换为机器人动作。他补充道,每一个机器人都有一种稍微不同的方式将英语翻译成动作。 

Vanhoucke说:“我们越来越觉得机器人本质上是一个会说机器人话的聊天机器人。”。 

婴儿步

尽管发展速度很快,机器人在进入现实世界之前仍然面临许多挑战。对于普通消费者来说,它们仍然太笨拙,无法证明在它们身上花费数万美元是合理的。机器人还缺乏让他们能够同时执行多项任务的常识。Goldberg举例说,他们需要从捡起东西放在某处转变为把东西放在一起,把一副纸牌或一个棋盘游戏放回盒子里,然后放进游戏柜。 

Pinto说,但从人工智能与机器人集成的早期结果来看,机器人专家并没有浪费时间。 

他说:“我很有信心,我们将看到一些通用家用机器人的外观。现在,它能为公众所用吗?我不这么认为。”。“但就原始情报而言,我们现在已经看到了迹象。”

建造下一代机器人不仅可以帮助人类完成日常家务,也可以帮助亨利·埃文斯(Henry Evans)这样的人过上更加独立的生活。对于像平托这样的研究人员来说,还有一个更大的目标在望。

他说,家用机器人为人机智能提供了最好的基准之一。他补充道,人类可以在家庭环境中智能操作,这意味着我们知道这是一种可以达到的智能水平。 

他说:“这是我们可以潜在解决的问题。我们只是不知道如何解决。”。 

埃文斯在电脑屏幕前。一张摆着扑克牌的桌子把他和房间里的另外两个人隔开了
多亏了Stretch,亨利·埃文斯20年来第一次能够拥有自己的扑克牌。
VY NGUYEN公司

对于亨利和简·埃文斯来说,一个巨大的胜利将是获得一个工作可靠的机器人。埃文斯夫妇试验过的Stretch机器人仍有很多问题,在没有研究人员在场进行故障排除的情况下无法使用,而且他们的家并不总是具备亨利使用笔记本电脑与Stretch通信所需的可靠Wi-Fi连接。

尽管如此,亨利说,他用机器人做实验的最大好处之一就是独立:“我所做的就是躺在床上,现在我可以自己做一些事情,包括操纵我的物理环境。”

得益于Stretch,20年来亨利第一次能够在比赛中持有自己的扑克牌。 

“我踢了大家好几次屁股,”他说。 

“好吧,我们在这里不要说得太大,”简笑着说。

深度潜水

人工智能

萨姆·奥尔特曼表示,乐于助人的特工将成为AI的杀手

Open AI的首席执行官表示,我们不需要新的硬件或更多的培训数据。

生成性视频的下一步是什么

OpenAI的Sora提高了AI电影制作的门槛。当我们思考即将发生的事情时,有四件事需要记住。

一家AI初创公司对我做了一个超现实的深度伪装,真是太好了,太可怕了

Synthesia的新技术令人印象深刻,但也提出了一个重大问题,即我们越来越无法分辨什么是真实的世界。

保持联系

Rose Wong插图

从获取最新更新
麻省理工学院技术评论

发现特别优惠、热门故事、,即将举行的活动等。

感谢您提交电子邮件!

浏览更多新闻稿

看起来好像出了问题。

我们无法保存您的首选项。尝试刷新此页面并更新一个更多的时间。如果您继续收到此消息,联系我们customer-service@technologyreview.com带有您想要接收的通讯列表。