波士顿动力机器人创始人:基于大语言模型的人形机器人任务能力相比人类有差距_ZAKER新闻
12 月 6 日 -7 日,2024 T-EDGE 创新大会暨钛媒体财经年会在北京市大兴区举办。2024 T-EDGE 创新大会暨钛媒体财经年会以 "ALL-in on Globalization ,ALL-in on AI" 为主题,汇聚全球科技和商业领导者,共同探讨人工智能对全球各行业的巨大影响,以及企业全球化增长新格局新趋势。作为钛媒体集团每年年终举办的科技和财经领域的顶级盛会,T-EDGE 一直代表了钛媒体在科技与经济前瞻性,以及推动国际创新交流上的高质量追求。
7 日上午 T-EDGE 全球 AI 论坛:All-in On AI会议上,人工智能研究所执行董事、波士顿动力机器人创始人 Marc Raibert(马克 · 雷伯特)以 "The Future of Dynamic Intelligent Robots(动态智能机器人未来)" 为主题,围绕 AI、机器人和波士顿动力业务等相关话题进行演讲。
雷伯特表示,AI 正在加速机器人技术发展,近两年,中国、美国、欧洲都有非常多的相关的技术进展。在他看来,机器人未来有两种 " 智力(智能)":一是身体如何运作的动态智能,通过感官控制机器人本体,运动的时候保持正常的机能;二是认知智能,使用语言实现 " 脑中所想 "。
" 如今正是涉足机器人领域的绝佳时机," 然而,雷伯特也强调,相对于人类所做的任务,AI 大语言模型(LLM)与人形机器人能做的任务之间,仍然会有非常大的差距。" 因此,我真的很期待,缩小基于语言的认知智能,和我们动态智能之间的差距。"
据悉,今年 75 岁的雷伯特,是 Boston Dynamics(波士顿动力机器人)创始人。在此之前,他曾任麻省理工学院计算机科学和电子工程系教授,以及卡内基 · 梅隆大学计算机科学和机器人学副教授。在卡内基 · 梅隆大学,雷伯特创立了一间研究动力机器人科学根据的实验室,并研发出第一款能自己平衡的跳跃机器人。
雷伯特指出,目前最快的机器人由波士顿动力制造,每小时高达 20 英里,其正在开发三种机器人,有 Spot 机器人、Stretch 仓储机器人以及 Atlas 人形机器人。
" 我们对机器人进行优化并使用强化学习,使其运行速度提高了约 2.5 倍。通过精准数据移植至机器人当中,速度提升到约为每秒 5.3m。" 雷伯特认为,开发机器人首先需要 " 平衡 ",两轮双足的 " 倒退 "、爬坡、扔到空中等动作非常关键,所以开发机器人硬件和软件都是同等的重要,而 AI 能够帮助它来检测地形、障碍,能够让机器人来决定需要做出什么样的动作。
如今,雷伯特已成立人工智能研究所,使命是成为机器人技术领域的贝尔实验室。" 我想借此机会说,我对机器人技术的兴奋主要不是因为出售它们赚了很多钱,而是要接受挑战,让这些机器人具有行为能力,智能开始达到人类的水平,就像攀登珠穆朗玛峰一样,会遇到很多挑战。" 雷伯特称。
对于火热的中国人形机器人发展,雷伯特是坚定的 " 怀疑派 "。在他看来,双足人形机器人需要以实用方式进行落地,这是发展之道。
" 人形机器人中使用强化学习,让机器人能够更好的进行导航和控制,我也非常期待在这方面硬件上能有更多的进展。"雷伯特强调,我们需要用科学的方式来看待机器人融入现实世界。
以下是Marc Raibert在钛媒体 2024T-EDGE 上的演讲实录,经钛媒体 AGI 整理:
我非常高兴来到这里,感谢您们邀请我做这次演讲。到目前为止,这是一次非常有趣的会议,我期待着今天听到有关各种 AI Project 的信息。
我喜欢机器人。我是一个终生的机器人。如今正是涉足机器人领域的绝佳时机,世界各地正在发生很多事情,无论是中国、美国还是欧洲。正在进行的工作令人惊奇,我觉得这个领域已经取得了长足的进步。我们已经取得了很大的进步。我们还有一些进展。
我想到 AI 时,想到的是两种智能:
一是身体如何运作的智能(动态智能),如何平衡自己。比如,我站在这里保持身体直立,因为我的大脑在通过感官控制自己的身体。动力智能在帮助我来运动的时候保持正常的机能,如判断其他人,周围的物体如何运动,来决定自己如何运动。这是机器人技术的重要组成部分,也是人类和动物工作方式的重要组成部分。
但还有另一种智能,可能在座的大多数人都更了解,那就是认知智能。我们在头脑中进行思考 " 脑中所想 ",我们认为它是在我们的头脑中使用语言。你们所有听我讲话的人都在利用你们的认知智能来理解我在说什么。
今晚我要坐飞机。我制定了一个计划,规定我必须离开的时间,以便及时到达机场办理登机手续。我们使用我们的认知智能来制定这样的计划。
在今天的演讲中,我将首先谈论我们波士顿动力公司过去多年来所做的主要关注运动智力的工作。然后我会谈谈我刚刚成立的一个新组织,称为人工智能研究所,该组织仍在研究运动智能,但将其与认知智能相结合,以便我们可以使机器人在现实世界中更智能,更容易交互,更实用。
当我开始时,我真的对动物能做的令人惊奇的事情很感兴趣。看看这只山羊的运动能力。它有它的一生,它在这里服务,这只猎豹正在为它的生命而奔跑,希望能得到一顿饭,并观察猎豹身体中的所有能量、顺从性和动态行为。它正在追赶的这只瞪羚。
人类也有很强的运动能力。这是我 2 岁半的孙子,他也在展示着他自己的动力智能,他有自己的认知体系,在我的后院来做些运动,这令人惊喜。
我们可以看到,所有的动物以及人类能够做到的所有的这些事情,在波士顿动力我们也希望能够给机器人动力智能,这是几年前,现在我们设计这样有着动力智能、动力控制的机器人,它有平衡感,它能够自我导航,它能够在冰面上行动,而且不受到周围的干扰。
在波士顿动力公司,我们在赋予机器人运动智能方面取得了一些进展。这是几年前的事,现在已经快 20 年前了,我们开发了一种独立的四足机器人,它具有动态控制功能,因此可以对其环境中的干扰做出反应。它具有平衡感和推进力。它可以做一些导航。在这里,机器人在冰冷的表面上行走。它能够捕捉到自己并平衡自己以应对干扰。我们建造了一系列使用这些技术的机器人。所有这些视频都在 YouTube 上。我不知道你是否可以在这里轻松访问 YouTube,但我确信一定有。该机器人未被驱动。它实际上是在使用视觉系统跟踪人类领袖,即使它在丛林中穿行。
你可能会问,为什么我们对腿如此感兴趣?在这种有 6 或 8 寸厚积雪的地形中,腿可以提供灵活性,但您仍然可以爬山。据我所知,这是有史以来最快的有腿机器人。它的时速几乎达到 20 英里,并且控制过程中充满了动力。开发控制系统来管理机器人移动时身体的所有能量,这对我们来说真的很令人兴奋。现在,这就是波士顿动力公司的工作历史。
但如今,该公司正在开发 3 种机器人:一种名为 Spot 的四足机器人,一种名为 Stretch 的仓库机器人,以及一种名为 Atlas 的人形机器人。
我将向您介绍每个项目的一些最新情况。
这是石油钻井平台上的现场机器人。世界各地大约有 2,000 台此类设备被用来在这样的设施中进行工业检查,而人工完成这些工作通常成本高昂且不方便。
首先,这种机器人能够利用传感器和腿在地形中上下楼,然后它可以对设备进行测量,以确定设备是否按照预期的方式工作或者是否需要注意,我相信您以前已经看过其中一些内容,所以我将跳过。正如我所说,大约有 2000 个现场机器人,主要分布在美国和欧洲,但也有一些分布在亚洲。我不知道中国是否有这样的公司,但作为一个机器人专家,可能有一件令人惊奇的事情,现在有几家公司以制造四足机器人为业务。
问题不在于我是否应该在设施中拥有一个有腿的机器人?而是我应该购买哪一个?哪一个拥有我想要的功能?(宇树)机器人是一家中国公司的产品。Swiss-Mile 是一家瑞士公司,尽管他们使用的是平台,但他们自己制造机器人,而其他两个是美国四头肌。
正如我所说,对于一名机器人专家来说,这是一个激动人心的时刻。这是一款专门设计用于从卡车上卸下箱子的机器人,全球每年处理大约 1 万亿个箱子。那不是 100 万,不是 10 亿,而是 1 万亿。
这是一项艰苦的工作,夏天炎热,冬天寒冷,大多数从事这项工作的人并不觉得这一切有多愉快。这个机器人有一个传感系统、一个视觉系统,所以它可以看到盒子并决定下一步要选择哪个进行处理。
该机器人正处于早期部署阶段。它被用于世界各地的许多大型仓库等。它正在投入生产,很快就会被更多人使用。
现在,波士顿动力公司的最新一个机器人是 Atlas。我想如果你对人工智能感兴趣,你一定见过 Atlas。
Atlas 是一个液压驱动的机器人,它配备了电池电源和计算功能,并且正在执行这些大型运动任务。最近我们开始开发真正先进的平衡能力,可以与人类的平衡能力相媲美。我还没说这是平等的。我们已经非常接近能够平衡了。
当然,如果你一直注意 Atlas 一直在和其他机器人一起跳舞,这是一件有趣的事情。我想我会借此机会说,我对机器人技术的兴奋主要不是因为出售它们赚了很多钱,尽管我的一家公司正在出售它们并且我们已经赚了一些钱。这实际上是要接受挑战,让这些机器人具有行为能力,智能开始达到人类的水平,就像攀登珠穆朗玛峰一样,这是一个真正的挑战。
这就是我参与其中的原因。我喜欢尝试找出如何解决阻止这些机器人完成越来越多有趣任务的问题。舞蹈就是一个例子。最近,我们在让 Atlas 机器人能够完全自主地完成任务方面取得了很大进展。在这种情况下,机器人被告知要移动这些部件,因此它会发出指令。
但执行都是通过控制系统的交互来完成的,导航、传感器等。它正在做两只手的操纵,所有这些任务对于在工业中使用这样的机器人都很重要,尽管获得控制和自主权一直是一个巨大的挑战,这些任务类似于组装汽车中使用的任务,它们被称为 " 测序 "(sequencing)。我们对 Atlas 在执行此类自主任务方面的成熟感到非常兴奋。
就在最近,我们重新设计了 Atlas,使其成为全电动的,而之前的车型则采用液压系统,这在某些方面非常先进且有趣。但出于实用目的,这个机器人有很多能力。这还没有完全发挥作用,但我们已经开始让机器人能够自主地执行任务,对零件进行排序。它还没有使用双手操作。很快这就会发生。我们可以在工厂等地方使用它。
现在,这个机器人拥有了一种特殊的能力,它的一些关节可以一路走来走去。所以,我们只要想想舞蹈的可能性。一旦你让这个机器人跳舞,我真的很期待。
现在,人形机器人的想法是一个复杂的想法,我认为人们对人形生物的含义缺乏理解。
事实上,我们的机器人有两条胳膊和两条腿,有时还领先,但这并不能真正让它变得像人类一样。一般来说,这些机器人不具备人类的智力。他们必须被告知很多关于他们在做什么的信息。他们甚至不具备人类的身体能力。他们不具备使人类成为人类的所有其他东西,道德、野心,我们对家人的爱。
因此,也许在随后的圆桌会议上,我们可以讨论这到底意味着什么,以及为什么我们目前如此关注人形机器人?
现在,我有兴趣为大家带来的另一种机器人智能,是认知智能。
我三年前创办了这个(人工智能研究所)组织。它已经存在了两年了,在 ChatGPT 之前就构建了。确实,像大型语言模型和生成模型这样的程序提供的认知智能将使机器人变得更加聪明。这些基于语言的模型可以做的事情与物理机器人的物理性和我们所做的任务之间仍然存在很大差距,我们用手操纵、导航等等。
我们认为,在这些以语言为基础的模型和人形机器人能做的任务之间,或者人能做的任务之间,仍然会有非常大的差距,因此,我真的很期待,缩小基于语言的认知智能和我们已经领先的身体运动智能之间的差距。
我要告诉你我们两年前成立的一个新研究所,人工智能研究所位于马萨诸塞州剑桥市,紧邻波士顿高科技区,靠近麻省理工学院和其他公司。我们的使命是成为机器人技术领域的贝尔实验室。
这就是我们正在解决的问题类型。现在要得到一个机器人,要在工厂里完成一项任务,你必须有一整个房间充满了非常熟练的程序员,非常努力地理解任务,对机器人进行编程,即使它是一个正在执行的自主机器人,我们也会想让机器人像人类一样工作。那就是带他们观察其他人,完成任务,理解他们所看到的。然后自己做。
这是在职培训。今天,这仍然是科幻小说,但我们有一个小组正在努力缩小语言类型智能与执行此类任务所涉及的物理之间的差距,像这样的任务或做理解做的事情的机会不一定要在工业活动中,它可以是家庭厨房,就像您的厨房一样,孩子们可以通过观看父母来学习如何做饭。
同时,我们还有另一个小组正在使用机器学习来尝试推进人形和腿式机器人可以做的事情。他们已经取得了很大的进步。这就是波士顿动力的细胞机器人(robot that Boston dynamics cells)。我们对机器人的入门级别进行了特殊访问,并使用强化学习,使其运行速度提高了约 2.5 倍。通过让机器人使用大规模模拟来收集有关其行为的数据,然后将其移植到机器人,速度约为每秒 5.3 米。
我们一直在使用这些相同的技术来做一些其他奇怪的事情,比如让机器人能够三足行走。这意味着您可以腾出一条腿来进行操作。比如,在这里,它使用一只手臂和腾出的腿开始进行操作。
这是对单一人形机器人的模拟,我们开始使用强化学习来开发控制技术来完成许多不同类型的地形、导航和其他任务。我真的很期待看到它在机器人的硬件上发挥作用。
在这个例子中,这是一个非常强壮和熟练的人类可以做到的事情,但目前没有人形机器人可以像它一样完成这项运动任务,我真的很高兴看到我们能做什么。我们一直在将这些技术应用于波士顿动力机器人。我不会说它工作得很好。但它开始表现出有趣的表现。同样,所有这些事情都是通过使用大规模模拟来完成的,在获得足够的数据来执行这样的操作之前,可能需要进行 1600 万次模拟。我们很快就会对此类任务进行模拟到真实的移植。
这是另一个项目,我们称为 "Ultra Mobile Vehicle"(类似于山地自行车机器人)。现在人类可以使用自行车,他们不仅使用自行车本身,而且用他们的身体来投掷体重,然后拖着自行车跟在他们后面。他们使用视觉系统能够看到环境中的障碍物和障碍物,然后制定计划利用这一点并获得真正有趣的移动性。该视频展示了机器人中某些功能的逐步开发。我们一开始只是制造一个可以自我平衡的机器人。
我们告诉它机器人应该去的总体方向,但控制系统正在自我平衡。在这里,我们使用学习技术能够将东西备份起来,这在自行车上是非常困难的,需要非凡的技巧。因此,看到这项技能开始超越人类是令人兴奋的。然后我们开始考虑让机器人能够抛掷自身重量以使其越过障碍。所以我们增加了机械设计。
我应该说的一件事是,我们相信开发硬件和软件同样重要。这是该机器人的简化版本。在地形上跳跃时,必须发出轰鸣声才能简化它。
但就在过去几周,我们已经摆脱了束缚,现在我们有了一个可以自平衡的东西,可以发挥它的重量。下一步将是为其配备视觉系统。它有一个非常基本的人工智能规划系统,这样它就可以处理地形中的物体和障碍物,制定计划并做我之前向你展示的那种事情。
最后,我只想指出,我们还有一个小组,即道德和政策小组。很显然,大家对机器人有很多感情。我不知道你们对机器人有什么看法,还有关于工作保障、生产力、安全之类的问题。我们有一个小组研究这些问题,试图了解机器人如何适应世界,人们对机器人的态度。我认为需要真正以科学的方式了解机器人,人们对此了解程度相对较少,这个小组的使命就是研究这些问题。
正如我所说,我热爱机器人。到目前为止,这是一个伟大的领域,我真的很高兴看到接下来会发生什么。感谢大家的聆听。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)