高马尔
一个信息发布的网站

稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1

今天小编(佼昌翰)要和大家分享的是稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1,欢迎阅读~

刚填完坑就又埋下 " 惊喜预告 "??

预告多日之后,稚晖君正式官宣首个通用具身基座模型——智元启元大模型(Genie Operator-1,以下简称 GO-1),将具身智能迈向通用全能的门槛进一步降低了。

而且剧透明天还有惊喜。

话不多说,我们直接看今天发布的东西:

概括而言,此次发布的 GO-1 大模型主要有以下几个特点:

人类视频学习:可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解;

小样本快速泛化:能够在极少数据甚至零样本下泛化到新场景、新任务,使得后训练成本非常低;

一腦多形:能够在不同机器人形态之间迁移,快速适配到不同本体;

持续进化:搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习。

网友们也纷纷表示,通用机器人指日可待了!

首个通用具身基座模型 GO-1

具体来看,GO-1 大模型由智元机器人联合上海 AI Lab 共同发布。

通过大规模、多样化的数据训练,GO-1 展现出强大的通用性智能化能力,突破了大量以往具身智能面临的瓶颈。

按照官方说法,GO-1 除了拓展机器人的运动能力,更重要的是加强了其AI 能力,从而大大增加了机器人的实用价值。

首先,通过学习人类操作视频,机器人能快速学习新技能了。

比如下面这个倒水的动作:

而且机器人还具备了一定的物体跟踪能力,即使随意移动水杯位置,它也能精准倒水。

与此同时,机器人不止掌握已经学过的操作,还能识别并操作未见过的物品(仅通过百条级数据就能实现快速泛化)。

比如倒完水之后,再烤烤面包并抹上果酱:

另外,当前的具身模型通常针对单一机器人本体(Hardware Embodiment)进行设计,这导致两个问题:

数据利用率低:不同机器人收集的数据难以共享,无法充分利用跨本体数据进行训练;

部署受限:训练好的模型难以迁移到不同类型的机器人,每个本体往往需要独立训练一个模型,增加适配成本。

而用上 GO-1 大模型之后,这些问题都被解决了。

可以看到,多个相同 / 不同本体的机器人能够共同协作完成复杂任务。

此外,GO-1 大模型还支持数据飞轮持续提升。即在实际操作过程中不断回流数据尤其是执行出现问题的数据,持续驱动优化模型性能。

比如下面这个例子中,机器人放咖啡杯时出现失误,就可以通过数据回流(加上人工审核)针对性优化。

对了,GO-1 大模型也为机器人增加了新的语音互動方式,这极大便利了用户在现实场景中自由表达需求。

基于全新 ViLLA 架构

事实上,GO-1 大模型的构建核心围绕对数据的充分利用展开。

基于具身领網域的数字金字塔,GO-1 大模型吸纳了人类世界多种维度和类型的数据:

底层:互联网的大规模纯文本与图文数据,可以帮助机器人理解通用知识和场景;

第 2 层:大规模人类操作 / 跨本体视频,可以帮助机器人学习人类或者其他本体的动作操作模式;

第 3 层:仿真数据,用于增强泛化性,让机器人适应不同场景、物体等;

顶层:高质量的真机示教数据,用于训练精准动作执行。

有了这些数据,可以让机器人在一开始就拥有通用的场景感知和语言能力,通用的动作理解能力,以及精细的动作执行力。

当然,过程中也少不了一个合适的数据处理架构。

由于现有的 VLA(Vision-Language-Action)架构没有利用到数字金字塔中大规模人类 / 跨本体操作视频数据,缺少了一个重要的数据来源,导致迭代的成本更高,进化的速度更慢。

因此,智元团队创新性地提出了ViLLA(Vision-Language-Latent-Action)架构

与 VLA 架构相比,ViLLA 通过预测 Latent Action Tokens(隐式动作标记),弥合影像 - 文本输入与机器人执行动作之间的鸿沟。它能有效利用高质量的 AgiBot World 数据集以及互联网大规模异构视频数据,增强策略的泛化能力。

展开来说,ViLLA 架构是由VLM(多模态大模型)+MoE(混合专家)组成。

其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。

推理时,VLM、Latent Planner 和 Action Expert三者协同工作

VLM 采用 InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

Latent Planner 是 MoE 中的一组专家,基于 VLM 的中间层输出预测 Latent Action Tokens 作为 CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

Action Expert 是 MoE 中的另外一组专家,基于 VLM 的中间层输出以及 Latent Action Tokens,生成最终的精细动作序列。

举个例子,假如用户给出机器人指令 " 挂衣服 ",模型就可以根据看到的画面,理解这句话对应的任务要求。然后模型根据之前训练时看过的挂衣服数据,设想这个过程应该包括哪些操作步骤,最后执行这一连串的步骤,完成整个任务的操作。

与此同时,通过 ViLLA 架构,智元团队在五种不同复杂度任务上测试 GO-1。

结果显示,相比已有的最优模型,GO-1 成功率大幅领先,平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(补充饮料) 任务表现尤为突出。

此外团队还单独验证了 ViLLA 架构中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。

还有一个彩蛋

GO-1 发布视频的最后,相信大家也看到了一个彩蛋:

不知道内容是否和稚晖君的最新预告有关,明天我们继续蹲蹲 ~

论文:

https://agibot-world.com/blog/agibot_go1.pdf

关于稚晖君预告揭晓!智元机器人发布首个通用具身基座模型GO-1就分享完了,您有什么想法可以联系小编(佼昌翰)。