清华推出开源具身智能框架：用VLM解决机器人动作异构一致性难题，性能超越14倍参数对手

今天小编(佼昌翰)要和大家分享的是清华推出开源具身智能框架：用VLM解决机器人动作异构一致性难题，性能超越14倍参数对手,欢迎阅读~

具身智能当中，动作空间的异构一致性问题带来的泛化瓶颈有解了！

清华智能产业研究院（AIR）团队联合商汤研究院等机构发布了首个基于通用动作空间的具身基础模型框架UniAct。

UniAct 以视觉语言模型为核心，构建了首个 tokenized 通用动作空间，解决了具身智能中的通用动作异构一致性难题。

在多项权威评测中，UniAct都超越了参数量达 14 倍的顶尖对手OpenVLA。

目前，UniAct 代码与论文已开源。

制约智能体泛化的瓶颈

在人工智能领網域，视觉、语言类基础模型通过海量数据训练实现跨模态泛化，但具身智能的构建却因动作空间的异质性陷入瓶颈。

不同机器人（如机械臂、四足机器人、汽车）因物理形态、控制接口差异，其动作指令在物理空间中呈现 " 不相交流形 "，具体来说可以体现在三个方面：

本体差异：机械臂的末端执行器（EEF）位置与四足机器人的关节角度，物理含义截然不同；

控制接口多样性：同一指令（如 " 抓取物体 "）在不同机器人中可能转化为 EEF 速度或关节扭矩；

多模态干扰：人类操作者的动作风格差异进一步加剧数据冲突。

传统方法尝试通过微调或聚合异构数据缓解问题，但收效甚微。

多数研究被迫将异构动作空间 " 强行对齐 "，导致相似编码代表不同物理行为，甚至引发控制逻辑混乱。

从 " 通用原子行为 " 到 " 跨具身泛化 "

团队提出的 UniAct 框架，以视觉语言模型（VLM）为核心，构建了首个 tokenized 通用动作空间。

UniAct 通过三大创新实现突破。

一是通用动作编码，也就是将不同机器人的原子行为（如 " 移动到目标位置 "" 避开障碍物 "）封装为向量量化的 codebook，每个 token 代表可跨机器人共享的通用技能。

这种设计既保留了动作的物理因果性，又消除了异构性

二是异质解码器，即针对不同机器人平台，通过轻量化解码器添加本体感受特征（如关节力矩）或不同摄像头视角下的影像，将通用动作转换为可执行指令。

例如，机械臂需 EEF 位置控制，而四足机器人需关节角度指令，解码器可动态适配。

三是轻量化架构，UniAct-0.5B 模型仅用 0.5 亿参数，即在对现实与模拟机器人任务的测试中超越 14 亿参数的 OpenVLA，验证了通用动作的高效性。

复杂场景下的 " 全能选手 "

在包含大视角变化（如第三人称转第一人称）和未见机器人类型（如双臂机械臂）的测试中，UniAct 展现了惊人的泛化能力。

UniAct 凭借跨机器人迁移与复杂环境适应能力，在真实世界和仿真环境的不同机械臂任务下，大幅提升任务成功率。

并且拥有极高的数据效率，仅需 50 条示教的机器人专用数据即可完成模型到新环境的微调。

在通用动作异构一致性上，通过大量的异构数据预训练，UniAct 框架也探索出了具有高度一致的通用动作空间。

如下图所示，同一个通用动作表征可以在完全不同的部署场景和具身智能体上表现出一致的行为模式。

此外，高效的异构解码机制让 UniAct 具备了可直接快速部署的通用动作，为控制具身智能体提供了新的方式，通过从码本中直接挑选通用动作即可控制不同具身智能体完成指定的任务，play with code！

作者表示，UniAct 的突破为具身智能的 Scaling Law 探索提供新思路。

UniAct 证明了通用动作是解锁具身基础模型潜力的关键钥匙。

传统方法依赖单一机器人数据，而 UniAct 通过共享通用动作空间，使模型能吸收全球众包数据的精华，有望突破数据规模限制。

项目主页：

https://2toinf.github.io/UniAct/

论文地址：

https://arxiv.org/abs/2501.10105

GitHub：

https://github.com/2toinf/UniAct

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

学术投稿请于工作日发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点亮星标

科技前沿进展每日见

关于清华推出开源具身智能框架：用VLM解决机器人动作异构一致性难题，性能超越14倍参数对手就分享完了，您有什么想法可以联系小编(佼昌翰)。

相关推荐