今天小编(郟君昊)要和大家分享的是北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能,欢迎阅读~
首个集运动、导航、灵巧操作于一体的人形机器人通用智能体来了,来自北京大学卢宗青团队。
这项新研究名为Being-0,提出了模块化的分层端到端架构,将具身大模型与人形机器人的运动、导航、灵巧操作无缝集成,使机器人能够像人类一样进行复杂推理,在物理世界中穿梭,并自主完成长程任务。
更重要的是,Being-0 实现这些功能,仅需要互联网视频 + 少量真机数据。
Be like:
Being,请拿我的纸杯去咖啡机做一杯意式浓缩。
让人形机器人真正走入现实生活
要让人形机器人真正融入现实生活、成为人类生活工作的助手,不仅需要成熟的运动控制和灵巧操作技能,更需要智能的任务规划与执行能力,实现自主、高效的长程任务执行。
然而,这面临两大难题:
如何让机器人 " 想 " 得对?——智能体需从人类的海量数据中学习通用、可泛化的任务理解和推理能力;
如何让机器人 " 做 " 得准?——智能体要能够控制机器人本体,在复杂环境中实现可靠的技能规划与衔接,稳定地进行运动导航、灵巧操作。
Being-0提出了一套模块化的分层架构来实现人形机器人智能体,成功实现了机器人任务规划、导航、灵巧操作的协同执行,并在真实环境中验证了其高效性和可靠性。
具体来说,模块化的端到端分层架构由通用智能 + 具身技能组成:
上层:基础大模型(FM)
负责任务规划、推理和失败检测,学习通用任务理解。
中层:视觉语言模型(VLM)
结合语言和机器人第一人称视觉输入,理解具身场景。
将基础大模型的任务规划转换为可执行的导航 + 操作技能,解决基础大模型在具身推理上的不足。
底层:模块化技能库
运动技能:让机器人在场景中自主导航,穿梭自如。
操作技能:包含抓取、放置、操作螢幕等原子技能。能够用少量真机数据学习,实现新技能的即插即用。
互联网视频 + 少量真机数据,高效训练智能体
将基础大模型的任务规划(如 " 取桌上的咖啡杯 ")转换为底层技能的执行并非易事。主流的 VLA 模型需要采集大量真实机器人的数据以实现泛化性,成本极高。而让基础大模型直接规划调用原子技能库,在人形机器人上面临两个难题:
导航需要实时调整:不像轮式机器人可精确按照预先规划的轨迹移动,人形机器人导航需要结合视觉观察进行实时的地闭环控制。
导航和操作需要有效衔接:例如让机器人导航去咖啡机做咖啡,需要让机器人到达面对咖啡机螢幕的位置;否则,不合理的结束位置将使得后续操作无法执行。
Being-0 提出的 VLM 模型模块能够利用低成本、海量的第一人称视频数据进行学习,成为衔接基础大模型和底层技能库的桥梁:
通过视频 + 标注的导航动作,VLM 学会闭环的视觉导航策略,使人形机器人能够稳定导航、找对目标;
通过视频 + 标注的任务指令、技能,VLM 学会预测正确的原子技能,大幅提高执行效率和成功率。
在基础大模型和 VLM 的加持下,模块化技能库只需要少量遥操作数据即可训练短程的原子技能,每个技能仅需约100 条轨迹,显著降低数据需求。
实现人类级别的灵巧操作
Being-0 采用全尺寸人形机器人,搭载灵巧手 + 主动视觉,能实现人类级别的灵活操作。
就像这样,主动调整头部视角,提高环境感知能力,并使用多指灵巧手完成稳定的抓取、放置和灵巧的工具操作。
此外,团队实现了将 VLM 和底层技能库全部部署于机器人端,实现高效实时的任务响应,最小化对网络和外部算力的依赖。
高成功率的长任务推理与执行
Being-0 还在多项真实世界长程任务中表现卓越,在大场地的办公生活场景中实现了自主地搬运篮筐、抓取水瓶、制作咖啡等能力。
实验结果验证了:
Being-0 的 VLM 设计提供了高效、高成功率的技能规划和导航能力,使长程任务成功率远超基线方法。
Being-0 主动视觉的设计显著增强了任务完成度,使导航、操作更加灵活高效。
Being 团队
Being 团队由来自北京大学、智源研究院以及智在无界的研究人员组成。
Being-0 作为首个集运动、导航、灵巧操作于一体的人形机器人智能体,成功打通了任务规划 - 导航 - 操作的闭环控制,开启人形机器人研究和应用的新篇章。
团队表示,目前正在持续迭代人形机器人的具身大模型、全身运动控制、灵巧操作等能力,在未来让机器人智能体涌现更强的自主能力和泛化性。
论文链接:https://arxiv.org/abs/2503.12533
项目主页:https://beingbeyond.github.io/being-0
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
关于北大人形机器人智能体 Being-0:互联网视频+少量真机数据,迈向自主具身智能就分享完了,您有什么想法可以联系小编(郟君昊)。