清華推出開源具身智能框架：用VLM解決機器人動作異構一致性難題，性能超越14倍參數對手

今天小編(佼昌翰)要和大家分享的是清華推出開源具身智能框架：用VLM解決機器人動作異構一致性難題，性能超越14倍參數對手,歡迎閱讀~

具身智能當中，動作空間的異構一致性問題帶來的泛化瓶頸有解了！

清華智能產業研究院（AIR）團隊聯合商湯研究院等機構發布了首個基于通用動作空間的具身基礎模型框架UniAct。

UniAct 以視覺語言模型為核心，構建了首個 tokenized 通用動作空間，解決了具身智能中的通用動作異構一致性難題。

在多項權威評測中，UniAct都超越了參數量達 14 倍的頂尖對手OpenVLA。

目前，UniAct 代碼與論文已開源。

制約智能體泛化的瓶頸

在人工智能領網域，視覺、語言類基礎模型通過海量數據訓練實現跨模态泛化，但具身智能的構建卻因動作空間的異質性陷入瓶頸。

不同機器人（如機械臂、四足機器人、汽車）因物理形态、控制接口差異，其動作指令在物理空間中呈現 " 不相交流形 "，具體來說可以體現在三個方面：

本體差異：機械臂的末端執行器（EEF）位置與四足機器人的關節角度，物理含義截然不同；

控制接口多樣性：同一指令（如 " 抓取物體 "）在不同機器人中可能轉化為 EEF 速度或關節扭矩；

多模态幹擾：人類操作者的動作風格差異進一步加劇數據衝突。

傳統方法嘗試通過微調或聚合異構數據緩解問題，但收效甚微。

多數研究被迫将異構動作空間 " 強行對齊 "，導致相似編碼代表不同物理行為，甚至引發控制邏輯混亂。

從 " 通用原子行為 " 到 " 跨具身泛化 "

團隊提出的 UniAct 框架，以視覺語言模型（VLM）為核心，構建了首個 tokenized 通用動作空間。

UniAct 通過三大創新實現突破。

一是通用動作編碼，也就是将不同機器人的原子行為（如 " 移動到目标位置 "" 避開障礙物 "）封裝為向量量化的 codebook，每個 token 代表可跨機器人共享的通用技能。

這種設計既保留了動作的物理因果性，又消除了異構性

二是異質解碼器，即針對不同機器人平台，通過輕量化解碼器添加本體感受特征（如關節力矩）或不同攝像頭視角下的影像，将通用動作轉換為可執行指令。

例如，機械臂需 EEF 位置控制，而四足機器人需關節角度指令，解碼器可動态适配。

三是輕量化架構，UniAct-0.5B 模型僅用 0.5 億參數，即在對現實與模拟機器人任務的測試中超越 14 億參數的 OpenVLA，驗證了通用動作的高效性。

復雜場景下的 " 全能選手 "

在包含大視角變化（如第三人稱轉第一人稱）和未見機器人類型（如雙臂機械臂）的測試中，UniAct 展現了驚人的泛化能力。

UniAct 憑借跨機器人遷移與復雜環境适應能力，在真實世界和仿真環境的不同機械臂任務下，大幅提升任務成功率。

并且擁有極高的數據效率，僅需 50 條示教的機器人專用數據即可完成模型到新環境的微調。

在通用動作異構一致性上，通過大量的異構數據預訓練，UniAct 框架也探索出了具有高度一致的通用動作空間。

如下圖所示，同一個通用動作表征可以在完全不同的部署場景和具身智能體上表現出一致的行為模式。

此外，高效的異構解碼機制讓 UniAct 具備了可直接快速部署的通用動作，為控制具身智能體提供了新的方式，通過從碼本中直接挑選通用動作即可控制不同具身智能體完成指定的任務，play with code！

作者表示，UniAct 的突破為具身智能的 Scaling Law 探索提供新思路。

UniAct 證明了通用動作是解鎖具身基礎模型潛力的關鍵鑰匙。

傳統方法依賴單一機器人數據，而 UniAct 通過共享通用動作空間，使模型能吸收全球眾包數據的精華，有望突破數據規模限制。

項目主頁：

https://2toinf.github.io/UniAct/

論文地址：

https://arxiv.org/abs/2501.10105

GitHub：

https://github.com/2toinf/UniAct

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

學術投稿請于工作日發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點亮星标

科技前沿進展每日見

關于清華推出開源具身智能框架：用VLM解決機器人動作異構一致性難題，性能超越14倍參數對手就分享完了，您有什麼想法可以聯系小編(佼昌翰)。

相關推薦