稚晖君預告揭曉！智元機器人發布首個通用具身基座模型GO-1

今天小編(佼昌翰)要和大家分享的是稚晖君預告揭曉！智元機器人發布首個通用具身基座模型GO-1,歡迎閱讀~

剛填完坑就又埋下 " 驚喜預告 "？？

預告多日之後，稚晖君正式官宣首個通用具身基座模型——智元啟元大模型（Genie Operator-1，以下簡稱 GO-1），将具身智能邁向通用全能的門檻進一步降低了。

而且劇透明天還有驚喜。

話不多說，我們直接看今天發布的東西：

概括而言，此次發布的 GO-1 大模型主要有以下幾個特點：

人類視頻學習：可以結合互聯網視頻和真實人類示範進行學習，增強模型對人類行為的理解；

小樣本快速泛化：能夠在極少數據甚至零樣本下泛化到新場景、新任務，使得後訓練成本非常低；

一腦多形：能夠在不同機器人形态之間遷移，快速适配到不同本體；

持續進化：搭配智元一整套數據回流系統，可以從實際執行遇到的問題數據中持續進化學習。

網友們也紛紛表示，通用機器人指日可待了！

首個通用具身基座模型 GO-1

具體來看，GO-1 大模型由智元機器人聯合上海 AI Lab 共同發布。

通過大規模、多樣化的數據訓練，GO-1 展現出強大的通用性和智能化能力，突破了大量以往具身智能面臨的瓶頸。

按照官方說法，GO-1 除了拓展機器人的運動能力，更重要的是加強了其AI 能力，從而大大增加了機器人的實用價值。

首先，通過學習人類操作視頻，機器人能快速學習新技能了。

比如下面這個倒水的動作：

而且機器人還具備了一定的物體跟蹤能力，即使随意移動水杯位置，它也能精準倒水。

與此同時，機器人不止掌握已經學過的操作，還能識别并操作未見過的物品（僅通過百條級數據就能實現快速泛化）。

比如倒完水之後，再烤烤面包并抹上果醬：

另外，當前的具身模型通常針對單一機器人本體（Hardware Embodiment）進行設計，這導致兩個問題：

數據利用率低：不同機器人收集的數據難以共享，無法充分利用跨本體數據進行訓練；

部署受限：訓練好的模型難以遷移到不同類型的機器人，每個本體往往需要獨立訓練一個模型，增加适配成本。

而用上 GO-1 大模型之後，這些問題都被解決了。

可以看到，多個相同 / 不同本體的機器人能夠共同協作完成復雜任務。

此外，GO-1 大模型還支持數據飛輪持續提升。即在實際操作過程中不斷回流數據尤其是執行出現問題的數據，持續驅動優化模型性能。

比如下面這個例子中，機器人放咖啡杯時出現失誤，就可以通過數據回流（加上人工審核）針對性優化。

對了，GO-1 大模型也為機器人增加了新的語音互動方式，這極大便利了用戶在現實場景中自由表達需求。

基于全新 ViLLA 架構

事實上，GO-1 大模型的構建核心圍繞對數據的充分利用展開。

基于具身領網域的數字金字塔，GO-1 大模型吸納了人類世界多種維度和類型的數據：

底層：互聯網的大規模純文本與圖文數據，可以幫助機器人理解通用知識和場景；

第 2 層：大規模人類操作 / 跨本體視頻，可以幫助機器人學習人類或者其他本體的動作操作模式；

第 3 層：仿真數據，用于增強泛化性，讓機器人适應不同場景、物體等；

頂層：高質量的真機示教數據，用于訓練精準動作執行。

有了這些數據，可以讓機器人在一開始就擁有通用的場景感知和語言能力，通用的動作理解能力，以及精細的動作執行力。

當然，過程中也少不了一個合适的數據處理架構。

由于現有的 VLA（Vision-Language-Action）架構沒有利用到數字金字塔中大規模人類 / 跨本體操作視頻數據，缺少了一個重要的數據來源，導致迭代的成本更高，進化的速度更慢。

因此，智元團隊創新性地提出了ViLLA（Vision-Language-Latent-Action）架構。

與 VLA 架構相比，ViLLA 通過預測 Latent Action Tokens（隐式動作标記），彌合影像 - 文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據，增強策略的泛化能力。

展開來說，ViLLA 架構是由VLM（多模态大模型）+MoE（混合專家）組成。

其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力，MoE 中的 Latent Planner（隐式規劃器）借助大量跨本體和人類操作數據獲得通用的動作理解能力，MoE 中的 Action Expert（動作專家）借助百萬真機數據獲得精細的動作執行能力。

推理時，VLM、Latent Planner 和 Action Expert三者協同工作：

VLM 采用 InternVL-2B，接收多視角視覺圖片、力覺信号、語言輸入等多模态信息，進行通用的場景感知和指令理解；

Latent Planner 是 MoE 中的一組專家，基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP（Chain of Planning，規劃鏈），進行通用的動作理解和規劃；

Action Expert 是 MoE 中的另外一組專家，基于 VLM 的中間層輸出以及 Latent Action Tokens，生成最終的精細動作序列。

舉個例子，假如用戶給出機器人指令 " 挂衣服 "，模型就可以根據看到的畫面，理解這句話對應的任務要求。然後模型根據之前訓練時看過的挂衣服數據，設想這個過程應該包括哪些操作步驟，最後執行這一連串的步驟，完成整個任務的操作。

與此同時，通過 ViLLA 架構，智元團隊在五種不同復雜度任務上測試 GO-1。

結果顯示，相比已有的最優模型，GO-1 成功率大幅領先，平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"（倒水）、"Table Bussing"（清理桌面）和 "Restock Beverage"（補充飲料）任務表現尤為突出。

此外團隊還單獨驗證了 ViLLA 架構中 Latent Planner 的作用，可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。

還有一個彩蛋

GO-1 發布視頻的最後，相信大家也看到了一個彩蛋：

不知道内容是否和稚晖君的最新預告有關，明天我們繼續蹲蹲 ~

論文：

https://agibot-world.com/blog/agibot_go1.pdf

關于稚晖君預告揭曉！智元機器人發布首個通用具身基座模型GO-1就分享完了，您有什麼想法可以聯系小編(佼昌翰)。

相關推薦