高馬爾
一個信息發佈的網站

稚晖君預告揭曉!智元機器人發布首個通用具身基座模型GO-1

今天小編(佼昌翰)要和大家分享的是稚晖君預告揭曉!智元機器人發布首個通用具身基座模型GO-1,歡迎閱讀~

剛填完坑就又埋下 " 驚喜預告 "??

預告多日之後,稚晖君正式官宣首個通用具身基座模型——智元啟元大模型(Genie Operator-1,以下簡稱 GO-1),将具身智能邁向通用全能的門檻進一步降低了。

而且劇透明天還有驚喜。

話不多說,我們直接看今天發布的東西:

概括而言,此次發布的 GO-1 大模型主要有以下幾個特點:

人類視頻學習:可以結合互聯網視頻和真實人類示範進行學習,增強模型對人類行為的理解;

小樣本快速泛化:能夠在極少數據甚至零樣本下泛化到新場景、新任務,使得後訓練成本非常低;

一腦多形:能夠在不同機器人形态之間遷移,快速适配到不同本體;

持續進化:搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。

網友們也紛紛表示,通用機器人指日可待了!

首個通用具身基座模型 GO-1

具體來看,GO-1 大模型由智元機器人聯合上海 AI Lab 共同發布。

通過大規模、多樣化的數據訓練,GO-1 展現出強大的通用性智能化能力,突破了大量以往具身智能面臨的瓶頸。

按照官方說法,GO-1 除了拓展機器人的運動能力,更重要的是加強了其AI 能力,從而大大增加了機器人的實用價值。

首先,通過學習人類操作視頻,機器人能快速學習新技能了。

比如下面這個倒水的動作:

而且機器人還具備了一定的物體跟蹤能力,即使随意移動水杯位置,它也能精準倒水。

與此同時,機器人不止掌握已經學過的操作,還能識别并操作未見過的物品(僅通過百條級數據就能實現快速泛化)。

比如倒完水之後,再烤烤面包并抹上果醬:

另外,當前的具身模型通常針對單一機器人本體(Hardware Embodiment)進行設計,這導致兩個問題:

數據利用率低:不同機器人收集的數據難以共享,無法充分利用跨本體數據進行訓練;

部署受限:訓練好的模型難以遷移到不同類型的機器人,每個本體往往需要獨立訓練一個模型,增加适配成本。

而用上 GO-1 大模型之後,這些問題都被解決了。

可以看到,多個相同 / 不同本體的機器人能夠共同協作完成復雜任務。

此外,GO-1 大模型還支持數據飛輪持續提升。即在實際操作過程中不斷回流數據尤其是執行出現問題的數據,持續驅動優化模型性能。

比如下面這個例子中,機器人放咖啡杯時出現失誤,就可以通過數據回流(加上人工審核)針對性優化。

對了,GO-1 大模型也為機器人增加了新的語音互動方式,這極大便利了用戶在現實場景中自由表達需求。

基于全新 ViLLA 架構

事實上,GO-1 大模型的構建核心圍繞對數據的充分利用展開。

基于具身領網域的數字金字塔,GO-1 大模型吸納了人類世界多種維度和類型的數據:

底層:互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景;

第 2 層:大規模人類操作 / 跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;

第 3 層:仿真數據,用于增強泛化性,讓機器人适應不同場景、物體等;

頂層:高質量的真機示教數據,用于訓練精準動作執行。

有了這些數據,可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執行力。

當然,過程中也少不了一個合适的數據處理架構。

由于現有的 VLA(Vision-Language-Action)架構沒有利用到數字金字塔中大規模人類 / 跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。

因此,智元團隊創新性地提出了ViLLA(Vision-Language-Latent-Action)架構

與 VLA 架構相比,ViLLA 通過預測 Latent Action Tokens(隐式動作标記),彌合影像 - 文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的 AgiBot World 數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力。

展開來說,ViLLA 架構是由VLM(多模态大模型)+MoE(混合專家)組成。

其中 VLM 借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE 中的 Latent Planner(隐式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE 中的 Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。

推理時,VLM、Latent Planner 和 Action Expert三者協同工作

VLM 采用 InternVL-2B,接收多視角視覺圖片、力覺信号、語言輸入等多模态信息,進行通用的場景感知和指令理解;

Latent Planner 是 MoE 中的一組專家,基于 VLM 的中間層輸出預測 Latent Action Tokens 作為 CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;

Action Expert 是 MoE 中的另外一組專家,基于 VLM 的中間層輸出以及 Latent Action Tokens,生成最終的精細動作序列。

舉個例子,假如用戶給出機器人指令 " 挂衣服 ",模型就可以根據看到的畫面,理解這句話對應的任務要求。然後模型根據之前訓練時看過的挂衣服數據,設想這個過程應該包括哪些操作步驟,最後執行這一連串的步驟,完成整個任務的操作。

與此同時,通過 ViLLA 架構,智元團隊在五種不同復雜度任務上測試 GO-1。

結果顯示,相比已有的最優模型,GO-1 成功率大幅領先,平均成功率提高了 32% ( 46%->78% ) 。其中 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(補充飲料) 任務表現尤為突出。

此外團隊還單獨驗證了 ViLLA 架構中 Latent Planner 的作用,可以看到增加 Latent Planner 可以提升 12% 的成功率 ( 66%->78% ) 。

還有一個彩蛋

GO-1 發布視頻的最後,相信大家也看到了一個彩蛋:

不知道内容是否和稚晖君的最新預告有關,明天我們繼續蹲蹲 ~

論文:

https://agibot-world.com/blog/agibot_go1.pdf

關于稚晖君預告揭曉!智元機器人發布首個通用具身基座模型GO-1就分享完了,您有什麼想法可以聯系小編(佼昌翰)。