今天小編(繁綺文)要和大家分享的是斷交OpenAI後,人形機器人獨角獸首秀:一個神經網絡控制整個上身,能聽懂人話可抓萬物,歡迎閱讀~
與 OpenAI 斷交之後,Figure首個成果出爐:
Helix,一個端到端通用控制模型,它能讓機器人像人一樣感知、理解和行動。
只需自然語言提示,機器人就能拿起任何東西,哪怕是從沒見過的東西,比如這個活潑的小仙人掌。
從官方放出的演示中可以看到,它在接收到人類的提示後,就會按照指令逐一拿起桌上的物品放進冰箱。
嗯,是有種 " 機器人站着不語,只是一味地執行指令 " 的感覺了。
兩個機器人也可以共同協作,但有意思的一點是,他們竟然共用同一組神經網絡。
△加速 2 倍
來看看具體是怎麼一回事。
像人類一樣思考的 AI
從技術報告上看,這個通用 " 視覺 - 語言 - 動作 " ( VLA ) 模型完成了一系列的首創:
整個上身控制,Helix 是首個能對整個上身(包括手腕、軀幹、頭部和各個手指)進行高速率(200Hz)連續控制的 VLA。
多機器人協作,第一個同時在兩個機器人上運行的 VLA,使它們能夠使用從未見過的物品解決共享的、遠程操作任務。
拿起任何東西,只需按照自然語言提示,就能拿起幾乎任何小型家居物品,包括數千種它們從未遇到過的物品。
一個神經網絡,與之前的方法不同,Helix 使用一組神經網絡權重來學習所有行為(挑選和放置物品、使用抽屜和冰箱以及跨機器人互動),而無需任何針對特定任務的微調。
可立即商業化部署,第一款完全在嵌入式低功耗 GPU 上運行的 VLA,可立即進行商業部署。
Helix 由兩個系統組成,兩個系統經過端到端訓練,并且可以進行通信。
系統 2:VLM 主幹,基于在互聯網規模數據上預訓練的 7B 開源 VLM,它将單目機器人影像和機器人狀态信息(包括手腕姿勢和手指位置)投射到視覺語言嵌入空間後進行處理。
工作頻率為 7-9 Hz,用于場景理解和語言理解,可對不同對象和語境進行廣泛的泛化。
系統 1:80M 參數的交叉注意力 Transformer,用于處理底層控制。它依靠一個完全卷積、多尺度的視覺骨幹網進行視覺處理,該骨幹網由完全在模拟中完成的預訓練初始化而成。
将 S2 生成的潛在語義表征轉化為精确的連續機器人動作,包括所需的手腕姿勢、手指彎曲和外展控制,以及軀幹和頭部方向目标。速度為 200Hz。
他們在動作空間中附加了一個合成的 " 任務完成百分比 " 動作,使 Helix 能夠預測自己的終止條件,從而更容易對多個任務進行排序。
這種解耦架構允許每個系統在其最佳時間尺度上運行。S2 可以 " 慢慢思考 " 高級目标,而 S1 可以 " 快速思考 " 以實時執行和調整動作。
訓練過程是完全端到端,從原始像素和文本命令映射到具有标準回歸損失的連續動作。
并且 Helix 不需要針對特定任務進行調整;它保持單個訓練階段和單個神經網絡權重集,無需單獨的動作頭或每個任務的微調階段。
人形機器人的 Scaling Law
CEO 透露,這項工作他們花費了一年多的時間,旨在解決通用機器人問題——
像人類一樣,Helix 可以理解語音、推理問題并能抓住任何物體。
而就在兩周前,他們宣布取消與 OpenAI 之間的合作關系,當時就透露會在接下來的 30 天展示" 沒人在人形機器人上見過的東西 "。
如今已經揭曉,就是 Helix。
值得一提的是,Helix 還代表着一種新型的 Scaling Law。
他們認為,家庭是機器人面臨的最大挑戰。與受控的工業環境不同,家裡堆滿了無數的物品。為了讓機器人在家庭中發揮作用,它們需要能夠按需產生智能的新行為,尤其是對它們從未見過的物體。
當前,教機器人一種新行為需要大量的人力。要麼是數小時的博士級專家手動編程,要麼是數千次演示。
這兩種方式成本都很高,所以都是行不通的(dont work)。
與早期的機器人系統不同,Helix能夠即時生成長視界、協作、靈巧的操作,而無需任何特定任務的演示或大量的手動編程。
Helix 表現出強大的對象泛化能力,能夠拾取數千種形狀、大小、顏色和材料特性各異的新奇家居用品,而這些物品在訓練中從未見過,只需用自然語言詢問即可。
這意味着,這代表 Figure 在擴展人形機器人行為方面邁出了變革性的一步。
到時候,當 Helix 擴大 1000 倍、機器人擴展到十億級别,會是什麼樣子?有點子期待。
參考鏈接:
[ 1 ] https://www.figure.ai/news/helix
[ 2 ] https://x.com/adcock_brett/status/1892577936869327233
關于斷交OpenAI後,人形機器人獨角獸首秀:一個神經網絡控制整個上身,能聽懂人話可抓萬物就分享完了,您有什麼想法可以聯系小編(繁綺文)。