高馬爾
一個信息發佈的網站

讓機器人像人類一樣終身學習,突破性框架LEGION登Nat. Mach. Intell.

今天小編(佼昌翰)要和大家分享的是讓機器人像人類一樣終身學習,突破性框架LEGION登Nat. Mach. Intell.,歡迎閲讀~

摘要

人類能夠在其一生中不斷積累知識,并發展出越來越復雜的行為和技能,這種能力被稱為 " 終身學習 "。盡管這種終身學習能力被認為是構成一般智能的重要機制,但人工智能領網域的最新進展主要集中在狹窄、專門化的領網域,并且通常缺乏這種終身學習能力。在此,我們介紹了一種機器人終身強化學習框架,通過開發受貝葉斯非參數領網域啓發的知識空間來彌補這一不足。此外,我們通過将語言嵌入整合到框架中,增強了智能體對任務的語義理解。我們提出的具身智能體能夠持續從連續的一次性喂食任務流中積累知識。此外,我們的智能體能夠通過結合和重新應用從原始任務流中獲得的知識來解決具有挑戰性的現實世界中的長期任務。所提出的框架推進了我們對機器人終身學習過程的理解,并可能激發更廣泛适用的智能的發展。

研究領網域:終身強化學習,貝葉斯非參數模型,知識空間,語言嵌入,災難性遺忘

論文題目:Preserving and combining knowledge in robotic lifelong reinforcement learning

發表時間:2025 年 2 月 5 日

論文地址:https://www.nature.com/articles/s42256-025-00983-2

期刊名稱:Nature Machine intelligence

人類能夠通過終身學習(Lifelong Learning)持續積累技能,而當前 AI 系統雖在單一任務中表現卓越,卻難以像人類一樣 " 學以致用 "。傳統多任務學習依賴固定數據集,面對未知任務時易出現 " 災難性遺忘 "。近日,Nature Machine Intelligence 的一項研究發布全新框架 LEGION,通過貝葉斯非參數知識空間與語言嵌入技術,讓機器人實現終身強化學習,甚至能像人類一樣重組舊技能解決復雜新任務。

圖 1. 機器人終身強化學習(LRL)過程的概念圖示。a,LRL 過程的總體概覽圖示。與傳統多任務方法不同,在傳統方法中,智能體可以同時訪問所有任務,而 LRL 智能體能夠依次掌握任務。此外,智能體在整個過程中應不斷積累知識。這一概念模仿了人類的學習過程。b,我們在終身學習概念下的框架。我們指示部署的具身智能體使用語言指令執行長時任務。智能體通過組合和重新應用所獲得的知識來完成這些任務。

核心方法:知識空間 + 語言語義雙引擎驅動

1. 貝葉斯非參數知識空間:動态擴容的 " 記憶圖書館 "

研究團隊受狄利克雷過程混合模型(DPMM)啓發,設計了一個可無限擴展的知識空間。該空間通過在線變分推斷(MemoVB)動态創建或合并知識簇,無需預設任務數量。其運作邏輯在于當機器人學習新任務時,任務編碼器将狀态觀測與語言指令嵌入結合,生成潛在表征,然後 DPMM 根據相似度将其歸類到現有知識簇,或創建新簇存儲。知識空間的優勢在于能夠突破傳統神經網絡固定架構限制,避免因任務流湧入導致舊知識被覆蓋。

2. 語言嵌入:讓機器人 " 聽懂 " 任務語義

研究引入預訓練大語言模型(LLM,如 RoBERTa),将動作任務指令編碼為語義向量,并與環境觀測融合。例如:大語言模型中的語言嵌入幫助區分 " 推茶杯 " 和 " 開窗户 " 的動作差異,避免軌迹混淆;在一些長時程任務(如 " 清理桌面 ")中,語言指令指導機器人按需調用 " 推 "" 抓握 "" 按壓 " 等底層技能。

圖 2. 知識空間的 t-SNE 截圖。兩個任務 ( a ) 、四個任務 ( b ) 、六個任務 ( c ) 、八個任務 ( d ) 和全部十個任務 ( e ) 訓練後知識空間的 t-SNE 投影。(f)第一個訓練循環後的 t-SNE 投影(圓)和第二個循環後的 t-SNE 投影(交叉)。值得注意的是,第二個訓練循環的推理結果被合并到相應的知識組中,這些知識組在第一個循環中被保留。

實驗結果:真實機器人 " 學得快、記得牢 "

1. 10 項任務流測試:零遺忘 + 正向遷移

機器人在 10 項連續任務(從 " 抓取 " 到 " 關窗 ")中,平均成功率從 0.38 逐步提升至 0.84,且舊任務遺忘率趨近于零。前向遷移(Forward Transfer)指标得分 0.10,體現在早期任務(如 " 推 ")的知識顯著加速後期任務(如 " 關抽屜 ")學習;另外,災難性遺忘被完全抑制,部分任務因技能復用表現反升,如 " 開門 " 成功率從 0.4 提升至 0.8。

2. 長時程任務:無需預設步驟的靈活組合

在 " 清理桌面 " 任務中,機器人自主調用 7 項子技能,成功率高達 92%。更驚豔的是,任務順序可任意調整——例如先 " 按按鈕 " 再 " 推瓶子 ",系統仍能通過知識重組完成任務。

3. 對比實驗:完勝傳統經驗回放方法

ReservoirA-GEM等基于經驗回放的方法相比,LEGION 在持續學習中的平均成功率高出 40%。即使任務數據比例從 50% 衰減至 10%,知識空間仍能穩定保留核心特征。

圖 3. LEGION 框架訓練和部署流程圖。(a)訓練。該框架接收語言語義信息和環境觀察作為制定策略決策和輸出操作模式的輸入,它一次只訓練一個任務。(b)部署。在現實世界的演示中,主體參數保持凍結,主體接收來自現實世界硬體的輸入信号并輸出相應的動作信号,"Sim2Real" 和 "Real2Sim" 模塊處理數據以調整模拟與現實世界之間的差距。

未來展望:邁向通用人工智能的關鍵一步

LEGION 框架首次在真實機器人中驗證了終身強化學習的可行性,其應用潛力包括:家庭服務機器人,持續學習新家電操作,無需反復編程;工業機器人,在動态產線中自适應多工種需求;人機協作,通過自然語言指令實時擴展技能庫。團隊下一步計劃融合擴散模型提升動作平滑性,并探索零樣本推理能力。這項研究或為通用人工智能(AGI)的發展推開一扇新大門。

從 " 機械重復 " 到 " 終身成長 ",LEGION 框架讓機器人向人類學習模式邁出關鍵一步。或許不久的将來,每個家庭都能擁有一個 " 越用越聰明 " 的機器管家——它不會忘記你教過的每個動作,還能自學新技能給你驚喜。

彭晨 |   編譯

【集智俱樂部 - 具身智能讀書會夜談活動推薦】

為了更多的了解大家的需求,具身智能主題讀書會策劃 1-3 次左右的夜談交流,圍繞一些話題進行深度交流 ~ 以及了解大家對想聽的内容的想法和需求,歡迎大家加入報名讀書會:具身智能讀書會啓動:走向現實世界的下一代 AI 系統

時間:2 月 18 日(今天)晚 8 點

主題:具身智能的視覺 - 語言 - 動作模型(VLAs)

主講人:馬悦恩(香港中文大學)

▸ 議程:

- 馬悦恩博士分享《A Survey on Vision-Language-Action Models forEmbodied AI》(30 分鍾)

- 圓桌讨論(陳雄輝主持兼嘉賓,60 分鍾)

圓桌讨論嘉賓:陳雄輝(南京大學在讀博士)、馬悦恩(香港中文大學在讀博士)郭俊良(微軟亞研院高級研究員)史雪松(銀河通用機器人算法負責人)、穆堯(香港大學博士)、蘇治中(地平線機器人實驗室算法負責人)。

· Part1- 綜述分享

- VLA 模型核心架構

- 分層策略機制

- 數據基礎設施

- VLA 模型面對的挑戰和未來方向

· Part2- 圓桌讨論議題:

- 具身智能數據獲取困境

- 算法模型架構與泛化能力挑戰

- 現實主義視角的產品化方向展望

- 技術前沿展望等

具身智能讀書會啓動

集智俱樂部聯合上海交通大學助理教授李永露、銀河通用機器人合夥人史雪松、南京大學 LAMDA 組博士生陳雄輝、香港大學在讀博士生穆堯,共同發起首季「具身智能」讀書會。讀書會計劃采用 " 自下而上 " 的層級結構,探讨四個核心模塊:硬體系統(機器人本體設計),數據、仿真環境與 Benchmark,機器人學習,具體場景任務。希望通過重點讨論經典、前沿的重要文獻,幫助大家更好地學習機器人與具身智能技術前沿技術,為相關領網域的研究和應用提供洞見。

讀書會從 2025 年 1 月 19 日開始,每周日 14:00-16:00,持續時間預計 6-8 周左右。每周進行線上會議,與主講人等社區成員當面交流,之後可以獲得視頻回放持續學習。

詳情請見:具身智能讀書會啓動:走向現實世界的下一代 AI 系統

關于讓機器人像人類一樣終身學習,突破性框架LEGION登Nat. Mach. Intell.就分享完了,您有什麼想法可以聯系小編(佼昌翰)。