今天小編(繁綺文)要和大家分享的是讓宇樹機器狗在北大未名湖畔撿垃圾,銀河通用幹的,歡迎閱讀~
機器狗不語,只是一味地在北大未名湖畔撿垃圾。
好了明說吧,垃圾是擺拍的道具,但這長脖子的狗子,是真的有點功夫在身上的!
背後算法 QuadWBG,搭載了模塊化框架,包含運動、感知、操作和規劃四個模塊;首次在移動抓取任務中引入通用定向可達性映射(Generalized Oriented Reachability Map),提升機器人在六自由度基座下的全身操作泛化能力。
并且結合強化學習與運動規劃,使抓取成功率從以往的 30% 左右,拉升到 89%。
項目背後團隊來自北大、銀河通用、多倫多大學和智源研究院,相關論文已被 ICLR 2025 接收。
該工作的一作 Jilong Wang對量子位表示,這項關于 Loco-manipulation 的創新成果,其中的操作能力可以從狗子身上泛化到人形機器人身上。
現在很多機器人廠商的機器人,更加擅長的是運動控制(而不是操作能力)。
我們希望能把模型操作能力賦能更多機器人本體,不管是人形還是别的。
Local-Manipulation 創新成果
俗話說得好(不是),狗好,垃圾壞。
于是在北大校園裡的各個角落,就出現了宇樹機器狗 B1 如下的繁忙身影。
在 QuadWBG 的加持下,這只狗子不僅可以在現實世界中,從不同位置對地面上的物體進行抓取。
還可以很精确地在雜亂環境中抓住透明 or 鏡面物體,然後放進身上的小背簍裡。
先來個前情提要——
該團隊的任務是給定一個目标物體的位置,機器狗需要高效地接近目标物體并最終抓取目标物體。
機器人本體由四足機器狗、6 自由度機械臂和平行抓夾組成。
機械臂末端安裝了一個 RGBD 攝像頭,成為了長頸狗子的眼睛,用來獲取場景的 RGB 和紅外信息。
如果要把任務歸類,這是一個非常典型的 Local-Manipulation(運動——操作一體化)任務,它通常指智能體通過物理身體與環境進行局部互動,以實現特定任務的能力。
而「上肢(機械臂)+ 足式機器人」的 Local-Manipulation 最早于 2023 年被提出,後來不斷快速發展。
值得注意的是,針對足式機器人的 Local-Manipulation,不能直接将抓取檢測結果應用于機械臂運動規劃,因為它忽略了本體和機械臂運動之間所需的協調。
而且由于動作維度不斷拓寬,現實世界的物理互動又非常復雜,加上地形、視覺等,準确度和通用性仍然被限制了。
不過現在,端到端的 RL 已經提高了運動技能,推動了全身運動與操作端到端策略的發展,使機器狗子們能夠執行需要運動并且與物體互動無縫協調的任務。
Just like 在未名湖畔撿垃圾的小狗子。
解密時刻!
北大校園裡勤勤懇懇的小狗子,之所以能精确識别并抓取地上的各種垃圾,是因為 QuadWBG 借鑑了多種抓取檢測技術的成功經驗,通過将抓取姿态檢測與運動規劃相結合。
值得一提的是,這也是首次在移動抓取任務中引入通用定向可達性映射,提升機器人在六自由度基座下的全身操作泛化能力。
可以精準抓取透明物體,哪怕它們擠在一起:
還可以堅持不懈地瘋狂撿拾,把各種材質的各種物體裝進背篼裡:
最後,結合 RL 與運動規劃,在仿真環境中,無論物體的大小或幾何復雜性如何,狗子在所有測試物體上均取得了顯著更高的成功率,性能非常穩定。
在實際操作中,狗子在 14 個不同物體實例、配置和環境中的全身抓取成功率達到了 89%。
而在此之前的 SOTA,僅在 30% 左右。
針對任務中較難的透明物體抓取,10 次連續抓取也取得了 80% 的單次抓取成功率。
這是怎麼做到的?
Jilong Wang 解釋道,其核心創新,在于模塊化結構和通用定向可達性映射。
兩大核心創新
通用定向可達性映射,即 GROM,是 QuadWBG 的兩大創新之一。
它是 4 個模塊中" 規劃模塊 " 的產物。
因此,在對話過程中,Jilong Wang 按照模塊執行任務的邏輯和順序來向量子位介紹了該工作的 2 大創新點。
至于為什麼要做模塊化,Jilong Wang 給出的解釋是:" 因為現在端到端還不足以產生足夠精确的結果,而模組能夠讓它產生很精确的全身數據,然後我們又把現實世界的數據提供給端到端的模型進行訓練。"
也就是說,團隊還是希望用模型自身的能力對現實世界進行感知,然後規劃運動,而不是人工手動設計。
最後的目标是實現端到端操作,這樣也就 " 沒有仿真環境和現實環境的 gap 了 ",還很省錢。
話不多說,先來看看模塊化結構這個創新點——
QuadWBG 是一個模塊化通用四足全身抓取框架,該框架包含運動、感知、操作和規劃四個模塊。
第一個,運動模塊,見上圖 A。
它負責将本體感知信息(包含當前運動指令,關節位置與速度等)編碼成隐式狀态信息,并通過多層感知器(MLP)生成動作來滿足當前運動指令的要求,從而實現魯棒的移動能力。
第二個,感知模塊,見上圖 B。
為了實現實時跟蹤和精确的抓取姿态預測,感知模塊利用 ASGrasp 接收紅外影像和 RGB 影像作為輸入,能夠預測精确的深度信息。
随後,預測的深度點雲被輸入到 GSNet 中,從而生成更精确的六自由度抓取姿态。
第三個,操作模塊,見上圖 C。
操作模塊采用了一種運動規劃方法,以解決全身 RL 策略在末端執行器控制中的不精确性問題。
該系統在 2 個不同的階段運行:跟蹤階段和抓取階段。
首先是跟蹤階段,團隊将安裝的攝像頭運動限制在一個預定義的跟蹤球體内,并使用可達性映射(RM,Reachability Map)來定義跟蹤球體。
在該空間内,任意方向上都存在有效的反向運動學(IK,Inverse Kinematics)解。
切換機制基于 RM 和阈值可達性标準構建。
在每個規劃步驟中,團隊使用 RM 計算所選抓取姿态的可達性;一旦達到阈值,系統将切換到抓取階段。
其運動規劃器在線生成軌迹,使系統能夠在向目标移動時适應小的意外運動。
第四個,規劃模塊,見上圖 D。
規劃模塊基于目标抓取位姿,利用通用定向可達性映射來生成移動指令。
現存的 ORM(Oriented Reachability Map)能夠高效地表示相對于 TCP(Tool Center Point)坐标系的潛在基座位姿。
然而,ORM 有其限制性——機器人基座必須在平坦表面上。
對此,QuadWBG 項目中的銀河通用團隊提出了 GORM,它支持六自由度的機器人基座放置,對于世界坐标系中的任意目标位姿,均可通過 RM 的逆運算計算潛在的基座到世界的分布。
一旦定義了目标位姿,GORM 将提供高質量潛在基座位姿的分布。
團隊訓練高層策略以最小化當前基座位姿與最近可行位姿之間的距離,以鼓勵機器人移動到基座位姿候選位置。
Jilong Wang 進一步解釋了這一創新性貢獻:
它本身的意義就是在 6D 空間中給任意位姿,GORM 能通過解析的方式告訴你,基座出現在哪個範圍、哪個分布是最利于去抓取物體的。
△藍色箭頭是最佳位姿的向量表示
由于 GORM 在目标位姿坐标系中定義,因此只需計算一次,使其非常高效且非常适合并行訓練。
One More Thing
然鵝,由于每次抓取前都要計算出最佳位姿,這就導致了目前的一個局限性:
即便緊挨在一起的兩三個垃圾,機器狗也不能通過一次識别、一次移動就連續抓取 n 個。
它必須得經歷 " 識别——移動到最佳位姿——抓取——再識别——移動到新的最佳位姿——抓取 " 這樣的過程。
具體表現就像下面這張圖中這樣:
撿完一個垃圾後,機器狗必須得退兩步,重新識别,然後再根據新規劃的最佳位姿,靠近垃圾,然後抓取。
不過!
Jilong Wang 表示,團隊正在想辦法解決這個問題,希望實現狗子不需要退回去,看一次就能把運動範圍内的垃圾都撿起來。
減少狗子的工作量,提高效率。
畢竟保護動物,人人有責——哪怕是機器動物(doge)。
參考鏈接:
[ 1 ] https://quadwbg.github.io/
[ 2 ] https://arxiv.org/abs/2411.06782
— 聯系作者 —
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
速搶席位!中國 AIGC 產業峰會觀眾報名通道已開啟 ♀️
首批嘉賓曝光啦 百度、無問芯穹、數勢科技、生數科技、像素綻放等十數位 AI 領網域創變者将齊聚峰會,讓更多人用上 AI、用好 AI,與 AI 一同加速成長~
4 月 16 日,就在北京,一起來深度求索 AI 怎麼用
一鍵星标
科技前沿進展每日見
關于讓宇樹機器狗在北大未名湖畔撿垃圾,銀河通用幹的就分享完了,您有什麼想法可以聯系小編(繁綺文)。