今天小編(衛青柏)要和大家分享的是讓機器人更像人類有了新方法!港科大新算法對齊人機動作形态,無需重復訓練,輕量模塊通用且适配,歡迎閱讀~
" 讓機器人看懂世界、聽懂指令、動手幹活 " 正從科幻走向現實。
基于大規模人類視頻數據進行視覺預訓練,是開發真實場景可泛化機器人操作算法的有效途徑。
核心在于人類操作與機器人動作序列高度相似,因此從人類視頻習得的動态表征可遷移至機器人任務;然而 " 從人到機器人 " 的遷移面臨關鍵阻礙,即人 - 機器人數據網域間差異(Human-Robot Domain Discrepancy)。盡管二者執行任務時動作看似相似,但其形态存在根本差異。
這種差異導致了一個重要問題:即便在海量人類數據上預訓練了模型,這些模型一旦直接用于機器人任務時,其表現卻往往大打折扣,甚至失敗。
來自香港科技大學(廣州)的團隊提出了一個核心問題:
如何減少人 - 機器人之間的數據網域差異影響,使得從人類預訓練中獲得的視覺模型,能夠更有效地幫助機器人完成實際任務?
在這一問題之下,他們提出人類視頻預訓練遷移新範式,利用匹配的人類 - 機器人操作視頻,設計語義對齊方法彌合了這種跨網域鴻溝。
其中第一作者周佳明,香港科技大學廣州二年級博士生,研究方向為人類視頻動作模仿以及可泛化的機器人操作;通訊作者是梁俊衛,是香港科技大學廣州助理教授。
傳統做法(如圖左)直接用在 Ego4D 等人類數據集上訓練的模型去處理機器人任務,這種直接遷移的方法自然會受到人類 - 機器人數據網域差異的幹擾。
本研究提出的新範式(如圖右)通過利用語義對齊的人類 - 機器人視頻對,在現有的人類視頻預訓練模型中插入 Adapter 微調模塊,通過對比損失将機器人數據上調整的模型的語義和預訓練模型中良好建模的人類動态語義進行對齊,從而減少網域差異的幹擾。
HR-Align 跨越人機語義鴻溝的橋梁
根據提出的預訓練适配新範式,該工作設計了 HR-Align(Human-Robot Semantic Alignment)方法。其核心思想非常簡潔:
如果能夠獲取 " 同一個任務 " 的人類操作視頻和機器人操作視頻,并用它們之間的對應關系來引導模型微調,那就有可能建立起一個人 - 機器人之間的語義對齊機制。
1. 從 " 獨立預訓練 " 到 " 配對視頻語義對齊 "
傳統的視覺預訓練方法是在純人類視頻上進行訓練,然後将模型 " 凍結 ",直接應用于機器人任務。這種方式忽略了人和機器人領網域間的差異。HR-Align 打破了這種 " 直接遷移 " 的壁壘,主張在預訓練和下遊任務之間,引入一個 " 适配階段 "。
在這個階段中,研究者使用了一個具有語義配對的人機數據集,這個數據集中每一個人類動作視頻,都有一個對應的機器人操作視頻。這種人 - 機器人視頻對提供了一個天然的 " 語義橋梁 "。
2. 引入對比學習機制,實現語義對齊
HR-Align 适配的關鍵是人 - 機器人對比對齊損失。在适配過程中,對于已有的人類視頻預訓練視覺編碼器,HR-Align 分别從人類視頻和機器人視頻中提取凍結的語義特征。同時,使用另一分支在編碼器中引入輕量級 Adapter 模塊在機器人視頻上微調,從而提取機器人視頻的适配特征。模型适配的核心約束是,相比機器人視頻的凍結特征,機器人視頻的适配特征與匹配的人類視頻特征應當具有更加相似的語義;
3. 輕量高效,适配通用
與其他需要大規模重新訓練、或者為每種機器人環境單獨調整模型的方案不同,HR-Align 具備如下優勢:
參數高效:僅适配小模塊,主模型無需大規模更新;
通用性強:同一個适配模型可泛化至多個任務和環境,無需逐一定制;
數據易得:越來越多的平台提供人 - 機器人視頻對,為方法的可落地提供保障。
實驗結果
在 RLBench 的 18 個仿真任務下,通過 HR-Align 方法适配的 D4R-Align 模型相比原來的 D4R 預訓練模型,平均成功率提升了 4.6%;而通過 HR-Align 方法适配的 R3M-Align 模型相比未調整的 R3M 模型,平均成功率提升了 8.9%;
在五個真實場景的機器人任務上,D4R-Align 和 R3M-Align 模型相比未适配的預訓練模型,平均成功率分别提升 13% 和 11%;
這些顯著的提升不僅驗證了方法的有效性,也表明該适配策略具有極高的實際應用價值。
核心貢獻總結
提出新問題:從大規模人類視頻預訓練中學習可泛化機器人操作,人體 - 機器人數據的網域差異問題不可忽視。
提出新範式:通過匹配的人 - 機器人動作視頻,實現人類動作與機器人操作的語義對齊,不再盲目依賴預訓練模型的泛化能力。
高效适配方法:引入輕量級 Adapter 模塊,僅需極少參數微調,即可将模型适配到機器人任務中。
充分實驗驗證:在 20 個仿真任務與 5 個真實機器人任務中均取得超過 7% 平均成功率提升,适配模型顯著優于未适配版本。
論文鏈接: https://arxiv.org/pdf/2406.14235
項目主頁: https://jiaming-zhou.github.io/projects/HumanRobotAlign/
開源倉庫: https://github.com/jiaming-zhou/HumanRobotAlign
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
ai@qbitai.com
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于讓機器人更像人類有了新方法!港科大新算法對齊人機動作形态,無需重復訓練,輕量模塊通用且适配就分享完了,您有什麼想法可以聯系小編(衛青柏)。