今天小編(習又夏)要和大家分享的是雙人動作生成新SOTA!浙大提出TIMotion框架,歡迎閲讀~
雙人動作生成新 SOTA!
針對 Human-human motion generation 問題,浙江大學提出了一種對雙人運動序列進行時序和因果建模的架構 TIMotion,論文已發表于 CVPR 2025。
具體來説,通過分别利用運動序列時間上的因果關系和兩人互動過程中的主動被動關系,TIMotion 設計了兩種有效的序列建模方式。
此外還設計了局部運動模式增強,使得生成的運動更加平滑自然。
同一提示詞下,使用 TIMotion 和當前 SOTA 方法 Intergen 對比如下:
(翻譯版)這兩個人傾斜着身子,面對面,玩起了石頭剪刀布。與此同時,有一個人選擇出布。
仔細對比手部動作,可以看出 TIMotion 的生成效果更好。
除此之外,實驗結果顯示,TIMotion 在 InterHuman 和 InterX 數據集上均達到了 SOTA 效果。
下面具體來看。
全新瞄準雙人動作生成
在生成式計算機視覺領網域,人類動作生成對計算機動畫、遊戲開發和機器人控制都具有重要意義。
近年來,在用户指定的各種條件的驅動下,人類動作生成技術取得了顯著進步。其中,許多利用大語言模型和擴散模型的方法得益于其強大的建模能力,在生成逼真而多樣的動作方面取得了令人矚目的成果。
盡管取得了這一進展,但現有的大多數方法主要是針對單人運動場景而設計的,因此忽略了人體運動的一個關鍵因素:人與人之間復雜而動态的互動。
為了更好地探索雙人動作生成,研究團隊首先抽象出了一個通用框架 MetaMotion,如圖 1 左側所示,它由兩個階段組成:時序建模和互動混合。
以往的方法優先考慮的是互動混合而非時序建模,主要分為以下兩類:
基于單人生成方法的擴展
基于單人建模的方法
如圖(a)所示,基于單人生成方法的擴展會将兩個人合并成一個人,然後将其輸入現有的單人運動生成模塊之中。基于單人建模的方法如圖(b)所示,是對兩個個體單獨建模,然後分别使用自我注意和交叉注意機制,從兩個個體自身和對方身上提取運動信息。
按照 MetaMotion 的一般邏輯,團隊提出了 " 時空互動框架 "(Temporal and Interactive Framework),如圖 ( c ) 所示,該框架模拟了人與人之間的因果互動,這種有效的時序建模方法可以簡化互動混合模塊的設計,減少可學習參數的數量。
提出雙人動作生成架構 TIMotion
團隊首次提出了用于雙人動作生成的核心概念 "MetaMotion"。
如上圖所示,他們将雙人運動生成過程抽象為兩個階段:時序建模和互動混合。
具體來説,兩個單人序列通過時序建模模塊得到輸入序列。然後,輸入序列被送入互動混合模塊,這一過程可表示為
其中,InteractionMixing 通常是 Transformer 結構,包括自注意和交叉注意機制。
值得注意的是,InteractionMixing 也可以是一些新興結構,比如 Mamba、RWKV 等等。
TIMotion
TIMotion 的整體架構如下圖所示,主要包含三個部分: ( 1 ) Causal Interactive Injection; ( 2 ) Role-Evolving Scanning; ( 3 ) Localized Pattern Amplification。
Causal Interactive Injection
運動的自我感知以及與他人運動的互動感知是雙人運動生成的關鍵要素。
考慮到運動的因果屬性,團隊提出了 " 因果互動注入 "(Causal Interactive Injection)這一時序建模方法,以同時實現對自我運動的感知和兩人之間的互動。
具體來説,團隊用表示兩個單人運動序列,其中和是各自的運動序列,L 是序列的長度。
由于兩個人在當前時間步的運動是由他們在之前時間步的運動共同決定的,因此團隊将兩個人的運動序列建模為一個因果互動序列
,符号 // 表示除法後四舍五入,k 可以通過下式獲得:
然後,團隊可以将它們注入互動混合模塊,并根據 k 的定義将兩個個體的動作特征從輸出結果中分離出來。
Role-Evolving Scanning
人類在互動過程中通常存在一定的内在順序,例如," 握手 " 通常由一個人先伸出手,這意味着互動動作可以被分為主動運動和被動運動。
一些方法将文本描述分為主動和被動語态。
然而,随着互動的進行," 主動方 " 和 " 被動方 " 不斷在兩人之間交換,如圖 3 所示。
為了避免冗餘的文本預處理并且适應角色的不斷變化,論文設計了一種高效且有效的方法:角色演變掃描(Role-Evolving Scanning)。
對于在 Causal Interactive Injection 中定義的因果互動序列 x,顯然 a 和 b 分别代表了主動方運動序列和被動方運動序列。然而這種關于主動和被動序列的假設并不總是符合實際順序。
為了應對角色的變化,論文将因果互動序列重新建模為對稱因果互動序列
,k ’由下式得到:
給定因果互動序列和對稱因果互動序列,論文通過角色演變掃描得到最終的雙人互動序列:
然後序列 X 被送入互動混合模塊得到動作的特征。
接下來,分别按照特征通道和時間的維度将兩個人的特征取出,并按照元素相加得到兩人互動後的最終特征,特征 split 和 fuse 過程如下式:
其中表示按元素相加。
通過利用 " 角色演變掃描 " 技術讓兩個人同時扮演主動和被動角色,網絡可以根據文本的語義和動作的上下文動态調整兩個人的角色。
Localized Pattern Amplification
因果互動注入和角色演變掃描主要基于雙人互動之間的因果關系來建模整體運動,但忽視了對局部運動模式的關注。
為了解決這個問題,論文提出了局部運動模式增強(Localized Pattern Amplification),通過捕捉每個人的短期運動模式,使得生成更加平滑和合理的運動。
具體來説,論文利用一維卷積層和殘差結構來實現局部運動模式增強。給定條件嵌入和兩個單人的運動序列,可以建立下式的結構:
其中 Convk 表示卷積核為 k 的一維卷積,AdaLN 為自适應層正則化。
得到全局輸出和局部輸出後,兩者通過特征通道維度的進行 Concat,然後通過線性層對特征進行轉換,得到最終輸出特征:
通過這種方式,能夠捕捉每個人的短期動作模式,并将其與條件嵌入結合,從而生成更平滑和更合理的動作序列。
目标函數
論文采用了常見的單人動作損失函數,包括足部接觸損失和關節速度損失。
此外,還使用了與 InterGen 相同的正則化損失函數,包括骨長度損失、掩碼關節距離圖損失和相對方向損失。
最終,總體損失定義為:
實驗結果
在 InterHuman 數據集上,TIMotion 在三個不同的互動混合結構(Transformer, Mamba, RWKV)上都獲得了較好的表現,其中 TIMotion 和 RWKV 結構相結合 FID 達 4.702,Top1 R precision 達到 0.501,達到了 SOTA。
在 InterX 數據集上,TIMotion 在 R precision,FID, MM Dist 等度量指标上也達到了最優的表現。
在計算復雜度方面,論文将 TIMotion 與當前最先進的方法InterGen進行了比較。
與 InterGen 相比,TIMotion 所需的參數和 FLOPs 更少,但在綜合指标 FID 和 R Precision 方面優于 InterGen。
值得注意的是,使用與 InterGen 類似的 Transformer 架構,TIMotion 每個樣本的平均推理時間僅為 0.632 秒,而 InterGen 則需要 1.991 秒。
論文在 InterHuman 的測試集上進行了運動編輯的實驗,通過給定序列的前 10% 和後 10% 幀讓模型預測額外 80% 幀的序列來進行評估方法的可編輯性。
Table 6 顯示了 TIMotion 在運動插值編輯任務中,在所有度量指标上都超越了 InterGen。
總結
論文将雙人運動生成過程抽象為一個通用框架 MetaMotion,其中包括兩個階段:時間建模和互動混合。
研究發現,由于目前的方法對時序建模的關注不足,導致次優結果和模型參數冗餘。
在此基礎上,團隊提出了 TIMotion,這是一種高效、出色的雙人運動生成方法。
具體來説,他們首先提出了 Causal Interactive Injection,利用時序和因果屬性将兩個獨立的擔任序列建模為一個因果序列。
此外,還提出了 Role-Evolving Mixing 來适應整個互動過程中的動态角色,并設計了 Localized Pattern Amplification 來捕捉短期運動模式,從而生成更平滑、更合理的運動。
TIMotion 在兩個大規模雙人運動生成的數據集 InterHuman 和 InterX 上均達到了 SOTA 的效果,證明了論文所提出方法的有效性。
因此,TIMotion 為 Human-human motion generation 提供了一個有效的解決方案。
論文:
https://arxiv.org/abs/2408.17135
項目主頁:
https://aigc-explorer.github.io/TIMotion-page/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
ai@qbitai.com
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見
關于雙人動作生成新SOTA!浙大提出TIMotion框架就分享完了,您有什麼想法可以聯系小編(習又夏)。